이항반응변수의 예측모형구성을 위한 고차원 데이터의 표본수 계산 방법
저자
발행사항
서울 : 高麗大學校 大學院, 2014
학위논문사항
學位論文(博士)-- 高麗大學校 大學院 : 統計學科 2014. 2
발행연도
2014
작성언어
한국어
주제어
발행국(도시)
서울
형태사항
xiii, 101장 : 삽화, 도표 ; 26 cm
일반주기명
지도교수: 李宰遠
참고문헌: 장 95-101
DOI식별코드
소장기관
마이크로어레이와 같은 고차원데이터에서의 적정 표본수 추정은 후보표지자를 발굴하기 위한 목적에 국한되어 왔으나, 최근 생존시간 예측모형 구성을 위한 적정 표본수를 경험적으로 추정할 수 있는 방법이 제안되었다. 이는 예비자료에서 많은 bootstrap 데이터를 생성하고, 각각의 데이터에서 모형구성 및 교차검증을 수행하여 통계적 검정력을 추정하는 방법이다. 이 방법에서 사용하고 있는 순열법은 교차검증법이 가지는 과적합의 문제를 해결하기 위해 필수적으로 사용되는 방법이지만, 많은 반복과정으로 인해 지나치게 많은 계산 시간을 필요로 하는 단점이 있다.
본 연구에서는 임상 현장에서 많이 사용되는 이항반응변수의 예측모형 구성을 위한 적정 표본수 계산법을 제안하였다. 예측모형 구성에 포함될 변수들이 결정되지 않은 상태에서의 표본수 추정이 목적이므로, 이론적인 접근이 불가능하여 bootstrap을 이용한 경험적 방법을 사용하였다. 모형 구성의 타당성 평가를 위해서는 교차검증법과 함께 순열을 통하여 귀무분포를 생성하였다. p-값을 계산하는 방법은 순위를 이용하는 전통적인 방법과 비중심 카이제곱분포에 적합 시키는 방법, 근사적 p-값을 계산하는 방법을 모두 수행하여 비교하였다. 그러나 이러한 표본수 추정과정은 수년~수십 년이 걸리는 방대한 양의 계산이 필요함을 모의실험을 통해 확인할 수 있었다. 따라서 후속 연구를 수행하여 표본수 계산에 가장 많은 시간이 소요되는 bootstrap 데이터 순열과정을, 대표순열귀무분포를 이용하는 방법으로 대체하여 계산 소요시간을 1/1000로 감소시킬 수 있다는 결과를 제시하였다. 효과크기가 0인 모의실험을 통하여 제안하는 방법이 제1종오류를 잘 통제하고 있음을 보였고, 전체 bootstrap 데이터에서 모두 순열 귀무분포를 구하는 기존의 방법에 매우 근접한 검정력을 계산할 수 있음을 보였다. 실제 데이터에서도 제안하는 방법이 전체 순열귀무분포를 구하는 경우에 근접하였으며 표본수 계산과정을 300회 반복하여 그 안정성을 보였다. 표본수 계산과정은 평균 30분정도 소요되었다. 또한 ‘실제검정력’을 새로이 정의하고, 추가실험이 이루어 졌을 때 계산된 표본수가 목표한 검정력을 유지하는지를 검토하여 제안하는 방법이 의미가 있음을 보였으며 다양한 고차원 데이터의 종류에 따라 공개된 실제 데이터를 이용하여 표본수 계산을 수행하여 임상연구의 활용 예를 제시하였다.
많은 임상연구가 다중 표지자를 이용한 예측모형 구성을 필요로 하고 있으며 통계적 예측모형의 구성과 그에 필요한 적정 표본수 계산은 최근 더욱 중요한 문제로 인식되고 있다. 본 연구는 이항변수에 대해 본 실험에 필요한 적정 표본수 계산 방법을 제시하고, 많은 컴퓨터 자원이 필요한 경험적 표본수 계산 방법을 일반 연구실 수준에서 수행 가능하도록 근사적 접근 방법을 제안하여 필요한 현장에서 짧은 시간 내에 적용할 수 있다는 데에 의미가 있다.
An empirical method of sample size estimation for building prediction models is proposed recently. Permutation method which is used in this procedure is a commonly used method to address the problem of overfitting during cross-validation while evaluating the performance of prediction models constructed from microarray data. But major drawback of such methods which include bootstrapping and full permutations is prohibitively high cost of computation required for calculating the sample size.
In this paper, I present that a single representative null distribution can be used instead of a full permutation by using both simulated and real data sets. During simulation, I have used a dataset with effect size 0 and achieved empirical type I error close to significance level of 0.05. Hence this method can be confidently applied to reduce overfitting problem during cross-validation. Additionally, I have verified that estimated sample sizes that satisfy a given power are stable through 100 repetitions. I have observed that pilot data set generated by random sampling from real data could be successfully used for sample size calculation. I present our results using an experiment that was repeated for 300 times while producing results comparable to that of full permutation method. Since I eliminate full permutation, sample size estimation time is not a function of pilot data size. In my experiment I have observed that this process takes around 30 minutes.
With the increasing number of clinical studies, developing efficient sample size estimation methods for building prediction models is critical. But empirical methods using bootstrap and permutation usually involve high computing costs. In this study, I propose a method that can reduce computing times drastically by using representative null distribution of permutations. Hence this method can be applied to efficiently design clinical studies with high throughput data.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)