순환신경망을 이용한 생존 분석 모형의 성능 비교
저자
발행사항
서울 : 고려대학교 대학원, 2020
학위논문사항
학위논문(석사)-- 고려대학교 대학원: 의학통계학협동과정 의학통계학전공 2020. 2
발행연도
2020
작성언어
한국어
주제어
발행국(도시)
서울
기타서명
Performance Comparison of Survival Analysis Model Using Recurrent Neural Network
형태사항
vi,39장 : 삽화, 도표 ; 26 cm
일반주기명
지도교수: 안형진
참고문헌: 장 35-36
UCI식별코드
I804:11009-000000126743
DOI식별코드
소장기관
Abstract
Performance Comparison of Survival Analysis Model
Using Recurrent Neural Network
GunLyung You
Department of Biostatistics
Graduate School of Korea University
(Supervising Professor : Hyonggin An, Ph.D.)
Objectives : survival analysis is a method used to analyze time to event data, and Cox’s proportional hazard model is mainly used. However, this model assumes that the characteristics of patients and their risks are linear, which is often unsatisfactory in real data. Recently, studies to solve these problems by using machine learning method have been proposed. Among them, in this paper, we propose a model using the recurrent neural network structure and apply it to actual data to obtain the predictive performance and compare Cox's proportional hazard model, which is a statistical method, with other machine learning methods. In addition, this study aims to generate and analyze simulation data of the environment where the risk is linear and nonlinear to the characteristics of patients, and to confirm that the model using the recurrent neural network has excellent performance on nonlinearity. Finally, the risk of individual patients is calculated by nonlinear model and the effect of specific treatment is predicted by the model using circulatory neural network.
Methods : In this paper, the hidden layer of the whole neural network structure is composed of LSTM, which is a type of cyclic neural network, and a dropout layer for regulation. The individual patient's characteristics are input to the hidden layer, and the weights passing through the last hidden layer are made into a single predictive value using linear combination, and this is the output value. To train the model, we consider methods such as objective function, node activation function, regulation, gradient descent method. The objective function was obtained by modifying the partial likelihood function, which is a fitted equation of the Cox's proportional hazard model, to the neural network model. The parameters for various training methods, including the number of hidden layers and the number of nodes, are different for each data, and an appropriate value is calculated through the optimization search.
Results : The predictive performance of all machine learning methods is better than Cox's proportional hazard model, especially the model using RNN in METABRIC data. Similar results were found in the simulation results. Cox's proportional hazard model showed good performance in the linear environment of patients' characteristics and risk, but the RNN model performed the best in nonlinear environment. Lastly, the model using RNN was able to find the recommended treatment for individual patients and the survival difference according to the recommended treatment was statistically significant.
Conclusion : In cases where the characteristics and risks of the patients were not linear, and the number of variables compared to the number of data was large, the model using RNN predicted patient mortality more accurately than other models. However, in the medical clinic, it is important to identify the cause of death as well as the possibility of death. Therefore, the neural network model is still difficult to use in clinical practice. But, researches are currently being actively conducted to solve the shortcomings of such neural network models. In the near future, it is expected that survival analysis models using neural networks can be utilized in actual clinical sites.
Key words : survival analysis, non-linear, machine learning, artificial nueral net, recurrent neural net
국 문 요 약
순환신경망을 이용한
생존 분석 모형의 성능 비교
유건령
고려대학교 대학원 의학통계학협동과정
(지도교수 : 안 형 진, Ph.D)
목 적 : 생존 분석은 사건이 발생하기까지 걸린 시간 자료를 분석하는데 이용되는 분석 방법으로 주로 콕스의 비례위험 모형이 사용된다. 하지만 이 모형은 환자의 특성과 그에 따른 위험도가 선형이라는 가정을 하게 되며 실제 자료에서는 이를 만족하지 않는 경우가 빈번하다. 최근 이러한 문제점을 기계학습 방법을 이용하여 해결하고자 하는 연구들이 등장하고 있는데 본 논문에서는 그 중에서도 순환신경망 구조를 이용한 모형을 제안하고 실제 자료에 적용하여 예측 성능을 구하고 통계적 방법인 콕스의 비례위험 모형과 여타 기계학습 방법들과 성능을 비교해 본다. 또한 위험도가 환자의 특성에 선형인 환경과 비선형인 환경의 모의실험 자료를 생성하고 분석을 진행하여 순환신경망을 이용한 모형이 비선형성에 대해 우수한 성능을 보임을 확인하고자 한다. 마지막으로 개별 환자에 대한 위험을 구할 수 있다는 비선형 모형의 특징을 이용하여 특정 처치에 대한 효과를 순환신경망을 이용한 모형으로 예측하고 이를 통해 권장 처치를 구하며 그에 따른 생존 차이를 제시한다.
방 법 : 본 논문에서는 인공신경망의 은닉층을 순환신경망 구조의 일종인 LSTM과 dropout층으로 구성하였다. 개별 환자의 특성을 입력으로 하여 은닉층에 전달하고 은닉층의 마지막 층을 통과하여 산출된 가중치를 선형 결합을 이용하여 하나의 예측값으로 만들고 이를 출력값으로 한다. 모형을 훈련시키기 위해서 목적 함수, 노드의 활성화 함수, 규제, 경사하강법등의 방법을 고려하였으며, 그 중에서도 목적 함수는 콕스의 비례위험 모형의 적합식인 부분우도 함수를 신경망 모형의 목적 함수에 맞게 변형한 식을 이용하였다. 은닉층의 개수와 노드의 개수를 비롯한 여러가지 훈련 방법에 대한 모수는 각 자료마다 다르며 최적화 탐색을 통하여 적절한 값을 산출하였다.
결 과 : 사례 자료 분석 결과 모든 기계학습 방법의 예측 성능이 콕스의 비례위험 모형보다 좋았으며 특히 METABRIC와 GBSG 자료에서 RNN을 이용한 모형의 성능이 뛰어났다. 모의실험 결과에서도 비슷한 양상을 확인 할 수 있었는데, 환자의 특성과 위험이 선형인 환경에서는 콕스의 비례위험 모형이 좋은 성능을 보였지만 비선형인 환경에서는 RNN을 이용한 모형의 성능이 가장 뛰어났다. 마지막으로 RNN을 이용한 모형을 통해 개별 환자에 대한 권장 처치를 구할 수 있었고 권장 처치 여부에 따른 생존 차이가 통계적으로 유의하게 차이가 나는 것을 확인하였다.
결 론 : 환자의 특성과 위험이 선형인 경우를 확인 할 수 없는 실제 자료 분석 상황에서, 그리고 자료의 개수에 비해 변수의 개수가 많다고 판단되는 경우에 기존의 모형들보다 RNN을 이용한 모형을 활용하면 환자에 대해 더 정확한 사망률을 예측할 수 있다. 그러나 의학 임상에서는 사망률 뿐만 아니라 그에 대한 원인을 파악하는 것 또한 중요하기 때문에, 신경망 모형의 특성상 아직은 임상에서 사용하기는 어려울 것이라고 생각된다. 하지만 현재 이러한 신경망 모형의 단점을 해결하기 위한 연구들이 활발하게 이루어지고 있으므로 근 미래에는 신경망을 적용한 생존 분석 모형들이 활용될 수 있기를 기대한다.
주제어 : 생존 분석, 비선형, 기계학습, 인공신경망, 순환신경망
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)