Pseudo-label 기반 준지도학습을 사용한 비정형 의료 텍스트 정보 추출
저자
발행사항
서울 : 연세대학교 대학원, 2020
학위논문사항
학위논문(석사) -- 연세대학교 대학원 디지털애널리틱스융합협동과정 2020.8
발행연도
2020
작성언어
한국어
주제어
발행국(도시)
서울
기타서명
Information extraction from unstructured medical text using pseudo-label-based semi-supervised learning
형태사항
vii, 60장 : 삽화 ; 26 cm
일반주기명
지도교수: 송민
UCI식별코드
I804:11046-000000524225
소장기관
Efficient management of data has become more important than ever as a large amount of data is constantly generated. The medical community has also attempted to manage various medical data in the form of electronic documents using electronic health records since the early 2000s, and it is still used widely in many medical environments.
However, most medical text information faces a problem while extracting the target data. In particular, the following limitations exist for texts that are narratively written, such as a doctor's opinion on certain surgery. First, in the process of transferring the opinions of doctors in the form of electronic documents, human errors, typified by typos and errors, frequently occur. In general, opinions are written by typists or doctors themselves, and we can acknowledge that various unintended typos occur. Although it may be a minor typo in the eyes of an individual, machine learning takes it as a severe problem that can lead to a poor extraction accuracy. Second, in order to extract specific information within the unstructured text, experts needs to check and extract necessary values, but this process requires a lot of effort and time. Also, the repetition of simple work can lead to the typo issue mentioned above. For this reason, there is a lack of labeled learning data, and as a result, it is not easy to apply effective machine learning techniques.
In this study, a step-by-step medical text structuralization work was conducted to solve the above two problems. The data used in the experiment are PET/CT notes provided by Asan Medical Center. As with most actual medical data, the labeling of the target values was rarely confirmed, and we could also observe many typos.
The process for acquiring robustness against typos is as follows. First, typo correction was performed in the preprocessing stage by developing LCSC (Lung Cancer Spell Checker). This model is the fine-tuned version of the Symspell, which is an open source spelling corrector. To use this model in the lung cancer domain, we used the full text of lung cancer-related journals in Pubmed and Pubmed Central to build a dictionary of words for the model. Subsequently, we used FastText, which is a sub-word-based word embedding technique, known to be robust to typos.
Pseudo-labeling-based semi-supervised learning was used to solve the problem of insufficient labeled data. Pseudo-labeling is a technique that randomly assigns the most probable label in the form of a virtual label, and is a method for overcoming the limitations of data with insufficient labels. Through this process, virtual labels were given to about 20,000 opinions, and machine learning was conducted based on these labels.
The process of constructing the machine learning model is as follows. If the entire opinion is entered as an input value, we observed that efficient learning could not be done due to the excessively long input value. Therefore, we decided to use sentences as input. After that, we tried to remove the noise of the input value through extracting only the keywords in each sentence using NER(Named Entity Recognition) technique. Finally, categories related to lung cancer stages were extracted from each note through the convolutional-recurrent neural network classification model. The evaluation of the extracted data was conducted with the help of experts from Asan Medical Center.
This study focuses on the structuralization of the data generated in the real medical environment, and it has significance in that we proposed a solution to the problem of misspelling and lack of labeled data.
많은 양의 데이터가 끊임없이 생성되고, 이를 활용할 수 있는 정보처리기술이 발전함에 따라 데이터의 효율적 관리는 어느때보다 중요해졌다. 의학계에서도 2000년대 초반부터 전자건강기록(Electronic Health Records)을 활용하여 각종 의료 데이터를 전자 문서의 형태로 관리하고자 하는 시도가 있었으며, 현재까지도 많은 의료 환경에서 사용되고 있다.
하지만, 대부분의 의료 텍스트 정보는 필요값을 추출하는 과정에서 문제점을 마주하게 된다. 특히, 의사 소견서와 같이 서술적으로 기재되어 있는 텍스트의 경우 다음과 같은 한계가 존재한다. 첫째, 의사의 소견을 전자 문서의 형태로 옮기는 과정에서 오·탈자로 대표되는 휴먼 에러가 빈번하게 발생한다. 일반적으로 소견서는 전사자 혹은 의사의 타이핑을 통해 기재되는데, 이때 의도치 않은 다양한 종류의 오타가 발생하게 된다. 개인이 보기에는 사소한 오타일 수 있지만, 기계학습을 이용한 정보 추출을 하고자 하는 경우, 단순 오타로 인해 추출 성능에 큰 차이가 발생할 수 있다. 둘째, 비정형화된 텍스트 내에서 특정 정보를 뽑고자 하는 경우, 전문가가 일일이 확인하며 필요값을 추출해야 하지만 이 과정은 전문가의 노력과 시간을 필요로 한다. 또한, 단순 작업의 반복으로 인해 앞서 언급한 오타의 문제와도 연결될 수 있다. 이러한 이유로 라벨링이 되어 있는 학습 데이터가 부족하고, 결과적으로 효과적인 기계 학습 기법의 적용도 쉽지 않다.
본 연구에서는 위의 두 가지 문제를 해결하기 위해 단계적인 의료 텍스트 구조화 작업을 진행하였다. 실험에 사용된 데이터는 아산병원으로부터 제공받은 PET/CT 소견서 데이터이며, 이 데이터 역시 대부분의 실제 의료 데이터와 마찬가지로 뽑고자 하는 값들에 대한 라벨링이 거의 되어있지 않았고, 오타가 빈번하게 등장하는 것을 확인하였다.
오타 강건성을 획득하기 위한 과정은 다음과 같다. 우선, LCSC(Lung Cancer Spell Checker)를 개발하여 전처리 과정에서 1차 오타 수정을 진행하였다. 해당 교정기는 오픈소스로 공개되어 있는 Symspell 교정기를 폐암 도메인에 맞게 Fine-tuning한 모델이며, 교정기의 단어 사전 구축을 위해서는 Pubmed와 Pubmed Central 내의 폐암 관련 저널의 전문을 사용하였다. 이후, 오타에 강건하다고 알려진 Sub-word 기반 워드 임베딩 기법 FastText를 사용하여 각 단어를 벡터화하는 과정에서도 오타 강건성을 부여하였다.
라벨링 데이터 부족 문제를 해결하기 위해는 Pseudo-labeling 기반 준지도학습을 사용하였다. Pseudo-labeling은 가장 확률 높은 라벨을 가상 라벨의 형태로 부여하는 기법으로서, 라벨값이 부족한 데이터의 한계를 극복하기 위한 방법이다. 이를 통해 약 20,000여 개의 소견서에 가상의 라벨을 부여하였으며, 해당 라벨을 바탕으로 기계학습을 진행하였다.
기계학습 모델을 구축하는 과정은 다음과 같다. 전체 소견서를 입력값으로 넣게 되면 지나치게 긴 입력값으로 인해 원활한 학습이 진행되지 않는 것을 확인하였고, 이를 해결하기 위해 소견서를 문장 단위로 분리하여 각 문장을 입력값으로 사용하였다. 이후, 개체명 인식을 사용하여 각 문장 내에 핵심적인 키워드만을 추출하는 작업을 통해 입력값의 잡음(Noise)을 제거하고자 하였으며, 컨볼루션-순환 신경망을 활용한 분류 모델을 활용하여 각 소견서로부터 N 병기 및 M 병기 카테고리 값을 추출하였다. 최종적으로 뽑힌 값들에 대한 평가는 전문가의 도움을 받아 진행하였다.
본 연구는 실제 의료 환경에서 생성된 비정형 텍스트 데이터를 구조화하고자 하였으며, 오·탈자 문제 및 라벨링 데이터의 부족을 해결하는 방안을 제안하였다는 점에 그 의의가 있다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)