딥러닝 기반의 BERT 모델을 활용한 학술문헌 자동 분류
저자
발행사항
서울 : 중앙대학교 대학원, 2022
학위논문사항
학위논문(석사)-- 중앙대학교 대학원 : 문헌정보학과 정보학전공 2022. 8
발행연도
2022
작성언어
한국어
주제어
발행국(도시)
서울
기타서명
Automatic classification of academic articles using BERT model based on deep learning
형태사항
v, 78장 : 삽화, 도표 ; 26 cm
일반주기명
중앙대학교 논문은 저작권에 의해 보호받습니다
지도교수: 김성희
참고문헌수록
UCI식별코드
I804:11052-000000237053
DOI식별코드
소장기관
Recently, the development of Big-data and machine learning technology, the size of documents dealt with in contemporary society has become increasingly large and complex. Although the amount of academic literature is gradually increasing, automatic classification studies using deep learning a little has been done on korean academic literature.
Automatic classification belongs to natural language processing. In the development of deep learning technology, automatic classification is carried out in various and more automated ways. In general, text data is unstructured data. Preprocessing is required for automatic classification which consumes a lot of manpower and time. The BERT model is a model that showed high performance in the overall area of natural language processing, and by learning a large corpus of a specific language, the tokenized word units are encoded and utilized numerical value.
The purpose of this study is to research the availability of automatic classification when the BERT model which is a pretrained model. The BERT model is used for feature extraction for automatic classification of literature. Finally this study is to explore the availability of the BERT model.
This study collected all the KCI-registered papers in the field of library and information science. The training data have been constructed to collect 5357 papers in 7 journals. This paper, annotated into 13 single category. For classification items, 13 sub-categories from the classification table of academic research fields of the National Research Foundation of Korea were used. This study experiment the automatic classification by training the abstract data collected using the KoBERT model. The using of single layer perceptron in a classification task to focus on the performance of the BERT model. In the training process, the change in accuracy of classification was analyzed according to the quantity and quality of data by dividing the input length of tokens to one document. The performance of each was evaluated by verifying the same data in the model trained by dividing the input length of the token into three categories: 64, 128, and 256.
Precision, recall, and F-measure were used as performance evaluation measures. As a result of the classification, only models on the input length of 64 was significantly classified 9 categories. Other models were significantly classified 10 categories. By analyzing the performance evaluation of each model, the performance was changed according to the quality and quantity of data, and the results came out of 4 types. Categories with a large amount of data and high quality show a high level of performance with an F-measure of 90% or more. If the amount of data is at least and high quality of data, or if the data quality is low, but the data amount is large, the F-measure is 50% or more, indicating that automatic classification is significant. When the data quality is good, the performance improves as the input length increases, and when the data quality is low, the performance decreases slightly as the input length increases.
Depending on the quantity and quality of the data, the automatic classification using the BERT model showed significant performance. The available of using the pretrained model was confirmed in the academic field text data in the form of big data, which is a set of more than 5000 paper abstracts. When an ideal word vector in the relevant field exists that is a useful tool for classifying documents or establishing a bibliographic information generation or classification system in LIS. This study proposes the available by using BERT model as an effective tool in data processing in the form of big data.
빅데이터 기술과 기계학습 기술의 발전으로 현대 사회에서 다루는 문헌의 크기는 점차 크고 복잡해졌다. 학술 문헌 또한 점차 데이터의 양이 증가하고 있지만 한국어 학술문헌을 대상으로 딥러닝을 사용한 자동 분류 연구는 거의 이루어지지 않았다.
자동분류는 자연어 처리(Natural Language Processing)에 해당하며 딥러닝 기술의 발전으로 자동 분류는 다양한 방법과 좀 더 자동화 된 방법으로 진행된다. 텍스트 데이터는 비정형 상태로 존재하기 때문에 자동 분류를 위해서는 전처리 작업이 필요하며 많은 인력과 시간을 소모한다. BERT 모델은 자연어 처리의 전반적인 영역에서 높은 성능을 보여준 모델로 특정 언어의 대량의 말뭉치를 학습하여 토큰화 된 단어 단위로 숫자가 인코딩 되어 활용된다. 문헌을 자동 분류하기 위한 자질 추출을 사전학습모델인 BERT 모델을 사용하였을 때 자동분류의 가능성을 확인하고 BERT 모델의 활용 가능성을 탐색하는 것이 연구의 목적이다.
본 연구는 문헌정보학 분야의 KCI 등재 논문 전체를 수집하여 7개 학술지의 5357개 논문의 초록 데이터로 문헌을 13개의 단일 항목으로 분류하여 학습데이터를 구성하였다. 분류 항목은 한국연구재단의 학술연구분야분류표의 13가지 소분류명을 사용하였다. KoBERT 모델을 사용하여 수집한 초록 데이터를 학습시켜 자동 분류를 실험하였다. 분류 작업에 사용된 기법은 단순한 단층 퍼셉트론을 사용하여 BERT 모델의 성능에 집중하였다. 학습 과정에서 하나의 문서에 입력되는 토큰의 길이에 구분을 주어 데이터의 양과 품질에 따라서 분류의 정확도의 변화를 분석하였다. 토큰의 입력 길이를 64, 128, 256 세 가지로 나누어 학습 시킨 모델에서 동일한 데이터를 검증하여 각각의 성능을 평가하였다.
성능 평가 척도는 정확율(Precision), 재현율(Recall), F-measure를 사용하였고 분류 결과는 세 가지 모델 중에서 입력 길이가 64인 모델만 9개를 유의미하게 분류하였고 나머지 모델들은 10개를 유의미하게 분류하였다. 각 모델의 성능평가를 분석하여 데이터의 품질과 양에 따라서 성능이 변화하였는데 4가지 유형으로 나타났다. 데이터의 양이 많고 품질이 높은 항목들은 F-measure가 90% 이상으로 높은 수준의 성능을 보인다. 데이터 양이 적어도 데이터 품질이 좋거나 데이터 품질이 낮아도 데이터 양이 많으면 F-measure가 50% 이상으로 자동 분류가 유의미하게 나타났다. 데이터의 품질이 좋은 경우 입력 길이가 늘어나면 성능이 향상하고 데이터의 품질이 낮을 때는 입력 길이가 늘어나면 성능이 약간 하락한다.
데이터의 양과 품질에 따라서 BERT 모델을 사용한 자동 분류에서 유의미한 성능이 나타났다. 5000개 이상의 논문 초록 집합이라는 빅데이터 형태의 학술 분야 텍스트 데이터에서 사전학습모델의 활용 가능성을 확인하였다. 문헌정보학 안에서 문헌을 분류하거나 서지정보의 생성 혹은 분류체계를 정립할 때, 해당 분야의 이상적인 단어벡터가 존재하면 빅데이터 형태의 데이터 처리에서 효과적인 도구로서 활용 가능성을 제안한다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)