클래스 불균형을 극복한 향상된 BERT 기반 특허의 극한 다중 레이블 분류 = Enhanced BERT-based Extreme Multi-label Classification of Patents Overcome Class Imbalance
저자
발행사항
서울 : 숭실대학교 대학원, 2020
학위논문사항
학위논문(석사)-- 숭실대학교 대학원 : 소프트웨어학과(일원) 2021. 2
발행연도
2020
작성언어
한국어
주제어
발행국(도시)
서울
형태사항
ix, 50 p. : 삽화, 도표 ; 26 cm
일반주기명
숭실대학교 논문은 저작권에 의해 보호받습니다.
지도교수: 이상준
참고문헌: p. 47-50
UCI식별코드
I804:11044-200000360379
소장기관
As the knowledge information society enters, the importance of patents, which are representative forms of intellectual property rights, is increasing day by day, and the number of patents filed every year is also increasing rapidly. Patent classification is essential to efficiently process rapidly increasing patent data and enable information users to use data effectively. Currently, most patent classification is performed manually, and it is very inefficient to manually classify rapidly increasing patent data. To solve this inefficiency, various deep learning based methods for the automatic classification of patents have been proposed. Recently, fine-tuning BERT, a pre-learned language model using a large corpus, showed better classification performance than existing methods. However, this also did not consider the characteristics of the patent data and did not show satisfactory performance. For this reason, most of the patent classification is still carried out manually. Patent data should be classified into hundreds or thousands of classes. Also, it is a multi-label classification problem in which one document can have several classes, and the data distribution according to the classes is very unbalanced. In this study, a BERT based enhanced extreme multi-label classification model was proposed to generate a classification model that considers the characteristics of the above patent data. In the proposed model, BERT, which has an excellent performance in most natural language processing fields, was used as an encoder for word embedding. In addition, unlike existing BERT based classification models that use only [CLS] tokens with combined meanings of the entire sentence, the proposed model used all final hidden states of BERT for classification. After that, layers based on Multi-label Attention Mechanism and Interaction Attention Mechanism were added on the BERT to obtain the document representation considering the multi-label characteristics and the document expression reflecting the label correlation. In this study, a new Fusion Strategy was proposed to predict the final label while preserving the merits of the two document expressions thus obtained. Also, to solve the class imbalance problem in the patent document, the model was trained using Normalized Focal Loss instead of the binary cross entropy loss function. Accordingly, in this study, several experiments were conducted using about 1 million English patents filed in the US, Europe, and Japan to show the superiority of the proposed model. First, a comparative experiment to show the superiority of the fusion strategy of the proposed model and an experiment to confirm the performance change according to the loss function were conducted. Also, a comparative experiment was conducted with baseline models that showed higher performance in patent classification and extreme multi-label text classification. The results of the experiment showed that the proposed Fusion Strategy showed the highest classification accuracy, and the Normalized Focal Loss showed that the model was not only overcome the class imbalance but also improved overall performance. In addition, in comparison with the baseline models, A showed 1.61% improvement in performance P@1 compared to BERT Fine-Tuning models, and a significant P@3 1.627% and P@5 1.135% improvement in and respectively. Through this study, it was confirmed that the proposed model shows excellent performance in patent classification because it considers the characteristics of patent data and reflects context information, unlike models that have shown excellent performance in conventional patent classification and extreme multi-label classification.
더보기지식 정보 사회에 접어들면서 지식재산권의 대표적인 형태인 특허의 중요성을 날로 증가하고 있으며 매년 출원되는 특허의 수는 또한 빠르게 증가하고 있다. 이처럼 빠르게 증가하는 특허 데이터를 효율적으로 처리하고 정보 사용자가 효과적으로 데이터를 이용할 수 있도록 하는 특허 분류는 필수적인 업무이다. 현재 대부분의 특허 분류 작업은 수작업으로 수행되고 있으며 빠르게 증가하는 특허 데이터를 수동으로 분류하는 것은 매우 비효율적이다. 이러한 비효율성을 해결하기 위해 특허의 자동 분류를 위한 다양한 딥러닝 기반의 방법들이 제안되었다. 최근 대용량 말뭉치를 이용하여 사전 학습한 언어 모델인 BERT를 Fine-Tuning 하여 기존의 방법들보다 우수한 분류 성능을 보였다. 하지만 이 또한 특허 데이터의 특성을 고려하지 않으며 만족할만한 성능을 보이지 못하였다. 이로 인해 여전히 특허 분류는 대부분 수작업으로 수행되고 있다.
특허 데이터는 수백 수천 개의 클래스로 분류되어야 한다. 또한, 하나의 문서가 여러 클래스를 가질 수 있는 다중 레이블 분류 문제이며 클래스에 따른 데이터 분포가 매우 불균형하다. 본 연구에서는 위와 같은 특허 데이터의 특성을 고려한 분류 모델 생성을 위해 BERT 기반의 향상된 극한 다중 레이블 분류 모델을 제안하였다. 제안 모델에서는 대부분의 자연어처리 분야에서 우수한 성능을 보이는 BERT를 워드 임베딩을 위한 인코더로 활용하였다. 또한, 기존의 BERT 기반 분류 모델에서 모든 층을 거치며 전체 문장을 결합한 의미를 갖는 [CLS] 토큰만을 사용하는 것과는 달리 제안 모델에서는 BERT의 모든 final hidden state를 분류에 활용하였다. 이후 다중 레이블 특성을 고려한 문서 표현과 레이블 상관관계를 반영한 문서 표현을 얻기 위해 Multi-label Attention Mechanism과 Interaction Attention Mechanism 기반의 레이어를 BERT 위에 추가하였다. 본 연구에[서는 이렇게 획득한 두 문서 표현의 장점을 보존하며 최종 레이블 예측하기 위해 새로운 Fusion Strategy를 제안하였다. 추가적으로 특허 문서의 클래스 불균형 문제를 해결하기 위해 이진 교차 엔트로피 손실 함수를 대신하여 Normalized Focal Loss를 이용하여 모델을 학습하였다.
이에 따라 본 연구에서는 제안 모델의 우수성을 보이기 위해 미국, 유럽, 일본에서 출원된 약 백만 개의 영문 특허를 이용한 실험을 진행하였다. 먼저 제안 모델의 Fusion Strategy의 우수성을 보이기 위한 비교 실험과 손실함수에 따른 성능 변화를 확인하기 위한 실험을 진행하였다. 또한, 특허 분류와 극한 다중 레이블 분류에서 우수한 성능을 보인 베이스라인 모델들과의 비교 실험을 진행하였다. 실험 결과 제안하는 Fusion Strategy를 사용하였을 때 가장 높은 분류 정확도를 보였으며, Normalized Focal Loss를 통해 모델을 학습시켰을 때 클래스 불균형을 극복할 뿐만 아니라 전체적인 성능이 향상됨을 보였다. 또한, 베이스라인 모델들과의 비교 실험에서 BERT Fine-Tuning 모델 대비 P@1에서 1.61%의 성능 향상을 보였으며 P@3, P@5 각각에서 1.627%, 1.135%의 큰 성능 향상을 보였다. 본 연구를 통해 제안 모델이 기존의 특허 분류와 극한 다중 레이블 분류에서 우수한 성능을 보인 모델들과 달리 특허 데이터의 특성을 고려하고 문맥 정보를 반영하였기 때문에 특허 분류에 우수한 성능을 보인다는 것을 확인하였다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)