BERT와 Llama를 활용한 국내 학술지 논문의 자동분류 성능 비교 = Comparison of automatic classification performance of Korean journal articles using BERT and Llama
저자
발행사항
서울 : 경희대학교 테크노경영대학원, 2024
학위논문사항
학위논문(석사)-- 경희대학교 테크노경영대학원 : AI기술경영학과 2024. 2
발행연도
2024
작성언어
한국어
주제어
발행국(도시)
서울
형태사항
65 ; 26 cm
일반주기명
지도교수: 홍아름
UCI식별코드
I804:11006-200000726457
소장기관
BERT와 Llama를 활용한 국내 학술지 논문의 자동분류 성능 비교 경희대학교 테크노경영대학원 AI기술경영학과 강 광 선 초거대 인공지능 오픈 AI사의 ChatGPT의 열풍으로 다양한 LLM 모델이 발표되었 다. 2023년 2월 발표한 메타의 Llama 모델은 연구 커뮤니케이션에 오픈 하면서 거 대 언어 모델의 생태계를 활성화하였다. Llama2는 SFT, RLHF를 반복 학습하여 ChatGPT 3.5와 유사한 성능을 구현 하면서 상업적으로도 이용한 모델이다. 문서 자동분류 분야에 많이 이용되고 있는 Bert 모델과 최신 LLM 모델인 Llama2 모델 을 비교하여 Llama2 모델이 Bert 모델에 대비 문서 자동분류에서 성능이 향상되었 는지 검증하려고 한다. 학습데이터는 AI-HUB에 ‘논문자료 요약’ 데이터셋 사용하였 다. 학습데이터는 1995년부터 2020년까지 데이터 16만건이며 대상 분류는 한국연구 재단의 연구 분야 분류기준으로 8개 분류로 정의되어 있다. 본 연구를 위한 python 프로그램을 작성하였으며 Bert, Llama2의 학습 및 자동분류 성능 평가를 실행하였 다. 본 실험의 결과는 학습데이터의 오차의 경우 Short model의 경우 Bert가 더 낮 았고 middle, long model의 경우 Llama2가 더 낮았다. 학습데이터 정확도의 경우 short, middle, long model에서 Llama2가 Bert 보다 높은 정확도를 보였다. 행렬 분 석한 결과 Bert의 경우 사회과학, 공학, 농수해양에서 높았으며 Llama2는 인문학, 자연과학, 의약학, 예술체육, 복합학에서 빈도가 높게 나왔다. 분류 평가에서 short 모델의 경우 Bert가 Llama2보다 정밀도, 재현율, F1 스코어에서 우세한 결과가 나 왔다. middle, long 모델의 경우 Llama2가 Bert 보다 정밀도, 재현율, F1 스코어에 서 우세한 결과가 나왔다. 두 모델의 유의수준 5%의 쌍체 비교 t-검정을 실시하였다. short 모델은 성능 차 이가 없었고 middle 모델의 경우 정밀도는 성능 차이가 있고 재현율, F1 스코어는 차이가 없는 것으로 나왔다. long 모델의 경우 재현율은 성능 차이가 없고 정밀도, F1 스코어가 성능 차이가 있는 것으로 나왔다. 문서 자동 분류 모델 선택시 입력 길이가 Short 텍스트일 경우 Bert 모델, Long 텍스트일 경우 Llama2 모델의 사용 을 고려할 필요가 있다. 자동분류 모델 선택시 입력 데이터 길이에 따라 지표 판단 의 기준이 되는 실증분석 결과를 제시 하였다. 향후 연구에서는 다양한 LLM 모델의 활용해 보고 제로샷(Zero-shot) 및 퓨샷 (Few-shot) 학습을 이용한 문서 자동분류를 영역으로 연구하고자 한다. 주제어 : 인공지능, 자동분류, BERT, Llama, LLM
더보기분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)