국방 표준 자연어 데이터셋을 활용한 BART 기반 군사 문장 분류 및 요약 성능 비교 = Comparison of BART-based Military Sentence Classification and Summarization Performance using Defense Standard Natural Language Dataset
저자
발행사항
서울 : 국방대학교 국방대학교 국방관리대학원, 2024
학위논문사항
학위논문(석사)-- 국방대학교 국방대학교 국방관리대학원 : 컴퓨터공학 2024. 2
발행연도
2024
작성언어
한국어
발행국(도시)
서울
형태사항
; 26 cm
일반주기명
지도교수: 이수진
UCI식별코드
I804:11070-200000719387
소장기관
특수 전문 분야에서 AI 기술 적용에 대한 연구는 전세계적으로 매우 활발하 게 진행되고 있다. 그러나 국방 분야는 전문성과 보안이라는 높은 장벽 때문 에 아직 많은 연구가 진행되지 못하고 있다. 본 연구에서는 국방 분야 AI 개 발 여건 조성을 위해 구축을 추진 중인 국방 표준 자연어 데이터셋을 처음으 로 적용해 군사 도메인에 특화된 Mil-BART 모델을 제안한다. 또한 국방논단 요약문 데이터셋을 추가 학습시킨 Mil-BART-summarization 모델을 통해 군 사 텍스트에 대한 요약 태스크 실험을 진행하였다.
Mil-BART 모델은 범용 말뭉치를 사전학습한 언어모델 BART의 토크나이 저에 군사교범에서 추출한 토큰 49,107개와 국방논단에서 추출한 토큰 55,350 개를 추가하여 구축하였다. Mil-BART의 성능 평가를 위해 군사 문장(군사교 범 및 국방논단)과 비군사 문장(일반 뉴스)에 대한 이진분류 및 다중분류 실 험을 진행한 결과, Mil-BART의 이진분류 Recall과 F1-score가 BART보다 뛰 어난 것으로 나타났다. 특히 국방논단과 일반 뉴스에 대한 이진분류 Recall과 F1-score가 2%P 정도 향상됨을 확인하였다.
Mil-BART-summarization 모델은 한국어 텍스트 요약 모델인 KoBART- summarization에 국방논단 요약문 데이터셋을 추가 학습시켰으며 국방논단 요약문 데이터셋은 총 1,360개의 원문-요약문 데이터로 이루어져 있다. 요약 태스크 실험 결과 Mil-BART-summarization의 유의미한 성능 향상을 확인하 지 못했는데 이는 실험에 활용한 요약문 데이터셋의 질과 양적인 문제가 원인 인 것으로 분석하였다. 따라서 국방 표준 자연어 데이터셋이 국방분야 여러 자연어처리 태스크에 대한 벤치마크 데이터셋으로서의 역할도 필요하다는 것 을 실험을 통해 확인하였다.
주요어 : 국방 표준 자연어 데이터셋, 군사 도메인, 사전학습 언어모델, BART, Mil-BART, 자연어처리, 문장 분류
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)