한국어 추론 벤치마크 데이터 구축 방법론 연구
This exploratory study aims to examine methodologies for constructing benchmark data that evaluates Korean inferencing capabilities in language models. Following a comprehensive analysis on the pre-existing language benchmarking data, a diagnostic dataset was developed for evaluating Korean language inferences. I specifically chose to focus on the Natural Language Inference (NLI) task, which involves defining the semantic relationship between premises and hypotheses, among other various ways to evaluate the inferencing ability of the Korean language.
A diagnostic dataset compatible with the Korean language was selected based on the proposal by Glue(Wang et al., 2018), for evaluating inference abilities of language models in depth. The first step was to sample and analyze the KLUE-NLI, a Korean natural language inference benchmark built with the same convention as SNLI and MNLI. Both SNLI and MNLI are two of the most widely used NLI datasets in the English language. An analysis on the linguistic strategies used to create hypotheses was conducted on 4,059 statements sampled from the KLUE-NLI training dataset and the verification dataset. The linguistic strategies were categorized into deletion, substitution (hypernymy, synonymy, antonymy), negation, insertion (sentence components, semantic operators), coordination (sentence components, word order), passive voice, modification, number and time, and expressions associated with place/location, then the strategies were classified by the level of strategic difficulty. In addition to this analysis, I reviewed a list of previous studies and identified the following diagnostic items that include a linguistic inferencing phenomena and inferences in the general commonsense. The identified diagnostic items are lexical semantics (hypernymy, synonymy, antonymy, morphological negation, redundancy, quantification), predicate-argument structure (relative clauses, coordination, active/passive voice, topic-comment structure, word order scrambling), logic (proposition logic structure, quantification, monotonic function, intervals/numerical expressions, temporal expressions) and knowledge & common sense (world knowledge, common sense).
Using this list of diagnostic items,I refined the previously mentioned training and verification data sampled and extracted from the KLUE-NLI. Consequently, two annotated KLUE-NLI-H and KLUE-NLI-S datasets are presented. Annotations that can be used to evaluate the list of diagnostic items. The KLUE-NLI-H dataset has a large proportion of its data corresponding to a high level of difficulty. Whereas KLUE-NLI-S dataset has an average level of difficulty. After applying this dataset for diagnosis to the most commonly used pre-learning language models (KLUE-RoBERTa, KLUE-BERT, KcBERT, KoELECTRA), I evaluate each of the language model's function and features. Overall, pre-learning language models built based on a transformer architecture demonstrated robust performance in word order scrambling and word omission within sentences. The performance of lexical semantics, such as hypernymy, synonymy, and antonymy, were often determined by the characteristics of the training data used by the pre-learning language model. It was also noted that pre-learning language models evidently did not achieve high-performance in quantification, monotone, and knowledge & common sense. Through this evaluation of diagnostic items, it is evident that the type of inferences that can be resolved depends on the characteristics of the pre-learning language models.
본 연구는 언어 모델의 한국어 추론 성능을 평가하기 위한 벤치마크 데이터 구축 방법론을 탐구하는 데 그 목적이 있다. 이를 위하여 기존에 존재하는 언어 벤치마크 데이터를 분석하고, 그를 토대로 한국어 추론 능력을 세부적으로 평가하기 위한 진단용 평가 데이터 셋을 제안한다. 한국어 추론 능력을 평가할 수 있는 여러 유형의 평가용 데이터 중 전제 문장과 가설 문장 사이의 함의 관계를 파악하는 자연어 추론(NLI, Natural Language Inference) 과제에 집중하여 한국어의 추론 능력을 평가할 수 있는 방법을 탐구하였다.
심층적으로 언어 모델의 추론 능력을 평가할 수 있는 항목을 제시한 GLUE(Wang et al., 2018)를 기본 뼈대로 하여 한국어에 적합한 평가 항목을 제시하였다. 이를 위해 영어권에서 가장 일반적으로 알려진 자연어 추론 평가 벤치마크인 SNLI(Stanford Natural Language Inference, Bowman et al.(2015a)) 및 MNLI(Multi Natural Language Inference, Williams et al. (2018))와 동일한 컨벤션으로 구축한 한국어 자연어 추론 벤치마크인 KLUE-NLI(박성준 외 2021)의 데이터를 표본 추출하여 분석하였다. KLUE-NLI의 공개된 학습용, 검증용 데이터 중 4,059문장을 표본 추출하여 작업자들이 가설을 작성하기 위하여 취한 전략을 분석하였다. 전략은 삭제, 교체(유의어, 상하위어, 반의어), 부정, 삽입(문장성분, 의미 연산자), 조정(문장성분, 어순), 피동, 변용, 수 및 시간, 장소 관련 표현으로 분류하여 난이도를 산정하였다. 이러한 분석에 더하여 선행 연구의 목록을 검토하여 언어학적인 추론 능력 및 일반 상식에 기반하는 내용까지 포괄하는 평가 항목을 제안하였다. 어휘 의미론(상하위어, 유의어, 반의어, 형태부정, 잉여성, 양화사), 술어-논항구조(관계절, 접속, 능동/피동 교체, 주제-논평 구조, 어순 뒤섞기), 논리학(명제 구조, 양화, 단조성, 간격/숫자, 시간), 지식 및 일반 상식(세계 지식, 일반 상식)이 이 논문에서 제시하는 평가 항목이다.
이 평가 항목을 토대로 표본 추출한 데이터를 재가공하여 평가 항목을 진단할 수 있는 주석이 되어 있는 데이터인 KLUE-NLI-H와, KLUE-NLI-S를 제안하였다. KLUE-NLI-H는 이 중 고난이도에 해당하는 데이터의 비율이 높은 데이터셋이고, KLUE-NLI-S는 고난이도에 해당하는 데이터의 비율이 상대적으로 낮은 진단용 데이터셋이다. 이 진단용 데이터셋을 현재 가장 보편적으로 사용되는 사전 학습 모델인 KLUE-RoBERTa, KLUE-BERT, KcBERT, KoELECTRA에 적용해 각 모델의 성능과 특성을 진단해 보았다. 전반적으로 트랜스포머(Transformer) 구조를 기반으로 하는 사전 학습 모델은 어떤 모델이라도 문장 내에서 어휘의 순서 변경 또는 일부 어휘의 생략에는 강건한(robust)한 성능을 보여주며, 상하위어, 유의어, 반의어 등의 어휘 함의의 경우 사전 학습 모델이 학습한 학습용 데이터의 특성에 따라 성능이 결정되는 경향이 있음을 밝혔다. 또한 아직까지 사전 학습 모델이 양화 현상이나 단조성, 세계 지식과 일반 상식에는 뚜렷하게 높은 성능을 보이지 않음을 확인했다. 평가 항목을 통한 진단을 통해서, 모델별로 세부적인 추론 능력에 차이를 보인다는 것을 입증한 것이다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)