HPSG/MRS-based natural language generation using transformer
저자
발행사항
Seoul : Graduate School, Korea University, 2022
학위논문사항
학위논문(석사)-- 고려대학교 대학원: 언어학과 2022. 2
발행연도
2022
작성언어
영어
주제어
발행국(도시)
서울
기타서명
HPSG/MRS 기반 자연어 생성 : 트랜스포머를 사용하여
형태사항
80장 : 삽화 ; 26 cm
일반주기명
지도교수: 송상헌
참고문헌: 장 73-80
UCI식별코드
I804:11009-000000256905
DOI식별코드
소장기관
본 연구는 기호적 자연어처리를 확률적 자연어처리와 통합하여 보다 유연하면서 동시에 조절 가능한 모델을 만드는 하나의 방법을 살펴보는 것을 목표로 한다. 전통적으로, 자연어처리는 규칙을 기반으로 한 오토마타를 만들어서 인간 언어의 논리적 과정을 재현하는 것을 목표로 하였다. 하지만 머신러닝, 특히 딥러닝 혹은 신경망 기술의 부상과 함께 확률에 기반으로 한 모델이 주목받으면서 기호적 자연어처리가 어떤식으로든지 도움이 되는가라는 질문을 던지는데 이르렀다. 확률적 자연어처리는 데이터를 유연하게 처리할 수 있는 강점을 가지고 있으며, 이를 통해 다양한 분야에서 넓은 부분을 포섭하고 있다. 특히 최근 트랜스포머를 기반으로 한 BERT, GPT 등의 언어 모델은 모델 전체를 다시 훈련시킬 필요 없이 다양한 분야에 맞게 사람과 근사한 성능을 보이도록 파인튜닝되어 사용할 수 있다. 이에 반해 기호적 자연어처리, 특히 기호적 지식을 통계와 결합시킨 문법공학(Grammar Engineering)의 결과들은 매우 정교하지만 그 범위가 좁은 것으로 알려져 있다. 문법 공학으로 만들어진 전산 문법 가운데 본 연구에서는 MRS(Minimal Recursion Semantics)를 의미 표상 방식으로 채택한 영어자원문법(English Resource Grammar)을 사용한다.
구체적으로, 본 연구는 Hajdik 외(2019)의 연구를 트랜스포며 모델을 적용하여 재현한다. 즉, MRS로 된 의미 표상을 기계번역함으로써 영어 문장을 생성해 내는 자연어 생성기를 만든다. 핵어중심구구조문법(Head-Driven Phrase Structure Grammar) 체계와 호환되도록 설계된 MRS는 범위(scoping) 정보를 포함하여 표층구조에 대한 매우 많은 정보를 가지고 있으면서도 대규모 전산 활용에 적절히 활용될 수 있도록 단층적인 구조를 가지고 있다. 또한 본 연구는 영어자원문법을 통해 데이터를 증강시키는 것이 가지는 효과를 검증하는 측면에서도 Hajdik 외(2019)의 연구를 재현한다. 트랜스포머 모델이 비교적 긴 시퀀스를 잘 처리할 수 있는 만큼, 해당모델이 의미 표상으로 부터 통사적 구조를 더 잘 재구성 해 내는 것으로 나타났다. 하지만, 본 연구의 결과는 또한 트랜스포머의 셀프 어텐션 기법이 어휘 항목에 충분한 주의를 기울이는 데 실패하여 어휘 항목 선택이라는 간단할 것으로 예상한 과업을 제대로 수행해 내지 못했음을 제시한다. 본 연구에서는 또한 모델의 오류와 어텐션 가중치 분포를 질적으로 조사한다.
결과적으로, 본 연구는 어텐션 기법이 자질이 풍부하게 표기되어 있는 데이터를 처리하는데 약점을 보인다는 점을 제시한다. 또한, 단어 이하 단위 분절 및 어텐션 조정 등을 통하여 궁극적으로 모델의 성능을 높일 수 있는 방법을 제안한다. 마지막으로, "MRS 템플릿"이라는, 해당 시스템의 실용적인 활용 방법을 제시한다.
결과적으로 본 연구는 현대 자연어처리에 언어학이 중요한가라는 질문에 답을 찾기 위한 노력의 과정이다. 언어학적으로 생성된 데이터셋이 원 의미 표상의 통사 구조에 매우 충실한 자연어생성 모델을 만들어 낼 수 있다는 점을 보임으로써, 본 연구는 언어학 지식이 여전히 자연어처리와 연관이 있으며, 특히 어텐션 기법에만 의존하지 않는 방향으로 유연하면서도 조절 가능한 모델을 개발하는 방법을 모색한다.
This research aims to investigate a way to integrate symbolic natural language processing (NLP) with stochastic NLP, thus trying to make a model that is both flexible and controllable. Traditionally, practitioners of NLP focused on making rule-based automata to replicate logical process of human language. However, with the rise of machine learning and, particularly, deep learning, or neural networks, the probability-based method gained enough popularity to the point of raising a question of whether symbolic NLP is helpful by any means. Stochastic NLP has its forte in flexible processing of data, boasting broad coverage in many domains. Particularly, modern Transformer-based language models like BERT and GPT can be fine-tuned for several different domains for near-human performance without fully re-training them. Meanwhile, symbolic NLP, particularly the results of grammar engineering, which incorporates symbolic motivation with statistics, are known to be highly precise but with limited coverage. Among the engineered grammars, English Resource Grammar (ERG) is used here as it incorporates Minimal Recursion Semantics (MRS) as its meaning representation.
Concretely, the current research replicates the research of Hajdik et al. (2019) with Transformer model. In other words, it makes a neural natural language generator that generates English sentence by translating the meaning representation in MRS. Developed to be compatible with Head-Driven Phrase Structure Grammar framework, MRS contains very rich information on the semantics of a sentence including the scoping information while being flat to be adequate for large-scaled computational application. The research also replicates Hajdik et al. (2019) to validate the impact of augmenting the data with ERG. As Transformer model is able to process longer sequence better, the results shows that Transformer model improved the syntactic reconstruction from the meaning representation. However, the results suggest that the Self-Attention mechanism of Transformer failed to pay enough attention to the lexical items, thus failing at the seemingly simple task of lexical item choices. The research also qualitatively assess the model's errors and Attention weight distributions.
In conclusion, the current research suggests that Attention mechanisms have weakness in dealing data richly annotated with features. Also, it suggests some ways to ultimately improve the performance of the model by methods like subword tokenization and Attention manipulation. Finally, it suggests a possible practical application of the system of an "MRS Template".
Overall, the current research is an endeavor to see whether linguistics matters to modern day NLP. Demonstrating linguistically motivated dataset can make a natural language generation model that is highly faithful to the syntactic structure of the original meaning representation, it claims that domain knowledge of linguistics is relevant and sketches a way to develop flexible and controllable models, particularly by not depending extensively on the Attention mechanism.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)