한국어 보편 의존 구문 분석 방법론 연구
The purpose of this paper is to propose a syntactic analysis method of Korean Universal Dependencies which does not violate the Universal Dependencies while fully reflecting individual characteristics of Korean. In particular, unlike the existing study of Korean Universal Dependencies, we propose to set the morpheme as a unit of parsing and to set the head-final rules in word conjunction according to the morphological and syntactic characteristics of Korean.
In Chapter 2, we introduce the Universal Dependencies and explain the development process of guidance, the Universal part-of-speech tag, and the Universal dependency relation tag. The Universal part-of-speech system consists of a total of 17 labels, and the Universal dependency relation system consists of 37 labels. The Universal Dependencies treebank is constructed according to the CoNLL-U format. There are currently 146 treebanks of 83 languages(version 2.4).
In Chapter 3, we compare the systems of Korean Universal Dependencies treebanks KTB, GKT, and PUD. KTB was built with a Constituency parsing method and GKT was built with a previous version of Universal Dependencies at 2014. KTB and GKT were converted to Universal Dependencies method by Chun et al. (2018). The PUD, built in 2017, is consist of newswire and Wikipedia that written in English, German, French, Italian, Spanish and then translated to Korean. All three treebanks use different Language-specific part-of-speech tags. There are also differences in the use of the Universal part-of-speech tags and the Universal dependency relation tags.
In Chapter 4, we describe the application of the Universal part-of-speech system and the Universal dependency relation system to Korean. The main issue in applying the Universal part-of-speech system to Korean is the setting of the analysis unit. In previous studies of the Korean Universal Dependencies, word(or eojeol) is used as a unit of parsing. Therefore, the function words that are separated from the content word gets a different Universal part-of-speech tag than those that form an eojeol with the content word. Analyzing the function words having the same form and function with different tags can lower the accuracy of parsing. In this paper, based on the result of parsing test in Park(2017) and the analysis error in Seo et al. (2019), we propose to set the morpheme as a unit of parsing.
The main issue in applying the Universal dependency relation system to Korean is the setting of the head-final rules. In the Universal Dependencies guidelines, if the dependency relation between verb conjunction or noun conjunction is not clear, it is a principle to make the preceding word the head. In this paper, however, we propose to set head-final rules based on the fact that Korean is head-final language, and parsing test in Hiroshi et al. (2018).
본고는 한국어의 개별적인 특징을 최대한 반영하면서도 보편 의존 구문 분석 방법론에 위배되지 않는 한국어 보편 의존 구문 분석 방법론을 제안하는 것을 목적으로 한다. 특히 기존의 한국어 보편 의존 구문 분석 연구와는 달리 형태 주석의 단위를 형태소로 설정할 것과 한국어의 형태적, 통사적 특성에 따라서 접속 구성에 핵-후행 규칙을 설정할 것을 주장하였다.
2장에서는 보편 의존 구문 분석을 개괄적으로 소개하고 지침의 발달 과정과 보편 형태 주석 체계, 보편 의존 구문 분석 체계에 대하여 설명하였다. 보편 형태 주석 체계와 보편 의존 구문 분석 체계는 각각 17개, 37개의 표지로 이루어져 있으며 보편 의존 구문 분석 말뭉치는 CoNLL-U 형식에 맞추어 구축된다. 현재 83개의 언어를 대상으로 하는 146개의 말뭉치가 구축되어 있다(2.4 버전 기준).
3장에서는 보편 의존 구문 분석 방법론에 맞게 변환된 한국어 말뭉치 KTB, GKT, PUD의 체계들을 비교하였다. KTB, GKT, PUD는 모두 다른 주체에 의해 구축된 말뭉치로, 이중 KTB와 GKT는 각각 구구조 구문 분석 방식과 초기의 보편 의존 구문 분석 방식으로 구축되었던 것을 Chun et al. (2018)에서 2.0 버전의 보편 의존 구문 분석 방식으로 수정한 것이다. PUD는 2017년에 구축된 것으로, 영어, 독일어, 프랑스어, 이탈리아어, 스페인어로 작성된 뉴스 기사나 위키피디아에서 가져온 문장들을 한국어로 번역한 뒤 보편 의존 구문 분석 방식에 맞추어 분석한 것이다. 이 세 말뭉치들은 모두 다른 개별 형태 주석 체계를 사용하고 있다. 또한 보편 형태 주석 표지와 보편 의존 구문 분석 표지의 사용에서도 차이를 보인다.
4장에서는 보편 형태 주석 체계와 보편 의존 구문 분석 체계를 한국어에 적용하는 방안에 대하여 서술하였다. 보편 형태 주석 체계를 한국어에 적용하는 데에 있어서는 주석 단위의 설정이 가장 큰 쟁점이다. 기존의 한국어 보편 의존 구문 분석 연구들은 어절을 분석의 단위로 삼고 있다. 따라서 내용어와 결합되어 있는 어절 내부의 기능어와 내용어에서 분리되어 별개의 어절을 형성하고 있는 기능어에 각기 다른 보편 형태 주석 표지가 할당되는데, 같은 형태와 기능을 가지고 있는 기능어들을 서로 다른 표지로 분석하는 것은 전체적인 구문 분석의 일관성을 떨어뜨리고, 나아가 정확도에도 부정적인 영향을 미친다. 본고에서는 서샛별 외(2019)의 분석 오류와 Park(2017)의 자동 구문 분석 실험 결과를 근거로 보편 형태 주석의 단위를 어절이 아닌 형태소로 설정해야 구문 분석의 정확성을 높이고 한국어 문법 체계의 정합성을 유지할 수 있음을 주장하였다.
보편 의존 구문 분석 체계를 한국어에 적용하는 데에 있어서의 쟁점은 핵-후행 규칙의 설정이다. 보편 의존 구문 분석 지침에서는 접속하는 두 동사구나 두 명사구 사이의 의존 관계가 명확하지 않을 경우에는 선행하는 성분을 지배소로 삼는 것을 원칙으로 한다. 그러나 본고에서는 한국어가 핵-후행 언어이며 접속된 구의 문법적 특성을 나타내는 기능어가 후행하는 문장성분에 부착된다는 점과 Hiroshi et al. (2018)의 자동 구문 분석 실험 결과를 근거로 핵-후행 규칙을 설정할 것을 주장하였다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)