합성 유한상태전이기를 이용한 two-level 한국어 형태소 해석 = A Two-level Morphological Analysis Using the Compositional Finite State Transducer
저자
발행사항
전주 : 전북대학교 대학원, 2009
학위논문사항
학위논문(박사)-- 전북대학교 대학원 : 전산통계학 2009. 8
발행연도
2009
작성언어
한국어
주제어
발행국(도시)
전북특별자치도
형태사항
vi, 67 p. : 그림,표 ; 26cm
일반주기명
전북대학교 논문은 저작권에 의해 보호받습니다.
지도교수:이용석
참고문헌 : p. 59-61
소장기관
이 논문은 자연 언어 처리를 위한 합성 유한 상태 전이기 CFST를 구현하고 CFST를 이용하여 two-level 한국어 형태소 해석 시스템을 구축하였다. FST는 출력을 가지는 FSA로 임의의 문자라는 특별한 의미의 심볼을 가진다. FST의 임의의 문자는 입력심볼을 제한할 수 없는 자연 언어 처리에 필요한 표현이 가능하게 하지만 FST들의 연산에 전통적인 알고리즘을 적용할 때 연산에 참여하는 두 FST사이의 임의의 문자를 같은 문자를 가지도록 조정해야 한다. 이 논문에서는 임의의 문자를 처리하는 방안을 제시하고 전통적인 알고리즘을 사용하여 FST의 기본연산이 가능하도록 하였다. 자연 언어 처리에서 사용하는 대표적인 FST인 xfst의 문법과 표현식을 그대로 사용할 수 있도록 하기 위해서 xfst의 연산자 중에 문서화되어 있지 않은 단일 삽입과 마킹 연산자의 표현식을 제안했다.
Kimmo에 의해서 제안된 언어 독립적인 형태소 모델인 two-level형태론은 형태소 분석을 위한 자원과 형태소 분석을 분리하여 형태소 분석기를 사용하고자 하는 사용자가 형태소 분석 결과를 원하는 데로 바꾸기 용이하다. 그러나, 교착어의 성격을 가지는 한국어에 대한 형태소 분석의 경우 Kimmo모델에서 형태소 분석 후보가 과생성되어 성능적인 측면에서 약점을 가진다. 따라서, 성능이 중요한 문제로 부각되던 한국어 형태소 분석은 독립적인 모델보다는 언어 종속적인 모델이 선호되어 왔다. Lauri의 어휘 전이기와 two-level규칙을 합성하여 원형복원에 어휘정보를 사용할 수 있도록 하는 모델은 교착어인 한국어와 같은 경우에도 원형 복원 후보를 줄일 수 있기 때문에 성능이 떨어지는 문제를 보완할 수 있다.
이 논문은 Lauri모델을 구현하기 위해서 합성 가능한 유한 상태 전이기(CFST, Compositional Finite State Transducer)를 구현하였다. CFST를 이용하여 한국어 형태소 분석 시스템을 구축하기 위해서 한국어 용언의 원형 복원을 5단계의 중간층을 두어 일관되게 표현하고 하나의 FST로 합성하여 사용할 수 있도록 하였다. 언어 독립적인 모델로서의 장점을 확인하기 위해서 단일 어절 중심의 형태소 분석 시스템을 구축한 후 정규식을 사용하여 문장 단위 형태소 분석과 본 용언과 보조 용언을 하나의 단위로 묶어 인식할 수 있도록 수정할 수 있었다.
향후 연구 과제로는, 이 논문의 CFST는 Lauri모델의 형태소 분석 시스템 구축을 가능하게 하지만, 편리한 형태소 분석 구축 환경을 위한 사전 편집기와 같은 응용 프로그램이 개발이 필요하다. 또한 어휘 전이기로 해석된 사전에 새로운 어휘를 추가하는 과정은 어휘 사전을 새로 번역해야 하는 단점을 가진다. 어휘 전이기에 새로운 어휘를 추가할 수 있도록 하는 방법에 대한 연구가 필요하다.
A Finite State Transducer (FST) is a special form of Finite State Automaton (FSA) with an input and an output. In the Natural Language Processing (NLP), FSTs are often used for morphological analyzing, part of speech tagging and partial parsing. Here, FSTs have a special symbol, called the ANY symbol, which includes all symbols that are not included in the basic FST. The ANY symbol permits to enable simple expression for the FST.
However, it makes difficult for the operation such as concatenation, union, intersection and composition between two FSTs, because the ANY symbols of them represent different symbols each other. Therefore, in order to make use of the existing algorithms, it is required to let the ANY symbol of two FSTs represent the same symbol. To do this, we propose the algorithm of processing the ANY symbol.
This thesis deals with an implementation of the Compositional Finite State Transducer (CFST) and an application to the two-level Korean morphological analysis to show the effectiveness of the CFST. XFST (Xerox Finite State Transducer) developed by Xerox Corporation is the well known FST for morphological analysis. Even if it defines many useful operators for NLP, some algorithms or expressions of operators, such as single insertion, marking and relative minus are not opened yet. So we propose the expression of single insertion and marking in this thesis.
Most of natural languages build a surface form in surface level based on the word formation rules using a lexical form in lexical level. A surface form appearing with the concatenation of lexical form can be resulted in alternation, deletion and insertion of the lexical form in part. Morphological analyses are to find out a lexical form from a surface from by applying the rules of root form recognition. In our work, CFST compile FSTs from the root form recognitions rules, and compose a single FST.
Two-level morphological analysis proposed by Kimmo is a language independent model that is suitable to recognize root form. However, the Kimmo model generates many lexical form candidates from a surface form because it does not make use of lexical information. Many works pointed out that applying two-level morphological was not suitable for Korean language which is an agglutinative language because it generates too many candidates.
As a conclusion, in our work, CFST tries to compose the root form recognition rules and the lexical information in order to reduce candidates. In addition, CFST compile the word formation rules by a lexical transducer to compose the root form recognition and the lexical information. The lexical transducer and the root from recognition rules are composed into a single FST for morphological analyses by CFST.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)