KCI등재
Système de prétraitement des chiffres arabes pour l'amélioration du synthétiseur vocal coréen
저자
발행기관
프랑스문화예술학회(Association d'Etudes de la Culture francaise et des Arts en France)
학술지명
프랑스문화예술연구(Etudes de la Culture Francaise et des Arts en France)
권호사항
발행연도
2004
작성언어
French
주제어
등재정보
KCI등재
자료형태
학술저널
수록면
103-131(29쪽)
제공처
한국어의 음성 합성을 위해서는 여러 단계의 처리가 필요하나 우선 숫자, 기호, 이니셜, 외국어, 수식 등이 포함된 문서를 한국어 음성 생성 규칙이나 휴리스틱스 등이 적용될 수 있는 문자로 전사하는 전처리 작업이 필요하다.
한국어에서는 아라비안 숫자를 읽을 때 ‘하나, 둘, 셋’과 같이 고유어를 사용하기도 하고, ‘일, 이, 삼’처럼 한자어로 읽기도 한다. ‘2457’과 같은 숫자를 한자어로 읽을 때, 문맥에 따라 한편으로는 단위어를 추가하여 ‘이천사백 오십칠’로 읽는가 하면, 다른 한편으로는 단위어 없이 ‘이사오칠’과 같이 읽기도 한다. 또한, 서구 문화의 영향으로 숫자도 영어와 같은 외래어로 읽는 경우도 발생한다. 특히 신조어나 외래어가 신속하게 발생하고 소멸되는 현대 한국어에서 숫자를 읽는 방식이 매우 다양하며 중의성이 높으나, 이에 대한 연구는 거의 이루어지지 않았다.
이에, 본 연구에서는 정제된 언어를 사용하지만 현대 한국어의 변화상을 살펴볼 수 있는 신문 자료를 대상으로, 음성 합성의 전처리 단계로 아라비안 숫자를 포함한 수사 표현의 구성요소 및 문맥간의 연어관계를 살펴봄으로써 자동 전사 규칙을 설정하고자 한다.
본 연구에서 사용하는 대상 말뭉치로는 C 신문의 156일치 15개면 기사전부에서 추후 평가용 데이터로 사용하게 될 31일치 자료를 제외한 125일치 자료이며, 특히 숫자를 포함하고 있는 수사표현을 주로 연구대상으로 분석하였다.
본 논문에서는 아라비안 숫자 읽기를 20가지 방식으로 분류하고, 아라비안 숫자를 포함한 수사표현의 구조를 ① 숫자 전치어, ② 기호를 포함한 숫자열의 표현 형식과 크기, ③ 단위어 표현, ④ 숫자 후치어, ⑤ 분류사, ⑥ 분류사 후치어, ⑦ 수사표현 앞뒤 문맥으로 분석하였다. 이들 구성요소 간의 결합 관계에 따라 13개의 패턴화된 결합구조, 16개의 일반화된 읽기 규칙, 중의성 해결을 위한 85개의 결합관계를 추출하였다. 평가용 말뭉치를 이용하여 본 연구 결과를 측정한 결과 95.4%의 정확도를 얻을 수 있었다.
본 연구의 결과는 그럼에도 몇 가지 극복해야 할 한계점을 드러내었다. 첫째, 다중 결과값의 비율을 낮추어야 하는데, 이 경우 통계 기반 결과를 적용하는 방법을 검토하고 있다. 둘째, 분석용 말뭉치와 평가용 말뭉치가 동시기의 자료체라는 점으로 미루어볼 때, 다른 자료체를 대상으로 하면 미등록어의 비율이 상대적으로 높게 나타날 것이다. 셋째, 현재는 수사표현의 좌우 문맥을 3개 어절 이내로 제한하고 있다. 따라서 연어 관계를 갖는 결합구조의 개수가 비교적 적다. 시스템의 처리 속도와 효율성을 고려하여 수사표현 좌우 문맥의 크기를 재조정해 보아야 한다. 이것은 앞으로 본 연구가 계속 확장해야 과제 범위를 제시하고 있다.
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)