KCI등재
바이두(百度) 번역기의 한문고전 번역 수준과 향후의 과제 = An Analysis of Translation Quality of Chinese Classics in Baidu Translation System and Future Tasks
In this paper, we analyze the quality of translations of Chinese classics in Baidu translation system and examine a few aspects to get better results in enhancing the translation quality. Baidu Translate is a multilingual neural network-based machine translation service, designed to simultaneously learn multilingual models trained on parallel corpora. The neural machine translation model extracts linguistic features without any preprocessing on the language data, which is an end-to-end learning approach for automated translation.
In the analysis, 46 kinds of documents from the Pre-Qin period of China to the Ming Dynasty and the Annals of the Joseon Dynasty in Korea were used. The results of the analysis are as follows: First, deep learning approaches using a massive amount of classical Chinese corpora were hardly seen in the system. However, the translation closely followed the original when using back-translations, which implies that the system was trained on Chinese classic data to some degree.
Another important point to note is that almost the same level translations were shown in the translation system on the texts with special marks, side dots, and common marks. The implication is that Baidu translation system was able to learn meanings of sentences from the context and translate the original text containing common marks well as much as the text with special marks. On the text without marks, however, the sentences were not properly translated in terms of word spacing.
Third, translation mistakes coming from misunderstanding of constituents or lexical meanings occurred frequently. Other translation errors include the interruption from words that come before and after, loss of meaning, and misunderstanding of the different types of proper nouns.
The details of our proposal are as follows: A large set of good quality training data should be offered to produce good translations. It is hard, however, to collect high quality language data at the individual or small-scale research institute level. In this sense, the initiatives led by government institutions for data preprocessing, refinement should be backed so that high quality corpora can be collected and used in the neural machine translation system.
In addition, more research on preprocessing of parallel corpora best-fitted to algorithms should be conducted. Given that literal texts are definitely lacking, we should examine methods to tag basic elements, substantives, predicates, and function words of sentences along with the marking system problem from every angle and fine more fundamental solutions.
Thirdly, it is imperative to examine all the necessary information when translating literary Chinese to Korean so that the best-fitting algorithm can be used for translation. The reason for this is that it will be unavailable to obtain and utilize information that can be obtained in the process of translation from the isolated language, or Chinese classics, to the agglutinative language, Korean.
본고는 문언문 번역 기능이 탑재된 바이두 번역기를 통해 문언문의 번역 수준을 살펴보고 더 나은 번역 결과를 얻기 위해 보완되어야 할 내용을 살펴본 것이다. 중국의 바이두 기계번역 시스템은 강력한 신경망 엔진이 장착되어 있으며 다양한 언어의 병렬코퍼스를 하나로 합쳐 학습하도록 설계되었다. 신경망 기반의 기계 번역 모델은 언어의 자질 정보를 스스로 추출하여 별도의 언어학적 전처리 과정이 없이 종단간 학습이 가능하다.
그러므로 본고에서는 형태소 분석 이하의 과정은 생략하고 전처리 과정에 해당하는 표점을 한 경우와 표점을 하지 않은 경우로 나누고 문언문의 유형 및 난이도에 따라 번역 결과에 어떤 차이가 발생하는지 살펴본 후, 번역상의 주요 오류 양상을 구체적으로 분석하였다.
분석에는 중국의 선진시기부터 명대에 이르기까지 46종의 문헌과 한국의 『조선왕조실록』을 활용하였으며, 그 결과는 다음과 같다.
첫째, 다량의 문언문 코퍼스를 심층학습한 정황은 찾을 수 없었다. 다만 중문 번역문을 문언문으로 역번역했을 때 원문과 동일하게 번역되는 것으로 볼 때 일정 정도의 문언문 데이터를 확보하여 번역에 적용하고 있는 것으로 판단된다.
둘째, 상세표점 텍스트, 방점 텍스트, 기본 표점 텍스트에서 대체로 동일한 번역 결과를 보였다. 이것은 바이두 번역기가 기본 표점만으로도 전후 문맥을 스스로 판단하여 상세표점에 준하는 번역을 해내고 있음을 의미한다. 그러나 표점이 없는 텍스트에서는 띄어쓰기와 붙여 쓰기 모두 번역이 제대로 이루어지지 않았다.
셋째, 문장 성분을 올바로 파악하지 못하거나 어휘의 의미를 잘못 선택한 경우가 빈번하게 발생하였으며, 그 밖에도 전후에 위치한 다른 어휘의 간섭으로 인한 오류, 결역, 고유명사를 잘못 파악한 오류 등이 있었다.
이와 같은 문제를 해결하기 위한 제언은 다음과 같다.
첫째, 양질의 코퍼스를 최대한 많이 확보하여야 한다. 하지만 개인이나 소규모 연구기관에서는 양질의 코퍼스를 충분히 확보하기가 쉽지 않다. 따라서 국가기관의 주도 하에 수집된 번역물을 신경망 기계번역기에 활용할 수 있도록 정제‧가공하는 작업을 동시에 수행해야 한다.
둘째, 알고리즘에 최적화된 병렬코퍼스 가공에 대해 깊이 있는 연구를 수행해야 한다. 문언문은 코퍼스의 양이 절대적으로 부족한 만큼, 표점 문제를 비롯하여 기본적인 문장성분을 태깅하거나 체언/용언/관계언 등만 태깅하는 방법 등을 다각도로 살펴 코퍼스의 빈곤으로 인한 문제를 해결하는 방안을 찾아야 한다.
셋째, 문언문을 한국어로 옮길 때 필요한 정보들을 면밀하게 살펴서 문언문-한국어 번역에 최적화된 알고리즘이 적용될 수 있도록 해야 한다. 고립어인 문언문과 교착어인 한국어의 번역 과정에서 얻을 수 있는 정보들을 독자적으로 확보해 활용할 수 없게 될 것이기 때문이다.
아울러 어휘의 의미를 올바로 선택하지 못하는 오류나 전후에 위치한 다른 어휘의 간섭으로 인한 오류, 고유명사를 판독하지 못해 발생한 오류 등을 줄이기 위해서는 사전을 포함한 문언문에서의 사용빈도가 반영된 자료를 제공해주는 것도 필요하다.
분석정보
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2026 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2020-01-01 | 평가 | 등재학술지 유지 (재인증) | KCI등재 |
2017-01-01 | 평가 | 등재학술지 유지 (계속평가) | KCI등재 |
2013-01-01 | 평가 | 등재학술지 선정 (등재후보2차) | KCI등재 |
2012-01-01 | 평가 | 등재후보 1차 PASS (등재후보1차) | KCI후보 |
2011-01-01 | 평가 | 등재후보학술지 유지 (등재후보1차) | KCI후보 |
2009-07-02 | 학회명변경 | 한글명 : 근역한문학회(槿域漢文學會) -> 근역한문학회 | KCI후보 |
2009-01-01 | 평가 | 등재후보학술지 선정 (신규평가) | KCI후보 |
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.6 | 0.6 | 0.56 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.57 | 0.53 | 1.005 | 0.39 |
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)