부동 소수점 DSP를 이용한 VAD-SOLA의 실시간 구현 = Real-time VAD-SOLA implementation using floating-point DSP
저자
발행사항
서울 : 건국대학교 대학원, 2005
학위논문사항
학위논문(석사)-- 건국대학교 대학원 : 전자.정보통신공,디지털신호처리 전공 2005.2
발행연도
2005
작성언어
한국어
주제어
DDC
621.3822 판사항(22)
발행국(도시)
서울
형태사항
52 p. : 삽도 ; 27 cm.
소장기관
한글초록:언어는 사람들이 가장 흔하게 접하는 중요한 의사소통 수단으로 아주 오래전부터 발전되어 지금까지 사용된다. 언어는 인간의 발성기관을 통하여 음성의 형태로 화자에게서 청취자로 전달되는데, 같은 어휘를 발음하더라도 청취자와 화자에 따라 그 전달되는 뜻은 언제나 일치하지는 않는다. 게다가 최근에는 무선통신 기술의 발달과 더불어 휴대용 단말기 등 과 같은 의사소통의 중간 매체사용의 폭이 넓어지고 있다. 이에 따라 사람들 간의 직접적인 대화가 아닌 다른 매체를 통한 의사소통 수단이 많이 늘어났다. 다른 매체를 통한 의사소통의 경우 필연적으로 음질의 저하를 수반하는데, 연속적인 숫자 음이나 빠른 속도의 음성 등을 청취할 때 인식률은 크게 낮아진다. 화자의 의사 표현에는 음성의 속성이 크게 작용하여 청취자에게 영향을 미치며, 이 때의 음성 속성으로는 발음과, 속도, 크기 등의 내부적인 요인을 들 수 있다. 위의 요인들은 음성의 청취 인식률에 영향을 미치며, 본 논문에서는 여러 가지 요인들 중에 음성의 속도에 초점을 맞추어 연구를 진행하였다. 음성의 속도는 화자의 습성이나 주변 환경에 의해 다양하며, 일반적으로 빠르게 발음하는 음성은 천천히 발음하는 음성보다 청취자가 이해하고 기억하기에 어려움이 있다. 이런 상황은 주변에서 흔히 목격할 수 있으며, 흔한 예로 타국어를 사용하는 영화를 시청하거나, 외국어 듣기 공부를 하는 경우 등의 많은 예가 존재한다. 위와 같은 상황일 때 음성의 속도를 변환할 수 있다면 청취자에게 큰 도움이 될 수 있지만, 실시간으로 고음질을 유지하면서 원하는 속도로 음성을 들을 수 있는 환경을 갖추기는 쉽지가 않다. 음성의 속도를 변환한다는 개념은 입력과 출력의 시간 개념을 반영해야 하며, 이는 곧 입력 시간과 출력 시간이 일치하지 않는다는 것을 의미한다. 따라서 실시간이 가능한 시간 축 변환 시스템을 구현하기 위해서는 다른 방법을 고안해야하며, 본 연구에서는 묵음구간을 제외한 음성 구간만을 변환하여 실시간으로 음성의 속도를 느리게 변환하는데 성공하였다. 음성의 시간 축 변환은 오래전부터 많이 연구되어 온 분야로서, 많은 방법들이 발명되었지만 실시간 구현에 적합한 알고리듬을 찾아 간단한 시간 축 변환 알고리듬인 Synchronized overlap -and-add(SOLA)[1]를 적용하였고, Texas Instruments사의 Digital Signal Processor(DSP) TMS320C6711[4]을 이용하여 실시간 구현하였다. DSP는 디지털 신호를 빠르게 처리하기 위한 용도로 개발되었으며 디지털 신호처리에 사용되는 많은 알고리듬을 구현하기에 적합하게 구성되었다. 여러 분야에서 이미 DSP 칩을 이용한 개발이 활발하게 진행 중이며, DSP상에서 실시간 구현을 하면 후에 다른 응용장치로의 접근이 용이하다는 장점이 있다. 따라서 본 논문에서는 C언어 기반의 개발이 가능한 DSP를 사용하여 실시간으로 시간 축 변환을 구현하고, 더 나아가 휴대 가능한 작은 크기의 독립형 장치까지의 개발을 목표로 하고 있다
더보기영문초록:This paper proposes a real-time method of changing speech rate to improve the quality of speech in intelligibility using Digital Signal Processor(DSP). Synchronized Overlap-and-Add(SOLA) algorithm which can change speech rate while preserving pitch and vocal tract transfer function was used. To measure speech rate, we applied the measurement called enrate. To implement a real-time system involved with SOLA, TI's floating point DSP TMS320C6711 was used. Voice activity detection(VAD) is applied to classify incoming signal into speech or silence portion. The SOLA algorithm is applied to only speech portions. It is possible to avoid unnecessary calculation for silence portion and can improve using memory efficiency. SOLA is adjusted to reduce a calculation and execute fast. This algorithm called Fast Synchronized overlap-and-add(FSOLA), and we make the FSOLA algorithm better for implementing in real-time. We change a frame structure of FSOLA, then it has simple steps to process. After the FSOLA transformation, we compare the reconstructed speech by PC with the one by DSP. Informal listening test shows that both of them have good quality of speech. The result suggest that only reconstructed speech's length is changed while preserving characteristics of a speech, and we validate the correspondence waveform of reconstructed speech to the waveform of original speech. At the conclusion, recognition of the reconstructed speech is better than the original speech
더보기분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)