On applying nonlinear regression models to statistical parametric speech synthesis
저자
발행사항
서울 : 서울대학교 대학원, 2015
학위논문사항
발행연도
2015
작성언어
영어
주제어
DDC
621.3 판사항(22)
발행국(도시)
서울
기타서명
통계적 음성 합성에 대한 비선형 회귀 모델 적용
형태사항
xi, 88 p. : 삽화 ; 26 cm
일반주기명
참고문헌 수록
DOI식별코드
소장기관
은닉 마코프 모델(HMM) 기반의 파라미터식 음성 합성 기술은 지난 수 십 년 간 개발되어 왔다. 이 시스템에는 많은 장점이 있지만, 합성음의 음질 저하는 HMM 기반 시스템의 가장 심각한 단점이다. 본 논문에서는 기존의 HMM 기반 음성 합성 시스템의 단점을 해결할 새로운 대안을 제안한다.
첫 번째 접근법으로서, 이상치에 대한 클러스터링에서의 검출과 모델 파라미터 추정에서의 제거를 제안한다. 최대 우도(maximum likelihood, ML) 기반의 클러스터링 기법은 데이터 분열 문제가 발생하기 쉽다. 제안한 구조에서는 결정 트리가 자라나는 중에 강인한 평균과 분산이 추정되고, 이에 따라 얻은 결정 트리는 이상치 데이터에 강인하게 된다. 최종적인 클러스터의 파라미터 추정에서는 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 기반의 이상치 제거 알고리즘이 수행된다. 실험 결과로부터, 불충분한 데이터를 사용했을 때에 제안된 알고리즘이 시스템의 성능을 향상시킴을 확인할 수 있다.
두 번째 접근법으로서, 선형 회귀보다 더 유연한 회귀를 표현하도록 관련성 벡터 회귀(relevance vector regression, RVR) 기반의 모델 파라미터 적응 기법을 제안한다. HMM 음향 모델에 사용되는 일반적인 적응 알고리즘은 세밀한 변환 특성을 표현하기에는 선형 회귀로 너무 제한되어 있다. 이와 같은 문제를 극복하기 위해, 비선형 기법을 제안한다. 이 구조에서는 기존의 최대 우도 선형 회귀(maximum likelihood linear regression, MLLR) 기반의 기술이 확장되어 훨씬 더 많은 기저 함수를 갖도록 하고, 이후 변환 행렬을 만드는 가중치는 희소 베이지언 학습(sparse Bayesian learning)에 의해 얻게 된다. 이 때, 정확도 하이퍼 파라미터를 이용한 사전 확률의 정의에 의해 대부분의 가중치는 0이 된다. 추가적으로, 커널 함수의 정의를 통해 RVR 방식은 선형 및 비선형 회귀 모두의 장점을 가질 수 있다. 실험에서는, 제안된 기법과 기존 기법인 CMLLR을 평가하기 위해 감정 음성 데이터베이스가 사용되었다. 실험 결과로부터, RVR 적응 기법이 기존 기법보다 나은 성능을 보임을 알 수 있다.
마지막 접근법으로서, 관련성 벡터 머신(relevance vector machine, RVM)을 이용한 음성 특징열의 모델링과 생성을 제안한다. HMM에서의 모델 상태 평균 파라미터는 이에 해당하는 데이터 프레임 사이의 시간적 관련성을 고려하지 못 한다. RVM은 비선형 회귀 문제를 해결하는 데에 활용 가능하기 때문에, 상태 출력 분포의 모델 파라미터를 대체하도록 이를 활용한다. 제안된 시스템에서는 준파라미터식 비선형 회귀 방식의 사용을 통해, 정규화된 학습 특징열로부터 얻어진 상태나 음소 조각의 통계적 대표 신호를 모델링하도록 RVM이 사용된다. 제안된 RVM과 기존 HMM에 대한 비교 실험을 수행하였고, 제안된 상태 수준 RVM 기반 기법 기존 기법보다 나은 성능을 나타냄을 보인다.
The hidden Markov model (HMM)-based parametric speech synthesis techniques have been developed over the past decades. Although there are many advantages of this framework, the synthetic speech quality degradation is one of the most serious problems of the HMM-based system. In this thesis, novel alternatives are proposed to resolve the drawbacks of the conventional HMM-based speech synthesis system.
In the first approach, we propose outlier detection in clustering and removal in model parameter estimation to obtain a robust model to outlier. The maximum likelihood-based clustering technique may cause the data fragmentation problem easily. In the proposed framework, during the decision tree growing, the robust mean and variance are estimated, then the consequent decision tree become robust to outlier data. In the parameter estimation of a resulting cluster, the Gaussian mixture model (GMM)-based outlier removal algorithm is performed. From the experimental results, we can find that the proposed algorithm could enhance the performance of the system when using insufficient data.
In the second approach, we propose the relevance vector regression (RVR)-based model parameter adaptation technique to represent more flexible regression than linear regression. A typical adaptation algorithm employed to acoustic HMMs is too restricted in linear regression to represent the detail of mapping charateristics. To overcome these problems, nonlinear methods are proposed. In this framework, the conventional maximum likelihood linear regression (MLLR)-based technique is extend to have much more basis functions, and then, the weights for conducting a transform matrix are obtained by sparse Bayesian learning, in which most of weights become zero due to the definition of the prior with the precision hyper-parameters. Furthermore, by the definition kernel functions, RVR could take the both advantages of linear and nonlinear regression. In the experiments, the emotional speech database are used for adaptation to evaluate the proposed method compared to the conventional constrained MLLR. From the experimental results, we can find that the RVR adaption method performs better than the conventional method.
In the last approach, we propose an relevance vector machine (RVM) for modeling and generation of a speech feature sequence. In HMMs, the mean parameter of the HMM state can not consider temporal correlation among corresponding data frames. Since the RVM can be utilized to solve a nonlinear regression problem, we apply it to replace the model parameters of the state output distributions. In the proposed system, RVMs are employed to model the statistically representative process of the state or phone segment which is obtained from normalized training feature sequences by using the semi-parametric nonlinear regression method. We conducted the comparative experiments for the proposed RVMs with conventional HMM. It is shown that the proposed state-level RVM-based method performed better than the conventional technique.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)