Environmental sound classification and disentangled factor learning for speech enhancement
Sounds carry a large amount of information about our everyday environment, especially human speech. However, environmental sound can also be an important factor in understanding the surrounding environment for user-customized services. The environmental sound acts as noise to be removed to the application for extracting speech information and is an object to be recognized to the application for extracting environmental information. From this perspective, we propose deep learning-based acoustic environment classification and speech enhancement techniques.
The goal of acoustic scene classification is to classify a test recording into one of the predefined acoustic scene classes. In the last few years, deep neural networks (DNNs) have achieved great success in various learning tasks and have also been used for the classification of environmental sounds. While DNNs are showing their potential in the classification task, they cannot fully utilize the temporal information. In this thesis, we propose a neural network architecture for the purpose of using sequential information. The long short-term memory (LSTM) layers extract the sequential information from consecutive audio features. The convolutional neural network (CNN) layers learn the spectro-temporal locality from spectrogram images, and the fully connected layers summarize the outputs of two networks to take advantage of the complementary features of the LSTM and CNN by combining them. By using the proposed combination structure, we achieved higher performance compared to the conventional DNN, CNN, and LSTM architectures.
Overlapping acoustic event classification is the task of estimating multiple acoustic events in a mixed source. In the case of non-overlapping event classification, many approaches have achieved great success using various feature extraction methods and deep learning models. However, in most real-life situations, acoustic events are overlapped, and different events may share similar properties. Simultaneously detecting mixed sources is a challenging problem. In this thesis, we propose a classification method for overlapping acoustic events that incorporates joint training with the source separation framework. Since overlapping acoustic events are mixed in multiple sources, we train the source separation model and multi-label classification model for estimating the type of overlapping acoustic events. The source separation model is trained to reconstruct the target sources by minimizing the interference of overlapping events. Joint training can be conducted to achieve end-to-end optimization between the acoustic event source separation and multi-label estimation.
Speech enhancement techniques aim to improve the quality and intelligibility of a given speech degraded by certain additive noise in the background. Most of the recently proposed deep learning-based speech enhancement techniques have focused on designing the neural network architectures as a black box. However, it is often beneficial to understand what kinds of hidden representations the model has learned. Since the real-world speech data are drawn from a generative process involving multiple entangled factors, disentangling the speech factor can encourage the trained model to result in better performance for speech enhancement. With the recent success in learning disentangled representation using neural networks, we explore a framework for disentangling speech and noise, which has not been exploited in conventional speech enhancement algorithms. In this thesis, we propose a novel noise-invariant speech enhancement method that manipulates the latent features to distinguish between the speech and noise features in the intermediate layers using an adversarial training scheme. Experimental results show that our model successfully disentangles the speech and noise latent features. Consequently, the proposed model not only achieves better enhancement performance but also offers more robust noise-invariant property than conventional speech enhancement techniques.
우리 주변에서 발생하는 소리들은 많은 정보를 담고 있으며, 특히 인간의 음성이 가장 대표적인 예이다. 하지만 음성 외에 발생하는 환경음 (environmental sound) 또한 사용자 맞춤형 서비스 측면에서 주위 환경을 파악하는 중요한 요소가 될 수 있다. 이러한 환경음은 음성 정보를 추출하기 위한 어플리케이션에는 잡음으로 작용되어 제거해야 할 대상이 되며, 반대로 주변 환경을 파악하기 위한 어플리케이션에서는 인식해야 할 대상이 된다. 이와 같은 관점으로 본 논문에서는 딥 러닝 기반의 음향 환경 분류와 음성 향상 기법에 대해 제안한다.
먼저 음향 환경 분류를 위해 CNN (convolutional neural network)과 LSTM (long short-term memory)을 결합하여 학습하는 분류 모델을 제안한다. 기존에 사용되었던 DNN (deep neural network) 기반 모델들은 음향 신호의 시간적인 정보를 활용하지 못한다는 단점이 있었다. 이를 극복하기 위해 LSTM 구조를 통해 시간적인 정보를 이용하였으며, 또한 음향 신호의 국부적인 주파수와 시간의 상관 정보를 이용하기 위해 CNN 구조를 함께 결합하였다. 이는 서로 다른 두 모델이 상호 보완적인 정보를 이용하여 학습이 되게 함으로써 기존의 기법에 비해 음향 환경 분류 성능이 향상됨을 확인하였다.
두 번째로 중첩된 음향 이벤트의 분류를 위해 음원 분리를 적용한 기법을 제안한다. 실생활에서는 서로 다른 음원들이 중첩되어 발생하는 경우가 많으며, 이는 분류의 난이도를 높이는 요소로 작용한다. 이를 해결하기 위해 중첩된 음향 이벤트를 음원 분리하는 모델을 통해 학습시키고, 별도로 각각의 분리된 이벤트를 분류하는 모델을 학습시킨 후, 마지막으로 두 모델을 결합하여 다시 훈련 (joint training)을 한다. 이를 통해 훈련된 모델은 중첩된 음향을 효과적으로 분리하여 각각의 이벤트를 분류하는 성능을 높이게 된다.
마지막으로, 팩터 분리 학습 (disentangled factor learning)을 적용한 음성 향상 기법을 제안한다. 위에서 제안한 기법들은 환경음을 인식하는 어플리케이션이지만, 음성 향상에서는 음성 이 외의 환경음은 제거를 목적으로 한다. 제안한 기법은 음성과 잡음을 각각 다른 팩터로 하여 잠재 공간 (latent space) 상에서 두 팩터를 분리하고, 잡음 팩터가 제거된 음성 팩터를 통해 깨끗한 음성 (clean speech)을 추정한다. 팩터 분리 학습으로 접근한 음성 향상 기법은 여러 성능 측정 기준에서 기존 딥 러닝 기반의 음성 향상 기법들보다 뛰어난 성능을 보였다. 또한 환경음 분류 정보를 사전에 이용한 환경음 인지 학습 (environmental sound aware training)이 음성 향상 성능에 미치는 영향을 확인하였다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)