Emotional Piano Melodies Generation using Long Short-Term Memory
저자
발행사항
청주 : 충북대학교, 2020
학위논문사항
학위논문(석사)-- 충북대학교 일반대학원 : 전기·전자·정보·컴퓨터학부 컴퓨터과학전공 2020. 8
발행연도
2020
작성언어
영어
주제어
KDC
005.7 판사항(5)
발행국(도시)
충청북도
기타서명
Long Short-Term Memory를 이용한 감성적인 피아노 멜로디 생성
형태사항
ix, 70 p. : 삽화, 표 ; 26 cm
일반주기명
충북대학교 논문은 저작권에 의해 보호됩니다
지도교수: 이종연
참고문헌 : p. 56-65
UCI식별코드
I804:43009-000000054431
소장기관
인공지능의 급격한 발달은 생물정보학이나 자연 언어 처리, 말하기/듣기 인식, 영상 처리, 사회 관계망 여과, 자동 번역, 컴퓨터 비전, 스마트 공장이나 등등 이와 같은 많은 분야들에서 발전하고 있다. 이는 또한 음악 산업에서도 새로운 물결을 일으키고 있으며, 이 분야의 인기 있는 주제들 중 하나는 바로 자동 작곡이다. 많은 음악 연구자들이 딥 러닝 기법을 이용해 창작의 질을 높이고 원하는 결과를 얻기 위해 생성 모델들을 적용해왔다.
이 연구에서 우리는 가장 먼저 피아노 음악 데이터셋을 wav 오디오 파일형식으로 분석하고 그것을 MIDI 파일로 변환시킨다. 음(notes)과 화음 (chords) 대상들은 변환된 상징적(symbolic) 데이터셋으로부터 분리되어 모델을 시험하기 위해 수치 데이터로 부호화된다. 그리고 나서 우리는 서로 다른 layer들의 Long Short-Term Memory (LSTM) 신경 네트워크 그리고 Self-Attention (SA) 메커니즘을 우리의 모델들에 적용해 200번과 400번 반복하여 행복, 편안함, 슬픔, 두려움 감정들에 대한 6가지 실험을 수행했다. 이 연구의 결과로 우리는 음악 생성 (Music Generation)의 실험 결과의 비교를 보여주고 손실 분석 (loss analysis)과 인간 평가 (human evaluation) 방법에 의해 생성된 결과를 평가한다. 손실 분석에서는, 하나의 layer와 두 개의 layer를 가진 LSTM 네트워크가 각각의 감정들에 대해 다른 모델들보다 좋은 결과를 보여주었던 반면, SA 메커니즘을 이용한 LSTM 네트워크는 200번 반복하여 실험한 결과 여전히 손실이 가장 높았다. 그래서 우리는 400번으로 반복하여 네트워크를 재시험하였는데, 이 때 SA 메커니즘을 이용한 LSTM 모델의 손실 비율은 전자의 200번 반복했을 때보다 현저하게 줄어들었다. 따라서 두 layer가 있는 LSTM과 하나의 layer 모델이 있는 SA는 각각 0.0111, 0.0067, 0.0029, 0.0349로 각 감정에서의 손실이 가장 낮은 결과를 나타냈다. 인간 평가에서는, 슬픔과 두려움 감정에 해당하는 멜로디들이 가장 정확하게 인식되었다. 하지만 행복을 표현한 멜로디는 다른 감정의 멜로디들에 비해 거의 인식되지 못했다. 인간 평가의 정확도 결과는, 음이나 화음 대상들은 슬픔과 두려움을 표현하는 곡을 작곡하기에 적합하며 또한 쉼표나 빠르기 같은 음악 요소들이 더해져야 행복하고 평화로운 음악이 탄생한다는 것을 보여준다.
The rapid development of artificial intelligence is advancing in many areas such as bioinformatics, natural language processing, speech and audio recognition, image processing, social network filtering, machine translation, computer vision, smart factory and so forth. It is also bringing a new wave to the music industry. One of the popular topics in this field is automatic music composition. Many music researchers have been using Deep Learning (DL) techniques, applying generative models to improve the quality of song creation and achieving desired results. Our main contribution of this research is to compose emotional piano music using the audio dataset categorized into four emotions: happy, sad, peaceful, and scary and to solve the problem of musical long-term dependency.
Above all, we analyze the piano music dataset with wav audio file format and convert it into midi file. The notes and chords objects are separated from the converted symbolic dataset and encoded them into numerical data to train the model. Then, we performed various experiments on each emotion dataset applying the Long Short-Term Memory (LSTM) neural networks with different layers and Self-Attention (SA) mechanism to our model in 200 and 400 epochs.
As a result of this research, we show the comparison of the experiment results of music generation and evaluate our generated results by loss analysis and human evaluation methods. For loss analysis, while the LSTM networks with a single layer and two layers gave better results than other models for each emotion, the LSTM networks with the SA mechanism still had the highest loss as a result of the experiment with 200 epochs. Hence, we retrained the models with SA mechanism for 400 epochs. That time, the loss rates of the LSTM models with the SA mechanism were significantly reduced than the previous experiment.
Therefore, the LSTM with two layers and the SA with a single layer model showed the results with the lowest loss for each emotion, 0.0111, 0.0067, 0.0029, and 0.0349, respectively. For human evaluation, the melodies of sad and scary emotions were correctly recognized with the highest accuracy. However, the melody that expresses happy emotions was harder to recognize than other emotional melodies. The results of human evaluation show that notes and chords objects used in this research are suitable for composing sad and scary emotional music and that other musical characteristics such as rests and tempo should be added to generate happy and peaceful emotional music.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)