교육용 동영상의 키워드 검색기 설계 및 구현 = Design and implementation of a keyword search engine in educational videos
저자
발행사항
서울 : 한국방송통신대학교, 2020
학위논문사항
학위논문(석사) -- 한국방송통신대학교 대학원 , 이러닝학과 , 2020
발행연도
2020
작성언어
한국어
KDC
373.33 판사항(6)
DDC
371.334 판사항(23)
발행국(도시)
서울
형태사항
vii, 50장 ; 26 cm
일반주기명
지도교수: 김용
권말부록: 유사음운문사전
참고문헌 수록
소장기관
이러닝 환경에서 동영상은 학습콘텐츠를 전달하는 보편적인 매체가 되었다. 그렇지만 재생 시간이 다소 긴 동영상에서는 학습자가 찾고자 하는 키워드가 등장하는 시점을 찾기 위해 처음부터 순차적으로 찾아야 한다는 불편함이 있다. 이러닝 도구로 선호되고 있는 유튜브와 같은 동영상 플랫폼에서는 동영상과 함께 음성인식기로 자동 생성된 ASR(automatic speech recognition) 캡션트랙을 제공하고 있으므로, ASR 캡션트랙 이용하여 동영상에서 사용자가 찾고자 하는 키워드가 등장하는 시점을 효과적으로 검색할 수 있는 수단을 제공한다면, 동영상 제작자에게 추가 부담을 주지 않고도 학습자가 학습하고자 하는 부분을 직접 검색할 수 있으므로 순차적으로 찾아야 하는 불편함을 줄일 수 있으며, 학습콘텐츠와의 상호작용 측면에서도 학습자의 통제감 향상에 긍정적인 영향을 줄 수 있을 것이다.
자연어를 텍스트로 나타낸 기존의 문서들은 대부분 사람에 의해 생성되었으나, 요즈음은 인공지능 기술이 발전함에 따라 동영상의 ARS 캡션트랙과 같이 사람이 발화한 소리 신호를 음성인식기가 인식하여 자동으로 텍스트를 생성하는 사례가 늘어나고 있다. 그러나, 음성인식기는 발화 내용을 문법과 내용 측면에서 종종 정확한 문장으로 변환하지 못하며, 공백문자의 위치도 단어와 단어를 구별하기보다는 발화 중단점을 나타내는 경향이 강하다는 한계가 있으므로, 사람에 의해 작성된 문서에 적용되었던 검색 방법들로는 잘 검색되지 않는다는 문제가 있다. 음성인식기로 생성된 텍스트에서 사용자 지정 키워드를 보다 정확하게 검색하기 위해서는 부정확한 텍스트의 상태를 고려한 전처리 기법과 형태적 유사성에 기반한 검색 방법이 필요하다.
따라서, 본 연구에서는 보편적인 이러닝 학습 도구로 자리 잡은 교육용 동영상에서 ASR 캡션트랙을 활용하여 보다 정확하게 사용자 지정 키워드를 검색할 수 있는 방법을 설계하고 프로토타입 검색기로 구현하여 검색 성능의 타당성을 평가하고자 하였다. 검색기는 크게 전처리 모듈과 유사도 측정 모듈로 설계하였다. 전처리 모듈에서는, 오류사례 분석을 통해 정의한 유사음운문사전과, 머신러닝을 이용한 텍스트 처리 분야에서 단위 단어를 식별하기 위해 제안된 단어분리기법을 적용하여 캡션트랙의 텍스트를 정제하도록 하였으며, 유사도 측정 모듈에서는 의미관계 보다는 형태성에 집중하도록 문자열 거리를 적용하여 설계하였고, 검색 테스트 및 타당성 검증을 위해 프로토타입 검색기로 구현하였다. 또한, 문자열 거리 알고리즘에 따른 성능의 차이를 확인하기 위하여 세 가지 검색 방법을 검색기에 구현하였다. 세 가지 검색 방법은 적용된 문자열 거리에 따라 해밍거리 기반의 검색 방법과 첫음절의 초성에 더 큰 거리 가중치를 부여한 초성가중 해밍거리, 그리고 공통 문자의 수와 공통 접두사에 집중하는 자로-윙클러거리를 기반으로 한 검색 방법이다.
오류사례분석과 성능 테스트에는 유튜브에 게시된 학습 동영상의 ASR 캡션트랙이 사용되었으며, 검색 성능의 평가 기준은 이진 분류기의 대표적 성능 지표인 조화평균과 메튜상관계수로 하였다. 웹 브라우저에 출력된 동영상의 ASR 캡션트랙을 활용하여 사용자가 입력한 키워드와 정확히 일치하는 문자열을 검색하는 일반적인 검색 방법을 기준 검색 방법으로 설정한 후, 기준 검색 방법과 본 연구에서 구현한 검색기의 세 가지 검색 방법 간 성능을 비교한 결과, 기준 검색 방법에서는 조화평균과 메튜상관계수가 각각 0.142와 0.149를 보인 반면, 해밍거리 기반 검색 방법은 0.721과 0.741, 초성가중 해밍거리 기반 검색 방법은 0.684와 0.713, 그리고 자로-윙클러거리 기반 검색 방법은 0.627과 0.658로 나타났다. 이와 같은 성능의 차이가 통계적으로 유의미한 수준인지 확인하기 위해 윌콕슨 부호 순위 검정을 실시한 결과, 두 지표의 유의확률인 p 값이 비교한 세 가지 경우에서 모두 유의수준 (0.05) 보다 작게 나타났다. 이는 연구 검색 방법들의 성능이 기준 검색 방법의 성능에 비해 유의미한 차이가 있는 수준으로 개선되었음을 의미한다.
한편, 같은 지표를 기준으로 검색기의 세 가지 검색 방법 간 차이를 서로 비교한 결과에서는 해밍거리와 초성 가중 해밍거리 비교 p값이 0.673과 0.8, 해밍거리와 자로-윙클러 거리 비교 p값이 0.151과 0.108, 그리고 초성 가중 해밍거리와 자로-윙클러거리 비교 p값이 각각 1과 0.675였다. 이는 유의확률 p값이 모두 유의수준 (0.05) 보다 큰 것이므로, 적용된 세 가지 문자열 거리 알고리즘 간에는 유의미한 차이가 없다는 것을 의미한다.
본 연구는 사전 토큰화가 어려운 텍스트에서도 단어를 분리할 수 있는 단어분리모델과 형태적 유사성을 측정하기 위한 문자열 거리를 적용했을 때 음성인식기에 의해 생성된 부정확한 한글 텍스트에서도 사용자 지정 키워드에 대한 검색 결과를 개선시킬 수 있음을 보였다는 것에 의의가 있다. 본 연구의 내용은 교육용 동영상에서 ASR 캡션트랙을 활용하여 학습자 및 교수자들이 찾고 싶은 구간을 문자열로 검색할 수 있는 서비스를 구현하고자 할 때 사용할 수 있으며, 음성인식 텍스트와 유사한 특성이 있는 텍스트를 대상으로 한 문자열 검색에도 적용할 수 있다.
그러나, 본 연구에서는 텍스트에 대한 정제 작업이 연구대상 동영상 범위에서 작성된 소규모 유사음운문사전과 단어분리모델 생성시 정의된 7,000개의 단위단어에 종속적이라는 한계가 있다. 향후 음성인식 텍스트의 정교한 정제를 위해서는 유사음운문사전의 확장과 단어분리모델의 학습 최적화를 위한 대상 도메인의 구어체 말뭉치 생성이 필요할 것으로 생각된다.
The video has become popular media for delivering learning contents in e-Learning environment. In an educational video with a long playback time however, learners and instructors have to search sequentially from the beginning because there are few handy ways to directly search for the point where the keyword they want to find appear, which is less convenient. Video platforms such as YouTube, which is preferred as an e-Learning tool, provide ASR caption track that is automatically generated by a voice recognizer. It could have a positive effect on improving learners’control in terms of interaction with learning contents if a means could be provided to effectively search for keywords in a video using ASR caption track.
With the development of artificial intelligence technology, automatic speech recognition text including ASR caption track are increasing. However, the speech recognizer often converts the utterance content into an incorrect sentence in terms of grammar and content. Besides, since white space positions tend to indicate an utterance stop point rather than distinguishing a word from a word, it is less effective to search keywords by an exact string matching or semantic relationship in the text. In order to search for a keyword in speech recognized text more accurately, a different search technique based upon morphological similarities and text preprocessing appropriate to such inaccurate text is required.
Therefore, in this study, a keyword search engine from ASR caption track in a video was designed and implemented as a prototype tool to evaluate the validity of search performance. The proposed engine was composed of a text preprocessing phase and a similarity measuring phase. In the text preprocessing phase, the inaccurate text are refined referring to the phonological dictionary defined through conversion error analysis. In addition, stopwords in the middle of sentences without white-space characters were able to be eliminated applying the SentencePiece model. In the similarity measurement phase, Hamming and Jaro-Wingkler string metrics measuring morphological similarities were applied to the Korean phoneme level so that keywords having similarity above a given threshold can be searched. The search methods implemented in the prototype tool of this study are 1) Hamming distance based method that uses equal distance weight at each phoneme position, 2) modified Hamming distance based method that assigns higher distance weight at the first phoneme in the first syllable, and 3) a Jaro-Winkler distance based method that focuses on the count of common characters and common prefix.
The ASR caption tracks of 28 educational videos published on YouTube were used in this study. Out of them, 25 were used for conversion error analysis and the remaining 3 were used for performance tests. The search performance was evaluated by the F-measure and Matthew’s correlation coefficient.
The exact string matching function of a web browser using the ASR caption track was set as a baseline method. The comparison result of search performance between each of the three search methods implemented in this study and the baseline method was as follows: In the Baseline method, F-measure and Matthew’s correlation coefficient were 0.142 and 0.149 respectively, while 0.721 and 0.741 for the Hamming distance-based method, 0.684 and 0.713 for the modified Hamming distance-based method, and 0.627 and 0.658 for the Jaro-Winkler distance-based method. These figures showed that the three research methods were more accurately searched keywords than the baseline method. In addition, as a result of wilcoxon signed rank test between each of the three methods and the baseline method, the p-values of the two indicators were less than the significance level which is 0.05 in all three cases. This means that the keyword search performance of the three research methods were all significantly improved compared to the baseline method.
This study result shows the possibility to improve keyword search performance even in incorrect Korean text by applying the SentencePiece model and a string metric based search technique. This keyword search engine could be useful when learners or instructors want to search for the point where a keyword they want to find appears in a video using the ASR caption track and it may also be used in post-processing of speech recognized text.
In this study, however, the text cleaning for inaccurate speech recognized text was dependent on only 7,000 vocabularies generated by the SentencePiece model and the small-sized phonological dictionary defined in the range of the research subjects. In the future, it is necessary to expand the corpus of target domains to optimize SentencePiece model’s learning as well as a phonological dictionary.
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)