국내 온라인 커뮤니티 게시글에 기반한 신조어 추출 방법 및 형태소 분석 적용에 관한 실증적 연구
저자
발행사항
서울 : 연세대학교 정보대학원, 2019
학위논문사항
학위논문(석사) -- 연세대학교 정보대학원 빅데이터 석사과정 2019.2
발행연도
2019
작성언어
한국어
주제어
발행국(도시)
서울
기타서명
Extraction method of new word from online community : the application of new method to morphological analysis
형태사항
v, 42장 : 삽화 ; 26 cm
일반주기명
지도교수: 이상우
UCI식별코드
I804:11046-000000519495
소장기관
A new-word is an important factor when you implement text analysis because new words are produced rapidly as times go by. The process of new words’ appearance and disappearance are as fast as the change of society. Unlike English, Hangul has many morphemes in one word, so morphological analysis is essential in natural language processing. Without using dictionary including newly produced words, you cannot analyze an appropriate morphological analysis because newly produced words might be broken down into smaller morphemes, and thus losing its meaning. When you analyze morphological analysis without including newly produced words, you cannot expect to get good results from morphological analysis.
In addition, it is not easy to construct a dictionary that includes rapidly produced new words. If the text data contains a previously unknown new word, the new word will not be extracted into one morpheme. Therefore, it is necessary to construct a dictionary that includes new word from the text data if you analyze text analysis. This dictionary should be used again for morphological analysis process.
In the study, a new-word discrimination model was proposed as a method of extracting new-word from text data. To make a model, 3 month(from July to September 2018) post titles are collected from Domestic Baseball Gallery of www.dcinside.com, the largest online community in Korea. After preprocessing the collected data, all possible partial characters in each word were generated and partial characters with frequency more than 0.01% of total number of words were selected as new-word candidates word.
The statistical characteristics of each candidate word in the whole text data were used as independent variables. And the logistic regression analysis was performed with dependent variables as the actual new-word. As a result of the analysis, the model is constructed with 7 variables and the accuracy of the model is 81.94% and the sensitivity is 81.2%.
In order to apply the model empirically, the title of the post in October 2018 from the site were collected. 127 new-words were extracted from the text by calculating 7 statistical variables for each candidate word. The extracted new-words were added into the morpheme analysis program as a user dictionary. And two word clouds were generated with most frequently mentioned nouns from 10,000 randomly selected post titles. One was with new-word dictionary, and the other was without new-word dictionary. It was confirmed that the nouns that were not appeared in word cloud without new-word dictionary are appeared in word cloud with new-word dictionary.
신조어는 생성 당시의 사회상을 반영하는 단어라는 특징이 있기 때문에 텍스트 분석 시 무시할 수 없는 중요 단어라고 할 수 있다. 사회의 변화 속도가 점점 빨라짐에 따라 신조어의 생성과 소멸도 빨라지는 경향이 있어서, 신조어가 사전으로 구축되는 시점이 생성된 시점보다 늦기 마련이다. 그리고 한글은 영어와 달리 하나의 어절이 여러 형태소를 가지고 있기 때문에 자연어 처리 시 형태소 분석 과정이 필요한데, 형태소 분석 중 신조어로 인해 미등록어 처리에 대한 문제가 나타난다. 형태소 분석 결과에 신조어가 하나의 형태소로 유지되지 못 하고 더 작은 형태소로 잘 못 분해되어 신조어의 의미를 잃어버리는 경우가 발생하는 것이다.
신조어의 양이 급격하게 증가하고 있는 환경에서 신조어 사전을 미리 구축하여 텍스트 분석 시 활용하기에는 무리가 있다. 만약 분석하고자 하는 텍스트 데이터에 처음으로 등장한 신조어가 있다면 해당 신조어는 하나의 형태소로 추출되지 않을 것이다. 따라서 텍스트 분석을 진행할 때마다 분석하고자 하는 텍스트 데이터로부터 신조어를 추출하는 과정을 먼저 진행하여, 해당 텍스트 데이터만을 위한 신조어 사전을 먼저 구축하고, 이를 형태소 분석 시 다시 활용하는 방법이 텍스트 분석할 때 텍스트의 의미를 더 정확하게 파악하는 방법이 될 것이다.
본 연구에서는 텍스트 데이터로부터 신조어를 추출하는 방법으로 신조어 판별 모델을 제시하였다. 모델을 만들기 위해 국내 최대 온라인 커뮤니티인 디시인사이드의 국내 야구 갤러리의 2018년 7월부터 9월까지 3개월간의 게시물 제목을 수집하였다. 수집된 데이터를 전처리한 후 각 어절에서 조합이 가능한 모든 부분 글자들을 생성하여 빈도수가 전체 어절 수의 0.01%를 넘는 단어를 신조어 후보 단어로 선정하였다. 후보 단어가 전체 텍스트 데이터에서 가지는 통계적 특징을 독립변수로 사용하기 위하여, 각 후보 단어의 길이와 빈도수와 어절에서 시작부분에 위치하는 비율과 끝부분에 위치하는 비율을 계산하고, Python 패키지인 soynlp의 WordExtractor 클래스를 사용하여 각 후보 단어의 글자가 함께 등장하는 정도와 후보 단어의 왼쪽과 오른쪽에 등장하는 글자의 다양성을 수치화하였다. 모델의 종속변수를 확보하기 위하여 신조어 후보 단어가 실제로 신조어인지를 파악해야 하는데, 이는 본 연구자가 각 후보 단어를 인터넷에 검색해 보거나 후보 단어가 사용된 데이터 내의 문장을 검토하여 판단하였다.
확보된 분석 데이터에 로지스틱 회귀분석을 수행하여 7개의 변수로 구성된 신조어 판별 모델을 생성하였다. 한글을 형태소 분석할 때에 신조어가 더 분해되거나 빠뜨리지 않고 포함되도록 하는 것이 본 연구의 궁극적인 목적이기 때문에 신조어가 아닌 단어를 신조어라고 판단하는 경우보다, 신조어인데 신조어로 판별하지 못하는 경우를 줄이는 것이 중요하다. 따라서 모델의 정확도만큼 민감도도 중요하다고 볼 수 있다. 본 연구에서 생성한 신조어 판별 모델의 정확도는 81.94%, 민감도는 81.2%이다.
본 연구에서 생성한 신조어 판별 모델을 실증적으로 적용해보기 위해 디시인사이드 국내 야구 갤러리의 2018년 10월 게시물 제목으로부터 신조어 후보 단어를 추출하고 추출된 후보 단어마다 모델에 필요한 7개 독립변수를 계산하여 127개의 신조어를 추출하였다. 추출한 신조어를 형태소 분석 프로그램의 시스템 사전 또는 사용자 사전에 추가하여 2018년 10월 게시물 중 무작위로 뽑은 5,000건을 형태소 분석하여 데이터에서 자주 언급되는 명사 단어로 워드 클라우드를 생성하였다. 그리고 신조어를 추가하기 전의 형태소 분석 결과와 비교하여, 신조어 사전이 추가됨으로 인해 추출되지 않던 단어가 빈도수 상위 단어로 추출되고, 하나의 신조어가 나누어 추출되던 오류가 수정되는 것을 확인하였다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)