A Hybrid Method of Text Analysis Based on LDA for Resolving Customer Reviews = 고객 리뷰를 해석하기 위한 LDA 기반의 복합적 텍스트 분석 방법
저자
발행사항
서울 : 건국대학교 대학원, 2019
학위논문사항
학위논문(석사)-- 건국대학교 대학원 : 소프트웨어학과 2019. 2
발행연도
2019
작성언어
영어
주제어
발행국(도시)
서울
형태사항
54 ; 26 cm
일반주기명
지도교수: 김지인
UCI식별코드
I804:11004-200000170351
소장기관
In recent years, online retail participation rates in global sales have been growing tremendously. When the most of online resources are interconnected, any published review about negative experiences of products may cause a destructive effect on reputation of their producers and their sales. The proper analysis of the customer reviews and determining negative factors affecting on client’s satisfaction may not only protect online retail consumers from significant financial loses, but also can moderate economic and reputational losses of the production companies and the sales companies.
In this thesis, we propose a model with different a data sampling method and a topic modelling approach as an analysis tool for discovering product defects and capturing reasons of the negative user experiences. A traditional model uses a single word in extracting a feature. It is extended by combining with phrasing, unigram and bigram models. The phrasing model is employed to detect product category specific semantics and their relations. It captures a combination of essential words which provides an insight about abstract topics generated by LDA. In this thesis, an analysis of critical topics is performed to capture negative experiences of online retail clients and reasons of generating them.
As a result of applying the proposed model to male-shirt and female-shirt datasets, gender-specific topics were not detected. The different data sampling models generated almost identical vocabulary lists for the same topics from the datasets. Along with it, the phrasing model performed better than other data sampling models in terms of generating meaningful topics. Design, sizing and physical features were the main topics of the complaints. Their ratios were measured at the almost same values with marginal topic distribution for bigram and unigram model. The sizing issue remained as a dominant topic in the phrasing model with 66%.
Moreover, the phrasing model provided another meaningful topic which was named as “ratio mismatching”. It implies that customers were unhappy with sizes and lengths of a particular part of clothing. The results from the linear regression model showed that the topics produced by the unigram and phrasing models demonstrated the significant impact on customer satisfactions rates, although the only phrasing model provided the negative coefficient for the topic variable. It means the phrasing model could extract more topics that wondered online retail clients and reasons of negative experience.
최근 몇 년 동안 글로벌 판매 중에, 온라인 소매가 엄청나게 증가했다. 대부분의 온라인 자원이 상호 연결되었을 때, 사용자의 후기 중 제품 결함으로 인한 부정적인 경험에 관한 내용이 있을 경우, 제품 생산자의 평판과 판매량에 큰 타격을 줄 수 있다. 고객의 제품 사용 후기에 관한 적절한 분석과 고객의 만족도에 영향을 미치는 부정적인 요인들을 분류해내는 것은 온라인 소매 소비자들을 심각한 재정적 손실로부터 보호할 뿐만 아니라 기업의 경제적 손실 및 브래드 가치 하락을 막을 수 있다.
본 논문에서는 제품 결함을 발견하기 위한 분석 및 고객의 제품에 관한 부정적인 경험의 이유를 포착하기 위한 도구로서 다양한 데이터 표본 추출 모델과 주제 모델링 접근법에 대해 논의하였다. 전통적인 “1단어 기능 추출 접근” 방식을 확장하여 표현식 모델, 유니그램 모델 및 빅그램 모델이 연구되었다. 표현식 모델은 LDA에서 생성된 추상적 주제에 대한 통찰력을 제공하는 필수 단어 조합을 포착한다. 제품 범주별 의미적 관계를 분석하는 역할을 수행하고자 채택되었다. 본 논문에서는 온라인 구매자들의 제품에 관한 부정적인 경험과 그 이유들을 포착할 수 있는 몇 가지 중요한 주제들에 관해 분석을 하였다.
연구 수행 결과, 남성복과 여성복 데이터 세트가 특정 성별에 국한된 주제나 동일한 주제에 대해 거의 동일한 어휘 목록을 생성한다는 것을 보여주었다. 이와 함께, 표현식 모델은 의미 있는 주제들을 다수 생성한다는 측면에서 다른 데이터 표본 추출 모델보다 더 좋은 성능을 발휘하였다. 즉, 디자인, 크기, 신체적 특징에 대하여 불만을 제기하는 비율은 bigram 및 Unigram 모델의 주변 주제어 분포에서 비슷한 비율로 분석되었다. 반면에, 표현식 모델에서 크기 문제는 66%를 차지하여 고객 분석의 주요 주제로 남아있다는 것을 보여주었다.
표현식 모델은 “비율 불일치” 주제라는 또 다른 의미 있는 주제를 제공하였다. 이는 고객이 의류의 특정 부분의 크기와 길이에 대하여 만족하지 않았다는 것을 의미한다. 선형 회귀 모형 결과에 따르면 유니그램과 표현식 모델을 같이 사용하여 도출한 주제어들이 고객의 만족도에 큰 영향을 준다는 것을 보여주었다. 표현식 모델만을 사용하는 것은 주제 변수에 대한 부정적인 계수를 제공하지만, 이는 유니그램과 표현식 모델을 같이 쓰는 것이 사용자의 궁금증을 이끌어내고 제품에 관한 부정적인 경험의 이유를 포착할 수 있는 주제어를 더 많이 추출할 수 있다는 것을 의미한다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)