Development of a prediction model for customer churn with life-log data for mobile healthcare applications
저자
발행사항
[Seoul] : Graduate School, Yonsei University, 2020
학위논문사항
학위논문(석사) -- Graduate School, Yonsei University Department of Digital Analytics 2020.8
발행연도
2020
작성언어
영어
주제어
발행국(도시)
서울
기타서명
모바일 헬스케어 애플리케이션 라이프 로그 데이터를 이용한 고객 이탈 예측 모델 개발
형태사항
v, 29장 : 삽화 ; 26 cm
일반주기명
지도교수: 박유랑
UCI식별코드
I804:11046-000000524631
소장기관
연구배경: 모바일 헬스케어 산업에서의 사용자 이탈 예측은 기업의 수익 측면 뿐만 아니라 사용자의 실질적인 건강 증진을 위해서도 중요하다. 이탈 예측은 과거 많은 연구가 진행되어 왔으나, 대부분 시계열 데이터를 받지 못하는 정적인 모델구조를 적용하였고, 주로 구조화된 데이터를 활용하였다. 그러나 점점 더 많은 비정형 데이터가 활용가능해지게 되었고, 이탈 예측 문제에 있어서 매일 발생하는 시계열 로그 데이터를 처리해야 할 필요가 있다.
연구목적: 본 연구의 목적은 모바일 헬스케어 사용자의 라이프 로그 데이터와 코칭 메시지 데이터를 활용하고, 시계열의 패턴을 찾아낼 수 있는 순환신경망 구조를 적용하여 사용자 이탈 여부를 예측하는 것이다.
연구방법: 이 연구는 음식, 운동, 체중 기록 등의 기능과 코치와의 대화형 메시지 기능을 제공하는 모바일 헬스케어 어플리케이션을 기반으로 수행되었다. 2017년 1월 1일부터 2019년 1월 1일 사이에 등록한 국내 이용자 중, 1) 유료 프로그램 종료 전에 환불을 받은 사용자, 2) 7일간의 체험 기간 이후에 환불을 받은 사용자들을 이탈 유저로 정의하였다. 본 연구에서는 길이가 상이한 시퀀스 데이터를 입력 받기 위해 마스킹 레이어가 있는 LSTM 모델 구조를 적용하였다. 또한 텍스트 메시지를 벡터화 하기 위해서 토픽 모델링을 진행하였다. 모델의 예측에 대한 각 변수의 기여도를 해석하기 위해서 Integrated gradients 방법을 사용하였다.
연구결과: 총 1,868명의 사용자들이 본 연구에 포함되었다. 이탈 예측의 최종 분류 성능은 F1 스코어 기준 0.89로, 최종시점으로부터 일주일 간의 데이터를 제외했을 때(0.77, F1 스코어 기준)에 비해 0.12 높은 결과를 보였다. 또한 텍스트 데이터를 포함했을 때 예측 성능은 전반적인 시점에서 F1 스코어 기준 0.085 상승하였다. 각 변수의 기여도에 있어서는 일평균 걸음 수가 가장 많았고(0.1085, 변수 기여도), 토픽 변수들 중에서는 ‘나쁜 습관(예: 음주, 과식, 야식 등)’ 변수가 가장 큰 기여도를 보였다(0.0875, 변수 기여도).
결론: 사용자 로그 데이터와 텍스트 데이터를 사용하는 순환 신경만 구조의 모델은 이탈 분류 예측에서 효과적인 성능을 보인다. 또한 변수 각각의 기여도를 확인함으로써 사용자 이탈 징후를 식별하고 모델을 개선하는데 활용할 수 있다.
Background: In the mobile healthcare industry, user churn prediction is important not only in terms of revenue for a company, but also for the improvement of the health of users. Churn prediction has been studied in many past studies, but most of them applied time-invariant model structures and primarily used structured data. However, an increasing amount of unstructured data has become available, and it became necessary to process daily time-series log data in churn prediction.
Objective: The purpose of this study is to apply a recurrent neural network structure to accept time-series patterns using life-log data and text message data to predict the churn of mobile healthcare users.
Methods: This study was based on a mobile healthcare application that provides the functions of food, exercise, and weight logging, and interactive messages with human coaches. Among the users in Korea enrolled between January 1, 2017 and January 1, 2019, we defined churn users according to the following criteria: 1) users who received a refund before the paid program ended; and 2) users who received a refund after 7 days of the trial period. We used LSTM with a masking layer to receive sequence data of different lengths. We also carried out topic modeling to vectorize text messages. To interpret the contributions of each variable to the predictions of the model, we used integrated gradients, which is an attribution method.
Results: A total of 1,868 eligible users were included in this study. The final classification performance of churn prediction was 0.89 (F1-score), and the score decreased by 0.12 when the data of the final week were excluded (0.77, F1-score). In addition, when text data were included, the predicted performance increased by approximately 0.085 (F1-score) on average at every time point. As for the contribution of each variable, the number of steps per day had the largest contribution (0.1085, contribution on model output), and among the topic variables, topic about bad habits (e.g., drinking, overeating, and late-night eating) showed the largest contribution (0.0875).
Conclusions: The model with recurrent neural network architecture that uses user log data and text data demonstrates high performance in churn classification. In addition, the contribution analysis of variables is expected to help identify signs of user churn and help in improving the model.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)