Text mining for document classification and summarization
저자
발행사항
Seoul : 高麗大學校 大學院, 2016
학위논문사항
學位論文(博士)-- 高麗大學校 大學院 : 産業經營工學科 2016. 2
발행연도
2016
작성언어
영어
주제어
발행국(도시)
서울
형태사항
115장 : 삽화, 도표 ; 26 cm
일반주기명
지도교수: 金性範
참고문헌: 장 98-115
DOI식별코드
소장기관
With the rapid growth of World Wide Web and online information services, a huge amount of text documents has generated and made accessible. Although these text documents are one of the most valuable sources of information reflecting the numerous author’s intention, their extensive availability has compromised their usefulness. Thus deriving high-quality information from documents is one of the critical issues in a wide range of text mining areas. Text mining is a practical and effective method for discovering the hidden knowledge of the natural language text. The main advantage of text mining is to solve problems of managing a great amount of unstructured information for extracting pattern by detecting reasonable causes. Text mining has been applied in a variety of research areas, including information retrieval, exploratory analysis, sentimental analysis, summarization, and categorization. Despite a lot of traditional research effort, current text mining studies still have many limitations and margins for improvement because these techniques are not satisfactory for handling huge numbers of complex textual data found in real-world. To satisfy these needs, efficient methods and techniques are needed to establish a new paradigm for text mining studies beyond the conventional text mining framework.
The main objective of this dissertation is the establishment of the text mining process through their integration with data mining algorithms to efficiently handle the documents for classification and summarization. First, we propose a method based on classification algorithms for measuring the similarity between two texts. The proposed similarity measure with a classification algorithm to achieve the high similarity accuracy by classifying a sentence-term matrix, and thus, eventually improves the usefulness and effectiveness of text similarity measure.
Second, we present a summarization process of customer reviews, called the feature network-driven quadrant mapping (FNQM) that integrates data mining algorithm with social network analysis. We propose a feature network-driven quadrant mapping that captures and incorporates opinions from customer reviews. Our focus in this dissertation is on the construction of a feature network that can be visualized as a quadrant graph that presents an easily understood summary of customer reviews. The summarized results are useful to both customers and merchants in selecting products.
Finally, this dissertation proposes the finding tendency methodology using various reasonable methods which a low-dimensional embedding method, clustering analysis, association rule, and social network analysis. To find meaningful associative patterns, we used keywords frequently appeared in the papers that IIE Transactions, one of the representative journals in the field of Industrial Engineering. Experimental results show that the proposed approach is a promising alternative to the conventional methods for large documents tendency research.
The proposed methods in this dissertation are capable of handling important issues that can be encountered in text mining realms. In summary, similarity measure based on classification algorithm can efficiently distinguish similar texts without any selection of terms. The FNQM method provides a practical solution to visualization and interpretation of product’s reviews about customers and merchants concerns. The methodology to identify meaningful trends and patterns in large volumes of text data can be useful for a variety of text analytics over time. I believe that all of the proposed methodologies in this dissertation are promising in that they are effective to help the text mining problems and thus can be applied to the many real-world issues.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)