페이지랭크 알고리즘을 이용한 논문 분류 기법
저자
발행사항
용인 : 명지대학교 대학원, 2013
학위논문사항
학위논문(석사)-- 명지대학교 대학원 : 컴퓨터공학과 2013. 8
발행연도
2013
작성언어
한국어
주제어
발행국(도시)
경기도
기타서명
Document Classification for Research Articles Using PageRank Algorithm
형태사항
vi, 51 p. ; 26cm
일반주기명
명지대학교 논문은 저작권에 의해 보호받습니다.
지도교수:권동섭
소장기관
학술 논문의 발행 편수가 급격히 늘어나고 있다. 이에 따라, 많은 양의 신규 논문이 추가 되고 있는 상황에서 사용자가 직접 논문을 검색하여 자신이 원하는 주제의 논문을 찾는 것은 매우 어려운 일이 되고 있다. 따라서 문서 자동 분류 기법을 활용하여 논문을 분류하려는 연구가 활발히 진행되고 있다.
문서 분류 기법은 미리 정의된 범주들을 사용하여 가장 비슷한 범주로 문서를 분류하는 지도학습 기술이다. 문서 분류 기법은 일반적으로 벡터 공간 모델에서 기계학습 알고리즘을 이용하여 단어간 빈도수를 기반으로 유사도를 비교하는 것이다. 하지만, 이러한 분류 기법은 단순한 단어의 유사도에만 초점을 두고 있어 논문이 가지고 있는 참고 문헌, 저자, 출처등 다양한 구조적 정보를 충분히 활용하지 못하고 있다.
본 논문은 대부분의 논문들이 자신과 유사한 연구 주제를 가진 논문을 참조하고 있다는 사실에 기반하여 참조 관계를 활용한 새로운 논문 분류 기법을 제안한다. 제안 기법은 특정 주제에 해당하는 논문은 해당 주제의 중요 논문을 더욱 자주 참조한다는 가정 아래, 특정 주제의 논문들의 참조 관계를 그래프로 표현하고, 페이지 랭크 알고리즘을 이용하여 각 논문의 중요도를 분석한다. 그리고 분류 대상 논문이 참조하는 특정 주제 논문들의 페이지랭크 점수 합을 기반으로 기계학습 알고리즘을 이용하여 해당 문서를 분류한다. 본 논문에서는 또한 이 제안 기법을 기존의 텍스트 기반 문서 분류 기법과 결합하여 특정 주제의 논문을 보다 정확하게 분류하는 하이브리드 문서 분류 기법을 제안한다.
본 제안 기법은 단순히 많은 논문을 참조했다는 정보보다 특정 주제의 논문 중 얼마나 중요한 논문을 참조하고 있는지에 의하여 논문을 분류하므로 특정 주제의 논문을 보다 정확하게 분류할 수 있다. 뿐만 아니라 기존의 다양한 문서 분류 기법과 결합하여 이용이 가능하다.
본 논문은 제안 분류 기법의 성능을 검증하기 위해서 디지털 라이브러리 CiteSeerX와 DBLP에서 제공하는 실제 논문을 대상으로 다양한 실험을 실시하였다. 실험을 통해 제안 기법이 기존의 방법에 비하여 얼마나 정확히 문서를 분류하는지 검증하였고 이를 통해 제안 기법의 우수성을 증명하였다.
The number of published research articles has been increasing remarkably each year. For any researcher, it is not an easy task to browse an academic archive to find relevant work in the middle of flooding research articles. Hence, there has been a need for developing automatic document classifications, which are defined as pigeonholing similar documents together into predefined domains.
A popular approach in recent years has been using machine learning algorithms with simple text-based similarities. However, this approach suffers from the limitation of word-similarity-based classifications, which cannot exploit sufficiently structural information of documents. Research articles have special features that are typically not found in other types of articles or documents, which are, namely: reference list, author, publication, and keywords. In research articles, references are organized scrupulously and articles with the same category reference similar important articles. Similarity in reference relationship between research articles cannot be easily perceived with word similarity, and typical document classifications falls short of expectation in this aspect.
To overcome this limitation, the paper proposes a novel document classification method exploiting the characteristic that influential articles in similar fields are frequently cited by articles in the same class. Combined with the conventional text-based classification model, the proposed method classifies a document by PageRank-based scores of its references on a trained graph-based model.
For the purpose of determining the topic of any given research article, our proposed method extends the conventional method of merely counting the reference frequency by considering whether important sources within the subject class are referenced. In addition, this method is flexible enough to be combined with other document classification methods.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)