블로거의 포스팅 습관을 반영한 블로그 검색엔진 = (A) blog search engine reflecting bloggers' posting habits
저자
발행사항
부천 : 가톨릭대학교 대학원, 2010
학위논문사항
학위논문(박사)-- 가톨릭대학교 대학원 : 컴퓨터공학과 컴퓨터공학 전공 2010. 2
발행연도
2010
작성언어
한국어
주제어
DDC
005.72 판사항(21)
발행국(도시)
경기도
형태사항
xii, 83 p : 삽도 ; 26 cm.
일반주기명
가톨릭대학교 (성심) 논문은 저작권에 의해 보호받습니다.
지도교수: 황병연
참고문헌(p. 74-77) 포함
소장기관
Internet technologies and web based industries have emerged rapidly since 1990s. The direction of internet development is under discussion over the last several years, and Web 2.0 stands in the crux of dispute. Web 2.0 is a next generation web service paradigm which is different from past technologies. Personal media is one of the most important issues from Web 2.0. The appearance of professional blogging tools such as Tistory or Wordpress allow anyone to author a personal blog, and no specialized computer knowledge is required. It is quite easy to create articles on a personal blog and share them via searching services such as Google.com or Technorati.com. According to Technorati’s “state of the blogosphere 2008,” 77% of active Internet users read blogs. This makes us know that a service which gathers and retrieves blog contents is important in the next generation web.
Currently, new services are emerging that are offering RSS reader tools like a portal service, referred to as a meta-blog. A meta-blog gathers RSS from blogs by operating crawlers or by inducing people to add RSS to their own blogs. General crawler visits all outlinks from the seed URL, and these outlinks become new seed. However this crawling algorithm waste too much time to find feed, because mostly a blog has one feed. To solve the problem this paper proposes novel crawling method which uses rules about generator and location of feed. It makes crawler find feed fast.
The development of an efficient update manager is urgently required, because the contents of feeds are continuously changing. Meta-blogs can check for updates every ten minutes, every hour, or at any specified static interval. Some meta-blogs classify blogs according to the update frequency, and they can check frequently updated blogs at a different time interval than those updated less frequently. Checking for updates too frequently results in unnecessary overheads, so new methods for predicting updates to a feed are necessary. Blog postings have a particular pattern unique to each blogger’s activities, and we expect that it is possible to predict a blog update by analyzing the days of the week and hours of the day that the blogger actively posts new content. Proposed update manager reduces usage of network and system resources.
Quantity of blog contents is increasing by time. Generally data clustering and indexing are used to retrieve massive data efficiently. There are some clustering methods based on structural similarity and semantically similarity. RSS and ATOM feed data has their own schema, so clustering based on contents similarity is used. Bitmap clustering scores fast speed when it retrieves XML data. However it causes deterioration of result of searching quality on massive feed data, because it makes too many clusters. This paper proposes k-Bitmap clustering method that can generate user defined k clusters to solve above-mentioned problem. The proposed method also keeps additional inverted index for searching excluded terms from representative bits of K-Bitmap. It helps keep high quality in search.
The main contributions of this paper are three-fold: 1) to propose RSS crawler and update manager to develop efficient blog search engine and 2) to evaluate proposed methods with real world data. Also we introduce a 3) k-bitmap clustering to retrieve massive feed data from blogs. The evaluation results show high good performance in various factors.
1990년대 이후 지금까지 인터넷 기술과 웹기반 산업은 빠르게 성장하였다. 최근 몇 년 동안은 인터넷이 어떤 방향으로 발전되어야 할지에 대한 논의가 활발히 이루어지고 있으며, 그 논의의 중심에 웹 2.0이 있다. 웹 2.0은 최근 웹의 발전 방향과 트렌드를 의미하는 용어이다. 웹 2.0 이슈 중 주목할 만한 것이 개인 미디어의 발달이다. 워드프레스나 티스토리와 같은 전문 블로깅 툴의 등장은 일반인들이 손쉽게 블로그를 만들고 컨텐츠를 생산할 수 있는 환경을 제공했다. 또한 생성된 컨텐츠는 구글이나 테크노라티와 같이 검색서비스를 통해 여러 사람에게 공유된다. 전 세계 인터넷 접속자의 77%가 블로그에서 생산된 컨텐츠를 보고 있다는 통계는 차세대 웹에서 블로그 컨텐츠를 수집하고 검색서비스를 제공하는 것이 얼마나 중요한지 알려준다.
블로그 검색의 중요성을 인지한 몇몇 기업을 통해 블로그라인이나 테크노라티, 올블로그 같은 메타블로그 서비스가 새롭게 등장하고 있다. 메타블로그는 블로그에 등록된 RSS나 ATOM과 같은 피드(feed)를 수집한다. 피드를 수집할 때 크롤러(crawler)를 이용하기도 하지만, 대부분의 경우 블로거의 직접적인 등록에 의해 수집이 이루어진다. 일반적으로 크롤러는 시드(seed)로 주어진 URL로부터 모든 아웃링크를 방문하고, 각 아웃링크가 새로운 시드가 되는 재귀적 방법을 사용한다. 하지만 대부분 피드는 한 블로그에 한 개 정도 존재하기 때문에 불필요한 아웃링크의 방문은 수집시간의 지연을 야기한다. 본 논문에서는 이러한 문제를 해결하기 위해 블로그 생성기(generator)와 피드의 상대주소에 대한 규칙을 생성하고 이를 이용해 수집하는 시간을 줄이는 방법을 제안한다.
블로그는 기존의 웹 사이트와 다르게 빈번한 갱신이 일어나고, 그 갱신은 피드에 기록된다. 블로그 검색을 위해 피드를 수집한 다음에는 지속적으로 피드의 갱신을 확인해야 블로그의 갱신 여부를 알 수 있다. 대부분의 블로그 검색서비스에서는 10분이나 한 시간과 같은 일정한 시간단위로 피드의 갱신여부를 확인한다. 이러한 갱신확인 방법은 최소한 수십만 개 이상의 블로그 피드가 등록되어있는 블로그 검색 서비스에서 상당한 네트워크 비용과 시스템 자원의 낭비를 발생시킨다. 이 문제를 해결하기 위해 적응적 갱신매니저를 소개한다. 이 논문에서는 일정한 생활 패턴을 가지는 사람에 의해 운영되는 블로그도 각 블로그마다 고유한 갱신 패턴을 가질 것이라 가정한다. 이 가정에 의해 적응적 갱신매니저는 각 블로그의 과거 갱신이력과 요일별 갱신빈도를 조사하여 블로그가 앞으로 갱신될 날짜를 예측한다. 각 블로그마다 갱신이 될 것으로 예측된 날에만 갱신확인을 수행하기 때문에 시스템과 네트워크 자원을 절약할 수 있다.
블로그의 컨텐츠의 양은 시간의 흐름에 따라 증가한다. 일반적으로 방대한 양의 데이터를 효율적으로 검색하기 위해서는 데이터의 클러스터링과 인덱싱을 수행한다. XML 데이터의 클러스터링에는 구조유사도에 기반한 클러스터링과 내용유사도에 기반한 클러스터링이 있지만, RSS나 ATOM 같은 피드 데이터는 스키마가 정해져 있기 때문에 내용유사도에 기반한 클러스터링 기법을 따른다. XML의 내용유사도 기반 클러스터링 기법 중 비트맵 클러스터링 기법은 빠른 검색속도를 제공한다. 그러나 이 방법으로 피드 데이터와 같이 방대한 양의 데이터를 클러스터링하면 너무 많은 수의 클러스터가 생성되고, 검색의 품질이 저하되는 현상이 일어난다. 따라서 이 논문에서는 빠른 검색속도를 가진 비트맵 클러스터링을 사용하면서, 생성되는 클러스터의 수를 사용자가 정의한 k개로 제한하는 k-비트맵 클러스터링 기법을 제안한다. 또한 비트맵 인덱스와 역인덱스를 함께 구성하여 항상 높은 검색 품질을 유지하도록 한다.
이 논문은 다음의 세 가지 성과를 포함한다. 1) 효율적인 블로그 검색엔진을 개발하기 위한 RSS 크롤러와 RSS 갱신 매니저를 제안하고, 2) 실제 인터넷에서 수집한 블로그 데이터를 활용하여, 제안한 방법의 타당성 분석과 성능평가를 수행하였다. 3) RSS와 같이 지속적으로 증가하는 다량의 블로그 데이터를 효과적으로 검색하기 위한 k-비트맵 클러스터링 기법을 소개하였다. 성능평가 결과는 제안한 방법에 대해 다양한 평가항목에서 비교적 높은 정확성과 효율을 보여주었고, 그 성능을 입증하였다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)