영역 연관규칙을 위한 데이타 탐사 기법 = Data-driven exploration for ranged association rules
저자
발행사항
광주 : 전남대학교 대학원, 1997
학위논문사항
학위논문(박사)-- 전남대학교 대학원: 전산통계학과 1997. 8
발행연도
1997
작성언어
한국어
주제어
KDC
005.74 판사항(4)
DDC
005.7 판사항(20)
발행국(도시)
광주
형태사항
vii, 102 p. : 삽도 ; 26 cm.
일반주기명
참고문헌: p. 92-93
소장기관
데이타베이스 활용 분야가 급증하고 업무 의존도가 높아짐에 따라서 데이타베이스에 축적되는 자료의 양이 급속히 늘어나고 있다. 이러한 자료들을 본연의 업무 운영에 적용하는데 그치지 않고, 업무 현장의 특성 분석에 필요한 실질적인 근거로서 활용할 수 있다는 인식이 확산되고 있다. 따라서 대용량의 데이타베이스로부터, 미리 예측할 수 없지만 의사 결정에 유용한 지식을 효율적으로 발견하기 위한 데이타마이닝 연구가 최근 활발히 진행되고 있다.
본 논문에서는 데이타마이닝의 여러 분야 중 특히 사건들의 상호 연관 관계 탐사에 초점을 맞추고자 한다. 사건들의 상호 관련성은 연관규칙(association rules)의 형태로 표현되는데, 연관규칙이란 특정 사건 집합의 발생이 다른 사건의 발생을 암시하는 경향을 표현하는 규칙이다. 기존의 연관규칙은 주로 사건이 발생한 전체 영역에서 성립하는 사건들 간의 연관성만을 고려하고 있다 그러나, 어떤 연관규칙은 비록 전체 영역에 대해서는 신뢰도가 그리 높지 않더라도, 특정 기간 혹은 특정 영역에서 강한 신뢰도로 성립할 수 있고, 그러한 정보를 알 수 있다면 다양한 의사 결정에 매우 유용하리라고 생각한다. 따라서, 본 논문에서는 임의의 부분 영역에서 강한 신뢰도를 갖는 연관성을 영역 연관규칙(ranged association rule)이라 정의하고, 대용량의 데이타베이스로터 영역 연관규칙이 성립하는 부분영역을 탐사하는 효율적인 알고리즘을 제안한다.
먼저, 주어진 이진 연관규칙에 대하여 미리 정의된 고정된 크기가 아닌 임의의 크기이고, 강한 신뢰도를 갖는 부분영역을 탐사하는 방법을 제시한다. 제안된 탐사 기법은 데이타 자체의 분포에 근거하여 가설적인 부분영역을 설정해 가는 데이타 기반(data-driven) 검색 기법을 이용한다. 따라서, 탐사 과정에서 불필요한 부분영역의 검색을 배제할 수 있다. 또한, 중복되는 데이타베이스 스캐닝(scanning)을 줄이기 위해, 주기억장치상에 관리할 수 있는 효과적인 자료구조를 설계한다. 제안된 자료구조는 부분영역의 크기를 확장해 가는 다음 단계의 검색에 필요한 정보를 제시하며, 단 한번의 데이타베이스 스캐닝에 의해 획득된다.
영역 연관규칙의 탐사는 먼저 단일 이진 연관규칙을 대상으로 1차원 사건 발생 영역에 대한 부분 영역의 탐사과정을 제시하고, 복수개의 이진 연관규칙을 수용할 수 있는 탐사 알고리즘으로 확장한다. 알고리즘의 확장 과정에서 연관규칙들이 포함하는 사건 집합에 근거하여 관련된 규칙들을 그룹핑하고, 각 그룹에 대해 단지 하나의 규칙에 대한 탐사만을 수행함으로 알고리즘 수행 성능을 상당히 향상시킨다. 또한, 사건 발생 영역을 다차원으로 확장하여 영역 연관규칙의 적용 범위를 넓힌다. 아울러 실험을 통해, 제안된 탐사 알고리즘에 실제 업무 현장에 적용할 만한 시간 비용으로 수행됨을 보인다.
As database systems are widely spread and many business applications are heavily relying on database facilities, the volume of databases are rapidly increasing. It is realized that databases can be used as actual evidence of domain characteristics, rather than only used for their own operational purposes, In this regard, data mining techniques are taking growing attention in many applications, where they discover hidden but potentially useful knowledge for decision making from large databases.
Among various data mining areas, this study focuses on the discovery of associations among several events. An association rule expresses the tendency that the occurrence of some events implies the co-occurrence of other events at the same time. Previously announced researches on association rules, mainly deal with associations in the whole domain. Some association rules, however, can have very high confidence in a sub-interval or a subrange of the domain, though not quite high confidence in the whole domain. Such kind of association rules are expected to be very useful in various decision making problems. In this paper, we define a rgnged association rule, an association with hight confidence worthy of special attention in a sub-domain, and further propose an efficient algorithm which finds out ranged association rules.
Firstly, we suggest a data mining method that discovers sub-ranges where given binary association rules have high confidence. Note that such subranges are not delimited by predefined boundaries. In addition, the proposed method is data-driven in a sense that hypothetical subranges are built based on data distribution itself. It implies that any unnecessary subranges are not probed in the mining process. To avoid redundant database scanning, we devise an effective in-memory data structure, where essential information for the subsequent mining process is collected through single database scanning.
In the mining algorithm of the ranged association rules, we suggest the exploring process of subranges in one dimensional domain for a single binary association rule, and later extend it to accept multiple binary rules. In this phase, we identify several groups of relevant association rules based on their event sets. Since only one association rule per each group is evaluated in the mining process, the performance of the process is significantly improved. The domains of events are extended to multi-dimensional ones, and it enriches the applicability of the algorithm. In addition, our simulation shows that the suggested algorithm has reliable performance at the acceptable time cost in actual application areas.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)