데이터베이스에서 유사도 질의 처리 비용 감소 방법 = A Method of Reducing the Processing Cost of Similarity Queries in Databases
저자
발행사항
서울 : 한국방송통신대학교 대학원, 2021
학위논문사항
학위논문(석사)-- 한국방송통신대학교 대학원 : 정보과학과 2021. 2
발행연도
2021
작성언어
한국어
주제어
발행국(도시)
서울
형태사항
26 cm
일반주기명
지도교수: 손진곤
UCI식별코드
I804:11057-200000374578
소장기관
오늘날 대부분의 데이터는 데이터베이스(database: DB)에 저장된다. 이러한 DB 환경에서 사용자는 자신이 원하는 데이터를 찾아줄 것을 DB에게 요청하게 된다. 이와 같이 DB 사용자가 원하는 조건의 데이터를 찾아줄 것을 DB에게 요청하는 것을 질의(query)라고 부른다. 이러한 질의 중에는 DB 사용자가 원하는 조건에 유사도(similarity)가 포함된 질의가 있는데, 이것을 유사도 질의라고 부른다. 유사도 질의를 처리하기 위한 과정은 처리 레코드의 범위를 줄일 수 있는 색인(index)을 이용하기 힘들어 테이블의 전체 레코드에 대해서 매번 유사도를 계산해야만 하기 때문에 비용이 많이 드는 문제점이 있다.
본 논문은 이러한 문제점을 해결하기 위하여 먼저 ‘경량 유사도 함수(lightweight similarity function)’를 정의하였다. 즉, 경량 유사도 함수가 되기 위한 조건을 제시하였고, 경량 유사도 함수가 어떻게 유사도 질의 처리 비용을 감소시킬 수 있는지 기본 원리를 소개하였다. 또한, 유사도 질의에서 경량 유사도 함수가 적절한지를 판단할 수 있도록 비용 감소율, 오류율, 여과율 등 세 가지 평가 기준도 제시하였다.
이렇게 제시한 경량 유사도 함수에 대한 이론이 실제로 동작하는지를 평가하기 위해 구체적인 적용사례를 두 가지 제시하였으며, 각각에 대해 기존의 유사도 함수(본 논문에서는 ‘중량 유사도 함수’라고 부름)를 이용하는 질의와 경량 유사도 함수를 이용하는 질의의 처리 비용을 비교하였다. 첫 번째 사례로서, 기존의 유클리드 유사도 함수에 대해서는 체비쇼프(Chebyshev) 거리를 경량 유사도 함수로 제시하였다. 두 번째 사례로서, 코사인 유사도 함수에 대해서는 본 논문에서 새로 고안한 ‘최소 축 코사인 유사도’를 경량 유사도 함수로 제시하였다. 한편, 경량 유사도 함수가 포함된 질의에서 B트리 기반 색인을 이용할 수 있음을 밝혔으며, 이것을 질의 처리 비용의 비교에서 활용하였다.
경량 유사도 함수가 실제로 비용 감소 효과가 있는지를 확인하기 위하여 실험하였다. 실험은 중량 유사도 함수만을 이용한 경우, 경량 유사도 함수만을 이용한 경우, 경량 유사도 함수와 B트리 기반 색인을 함께 이용한 경우 등 모두 세 가지 경우에 대해서 시간 비용을 측정하였다. 첫 번째 사례에 대한 실험결과, 유클리드 유사도 질의에서는 경량 유사도 함수를 이용했을 때가 중량 유사도 함수만을 이용했을 때보다 69.4%의 비용감소 효과가 있었으며, 경량 유사도 함수와 색인을 함께 이용하였을 때는 99.9%의 비용감소 효과가 있었다. 두 번째 사례에 대한 실험결과, 코사인 유사도 질의에서는 경량 유사도 함수를 이용했을 때가 중량 유사도 함수만을 이용했을 때보다 83.8%의 비용 감소 효과가 있었으며, 경량 유사도 함수와 색인을 함께 이용하였을 때는 98.5%의 비용 감소 효과가 있었다.
Today, most of the data is stored in a database (DB). A user requests the DB to find the data she or he wants in a DB environment. In this way, it is called a query to request the DB to find the data which satisfies the condition for the user to want. Among these queries, there is a query that includes similarity in the condition desired by the user, and it is called a similarity query. In the steps of processing the similarity query, it is difficult to use an index that can reduce the range of the processed records, so that the similarity must be calculated for all the records of the table, which is expensive.
In order to solve this problem, this paper first defined 'lightweight similarity function'. That is, the conditions that a lightweight similarity function must have were presented, and the basic principle of how the lightweight similarity function can reduce the cost of processing similarity queries was introduced. In addition, three evaluation criteria such as cost reduction rate, error rate, and filtration rate were also presented to determine whether the lightweight similarity function is appropriate in the similarity query.
For the sake of evaluating whether the theory of the proposed lightweight similarity function works, two specific application cases are presented, and a query using the existing similarity function (it is called 'heavyweight similarity function' in this paper) and lightweight similarity for each. The cost of query processing using the functions was compared. As a first case, for the existing Euclidean similarity function, Chebyshev distance was presented as a lightweight similarity function. As a second example, for the cosine similarity function, the 'minimum axis cosine similarity' newly devised in this paper is presented as a lightweight similarity function. On the other hand, it was revealed that a B-tree-based index can be used in a query that includes a lightweight similarity function, and this was used to compare query processing costs.
The experiment was conducted to confirm whether the lightweight similarity function has a cost reduction effect. In the experiment, time cost was measured for all three cases, such as the case of using only the heavyweight similarity function, the case of using only the lightweight similarity function, and the case of using the lightweight similarity function and the B-tree-based index together. As a result of the experiment for the first case, in the Euclidean similarity query, the cost of using the lightweight similarity function reduced 69.4% more than the heavyweight similarity function alone, and 99.9% cost when the lightweight similarity function and index were used together. There was a reduction effect. As a result of the experiment for the second case, in the cosine similarity query, when using the lightweight similarity function, the cost reduction effect was 83.8% compared to when only the heavyweight similarity function was used, and 98.5% when the lightweight similarity function and index were used together.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)