메모리와 디스크의 용량 변화에 따른 Hive와 Impala의 성능 비교 평가 = Performance Comparison of Hive and Impala in accordance with change in memory and disk capacity
저자
발행사항
서울 : 동국대학교, 2015
학위논문사항
학위논문(석사)-- 동국대학교 : 정보통신공학과 2015. 2
발행연도
2015
작성언어
한국어
주제어
DDC
005.758
발행국(도시)
서울
형태사항
v, 39p. ; 26 cm
일반주기명
지도교수: 김양우
DOI식별코드
소장기관
최근 IT업계뿐만 아니라, 소셜 네트워크, 지리 정보 및 기타 새로운 형태의 다양한 데이터 소스가 생성되고 있으며 기업들은 다양한 문제에 직면 하게 되었다. 이러한 데이터의 급격한 증가는 이제 기존 처리방식으로 증가하는 데이터를 감당할 수 없으며, 이렇게 방대해지는 데이터를 최근에 빅 데이터라고 부르기 시작했다. 이러한 빅 데이터를 해결하기 위해 다양한 분석 기술이 나와 있다.
본 논문은 오픈소스 하둡의 에코시스템 중에 기존 사용자들이 사용하던 SQL 문법과 비슷한 HiveQL을 사용하여 빅 데이터의 질의를 처리할 수 있는 Hive와 Impala의 성능 비교평가 방법을 제안하였다. 기존 분석 방식인 맵 리듀스 프로그램을 작성, 수행하기 때문에 응답이 지연되는 단점이 있다. 이러한 응답시간을 최소한으로 줄이기 위해 고유의 분산질의 엔진을 사용하는 Impala를 구성한다. 임팔라는 기존 하둡의 분석 프레임 워크 대신 impalad 프로세스가 클러스터 내 모든 데이터 노드 위에서 질의를 처리한다. 비교평가 방법으로는 메모리 차이에 따른 질의응답 처리시간에 대한 비교와 디스크 용량 차이에 따른 비교를 실시하였다. 성능 결과는 Hive보다 Impala의 질의응답 처리시간이 평균13.35배 좋은 성능 결과를 보여주었으며, 메모리 차이에 대한 성능평가에서도 평균 2.37배 Impala가 좋은 성능 결과를 보여주고 있다. 또한, 디스크 사용량에 있어서도 1.36배 좋은 성능 결과를 확인할 수 있었다. 디스크 용량 차이의 경우 남은 크기에 따라 질의응답 처리시간에 영향을 주는 것이 아니라 데이터의 크기에 따라 처리시간 결과를 얻을 수 있었다.
Recently, the IT industry, as well as social networks, geographic information, and other new forms of multiple data sources is created and companies are faced with various problems. These data are now sharp increase in data growth can not afford to existing schemes, began calling Big Data Data recently become so vast. Various analytical techniques can be found to solve these big data.
In this paper, we propose an evaluation method for performance comparison Hive and Impala can handle big data queries using SQL syntax similar HiveQL and existing users were using the open source Hadoop ecosystem. Create a conventional analysis method of MapReduce programs, the disadvantage is that the response delay due to perform. To reduce this response time to a minimum constitutes an Impala using the inherent distributed query engine. The Impala is a process rather than an analytical framework impalad process the query on all data nodes in the cluster of existing Hadoop. Comparative evaluation methods include a comparison was carried out according to the difference in capacity compared to disk query response processing time according to the difference between memory. Gave the performance results show the average query response time to process Impala 13.35 times better performance than the results of the Hive, the difference in the performance evaluation of memory on average 2.37 times Impala shows good performance results. Furthermore, 1.36 times also in the disk usage confirmed the good performance results. When the disk capacity difference processing time results were obtained depending on the size of the data, rather than affecting the query response processing time based on the amount of available sizes.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)