Knowledge distillation of regression neural network
저자
발행사항
Seoul : Sungkyunkwan University, 2024
학위논문사항
Thesis (Ph.D.)-- Sungkyunkwan university : Department of Industrial Engineering 2024. 2
발행연도
2024
작성언어
영어
주제어
발행국(도시)
서울
기타서명
회귀 인공신경망을 위한 지식증류 기법
형태사항
x, 94 p. : col. ill., charts ; 30 cm
일반주기명
Adviser: Seokho Kang
Includes bibliographical reference(p. 83-92)
UCI식별코드
I804:11040-000000177655
DOI식별코드
소장기관
최근 다양한 산업 분야에서 인공신경망 적용이 큰 성공을 거두고 있다. 그러나 거대 인공신경망은 많은 양의 계산과 자원을 필요로 하기 때문에 자원의 제약이 있는 환경에서의 활용에 어려움이 있다. 이를 해결하기 위해 거대 인공신경망 모델 (teacher)을 작은 인공신경망 모델 (student)로 압축하는 knowledge distillation 연구가 활발히 진행 중이다. 기존 knowledge distillation 방법들은 teacher network를 학습시키는데 사용했던 학습 데이터셋이 모두 재사용 가능함을 가정한다. 그러나 현실 문제에서는 다양한 제약으로 인해 학습 데이터셋이 항상 온전히 보존되거나 공개되지 않을 수 있다. 이를 해결하기 위해 학습 데이터셋이 일부 사용가능한 상황을 가정한 knowledge distillation 방법들이 제안되었지만 모두 분류 문제에 집중하고있다. 본 논문에서는 회귀 인공신경망에 적용될 수 있는 새로운 knowledge distillation 방법들을 제안한다. 첫째로, 학습 데이터셋 사용이 불가능한 상황에서 회귀 인공신경망에 적용 가능한 data-free knowledge distillation 방법을 제안한다. 거대한 teacher network가 주어졌을 때, generator network를 도입하여 teacher network의 지식을 작은 student network로 전이한다. Generator와 student network는 적대적 학습 방식을 사용해 동시에 학습된다. Generator network는 teacher와 student의 예측 차가 커지도록 하는 인공 데이터 포인트를 생성하도록 학습되고, 반면에 student network는 생성된 인공 데이터 포인트에 대한 teacher와 student의 예측 차를 줄이도록 학습된다. 둘째로, 학습 데이터셋이 일부 재사용 가능한 상황에서 회귀 인공신경망에 적용 가능한 새로운 knowledge distillation 방법인 teacher-student matching (TSM)을 제안한다. TSM은 세 개의 학습 방식을 포함한다: Perturbation-based matching (PM), Adversarial belief matching (ABM), Gradient matching (GM). TSM은 학습 데이터 부족 상황에서 기존의 knowledge distillation 방법의 성능 개선을 위해 추가 적용 방법으로 사용될 수 있다. 마지막으로, 학습 데이터셋 사용 불가능한 상황에서 회귀 인공신경망의 예측 불확실성 정량화를 위한 대리 기법을 제안한다. 이를 위해 첫번째로 제안한 회귀 인공신경망을 위한 data-free knowledge distillation 방법을 활용한다. Data-free knowledge distillation 방법과 추가적인 세 개의 대리 기법을 사용한다: Input perturbation, Gradient norm, MC-dropout, Knowledge distillation. 쿼리 데이터 포인트가 주어졌을 때, 각 대리 기법은 학습 데이터셋 사용 없이 회귀 인공신경망을 사용해 예측 불확실성을 정량화한다. 회귀 벤치마크 데이터셋에 대한 실험을 통해 각 제안 방법의 효과를 확인하였다.
더보기Artificial neural networks have been widely used in various industrial fields. For more efficient use of artificial neural networks in environments with limited computing resources, knowledge distillation is actively applied to compress a large neural network (teacher) to a smaller neural network (student). Conventional knowledge distillation requires a training dataset that was used to build the teacher network. However, the training dataset is often not fully accessible in many real-world applications due to some practical issues. To solve this problem, there are existing methods of knowledge distillation with insufficient training data, but they only focus on classification problems. This dissertation proposes novel knowledge distillation methods that can be applied to a regression network. First, we propose data-free knowledge distillation of the regression network. Given a large teacher network, a generator network is adopted to transfer the knowledge in the teacher network to a smaller student network. The generator and student networks are simultaneously trained in an adversarial manner. The generator network is trained to create synthetic data on which the teacher and student networks make different predictions, with the student network being trained to mimic the teacher network's predictions. Second, we propose knowledge distillation of the regression network with insufficient training data, called teacher-student matching (TSM). TSM includes three additional learning objectives that are modifications of existing knowledge distillation methods to make the student better emulate the prediction capability of the teacher: perturbation-based matching (PM), adversarial belief matching (ABM), and gradient matching (GM). TSM can be used as an add-on to any existing knowledge distillation method to improve its effectiveness under severe data insufficiency. Third, we propose a surrogate approach to quantify the prediction uncertainty of the regression network without any training data. To do this, we utilize the data-free knowledge distillation of the regression network. While the original aim of knowledge distillation is to compress the large neural network, we expand the use of knowledge distillation to quantify the prediction uncertainty. Four surrogate measures are introduced: Input perturbation, Gradient norm, MC-dropout, and Knowledge distillation. For a query data point, each surrogate measure can be calculated by using the regression network only to estimate the prediction uncertainty. The effectiveness of the proposed methods is demonstrated through experiments on regression benchmark datasets.
더보기분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)