Data Augmentation and Filtering for Supervised Learning using Splash Data Preprocessor = Splash 데이터 전처리 연산자를 이용한 지도 학습 데이터 증강과 필터링
저자
발행사항
서울 : 서울대학교 대학원, 2021
학위논문사항
학위논문(석사)-- 서울대학교 대학원 : 전기·정보공학부 2021. 8
발행연도
2021
작성언어
영어
주제어
DDC
621.3
발행국(도시)
서울
형태사항
iv, 22 ; 26 cm
일반주기명
지도교수: 홍성수
UCI식별코드
I804:11032-000000167685
소장기관
Splash is a graphical user interface programming framework designed to support artificial intelligence application development. Artificial intelligence experts in various fields including data, modeling, control engineers can easily develop artificial intelligence applications without profound programming knowledge through Splash’s programming abstraction. To further increase Splash’s functionality for supporting artificial intelligence application development, we are adding a language construct in Splash for data preprocessing. This language construct provides an easy-to-use data augmenter and data filter, which are the main tasks of data preprocessing for data engineers in supervised learning.
Data augmentation and filtering are particularly important tasks in supervised learning because the training dataset's quality and quantity directly affect the accuracy of the model. Datasets such as MNIST and datasets prepared in person have data with accurate labels yet lack an amount of data and labels, so the datasets need augmentation for an increase in dataset quantity. When using a data label platform such as crowdsourcing or an automated label program to utilize numerous datasets for training, the datasets need filtering because they often include noisy labels. In this thesis, we implement basic data augmentation and filtering techniques as a Splash language construct, called data preprocessor, to support data engineers.
Data augmentation function in Splash data preprocessor increases dataset quantity by using seven augmentation techniques: horizontal and vertical shift, horizontal and vertical flip, random rotation, random brightness, and random zoom. The data filtering function finds duplicated images with different and same labels, then removes those images to improve the quality of the training dataset. To demonstrate the feasibility of using Splash data preprocessor and to confirm the correctness of the data preprocessor implementation, we trained the CIFAR-10 dataset as an experiment using Splash data preprocessor. This experiment shows that training data filtering and augmentation can be easily performed using the Splash data preprocessor.
Splash는 인공 지능 응용 개발을 지원하기 위해 만들어진 GUI 프로그래밍 프레임워크이다. Splash는 프로그래밍 추상화를 통해 데이터, AI 모델링, 제어 엔지니어를 포함한 여러 분야 전문가들이 프로그래밍적 지식 없이도 손쉽게 사용할 수 있도록 만들어졌다. 인공 지능 응용 개발을 지원하는 Splash의 기능을 더욱 향상시키기 위하여 데이터 전처리 기능을 Splash의 언어 구조로 추가하였다. 이 언어 구조는 데이터 엔지니어의 주요 업무인 데이터 전처리 중 데이터 필터링과 증강 기능을 지원한다.
지도 학습(supervised learning)에서 데이터 필터링과 증강은 특히 중요한 작업이다. 지도학습을 위해서는 레이블이 되어있는 데이터가 필요한데, 쉽게 구할 수 있는 MNIST와 같은 학습 데이터셋이나 직접 레이블링 한 데이터셋은 수가 한정적이다. 따라서 데이터의 수를 증가시키기 위하여 데이터 증강 기술이 필요하다. 많은 수의 데이터셋을 활용하기 위해서 크라우드소싱 같은 데이터 레이블 플랫폼이나 자동 레이블 프로그램을 이용하는 경우, 레이블이 잘못되어 있는 경우가 많기 때문에 이를 필터링해야 한다. 본 논문에서는 지도 학습에서 필요한 기본적인 데이터 필터링 기법과 데이터 증강 기법을 Splash에 구현하여 데이터 엔지니어가 손쉽게 이용할 수 있도록 한다. Splash 데이터 전처리 연산자는 이미지의 중복성을 판단하여 필터링하고, 일곱 가지 방법으로 이미지를 증강시킨다. 우리는 Splash 데이터 전처리 연산자를 사용하여 지도 학습 데이터 필터링 및 증강을 쉽게 수행 할 수 있음을 보였다.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)