KCI등재
SCOPUS
UNet 기반 딥러닝 모델의 배치 크기 변화에 따른 영상 분할 성능비교 분석 = Comparative Analysis of Image Segmentation Performance Based on Batch Size Variations in UNet Based Deep Learning Models
저자
발행기관
학술지명
권호사항
발행연도
2024
작성언어
Korean
주제어
등재정보
KCI등재,SCOPUS,ESCI
자료형태
학술저널
발행기관 URL
수록면
895-906(12쪽)
DOI식별코드
제공처
소장기관
의미론적 영상 분할 기술은 원격탐사 분야에서 지표 속성의 분류나 특정 객체의 추출을 위해 최근에 널리 사용되는 방법이다. 의미론적 영상 분할의 성능은 사용하는 딥러닝 모델의 종류에 따라 성능이 달라질 뿐만 아니라 학습률이나 배치 크기(batch size)와 같이 딥러닝 모델의 학습 파라미터(parameter) 설정방법에도 영향을 받는다. 딥러닝 학습 파라미터 가운데 학습 데이터셋의 배치 크기는 일반적으로 큰 값으로 설정하는 것이 딥러닝 성능 향상에 좋은 것으로 알려져 있으나 일반적인 딥러닝 시스템의 그래픽 처리장치(graphics processing unit, GPU)의 처리 용량은 제한되기 때문에 적절한 크기의 배치 크기 설정이 필요하다. 본 논문에서는 위성 및 항공 영상을 사용한 의미론적 영상 분할을 위한 딥러닝 시스템에서 배치 크기가 건물 검출 성능에 미치는 영향을 분석하였다. 성능 분석을 위하여 의미론적 영상 분할의 대표적인 모델인 UNet을 포함하여 ResUNet, DeepResUNet, CBAM-DRUNet을 기본 모델로 사용하였으며 전이학습(transfer learning)을 적용한 UNet-VGG19, UNet-ResNet50, CBAM-DRUNet-VGG19 모델을 추가적으로 사용하였다. 학습 데이터셋은 의미론적 영상 분할을 위한 대표적인 데이터셋인WHU와 INRIA 데이터셋과함께 Kompsat-3A 데이터셋을 이용하였다. 실험 결과에서 배치 크기가 2 이상인 경우에 각 모델마다 모든데이터셋에서 F1 score가 향상되었다. 데이터셋 크기가 제일 작은 WHU 데이터셋의 경우 CBAM-DRUNet-VGG19 모델을 제외하고 배치 크기가 증가할수록 F1 score가 증가하다 감소하는 경향을 보였다. WHU 데이터셋 크기보다 약 1.5배 큰 INRIA 데이터셋에서는 전이학습 모델들은 배치 크기가 증가할 때 F1 score가일정한 수준을 유지한 반면에 그 외 모델들은 F1 score가 증가하다가 감소하는 경향을 보였다. WHU 데이터셋 크기보다 4배, 5배 큰 두 종류의 Kompsat-3A 데이터셋의 경우에는 배치 크기가 2일 때 모든 모델들이F1 score가 크게 증가하고 2보다 큰 경우에는 F1 score의 추가적인 큰 상승이 없이 일정한 수준의 값으로 수렴하는 결과를 보였다. 학습 시간 측면에서는 배치 크기가 증가할수록 모든 모델의 학습 시간이 단축되는경향을 보였다. 따라서 학습데이터셋의 크기가 충분히 큰 경우에는 F1 score 정확도 향상 측면에서는 배치크기를 2로 설정하는 정도만으로도 성능 향상을 충분히 달성할 수 있음을 확인하였다. 배치 크기를 2보다크게 설정하는 것은 딥러닝 시스템의 GPU 용량이 충분히 처리 가능하다면 학습 시간의 추가적인 단축 측면에서 유리할 것으로 판단된다.
더보기Semantic image segmentation techniques have recently gained widespread adoption in the fieldof remote sensing for tasks such as classifying surface properties and extracting specific objects. Theperformance of semantic image segmentation is influenced not only by the choice of deep learning modelbut also by the configuration of key hyperparameters, including learning rate and batch size. Among thesehyperparameters, the batch size is typically set to a larger value to improve model performance. However,since the processing capacity of a typical deep learning system’s graphics processing unit (GPU) is limited,selecting an appropriate batch size is necessary. This paper investigates the impact of batch size on buildingdetection performance in deep learning systems for semantic image segmentation using satellite and aerialimagery. For the performance analysis, representative models for semantic image segmentation, includingUNet, ResUNet, DeepResUNet, and CBAM-DRUNet, were used as baseline models. Additionally, transferlearning models such as UNet-VGG19, UNet-ResNet50, and CBAM-DRUNet-VGG19 were incorporatedfor comparison. The training datasets used in this study included the WHU and INRIA datasets, whichare commonly used for semantic image segmentation tasks, as well as the Kompsat-3A dataset. Theexperimental results revealed that a batch size of 2 or larger led to an improvement in F1 scores across allmodels and datasets. For the WHU dataset, the smallest of the datasets, the F1 score initially increasedwith batch size, but after reaching a certain threshold, it began to decline, except for the CBAM-DRUNet-VGG19 model. In contrast, for the INRIA dataset, which is approximately 1.5 times larger than WHU,transfer learning models maintained relatively stable F1 scores as the batch size increased, while othermodels showed a similar trend of increasing F1 scores followed by a decrease. In the case of the Kompsat-3A datasets, which are 4 to 5 times larger than the WHU dataset, all models showed a substantial increasein F1 score when the batch size was set to 2. Beyond this point, F1 scores stabilized without furthersignificant improvements. In terms of training time, increasing the batch size generally resulted in reduced training time for all models. Therefore, when the training dataset is sufficiently large, setting the batch sizeto 2 is already sufficient to achieve significant improvements in F1 score accuracy. Furthermore, settingthe batch size to a value greater than 2 may be advantageous in terms of further reducing training time,provided that the GPU capacity of the deep learning system is sufficient to handle the larger batch size.
더보기서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)