Systolic Array Accelerator in Processing-in-Memory DRAM for Mobile Neural Networks = 모바일 신경망을 위한 프로세싱 인 메모리 디램 상의 시스톨릭 어레이 가속기
저자
발행사항
서울 : 서울대학교 대학원, 2021
학위논문사항
학위논문(박사)-- 서울대학교 대학원 : 컴퓨터공학부 2021. 8
발행연도
2021
작성언어
영어
주제어
DDC
621.39
발행국(도시)
서울
형태사항
xviii, 151 ; 26 cm
일반주기명
지도교수: 유승주
UCI식별코드
I804:11032-000000167733
소장기관
2010년 중반 이후에 다양한 인공지능 (AI) 어플리케이션에서 딥 뉴럴 네트워크 (DNN)가 점점 더 널리 쓰이게 되면서 인공지능 연산의 수요가 기하급수적으로 늘어나게 되었다. 딥 뉴럴 네트워크는 추천시스템, 컴퓨터 비전, 자연어 처리, 자율 주행, 신약 개발, 금융, 인공지능 비서, 로봇, 게임 인공지능 분야의 인공지능 어플리케이션에서 빠지지 않고 이용된다. 이러한 새로운 인공지능 컴퓨팅의 시대에서, 중앙처리장치 (CPU), 그래픽처리장치 (GPU), 필드 프로그래머블 게이트 어레이상의 뉴럴프로세싱유닛 (NPU on FPGA), 특정 용도용 집적 회로 뉴럴프로세싱유닛 (ASIC NPU), 메모리내 뉴럴 연산기 (neural Processing-in-Memory)의 다섯 가지 종류의 프로세서가 딥 뉴럴 네트워크 연산의 매우 큰 수요를 감당하기 위해 경쟁하고 있다. 딥 뉴럴 네트워크는 태생적으로 많은 양의 벡터와 메트릭스 연산을 수반하는데 중앙처리장치 (CPU), 그래픽처리장치 (GPU) 같은 전통적인 프로세서는 성능과 에너지 효율 측면에서 이것의 추론과 학습을 효율적으로 처리하지 못한다. 딥 뉴럴 네트워크에 대한 엄청난 계산 수요를 감당하기 위해서는 이러한 딥 뉴럴 네트워크 전용으로 특별하게 설계된 연산기가 필요하다. 그 후보로는 필드 프로그래머블 게이트 어레이상의 뉴럴프로세싱유닛 (NPU on FPGA), 특정 용도용 집적 회로 뉴럴프로세싱유닛 (ASIC NPU), 메모리내 뉴럴 연산기 (neural PIM)를 들 수 있다. 이러한 딥 뉴럴 네트워크를 위한 도메인 특정 프로세서는 전통적으로 가장 널리 쓰이는 범용 처리장치 (general purpose processor) 보다 휠씬 높은 수준의 성능, 에너지 효율, 실리콘 면적 효율을 달성한다. 딥 뉴럴 네트워크의 모델과 데이터 셋의 크기가 기하급수적으로 증가하고 있는 현 시점에서 딥 뉴럴 네트워크를 효율적으로 처리하는 것이 새로운 인공지능의 시대에서 가장 큰 도전과제 중 하나이다.
딥 뉴럴 네트워크 최적화의 분야에서 양자화 (quantization)와 희소화 (pruning)는 매우 중요한 최적화 테크닉으로 꼽힌다. 양자화와 희소화는 정확도 손실을 수반하는 것으로 알려져 있는데 최근 다양한 연구에서 딥 뉴럴 네트워크의 압축에서 생기는 정확도 손실을 줄이는 최적화 방법이 제안되었다. 이 점은 딥 뉴럴 네트워크 분야의 도메인 특정 프로세서에게 성능, 에너지 효율, 실리콘 면적 효율을 향상시킬 수 있는 중대한 기회를 제공한다. 그러나 이러한 최적화 기술의 이점을 활용하기 위해서는 이를 지원하는 특별한 하드웨어의 도움이 필요하다.
본 학위 논문에서는 딥 뉴럴 네트워크의 효율적인 가속을 위해서 다양한 딥 뉴럴 네트워크 도메인 특정 구조 중에 시스톨릭 어레이 기반으로 디램 내의 뉴럴 프로세싱과 필드 프로그래머블 게이트 어레이상의 뉴럴 프로세싱 유닛의 설계를 제안하였다. 특별히, 제안된 가속기 구조는 시스톨릭 어레이 구조를 기반으로 하며 효율적으로 데이터를 재사용하고 양자화와 희소 행렬 가속을 하드웨어 수준에서 지원한다. 이러한 두 종류의 딥 뉴럴 네트워크 도메인 특정 가속기를 설계하는 과정에서 효율적인 인공지능 연산의 가속을 위해서 하드웨어, 알고리즘, 소프트웨어의 스택을 모두 망라하는 통합 설계가 중요하다.
본 학위 논문의 첫번째 파트에서는 McDRAM v2라는 독창적인 디램 상의 딥 뉴럴 네트워크 가속기 구조를 제안하였고 이 구조는 다양한 딥 뉴럴 네트워크를 가속하는데 있어서 디램의 큰 내부 대역폭을 효과적으로 활용하는 구조이다. 이 구조는 디램의 칩 외부 접근 없이 매우 큰 딥 뉴럴 네트워크 모델의 연산을 수행할 수 있어서 빠르고 효율적으로 동작한다. 이 구조는 디램의 큰 용량을 가속기에 제공하고 또한 넓은 내부 대역폭을 연산 유닛 매트릭스의 시스톨릭 어레이의 입력으로 직접 제공하는 방식을 채택하였다. 이미지 분류, 자연어 처리, 추천 시스템 분야의 큰 딥 뉴럴 네트워크 모델로 평가한 결과, 이 구조는 최고 수준의 모바일/서버 그래픽 처리 유닛 (GPU)과 뉴럴 프로세싱 유닛 (NPU) 가속기에 비해 높은 수준의 에너지 효율을 보여주었고 실리콘 면적의 증가는 최소화 하였으며 모바일 환경의 제한적인 전력 내에서 동작할 수 있었다. 희소 행렬 연산 가속을 지원하기 위해서 시스톨릭 어레이 기반의 McDRAM v2 구조의 확장으로 영-의식(zero-aware) McDRAM v3 구조를 제안하였다. McDRAM v3는 1:4의 희소 가중치의 가속을 지원하여 성능과 에너지효율 측면에서 McDRAM v2를 뛰어 넘었다.
둘째로, 2 비트의 활성도 양자화로 인한 딥 뉴럴 네트워크의 정확도 손실을 최소화하기 위한 노력으로, 채널당 양자화 레벨 할당 (PCQLA)이라는 독창적인 양자화 방법을 제안하였다. 채널당 양자화 레벨 할당은 활성도를 채널 단위로 2 비트로 양자화 하고 양자화의 경계값은 활성도의 채널당 분포를 이용해서 결정한다. 추가로 예외-의식 양자화 (outlier-aware quantization)를 함께 적용하였다. 이미지넷 이미지 분류 데이터셋에 대해서 ResNet-18/50 모델에 활성도 2 비트 양자화를 적용할 때 이 방법은 완전한 정밀도의 기본 모델 대비 충분히 높은 수준의 정확도를 보여준다.
셋째로, 파이토치부터 필드 프로그래머블 게이트 어레이상의 시스톨릭 어레이 가속기까지의 전체 스택 딥 뉴럴 네트워크 추론 전용 가속기 플랫폼의 시제품을 구현하였다. 구현한 필드 프로그래머블 게이트 어레이상의 시스톨릭 어레이 기반의 딥 뉴럴 네트워크 가속기는 저정밀도의 4 비트 양자화 딥 뉴럴 네트워크의 추론을 지원하고 희소 행렬 연산 가속도 지원한다. 본 학위 논문의 세 번째 부분에서는 딥 뉴럴 네트워크 추론 전용 가속기 플랫폼의 전체 스택의 설계와 구현을 자세히 다룬다. 그 내용으로는 딥뉴럴네트워크 알고리즘의 최적화, 뉴럴 프로세싱 유닛 컴파일러, 소프트웨어 인터페이스, 하드웨어 가속기의 구현, 그리고 이 모든 스택의 통합을 포함한다.
Since the mid-2010s, deep neural networks (DNN) have been increasingly popular in a variety of artificial intelligent (AI) applications in the world, which leads to exponential growth in demand for AI computing. Deep neural networks (DNN) are everywhere, in AI applications such as recommendation system, computer vision, natural language processing, autonomous driving, pharmaceutical drug development, finance, AI assistant, robot, and game AI. In the new era of AI processing, five types of processors are racing to meet high demand of computing capacity for deep neural networks: CPU, GPU, neural processing unit (NPU) on FPGA, application-specific integrated circuit (ASIC) NPU, and neural processing-in-memory (PIM). Deep neural networks intrinsically contain a massive amount of vector and matrix operations, which conventional processors such as CPU and GPU cannot process efficiently in terms of performance and energy consumption when they run inference or training workloads. To meet a massive demand of computation for deep neural networks, processor more tailored for efficient processing of DNNs is required, which can be NPU on FPGA, ASIC NPU, or neural PIM. These domain specific processors can achieve better performance, energy efficiency, and silicon area efficiency than conventional general purpose processor by a wide margin. As sizes of DNN models and datasets show exponential growth, efficient processing of DNN is becoming one of the most important challenges in this new era of AI computing.
In the field of algorithm optimization of DNN, quantization and pruning are two of the most important optimization techniques. It is well known that quantization and pruning incur accuracy drop; however, recent studies on these optimization techniques provide various methods to alleviate the accuracy loss which results from DNN compression. This provides great opportunities for DNN domain specific processors to improve the performance, energy efficiency, and silicon area efficiency, but with special hardware support to exploit the advantage attained by these optimization techniques.
In this dissertation, among various types of domain specific architectures for DNN, systolic array-based designs of in-DRAM neural PIM and NPU on FPGA are proposed for efficient processing of DNN. Especially, proposed accelerator architectures are based on the systolic array architecture for efficient data reuse and support low precision quantization and sparsity acceleration of the DNN inference in the hardware manner. In the process of designing these two types of DNN domain specific accelerators, one of the key ingredients of efficient AI processing is co-design across all the hardware, algorithm, and software stacks.
In the first part of dissertation, I proposed McDRAM v2 which is the novel in-DRAM DNN systolic array accelerator architecture and makes the best use of large in-DRAM bandwidths for accelerating various DNN applications. It can handle large DNN models without off-chip memory accesses, in a fast and efficient manner, by exposing the large DRAM capacity and large in-DRAM bandwidth directly to an input systolic array of a processing element matrix.
An evaluation of large DNN models in the fields of image classification, natural language processing, and recommendation systems shows that it achieves better energy efficiency than state-of-the–art mobile and server graphics and neural processing unit accelerator, but with a minimal silicon area overhead and mobile power budget. To support sparsity acceleration, I proposed zero-aware McDRAM v3 architecture as an extension of systolic array-based McDRAM v2 architecture. McDRAM v3 supports 1:4 weight sparsity acceleration, exceeding McDRAM v2 in terms of performance and energy efficiency.
Second, in an effort to minimize accuracy losses which DNN incurs with activation 2-bit quantization, I proposed a novel quantization method called Per-channel Quantization Level Allocation (PCQLA). PCQLA quantizes activation into 2-bit precision with per-channel quantization clipping value according to the range of per-channel activation distribution. We also apply PCQLA method with outlier-aware quantization. On the ImageNet classification dataset, our method offers sufficient accuracies, comparable to the full precision baseline, with 2-bit activation quantization on ResNet-18/50.
Third, I prototyped a full stack DNN inference accelerator platform from “PyTorch to Systolic Array on FPGA.” I implement systolic array DNN accelerator on FPGA that supports ultra-low precision 4-bit integer DNN inference and sparsity acceleration. The third part of the dissertation covers design and implementation of the full stack DNN inference accelerator platform in detail. It contains optimization of DNN algorithm, NPU compiler, software interface, and hardware accelerator implementation, and integration of all these stacks.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)