Multi-agent deep reinforcement learning based resource allocation methods for wireless communication systems
저자
발행사항
Seoul : Graduate School, Korea University, 2022
학위논문사항
학위논문(박사)-- 고려대학교 대학원: 전기전자공학과 2022. 2
발행연도
2022
작성언어
영어
주제어
발행국(도시)
서울
형태사항
v, 103장 : 삽화, 도표 ; 26 cm
일반주기명
지도교수: 이인규
참고문헌: 장 93-103
UCI식별코드
I804:11009-000000257614
DOI식별코드
소장기관
사물 인터넷(IoT)이 기하급수적으로 성장함에 따라 무선 통신 시스템에 대한 자원 할당 방법이 더욱 중요해지고 있다. 거대하고 다양한 IoT 기기가 등장하면서 네트워크 주체 간 상호작용이 커지면서 효율적인 자원관리의 필요성이 커지고 있다. 특히, 간헐적으로만 배터리를 충전할 수 있는 에너지 제약 장치는 작동 수명을 연장하기 위해 고군분투한다. 반면, IoT, 온라인 게임, 증강현실 등 기존 모바일 애플리케이션은 지연에 민감하고 계산이 까다롭기 때문에 일부 기기는 서비스 품질(QoS) 요건을 충족시키기 위해 노력한다. 또한, 자율 IoT 장치로 나아가기 위해 이러한 노드들은 중앙 조정자 없이 분산적으로 운영되어야 한다. 이에 따라, 본 학위논문은 무선통신 시스템을 위한 분산형 자원 할당 방법을 탐구한다.
논문에서 연구하는 커뮤니케이션 시스템은 다음과 같다. 첫째, 무선 주파수(RF) 신호 기반 에너지 수집(EH)이 다루어지는데, 이는 배터리 교체 없이 무선 장치의 작동 수명을 연장할 수 있는 능력 때문에 상당한 관심을 끌었다. 특히, 우리는 그 중에서도 무선 충전 및 통신 프로토콜을 공동으로 설계하는 무선 전력 통신 네트워크(WPCN)의 자원 할당 방법을 다룬다. 둘째, 모바일 에지 컴퓨팅(MEC)이 고려되는데, 이는 네트워크 에지에 배치된 컴퓨팅 리소스와 스토리지 공간을 활용하여 모바일 사용자(MU)를 위한 대기 시간 중요 및 계산 집약적 작업을 수행하는 새로운 패러다임이다. 이에 나아가, 움직이는 클라우드릿으로서, 무인항공기(UAV)는 합리적인 인프라 투자와 안정적인 연결로 MEC에 적용이 가능하며, 이는 MU에 유비쿼터스 통신 및 컴퓨팅 지원을 제공할 수 있다. 따라서, 우리는 UAV를 지정된 장소에 파견하여 빠르고 유연하게 MU에 효율적인 컴퓨팅 서비스를 제공할 수 있는 UAV 지원 MEC 네트워크에서 자원 할당 방법을 탐구한다.
첫 번째 파트에서는 하이브리드 액세스 포인트(H-AP)가 다운링크 WET 단계에서 에너지 제한으로 RF 신호를 브로드캐스트하고, 사용자는 업링크 WIT 단계에서 정보 신호를 전송하기 위해 에너지를 수집하는 다중 셀 WPCN을 고려한다. WPCN은 각 시간 간격마다 전체 시스템의 작동이 다른 타임 슬롯 방식으로 수행된다고 가정한다. 또한, WPCN은 IoT 시스템과 같은 애드혹 네트워킹 구성에 주로 의존하기 때문에 보다 실용적인 WPCN 시나리오에서는 여러 H-AP의 계산을 스케줄링하는 추가 중앙 코디네이터가 허용되지 않는다. 이러한 설정에서, 우리는 시간 자원 할당과 업링크 전력 할당을 공동으로 최적화하여 합계 속도 최대화 문제를 다룬다. 우리는 추가 중앙 집중화된 장치 없이 WPCN을 위한 분산 자원 관리 정책을 개발하는데, 이는 일반적으로 기존 최적화 방법에서는 어려운 일이다. H-AP에서 구현된 에이전트는 분산 방식으로 훈련되고 실행된다. 이를 위해 각 에이전트는 시스템의 전역 정보를 몰라도 개별적으로 학습할 수 있는 자체 DNN에 의해 실현된다. 특히, 에이전트는 다른 셀에서 감지될 수 있는 지역적으로 관찰 가능한 지식, 즉 간섭 및 에너지 신호를 활용한다. 이기적인 자원 할당 전략을 방지하기 위해, 우리는 각 H-AP가 훈련 중 다른 H-AP들 간의 분산 조정으로 네트워킹 정책을 개별적으로 결정할 수 있도록 로컬 보상을 설계한다. 결과적으로, 제안된 MADRL 접근법은 에이전트 간의 간단한 상호 작용의 도움으로 분산 훈련뿐만 아니라 로컬에서 관측 가능한 정보만을 사용하여 분산 실행도 달성한다. 수치 결과는 기존의 중앙 집중식 최적화 알고리즘과 최첨단 MADRL 솔루션과 비교하여 제안된 접근 방식의 효과를 검증한다.
이 논문의 두 번째 파트에서는 MU에 계산 작업 오프로딩 기회를 제공하기 위해 UAV 장착 클라우드릿이 배포된 다중 UAV 지원 MEC 시스템을 탐구한다. 거대하고 다양한 IoT 기기의 등장으로 네트워크 실체 간의 상호작용이 증가하고 있으며, 이는 UAV 지원 MEC 네트워크를 더욱 역동적으로 만든다. 또한, 보다 실용적인 IoT 네트워크 운용을 위해서는 중앙 코디네이터 없이 이러한 노드를 분산적으로 운영해야 한다. 이러한 가정 하에서 UAV의 궤적, UAV와 MU 간의 연관성, 계산 자원 할당, 오프로딩 비율의 최적화를 통해 MU의 총 에너지 소비를 최소화하는 문제가 다뤄진다. 우리는 네트워크 역학을 위한 강력한 자원 관리 정책을 분산 방식으로 개발하는데, 이는 일반적으로 기존의 최적화 방법에서는 어려운 일이다. UAV에 구현된 에이전트는 네트워크 역학을 효율적으로 학습하도록 훈련되므로 추론 단계의 보다 역동적인 환경에서 연속적으로 실행될 수 있다. 이를 위해, 분산이 낮은 가치 추정치를 통해 네트워크 역학을 보다 안정적으로 학습하기 위한 다중 에이전트 트윈 지연 심층 결정론적 정책 그레이디언트(MA-TD3)를 채택했다. 또한, UAV 간에 로컬에서 관측할 수 있는 통계 정보를 교환하고 행동 공간의 감소를 통해 훈련 부담을 줄임으로써 상태 및 행동 변수가 구성되는 MDP 설정을 신중하게 설계한다. 결과적으로, 중앙 집중식 방식으로 단일 작업에 대해서만 실행할 수 있는 기존 방법과 달리 제안된 MADRL 접근 방식은 에이전트가 단일 작업에 대해서만 훈련되지만 연속 작업에 관계없이 동적 오프로드 전략을 실현하는 분산 방식으로 시간 영역에 확장성을 달성한다. 수치 결과는 최첨단 MADRL 솔루션을 포함하는 비교스킴에 대한 제안된 알고리즘의 효과를 검증한다.
With exponential growth of the emerging internet of things (IoT), the resource allocation methods for wireless communication systems become more essential. As massive and diverse IoT devices emerge, the interaction between network entities is growing, the need for requiring efficient resource management is increasing. In particular, energy constrained-devices that can only intermittently charge their battery struggle to extend the operation lifetime. On the other hand, as many current mobile applications, such as IoT, online games, and augmented reality, are delay-sensitive and computationally demanding, some devices strive to satisfy their quality of service (QoS) requirement. Furthermore, towards autonomous IoT devices, these nodes are required to be operated in a distributed manner without a central coordinator. Accordingly, this dissertation investigates the decentralized resource allocation methods for wireless communication systems.
The communication systems which are studied in the dissertation are as follows. Firstly, radio frequency (RF) signal-based energy harvesting (EH) is dealt with, which has been attracted significant attention owing to its capability for extending the operational lifetime of wireless devices without battery replacement. Especially, we handle the resource allocation method in wireless powered communication networks (WPCNs) which jointly design the wireless charging and communication protocols. Secondly, mobile edge computing (MEC) is considered, which is as an emerging paradigm that leverages the computing resource and storage space deployed at network edges to perform latency-critical and computation-intensive tasks for mobile users (MUs). Furthermore, as a moving cloudlet, unmanned aerial vehicles (UAVs) can be applied in MEC due to their reliable connectivity with affordable infrastructure investment, which can provide ubiquitous communication and computing supports for the MUs. Thus, we handle the resource allocation method in the UAV-assisted MEC network where the UAVs can be dispatched to the designated places for providing efficient computing services to the MUs in a rapid and flexible manner.
In the first part, we consider multi-cell WPCN where hybrid access points (H-APs) broadcast RF signals to energy-limited in the downlink WET phase, and the users harvest the energy to transmit information signals in the uplink WIT phase. It is assumed that the WPCN is carried out in a time-slotted manner where the operation of the overall system is different at each time interval. In addition, as the WPCN mainly relies on ad-hoc networking configurations, e.g., IoT systems, an additional central coordinator that schedules computations of multiple H-APs is not allowed in more practical WPCN scenarios. Under these setups, we formulate the sum-rate maximization problem by jointly optimizing the time resource allocation and the uplink power allocation. We develop distributed resource management policies for the WPCN without additional centralized units, which is, in general, challenging for conventional optimization methods. The agents implemented at the H-APs are trained and executed in a distributed manner. To this end, each agent is realized by its own DNN that can be individually learned without knowing global information of the system. In particular, an agent leverages locally observable knowledge which can be sensed from other cells, i.e., power of interference and energy signals. To prevent egoistic resource allocation strategies, we design a local reward so that each H-AP can individually determine its networking policy with distributed coordination among other H-APs during the training. As a consequence, the proposed MADRL approach accomplishes not only the distributed training with the aid of a simple interaction among the agents but also the distributed execution using only locally observable information. Numerical results verify the effectiveness of the proposed approach in comparison of the traditional centralized optimization algorithms and state-of-the-art MADRL solutions.
In the second part of this dissertation, we investigate multi-UAV assisted MEC system where the UAV-mounted cloudlets are deployed to provide computational task offloading opportunities to the MUs. With the advent of massive and diverse IoT devices, interactions between network entities are growing, which makes the UAV-assisted MEC networks can become more dynamic. Also, towards more practical IoT networks, these nodes are required to be operated in a distributed manner without a central coordinator. Under these assumptions, optimization problem which minimizes the total energy consumption of MUs via optimizing trajectory of UAVs, association between UAVs and MUs, computational resources allocation, offloading ratio is addressed. We develop robust resource management policies for the network dynamics in a decentralized manner, which is, in general, challenging for conventional optimization methods. The agents implemented at the UAVs are trained to learn the network dynamics efficiently and thus can be distributively executed in a more dynamic environment of inference stage. To this end, the multi-agent twin delayed deep deterministic policy gradient (MA-TD3) was adopted to learn the network dynamics more stably through the value estimate with lower variance. Also, we carefully design the MDP settings where state and action variables are organized by exchanging locally observable statistics among UAVs and by reducing the training burden through the diminishing of the action space, respectively. As a consequence, unlike conventional methods in which can be executed only for a single task in a centralized manner, the proposed MADRL approach achieves scalability in time domain in a decentralized manner, where the agent is trained only for a single task but realizes a dynamic offloading strategy regardless of any consecutive task. Numerical results verify the effectiveness of the proposed algorithm over the benchmark schemes which include state-of-the-art MADRL solutions.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)