Power Allocation with Reinforcement Learning in Energy Harvesting Communication Systems
저자
발행사항
서울 : 서울대학교 대학원, 2019
학위논문사항
학위논문(석사)-- 서울대학교 대학원 : 전기·정보공학부 2019. 8
발행연도
2019
작성언어
영어
주제어
DDC
621.3 판사항(22)
발행국(도시)
서울
기타서명
에너지 하베스팅 통신 시스템에서의 강화학습 기반 전력 할당
형태사항
ix, 90 p. : 삽화, 표 ; 26 cm
일반주기명
참고문헌 수록
UCI식별코드
I804:11032-000000157440
소장기관
최근 사물인터넷(Internet of Things), 센서 네트워크에 대한 폭발적인 관심의 증대로 인하여, 에너지 효율을 높이기 위한 설계는 통신 시스템에서의 필수적인 요소로 자리잡고 있다. 또한 별도의 전력공급 없이, 주위 환경에서 에너지를 수집하여 이를 통신에 사용하는 에너지 하베스팅 통신 시스템(energy harvesting communication systems)은 그러한 네트워크에 사용될 수 있는 중요한 시스템 후보로 손꼽힌다. 하지만 에너지 하베스팅 시스템에서 수집된 에너지의 무작위성과, 무선 통신에서의 시변 페이딩 채널(time-varying fading channel) 등으로 인하여 이러한 환경에서 최적의 전력 할당 정책을 유도해 내는 것은 어려운 문제가 된다. 이를 해결하기 위해 본 논문에서는 강화학습(reinforcement learning)을 기반으로 하여 에너지 하베스팅 통신 시스템에서의 전력 할당 문제에 접근한다. 하지만 순수한 강화학습만으로 해당 시스템에서 높은 성능을 기대하는 것은 어렵다. 그 이유는, 많은 경우에 있어 강화학습 알고리즘은 최적값으로 수렴하기 이전에 수많은 국부 최적값으로 수렴하기 때문이다. 더 나아가 시스템의 특성을 제대로 고려하지 않은 채 설계된 인공신경망(neural networks)을 강화학습 알고리즘에 적용할 경우, 해당 알고리즘에 큰 성능 저하를 유발하게 된다. 본 논문에서는 이러한 문제를 해결하기 위해, 어떠한 독립항등분포의 에너지와 채널 환경에서도 적용 가능한, 효율적인 에이전트의 탐험을 위한 행동 제한 기술과 근사 함수를 위한 이론을 제시한다.
먼저 하향링크에서 단일 사용자 채널을 고려한다. 만약 송신기에서 채널 정보와 수집된 에너지량을 관찰할 수 있을 경우, 이를 적극 활용하여 높은 데이터 전송률을 달성할 수 있다. 하지만 전통적인 강화학습 기반 방법을 사용하면 학습을 완료하는데 오랜 시간이 걸린다는 단점이 있고, 국부 최적점으로의 수렴 문제가 존재한다. 이를 해결하기 위해 송신기가 전송하는 전력의 최적성을 미리 판단하는 새로운 기술을 제안한다. 이러한 기술로 인하여 송신기는 무작위의 행동을 하면서 최적 정책을 학습하지 않고, 보장된 행동 범위 이내에서 학습을 시도한다. 이러한 방식은 다양한 학습 이론적 접근법에 사용될 수 있고, 특히 심층 강화학습(deep reinforcement learning)을 이 방법과 함께 사용할 경우 기존의 온라인 정책의 성능을 상회하는 것을 보인다.
추가적으로 송신기가 여러 수신기에게 메시지를 보내는 하향링크에서의 브로드캐스트 채널(broadcast channel)을 고려한다. 특히 선행 연구에서 다루어지지 않은 시변 브로드캐스트 채널에서의 문제가 사용자 간 공정성 유지를 위한 가중치가 추가된 정보 전송량 최대화를 위한 문제와 함께 다루어진다. 정밀한 정책을 유도해내기 위하여, 먼저 정보 전송량 최대화를 위한 최적 정책이 수집된 에너지, 배터리의 에너지량, 그리고 유저의 채널에 대하여 증가함수임을 증명한다. 그 뒤 이러한 증가 경향성을 기반으로 하여 함수를 근사할 신경망을 설계한다. 효율적인 함수 근사로 인하여 구성된 두 단계의 이러한 접근 방식은, 신경망 설계의 근거를 제시해 주고, 신경망의 표현력이 불필요하게 크게 되는것을 방지한다. 이러한 네트워크에 기반하여, 정책 경사 하강법을 전력 할당 문제를 해결하기 위해 사용한다. 이러한 접근법의 성능을 검증하기 위해, 부분적으로 관찰 가능한 마코프 프로세스에서의 닫힌 형태의 최적 정책과 성능을 비교한다. 더 많은 실험을 통해, 이러한 접근법으로 인한 해결 방법이 이론적 상한에 가까운 성능을 달성하는 것을 보인다.
Energy-efficient design for communication systems has become an inevitable trend due to the recent explosive interest in Internet of Things and sensor networks. Also, energy harvesting communication systems, which collect energy from external sources and use it for communications without additional power supply, are considered as crucial system candidates that can be used for the networks. However, due to the randomness of the energy arrivals to the systems and time-varying fading channels in wireless communications, it is difficult to derive the optimal power allocation policy in the environment. In this thesis, I solve the power allocation problems in energy harvesting communication systems based on reinforcement learning (RL) to overcome the obstacles stated above. In RL for energy harvesting communication systems, a transmitter can learn a power allocation policy by trying many different actions and be motivated by rewards. Nevertheless, because RL algorithms often make agents converge to suboptimal policies, naive applications of RL to communication systems cannot achieve high performance. Furthermore, applying function approximator which is designed without proper consideration of the communication systems to the RL algorithm, leads to large performance degradation. This thesis presents a novel action-bounding technique for agents to efficiently explore strategies and a theorem for function approximation. Both the technique and theorem are applicable to RL even under any independent and identically distributed random energy arrivals and channel distributions.
To begin with, energy harvesting point-to-point communications are considered with downlink channel. If the transmitter can observe channel information and the amount of harvested energy, the transmitter can utilize the observed data to achieve high throughput. However, the conventional methods based on RL have the disadvantage of long learning time, and it can often happen that they converge to suboptimal solutions. In order to solve these problems, I propose a technique to preliminarily measure the optimality of the action from the transmitter. Due to this technique, the transmitter only performs the actions within the guaranteed range, thereby avoiding unnecessary non-optimal actions and achieving high learning efficiency. The combination of deep RL algorithms and this technique especially makes the learning algorithms outperform other existing online policies.
Lastly, a fading broadcast channel is considered where the transmitter transmits messages to receivers using the harvested energy. In particular, a time-varying fading broadcast channel that has not been addressed in previous studies is assumed with the weighted sum-rate maximization problems to maintain fairness among users. To derive precise online policies for the energy harvesting communication systems, I first prove that the optimal online power allocation policy of the transmitter for the sum-rate maximization is an increasing function of harvested energy, remaining battery, and each user's channel gain. I then construct an appropriate neural network by relying on the increasing behavior of the optimal policy. This two-step approach, by using an effective function approximation as well as providing a fundamental guideline for neural network design, can prevent the system from wasting the representational capacity of neural networks. Based on the neural network, I apply the policy gradient method to solve the power allocation problem. To validate the performance of my approach, I compare it with the closed-form optimal policy that is devised for a partially observable Markov decision process (MDP). Through further experiments, it is observed that my online solution achieves a performance close to the theoretical upper bound of the performance in a time-varying fading broadcast channel.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)