KCI등재
멀티-스텝 누적 보상을 활용한 Max-Mean N-Step 시간차 학습 = Max-Mean N-step Temporal-Difference Learning Using Multi-Step Return
n-step TD learning is a combination of Monte Carlo method and one-step TD learning. If appropriate n is selected, n-step TD learningis known as an algorithm that performs better than Monte Carlo method and 1-step TD learning, but it is difficult to select the bestvalues of n. In order to solve the difficulty of selecting the values of n in n-step TD learning, in this paper, using the characteristicthat overestimation of Q can improve the performance of initial learning and that all n-step returns have similar values for Q≈Q* ,we propose a new learning target, which is composed of the maximum and the mean of all k-step returns for 1≤k≤n. Finally, inOpenAI Gym's Atari game environment, we compare the proposed algorithm with n-step TD learning and proved that the proposedalgorithm is superior to n-step TD learning algorithm.
더보기n-스텝 시간차 학습은 몬테카를로 방법과 1-스텝 시간차 학습을 결합한 것으로, 적절한 n을 선택할 경우 몬테카를로 방법과 1-스텝 시간차학습보다 성능이 좋은 알고리즘으로 알려져 있지만 최적의 n을 선택하는 것에 어려움이 있다. n-스텝 시간차 학습에서 n값 선택의 어려움을해소하기 위해, 본 논문에서는 Q의 과대평가가 초기 학습의 성능을 높일 수 있다는 특징과 Q≈Q* 경우, 모든 n-스텝 누적 보상이 비슷한 값을가진다는 성질을 이용하여 1≤k≤n에 대한 모든 k-스텝 누적 보상의 최댓값과 평균으로 구성된 새로운 학습 타겟인 Ω-return을 제안한다.
마지막으로 OpenAI Gym의 Atari 게임 환경에서 n-스텝 시간차 학습과의 성능 비교 평가를 진행하여 본 논문에서 제안하는 알고리즘이 n-스텝시간차 학습 알고리즘보다 성능이 우수하다는 것을 입증한다.
분석정보
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2027 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2021-01-01 | 평가 | 등재학술지 유지 (재인증) | KCI등재 |
2018-01-01 | 평가 | 등재학술지 유지 (등재유지) | KCI등재 |
2015-01-01 | 평가 | 등재학술지 유지 (등재유지) | KCI등재 |
2012-10-31 | 학술지명변경 | 한글명 : 컴퓨터 및 통신시스템 -> 정보처리학회논문지. 컴퓨터 및 통신시스템 | KCI등재 |
2012-10-10 | 학술지명변경 | 한글명 : 정보처리학회논문지A -> 컴퓨터 및 통신시스템외국어명 : The KIPS Transactions Part : A -> KIPS Transactions on Computer and Communication Systems | KCI등재 |
2010-01-01 | 평가 | 등재학술지 유지 (등재유지) | KCI등재 |
2009-03-04 | 학술지명변경 | 한글명 : 정보처리학회논문지 A, B, C, D -> 정보처리학회논문지 A외국어명 : The KIPS Transactions Part : A, B, C, D -> The KIPS Transactions Part : A | KCI등재 |
2009-03-04 | 학술지명변경 | 한글명 : 정보처리학회논문지 A -> 정보처리학회논문지A | KCI등재 |
2008-01-01 | 평가 | 등재학술지 유지 (등재유지) | KCI등재 |
2006-01-01 | 평가 | 등재학술지 유지 (등재유지) | KCI등재 |
2003-01-01 | 평가 | 등재학술지 선정 (등재후보2차) | KCI등재 |
2002-01-01 | 평가 | 등재후보 1차 PASS (등재후보1차) | KCI후보 |
2000-07-01 | 평가 | 등재후보학술지 선정 (신규평가) | KCI후보 |
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.16 | 0.16 | 0.14 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.12 | 0.11 | 0.315 | 0.07 |
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)