[강화학습] Dealing with Sparse Reward Environments - 희박한 보상 환경에서 학습하기

728x90

※ 아래 링크의 내용을 공부하며 한국어로 정리한 내용입니다.

Reinforcement Learning: Dealing with Sparse Reward Environments

Reinforcement Learning (RL) is a method of machine learning in which an agent learns a strategy through interactions with its environment…

medium.com

1. Sparse Reward

Sparse Reward(희박한 보상) : Agent가 목표 상황에 가까워졌을 때만 긍정 보상을 받는 경우
- 현재 실험 환경 세팅과 같음

Curiosity-Driven method
- agent가 관심사 밖의 환경에도 동기를 받도록
Curriculum learning
- agent가 목표를 간단하게 이룰 수 있도록 커리큘럼을 작성해줌
Auxiliary task
- 보조 작업 - 초기의 희소보상 문제를 해결하는 것과는 다르지만 agent의 성능 향상에 도움을 줌

Sparse Reward Task

희소 보상 문제를 해결하는 가장 간단한 형식 = 현재 agent 상태를 s로, 목표 상태를 s_g라고 할 때, s - s_g의 값이 임계값보다 작으면 해당 목표를 달성한 것으로 생각하는 것.

보상을 받기 위해서는 초기상태 s_0부터 환경 탐색을 시작해야함.
일종의 local minimum in gradient descent 에 빠지지 않기 위해 선택해보지 않은 행동도 선택하며 환경을 탐색해나가야하고, 동시에 보상이 많은 방향으로 정책을 업데이트도 해야함
환경 탐색과 보상 이용(개발)의 trade-off 문제를 ${\epsilon}-greedy$ 방법을 써서 action을 확률이 높은 것과 랜덤한 것 중 고르면서 탐색하는 방법으로 해결한 사례가 있음.

Reward Shaping

기본 보상을 추가적인 작업을 통해서 개선하는 것을 의미함. 가장 직관적인 방법
추가 보상을 통해서 적절하게 실제 희소 보상과의 갭을 커버하는 것
빈대 잡다가 초가삼간 태울 수 있음 -> 이러한 보상 함수는 주로 핸드메이드고 사람의 전문성을 필요로 함.
- 이런 경우에 정책 학습 중에 human bias이 반영되는 경우가 있을 수도 있음
- 사람이 찾지 못한 새로운 정책을 찾는 것에도 실패할 수 있음

2. Curiosity-Driven Method

Curiosity-driven method의 배경에는 agent가 경험해보지 못한 state를 방문하는 것이 빈약한 보상을 채워줄 수 있다고 생각하고 권장한다는 가설이 있음
현실에서의 추측은 호기심을 기반으로 환경을 탐색하면서 배우는 아기와 같음
- 처음에 자기 몸을 신기해하다가, 익숙해지면 환경에 있는 다른 객체들에 집중하는 것처럼
이것처럼 agent가 궁금해하면서 탐색하다가 agnent가 가장 익숙하지 않은(unusual) 상태로 행동을 선택해서 가기를 기대

Intrinsic curiosity-driven exploration by self-supervised prediction

D. Pathak, P. Agrawal, A. A. Efros, and T. Darrell, “Curiosity-driven exploration by self-supervised prediction. ”

agent가 새로운 상태를 찾아가는 방식으로 환경을 탐색하고 행동의 결과 예측의 오류를 줄이는 방향으로 행동을 선택하도록 학습
내재적 호기심 모듈(Intrinsic curiosity module ICM)을 통해 호기심을 구현
- 두 개의 neural network를 hidden layer와 결합하는 형태
- pixel observation 임베딩을 위해서(?)

1. The Dynamics model

- 선택한 행동 $a_t$ 와 상태 $s_t$를 기반으로 다음 상태 $s_{t+1}$을 예측함
- 모델의 예측값과 실제 state의 편차를 새로움으로 간주
- agent가 예측을 쭉 최적화 하면서 동시에 예측이 틀린 상태들을 찾아가게 되면 agent는 새로운 상태에 방문하는 action을 지속적으로 취할 수 있음

2. The Inverse model

- 현재 상태 $s_t$와 다음 상태 $s_{t+1}$을 기반으로 행동 $a_t$ 를 예측함
- ICM이 상응하는 행동에 대한 예측과 관련이 있는 observation 특성들만 임베드 한다는 것에 기반함
- 행동을 선택하는데 관련이 없는 input space의 정보에 관심을 갖지 않게
-

state space에 전체 access 권한이 있으면 inverse model 사용할 필요 없음

agent는 많은 부분으로 이루어진 목적 함수를 한 번에 최적화하게 됨
- $L_I$ : inverse dynamic model로 예측한 행동과 실제 행동 $a_t$ 사이의 차이를 최소화
- $L_F$ : dynamic mocdel의 예측을 발전시키기 위해 목표 함수의 차이를 줄임
- $R$ : 예상되는 누적 외부 보상

$0 <= \beta <= 1$ 일 때 inverse model loss는 forward model loss의 반대
$\lambda > 0$ 는 외부 보상이 내재 보상 신호에 외부 요소가 얼마나 중요한가

Planning to Explore via self-supervised World Models

R. Sekar, O. Rybkin, K. Daniilidis, P. Abbeel, D. Hafner, and D. Pathak, “Planning to explore via self-supervised world models.”

model based agent에서도 curiority를 사용할 수 있음.
먼저 global world model을 빌드하기 위해 외부 보상 없이 환경을 탐색하면서 자기 지도학습을 함.
그리고 agent는 경험하지 못한 방법으로 환경에 적응하기 위해 다양한 특정 tasks에 대한 보상 함수를 받음.

Why Model-Based self-supervised curiosity exploration

model-free한 intrinsic curiosity model 같은 경우에는 특정한 task에 적응하기 위한 정책 탐색을 위해 데이터가 너무 많이 필요하다고 주장함
기존 curiosity 방식은 최근 방문한 상태의 curiocity(편차?)를 계산하는데, 이렇게 되면 새로운 상태가 아니라 이미 방문한 상태를 선택하게 됨
Inverse model의 실제 상태와 예측 상태의 차이가 많은 행동을 찾는 대신 dynamic model의 앙상블을 사용해서 다음 상태 예측의 불일치를 계산하기로 함.

How to implement

time step ${o_t}$ 환경에 대한 고차원 observation는 먼저 feature ${h_t}$ 로 encoding
${h_t}$는 recurrent latent state ${s_t}$의 input으로
탐색 정책은 agent가 최근에 가장 친숙하지 않은 새로운 state로 가는 action을 return
첫 번째 탐색 페이즈에서 agent는 지속적으로 데이터를 수집하고 global world model을 학습한 다음 그 뒤의 환경 탐색을 위한 agent의 행동을 선택함
world model 내부의 탐색 정책은 다수의 dynamic model들의 불일치를 상태의 참신함으로 평가
- = Latent Disagreement
1단계 예측 모델의 앙상블을 사용함. 앙상블의 불확실성은 모델의 one-step 예측 평균의 분산으로 수치화됨.
one-step predictive model은 다음 특성 state ${h_{t+1}}$ 을 예측
미래 특성 state들의 분산 혹은 불일치는 내재 보상이 됨
최적 행동 결정을 위해서 Plan2Explore은 PlaNet이나 Dreamer의 latent dynamics model을 사용함
- world model 내부의 parametric policy를 효과적으로 학습하기 위해서
학습된 world model은 replay buffer에서 얻은 데이터에서 future latent state를 예측함

3. Curriculum Learning

agent에게 의미있는 sequence를 가진 여러 task들을 주고, task들은 agent가 처음 주어진 task를 해결할 수 있을 때까지 시간에 따라 점점 복잡해짐.Automatic Goal Generation for Reinforcement Learning

C. Florensa, D. Held, X. Geng, and P. Abbeel, “Automatic goal generation for reinforcement learning agents.”

curriculum learning을 위해서는 agent에게 해결할 task들을 그냥 제공하기만 하는 게 아니라 의미있는 순서로 task를 제공해야함
agent는 쉬운 task로 시작해서 초기 task를 해결할 수 있을 때까지 training period가 지나갈 수록 어려워지는 task를 해결해야한다.
의미있는 순서를 생성하기 위해서 GoalGAN을 사용할 수 있음
- agent가 해결가능한 목표들을 생성해주는 모델

4. Auxiliary Tasks

M. Riedmiller, R. Hafner, T. Lampe, M. Neunert, J. Degrave, T. van de Wiele, V. Mnih, N. Heess, and J. T. Springenberg, “Learning by playing solving sparse reward tasks from scratch.”
M. Jaderberg, V. Mnih, W. M. Czarnecki, T. Schaul, J. Z. Leibo, D. Sil-ver, and K. Kavukcuoglu, “Reinforcement learning with unsupervised auxiliary tasks.”

학습하는 동안 agent가 보조(auxiliary) task를 통해서 보상 확장
"Learning by playing solving sparse reward tasks from scratch" 의 auxiliary task는 curriculum을 활용한 main task에 기반하는 건 아님
대신 task가 보조 제어 task와 보조 보상 예측 task로 차별화됨

Auxiliary Control Tasks

Mnih, A. P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, and K. Kavukcuoglu, “Asynchronous methods for deep reinforcement learning.”

Pixel Changes: 빠르게 변화하는 pixels들이 이벤트를 특정하는 지표가 된다는 아이디어에서 시작됨. agent는 올바른 행동을 고름으로써 pixel 변화를 control하기 위해 시도함
Network Features: agent는 agent의 value 혹은 정책 네트워크의 hidden layer의 activation을 제어하기 위해 시도함. 왜냐하면 정책 혹은 value 네트워크는 high level 특성을 추출할 수 있고, 그게 agent의 activation을 control할 수 있으면 유용하기 때문에

Auxiliary Control과 보상 예측 task는 공유된 목표 함수를 해결하기 위해서 A3C 알고리즘을 사용해서 agent에서 결합됨.
NN layer들이 main과 auxiliary task를 해결하기 위해 공유되어 사용되기 때문에, agent는 모든 task에 대해서 개선됨.

Case of Labyrinth environment

agent가 목표에 도착했을 때만 보상을 얻는 환경
agent가 문제를 해결하는 것을 돕기 위해 세 가지 보조 task를 제시함

Pixel Control: Auxiliary 정책이 입력 이미지의여러 부분에서 pixel이 심하게 변화는 방향으로 학습
Reward Prediction: replay buffer로부터 3개의 frame을 제공받아서 network가 본 적 없는 다음 frame의 보상을 예측함.
- 보상이 희박하고, 샘플링 왜곡이 발생해서 보상을 받은 frame이 더 늘어나기 때문에
- reward predictor는 고차원 input space를 저차원 latent space로 변환하는 agent의 특성 레이어들을 형성하는 것
Vaule Fucntion Replay: agent가 A3C 알고리즘으로 on-policy value function를 학습하는 것에 추가적으로 replay buffer에서 sample을 학습함
- value iteration은 다양한 frame 길이에서 사용되고, reward predictor을 통해서 형성된 새로운 feature들을 발견해서 활용함

같은 레이어들을 공유한다고 해서 task들이 동시에 같은 데이터에서 해결되지는 않음
대신 A3C agent가 방문한 observation들을 저장하는 replay buffer을 제안했음
UNREAL agent(UNsupervised REinforcement and Auxiliary Learning agent가 두 분리된 DRL 기법을 결합함
- A3C로 학습된 첫 번째 정책은 policy gradient method를 활용해서 online으로 업데이트 됨.
  - 과거 상태를 encoding할 수 있는 RNN 활용
- 반면에 auxiliary task는 replay buffer에 저장되고 명시적으로 샘플링된 새로운 경험 시퀀스를 사용해서 학습함
- 최대 효율성 보장을 위해 Q-learning의 off-policy로 학슴되고, 간단한 feed-forward 구조를 사용해서 학습됨.