Reinforcement Learning 1

🖇️ YOUTUBE

COMPSCI 188 - 2018-09-25

🗒️ MATERIAL

CS 188: Introduction to Artificial Intelligence, Fall 2018

🗓️ 2022-02-10

Note

Reinforcement Learning
- agent가 action을 통해 environement가 바뀐다. 이때 state s와 reward r이 주어진다.
- MDPs와 다르게 환경과 보상이 어떤지 사전에 모델링할 수 있다.
- “어떻게 보상을 최적화하는지” 직접적인 planning이 강화학습의 주 목적
- 초기 단계 → 시도 → 학습 → 시도 → 학습 ... → 성능 향상
- 결정론적, 확률론적 모델과 달리 스스로 학습하며 무엇을 학습할지 알아냄
MDPs
- model T(s, a, s’)
- reward R(s, a, s’)
- 강화학습 모델의 agent는 T와 R을 모르고 학습 시작(MDPs는 이미 확률을 사전에 알고 있음)
Model-Based Learning
- 학습 경험을 통해 적절한 모델링 학습
- MDP 모델링: 통계 데이터를 통해 T, S 모델링
- MDP 풀기: value iteration → 학습을 통한 관찰된 데이터를 통해 policy 모델링
- MBL을 통해 얻어낸 결과는 정확하지 않은 정보일 수 있다.
- 데이터가 많으면 많을 수록 정확도가 높아짐(강화학습의 힘)
- E.g.) Expected Age
Passive RL
- policy evaluation: 고정 정책 $\pi(s)$ → state values 학습하기($\pi$를 통한 각 state에 대한 값 계산)
- RL은 real model의 T, R을 알지 못함
- 관찰한 샘플 값 평균 사용
- T, R 필요 없이 이해 가능한 모델링 가능
- state connection 정보를 사용하지 않음
- 각 state가 따로 학습되어야 함
- 학습에 사용되는 시간이 길다.
Sample-Based Policy Evaluation
- passive RL 학습 시간을 줄일 수 있음
- state 간의 connection을 사용 → 벨만 방정식 사용 가능
- 벨만 방정식에 필요한 T, R을 알지 못하는 상태에서 RL 시작해야 함
- 결과값 s’의 샘플을 평균 → V 업데이트
Temporal Difference Learning
- 모든 경험에서 학습하기
- V를 샘플 평균이 아니라 하나의 샘플마다 업데이트하기
- policy는 고정된 상태로 evaluation
- 가중치 $\alpha$를 통해 최신 샘플 값을 더 많이 반영 → 정확한 평균은 아니지만 최근 경험을 반영
- TD value learning의 벨만 방정식 사용에는 policy $\pi(s)$ 업데이트에 $Q(s,a)$가 필요함
- $Q(s, a)$ 통해 능동적으로 데이터 수집 가능
Active RL
- “이전에 시도하지 않은” 행동을 실제 상황에서 할 때: exploration vs exploitation
- 모델링이 아니라 데이터를 수집하면서 Q-value를 업데이트함
- V → Q-value로 변형해서 계산
- true T가 아니라 샘플 T’를 통해 policy evaluation이 가능하기 때문에 Q-learning 할 수 있다.
- Q-learning을 통해 새로운 샘플을 계산, 다음 Q로 업데이트
- 음수 값이 있다고 해도 propagation을 통해 최댓값을 받아들이기 때문에 positive 업데이트가 가능
- 현재 학습한 Q-value에서 벗어나 off-policy할 때 더 좋은 결과를 얻을 수 있다.

Review

TDL는 하나의 샘플마다 V를 업데이트하는데, 이때 반영되는 샘플의 값은 최근 학습한 샘플일 수록 반영되는 비율이 높다. 이는 DL에서 LSTM 등이 stochastic online으로 샘플을 학습하되 이전에 경험한 보를 계속 반영하면서 최근에 학습한 내용을 더 많이 반영하는 것과 유사하다는 인사이트를 준다. 물론 미래 단계의 샘플을 더 ‘적게’ 반영하는 건 $\gamma$와 같다.
T, S는 실험 환경이 아니라면 사전에 결코 알 수 없는 미지의 true 모델링의 요소이기 때문에 강화학습은 학습을 하면서 나름의 샘플을 통해 이를 추정한다. 평균적으로 T, L을 구해간다면(passive RL) 충분히 좋은 성능을 내지만, 학습 시간이 너무 오래 걸린다. 이때 Q-Value 업데이트를 통해 T, L을 ‘샘플링’하면서 시간을 훨씬 줄일 수 있는 active RL이 존재한다.
재밌는 사실은 이러한 Q-learning이 결과적으로는 optimal에 가까워진다는 것이다.