Reinforcement Learning 2

🖇️ YOUTUBE

COMPSCI 188 - 2018-09-27

🗒️ MATERIAL

CS 188: Introduction to Artificial Intelligence, Fall 2018

🗓️ 2022-02-11

Note

MDPs and RL
- Offline Solution으로 MDP를 사용할 수 있다.
- Online Solution으로 Model-based 또는 Model-free한 MDP를 사용할 수 있다.
- Q-value 계산에서 k+1 단계의 Q-value는 현재 상태에서 “갈 수 있는” 모든 상태의 총합과 동일 → 최적의 Q-value를 계산할 수 있다.
- T, R을 모르는 상태로 Q 근사값을 만들기 위해 샘플 transition 계산 및 평균 사용
- $\alpha$값은 0과 1 사이의 작은 수로 좀 더 최근에 나온 샘플일 수록 Q-value에 더 많은 기여할 수 있도록 조정하는 factor
- 업데이트 방정식의 max를 통해 샘플 데이터를 수집할 때 최적의 policy를 참조한다.
- Q-value는 suboptimal하게 행동해도 궁극적으로 optimal 값을 계산한다.
- 이때 explore 충분하도록 노드 방문 수가 많아야 하며 learning rate $\alpha$가 충분히 작아야 함
Exploration Function
- 무작위 action을 통해 매 time step마다 동전을 던진다.
- $\epsilon$ 을 통해 랜덤 확률을 조정한다.
- $\epsilon$-greedy exlporation: “아직 가보지 못한” 공간에 더 많은 주의를 기울이자
- Q의 현재 값을 추정치를 통해 업데이트한다. 사용 가능한 모든 state의 Q-value를 취할 때 “지금까지 취하지 않은 행동”에 더 많은 가산점을 준다.
Regret
- optimal policy $\pi ^*$ → 실수가 있을 수 있음 (시간, 비용 등)
- 얼마나 많은 reward가 return되었는지를 기준으로 탐색 알고리즘 판단
- 얼마나 많은 시간이 걸렸는지 탐색 알고리즘 판단
- random → 더 많은 regret를 할 확률이 높음
Generalization
- Q-learning에서 Q-values를 가지고 있어야 하지만 수가 너무 많을 때 일반화를 한다.
- ML의 일반화 과정과 같은 맥락
- Feature-based representation: 특성 벡터를 사용하는 state 사용하기
- Q-function을 통해 V, Q를 linear value functions으로 쓴다.
- 가중치 $w$를 통해 선형 방정식 가능 → 특성 값을 통해 Q-value 근사한다.
- E. g.) Q-Pacman
Linear Regression
- prediction: 학습을 통해 구한 Q-value가 real Q-value에 얼마나 “가까운지” generalize → 2/3 차원
- regression: $y^{hat} = w_0 + w_1x$
- optimization: total error $\sum_i (y_i - y^{hat}_i)^2$
- 가중치 $w_1, w_2, w_3$의 최솟값 찾기
- $w = \frac {1}{2} (y- \sum _k w_kf_k(x))^2$
- $\frac {\delta \, error(w)}{\delta w_m} = - (y- \sum_kw_kf_k(x))f_m(x)$
- $w_m \leftarrow w_m + \alpha (y-\sum_kw_kf_k(x))f_m(x)$
- $w_m \leftarrow w_m + \alpha [r + \gamma max_aQ(s', a')-Q(s, a)]f_m(s, a)$
- (target - prediction) 값 계산을 통해 Q 추정 값이 계속해서 업데이트
Overfitting
- Capacity 조정(다항식 차수를 늘림)을 통해 더 많은 기능을 도입할 수 있다. → overfitting 위험
- overfitting을 방지해야 함 → limitation 필요
Policy Search
- 고를 수 있는 수많은 feature-based policy 중 “어떤 정책이 가장 좋은지” 탐색하는 알고리즘
- policy 실행 중 가중치 집합을 계속해서 업데이트 → 수많은 샘플을 실행해야 함

Review

RL의 model-free MDP modeling을 위해 T, R을 사용하지 않고 Q-value iteration을 통해 샘플링 평균으로 optimal 값을 얻어내야 한다. 이때 RL 모델은 generalization, regret을 통해 학습 속도를 높이면서 가중치를 변경할 수 있다. 특히 random exploration, epsilon greedy exploration을 통해 “가본 적 없는” 장소에 대한 가중치 값을 편하게 조정할 수 있다. Q-value를 조절해 최적화 V를 찾아가는 방법이 이번 강의를 통해 소개되는데, 이를 통해 궁극적으로는 어떤 policy를 고를지 빠르게 RL이 학습 가능하다.
linear regression, optimization, overfitting issue 등은 기본적인 ML에서 total error를 줄이는 방향으로 자연스럽게 iteration을 통해 optimal value를 찾아가는 것과 완전히 똑같은 개념이다.
RL까지 마치면서 Seach and Planning이라는 Part 1이 마무리된다. Part 2부터는 Uncertainty and Learning을 공부하는데, 보다 수학적 이론 개념이 강한 듯하다. 계속해서 매일 하루에 한 강의 차근차근 들어나가자.