Markov Decision Processes 2
๐๏ธ YOUTUBE
COMPSCI 188 - 2018-09-20
๐๏ธ MATERIAL
CS 188: Introduction to Artificial Intelligence, Fall 2018
๐๏ธ 2022-02-09
Note
-
MDPs
- transition function: ํ์ ๋ฌธ์ ์ successor์ ๋ค๋ฅด๊ฒ ์ํ s๋ฅผ ์ํ sโ๋ก ํ๋ฅ ์ ์ผ๋ก ๋ณํํ๋ ํจ์
- policy: map of states to actions
- utility: sum of discounted rewards
- values: expected future utility from a state โ ํด๋น ์ํ์์ โ์ป์ ๊ฒ์ด๋ผ ๊ธฐ๋๋๋โ utilityโ (max node)
- q-values: expected future utility from a q-state (chance node)
-
Optimal Quantities
-
The Bellman Equations
- ์ต์ ์ ๊ฐ์ ๋ถํด โ ๋ฏธ๋์ optimality๋ฅผ ์ํด ํ์ฌ ๊ฐ์ plug in
- value iteration์ ํตํด ์ต์ ํ(k+1 ๋จ๊ณ V* ๊ณ์ฐ์ ์ํด k ๋จ๊ณ V* ๊ฐ ๋ฐ๋ณต ์ฌ์ฉ ๋ฑ)
-
Convergence
- $V_k$ vectors๊ฐ ์๋ ดํ ์ง ์ด๋ป๊ฒ ๋ณด์ฅํ๋๊ฐ?
- ํธ๋ฆฌ ์ต๋ ๊น์ด๊ฐ M์ผ ๋ $V_M$์ ์ค์ untruncated ๊ฐ์ holdํ๋ค.
- discount๊ฐ 1 ๋ฏธ๋ง์ด๋ค.
-
Policy Evaluation
- ์ ๊ณต๋ฐ์ ์ ์ฑ
์ด โ์ผ๋ง๋ ์ข์์งโ ์ ์๋ฅผ ํตํด ํ๋จํ ์ ์์
- ๊ณ ์ ์ ์ฑ
(fixed policies)์ด ์์ ๊ฒฝ์ฐ ํ๊ฐ๊ฐ ๋ ์ฝ๋ค.
- $\pi^$๊ฐ ์กด์ฌํ๋ค๋ฉด $\pi^$๊ฐ ์ ์ํ๋ ๋ฐฉํฅ ๊ทธ๋๋ก ํ์
- ๊ณ ์ ์ ์ฑ
$\pi$๋ฅผ ํตํด $V^{\pi}(s)$ ๊ณ์ฐ ๊ฐ๋ฅ
- E. g.) ํญ์ ์ฐ์ธก ๋ฐฉํฅ, ํญ์ ์ง์ง โ ๋์ผํ MDP์ ๋ํด ๋ ๊ฐ์ง ์ ์ฑ
์ด ์์ ๋ ์ ์ฒด ํธ๋ฆฌ์์์ ๊ฐ์ด ๋ ๋์ ์ ์ฑ
์ ์ ํ
- ๋ฒจ๋ง ๋ฐฉ์ ์์ ํตํด K+1 ๋จ๊ณ์ V๋ฅผ ์
๋ฐ์ดํธ
- ๊ฐ iteration ๋น $O(S^2)$
-
Policy Extraction
- ๊ฐ์ ๋ฐํ์ผ๋ก ์ ์ฑ
์ ๋์ถํจ
- optimal value $V^(s)$ โ expectimax๋ฅผ ํตํด chance node Q-value๋ฅผ ๊ณ์ฐํจ โ $\pi^(s)$
- ๊ฐํ ํ์ต๊ณผ ๊ด๋ จ
-
Policy Iteration
-
policy evaluation + policy extraction
-
์ต์ ๊ฐ์ผ๋ก ์๋ ดํ๋ ์๊ณ ๋ฆฌ์ฆ โ ๋ฒจ๋ง ๋ฐฉ์ ์์ผ๋ก ์
๋ฐ์ดํธ
-
Policy iteration์ ๋ฌธ์
- $O(S^2A)$, ์๋ ๋๋ฆผ
- ๊ฐ state์ ์ต๋๊ฐ์ ๊ฑฐ์ ๋ณํ์ง ์์
- policy๊ฐ value ์๋ ด๋ณด๋ค ์ ์ ์๋ ด
-
๋ฌธ์ ํด๊ฒฐ ๋ฐฉ๋ฒ
- Policy evaluation: ์๋ ดํ ๋๊น์ง ๊ณ ์ ์ ์ฑ
์ ๋ํด utilities ๊ณ์ฐ
- Policy improvement: policy๋ฅผ ์
๋ฐ์ดํธํจ
-
Value iteration vs Policy iteration
- value iteration: iterationํ ๋๋ง๋ค ๊ฐ๊ณผ ์ ์ฑ
์ ์
๋ฐ์ดํธ
- policy iteration: ๊ณ ์ ์ ์ฑ
์ผ๋ก utilities ์
๋ฐ์ดํธ, evaluation ์ดํ ์๋ก์ด policy ์ ํ
-
Reinforcement Leanring
- Exploration: ๋ชจ๋ฅด๋ ๋ณ์๋ฅผ ์๊ธฐ ์ํด์ action์ ํตํด ์ ๋ณด๋ฅผ ์ป์ด์ผ ํจ
- Exploitation: ์๊ณ ์๋ ๊ฒ์ ์ฌ์ฉ ๊ฐ๋ฅ(Policy ๋ฑ)
- Sampling: ๊ฐ์ ๋ฐ๋ณต์ ์ผ๋ก ์ป์ด์ผ ํจ
- โ MDP๊ฐ ์์ ๋ โ์ด๋ป๊ฒโ ํ๋ํด์ผ ํ๋๊ฐ?
Review
- ์ต์ ๊ฐ โ value / policy iteration
- ํน์ policy์ ํด๋จ ๊ฐ ๊ณ์ฐ โ policy evaluation
- ๊ฐ์ policy๋ก ๋ณํ โ policy extraction