๐๏ธ YOUTUBE
๐๏ธ MATERIAL
CS 188: Introduction to Artificial Intelligence, Fall 2018
๐๏ธ 2022-02-10
Reinforcement Learning
MDPs
Model-Based Learning
Passive RL
Sample-Based Policy Evaluation
Temporal Difference Learning
Active RL
โ์ด์ ์ ์๋ํ์ง ์์โ ํ๋์ ์ค์ ์ํฉ์์ ํ ๋: exploration vs exploitation
๋ชจ๋ธ๋ง์ด ์๋๋ผ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ฉด์ Q-value๋ฅผ ์ ๋ฐ์ดํธํจ
V โ Q-value๋ก ๋ณํํด์ ๊ณ์ฐ
true T๊ฐ ์๋๋ผ ์ํ Tโ๋ฅผ ํตํด policy evaluation์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ Q-learning ํ ์ ์๋ค.
Q-learning์ ํตํด ์๋ก์ด ์ํ์ ๊ณ์ฐ, ๋ค์ Q๋ก ์ ๋ฐ์ดํธ
์์ ๊ฐ์ด ์๋ค๊ณ ํด๋ propagation์ ํตํด ์ต๋๊ฐ์ ๋ฐ์๋ค์ด๊ธฐ ๋๋ฌธ์ positive ์ ๋ฐ์ดํธ๊ฐ ๊ฐ๋ฅ
ํ์ฌ ํ์ตํ Q-value์์ ๋ฒ์ด๋ off-policyํ ๋ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.