๐๏ธ YOUTUBE
๐๏ธ MATERIAL
CS 188: Introduction to Artificial Intelligence, Fall 2018
๐๏ธ 2022-02-10
Reinforcement Learning

MDPs
Model-Based Learning

Passive RL
Sample-Based Policy Evaluation

Temporal Difference Learning

Active RL
โ์ด์ ์ ์๋ํ์ง ์์โ ํ๋์ ์ค์ ์ํฉ์์ ํ ๋: exploration vs exploitation

๋ชจ๋ธ๋ง์ด ์๋๋ผ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ฉด์ Q-value๋ฅผ ์ ๋ฐ์ดํธํจ
V โ Q-value๋ก ๋ณํํด์ ๊ณ์ฐ

true T๊ฐ ์๋๋ผ ์ํ Tโ๋ฅผ ํตํด policy evaluation์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ Q-learning ํ ์ ์๋ค.
Q-learning์ ํตํด ์๋ก์ด ์ํ์ ๊ณ์ฐ, ๋ค์ Q๋ก ์ ๋ฐ์ดํธ
์์ ๊ฐ์ด ์๋ค๊ณ ํด๋ propagation์ ํตํด ์ต๋๊ฐ์ ๋ฐ์๋ค์ด๊ธฐ ๋๋ฌธ์ positive ์ ๋ฐ์ดํธ๊ฐ ๊ฐ๋ฅ

ํ์ฌ ํ์ตํ Q-value์์ ๋ฒ์ด๋ off-policyํ ๋ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.