๐๏ธ YOUTUBE
๐๏ธ MATERIAL
CS 188: Introduction to Artificial Intelligence, Fall 2018
๐๏ธ 2022-02-11
Offline Solution์ผ๋ก MDP๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
Online Solution์ผ๋ก Model-based ๋๋ Model-freeํ MDP๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
Q-value ๊ณ์ฐ์์ k+1 ๋จ๊ณ์ Q-value๋ ํ์ฌ ์ํ์์ โ๊ฐ ์ ์๋โ ๋ชจ๋ ์ํ์ ์ดํฉ๊ณผ ๋์ผ โ ์ต์ ์ Q-value๋ฅผ ๊ณ์ฐํ ์ ์๋ค.
T, R์ ๋ชจ๋ฅด๋ ์ํ๋ก Q ๊ทผ์ฌ๊ฐ์ ๋ง๋ค๊ธฐ ์ํด ์ํ transition ๊ณ์ฐ ๋ฐ ํ๊ท ์ฌ์ฉ
$\alpha$๊ฐ์ 0๊ณผ 1 ์ฌ์ด์ ์์ ์๋ก ์ข ๋ ์ต๊ทผ์ ๋์จ ์ํ์ผ ์๋ก Q-value์ ๋ ๋ง์ ๊ธฐ์ฌํ ์ ์๋๋ก ์กฐ์ ํ๋ factor
์ ๋ฐ์ดํธ ๋ฐฉ์ ์์ max๋ฅผ ํตํด ์ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ ๋ ์ต์ ์ policy๋ฅผ ์ฐธ์กฐํ๋ค.
Q-value๋ suboptimalํ๊ฒ ํ๋ํด๋ ๊ถ๊ทน์ ์ผ๋ก optimal ๊ฐ์ ๊ณ์ฐํ๋ค.
์ด๋ explore ์ถฉ๋ถํ๋๋ก ๋ ธ๋ ๋ฐฉ๋ฌธ ์๊ฐ ๋ง์์ผ ํ๋ฉฐ learning rate $\alpha$๊ฐ ์ถฉ๋ถํ ์์์ผ ํจ
๋ฌด์์ action์ ํตํด ๋งค time step๋ง๋ค ๋์ ์ ๋์ง๋ค.
$\epsilon$ ์ ํตํด ๋๋ค ํ๋ฅ ์ ์กฐ์ ํ๋ค.
$\epsilon$-greedy exlporation: โ์์ง ๊ฐ๋ณด์ง ๋ชปํโ ๊ณต๊ฐ์ ๋ ๋ง์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด์
Q์ ํ์ฌ ๊ฐ์ ์ถ์ ์น๋ฅผ ํตํด ์ ๋ฐ์ดํธํ๋ค. ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ state์ Q-value๋ฅผ ์ทจํ ๋ โ์ง๊ธ๊น์ง ์ทจํ์ง ์์ ํ๋โ์ ๋ ๋ง์ ๊ฐ์ฐ์ ์ ์ค๋ค.
optimal policy $\pi ^*$ โ ์ค์๊ฐ ์์ ์ ์์ (์๊ฐ, ๋น์ฉ ๋ฑ)
์ผ๋ง๋ ๋ง์ reward๊ฐ return๋์๋์ง๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์ ์๊ณ ๋ฆฌ์ฆ ํ๋จ
์ผ๋ง๋ ๋ง์ ์๊ฐ์ด ๊ฑธ๋ ธ๋์ง ํ์ ์๊ณ ๋ฆฌ์ฆ ํ๋จ
random โ ๋ ๋ง์ regret๋ฅผ ํ ํ๋ฅ ์ด ๋์
Q-learning์์ Q-values๋ฅผ ๊ฐ์ง๊ณ ์์ด์ผ ํ์ง๋ง ์๊ฐ ๋๋ฌด ๋ง์ ๋ ์ผ๋ฐํ๋ฅผ ํ๋ค.
ML์ ์ผ๋ฐํ ๊ณผ์ ๊ณผ ๊ฐ์ ๋งฅ๋ฝ
Feature-based representation: ํน์ฑ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ state ์ฌ์ฉํ๊ธฐ
Q-function์ ํตํด V, Q๋ฅผ linear value functions์ผ๋ก ์ด๋ค.
๊ฐ์ค์น $w$๋ฅผ ํตํด ์ ํ ๋ฐฉ์ ์ ๊ฐ๋ฅ โ ํน์ฑ ๊ฐ์ ํตํด Q-value ๊ทผ์ฌํ๋ค.
E. g.) Q-Pacman