๐๏ธ YOUTUBE
๐๏ธ MATERIAL
CS 188: Introduction to Artificial Intelligence, Fall 2018
๐๏ธ 2022-02-08
Non-deterministic Search
MDPs: Properties
MDPs: Policies
Utilities of Sequences
Preferences
Infinite Utilities
MDPs solution
MDPs๊ฐ ์ ๋ ฅ๋ ๋ policy๊ฐ ๊ฒฐ๊ณผ๊ฐ์ผ๋ก ์ถ๋ ฅ๋จ
state์ ๊ฐ, q-state(=chance node)์ ๊ฐ, $\pi ^*$
๋ชจ๋ state์ ๊ฐ์ด ์๊ณ q-state๋ ์ฌ๋ฌ ๊ฐ์ด transition์ ๋ฐ๋ผ ๋ค๋ฅธ ๊ฐ์ด ํจ๊ป ์กด์ฌ โ ํ๊ท ๊ฐ์ผ๋ก state ๊ฐ ๊ฒฐ์
์ ๋ฐฉ์ ์์ ํตํด expectimax ๊ฐ์ ๊ตฌํจ: ํ์ฌ ์ํ s์์ ๋ฏธ๋ ์ํ sโ๋ก ์ด์ด์ง๋ ๊ฐ๊ณผ sโ์ ๊ฐ์ discount๋ ๊ฐ์ ๋ํ์ฌ ์ด๋ฅผ ๋ชจ๋ ๊ฒฝ์ฐ์ ์์ ํ๊ท ํจ
E.g.) Racing Search Trees
Time-Limited Search
time-limited: $V^*(s)$ โ ๊ฒ์์ด k ๋ ๋ง์ ๋จ๊ณ์ ์ข ๋ฃํ ๋ s์ optimal ๊ฐ
state s์์ depth-k expectimax ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ป์ ์ ์๋ ๊ฐ
0 โ 1 โ ... โ k ๋จ๊ณ๋ฅผ ๋๋ฆด ๋ ์ผ๋ง๋ ๋ง์ ๋ณด์์ ์ป์ ์ ์๋์ง ํ์ธ
residual reward ๊ณ์ฐ์ optimal ๊ฐ์ ๊ทนํ์ ๊ตฌํ๋ ๊ฒ๊ณผ ์ ์ฌ
optimal play์์ ์ต์ ์ ๊ฒฝ์ฐ๋ฅผ ํผํ๋ ๊ฒฝ์ฐ๋ฅผ ์์ ํ ์ ์์
$V_0(s)$์์ ์์, k ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ฉด์ expectimax๋ฅผ ๊ตฌํจ
ํ์ฌ ์ํ s์ ๋ณด์๊ณผ ๋จ์ ์๋ k ๋จ๊ณ์์์ ๋ณด์์ discountํ ๊ฐ์ ๋ํ๊ณ , ๋ชจ๋ ๊ฒฝ์ฐ๋ฅผ ์นด์ดํธ