[๊ฐํํ์ต] TRPO(Trust Region Policy Optimization) ๋
ผ๋ฌธ ์ ๋ฆฌ
ยท
๐ฌ ML & Data/๐ฎ Reinforcement Learning
PPO๋ฅผ ๊ณต๋ถํ๋ ค๊ณ ํ๋๋ฐ ์ด ๋
ผ๋ฌธ์ด ์ ํ๋์ด์ผํ๋ค๋ ์ด์ผ๊ธฐ๋ฅผ ๋ค์ด์ ๊ฐ๋ณ๊ฒ ๋
ผ๋ฌธ์ ์ฝ์ด๋ดค๋ค. ์์ง ๊ฐํํ์ต ๋
ผ๋ฌธ ์ฝ๋ ๊ฑด ์ต์ํ์ง ์์์ ์๊ฐ์ด ๊ฝค ๊ฑธ๋ ธ๋ค. ์ํ์ ๊ฐ๋
์ด ์ ์ด์ ์ต๋ํ ๊ผผ๊ผผํ ์ดํดํ ์ ์๊ฒ ์ ๋ฆฌํด๋ดค๋๋ฐ, ๋ค๋ฅธ ์ฌ๋๋ค์๊ฒ๋ ๋์์ด ๋์์ผ๋ฉด ํด์ ํฌ์คํ
ํ๋ค.[https://arxiv.org/abs/1502.05477]TRPO(Trust Region Policy Optimization)url: https://arxiv.org/abs/1502.05477title: "Trust Region Policy Optimization"description: "We describe an iterative procedure for optimizing policies, with guaranteed mono..