728x90
์๋ฐ ๊ฐํํ์ต์ ํด๋ํด๋ ํท๊ฐ๋ฆฐ๋ค. ์๋ฌด๋๋ ๋ด๊ฐ ๊ธฐ๋ฐ์์ด ์ผ๋จ ์ฐ๊ณ ๋ดค๊ธฐ ๋๋ฌธ์ด๊ฒ ์ง... ๋๋ฌธ์ ๊ธฐ๋ฐ์ ๋ค์ง๋ ์๊ฐ์ ๊ฐ์ ธ๋ณธ๋ค. Richard S. Sutton and Andrew G. Barto์ ๋ผ๋ ๊ฐํํ์ต๊ณ์ ๋ฐ์ด๋ธ ๊ฐ์ ์ฑ ์ ์ฅ์ฅ ์ฝ๊ณ ์์์ ์ ๋ฆฌํ๋ฉด์ ์ดํด๋ฅผ ํด๋ณด๊ธฐ๋ก ํ๋ค. ์ฑ ์ ์จ๋ผ์ธ ๊ณต๊ฐ๋์ด ์์ผ๋ฏ๋ก ์๋ฌธ ๋ฒ์ญ๊ธฐ์ ํจ๊ป๋ผ๋ฉด ๋ฌด์์ธ ๊ฒ ์๋ค!!! ์ ๋ฏธ๋์ด ํ๋กฌํํธ๋ฅผ ํ๋ ์ง์ ๊ฐ์ธ๊ต์ฌ๋ฅผ ๋๊ณ ๋ชจ๋ฅด๋ ๊ฑธ ๋ฌผ์ด๋ณด๋ฉด์ ๊ณต๋ถํ๋ค. ๋ ๋ค ๋ถ์ฌ๋ฃ๊ธฐ ํ๊ณ ์ค๋ช ํด๋ฌ๋ผ๋ ๊ฒ ๋ง์ผ๋๊น ์ฃผ์..
https://gemini.google.com/share/c194067ca041
CHAPTER 1. THE REINFORCEMENT LEARNING PROBLEM
1.1 Reinforcement learning
๊ฐํํ์ต ๋ฌธ์ ์ ๊ฐ์ฅ ํฐ ํน์ด์
- ๋ณธ์ง์ ์ผ๋ก ํ์ ๋ฃจํ๊ฐ ๋จbeing closed-loop in an essential way
- ์ด๋ค action์ ์ทจํ ์ง์ ๋ํ ์ง์ ์ ์ธ ๋ช ๋ น์ ๋ฐ์ง ์์not having direct instructions as to what actions to take
- ๋ณด์ ์ ํธ๋ฅผ ํฌํจํจ action์ ๊ฒฐ๊ณผ๊ฐ ์ฅ๊ธฐ๊ฐ์ ๊ฑธ์ณ ์งํ๋จwhere the consequences of actions, including reward signals, play out over extended time periods
๊ฐํํ์ต์ ๊ธฐ์ด ์์ด๋์ด
- ์ค์ ๋ฌธ์ ๊ฐ ์ง๋ฉดํ ๊ฐ์ฅ ์ค์ํ ์ธก๋ฉด์ ํ์ต ์์ด์ ํธ๊ฐ ๋ชฉํ ๋ฌ์ฑ์ ์ํด ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ํฌ์ฐฉํ๋ ๊ฒ
์ง๋ ํ์ต๊ณผ ์ฐจ์ด์
- ์ง๋ํ์ต ๋์ ๋ฌ๋ฆฌ ๊ฐํํ์ต์ด ์ง๋ฉดํ ์ํธ์์ฉ ๋ฌธ์ ์์๋ ์์ด์ ํธ๊ฐ ํ๋ํด์ผํ ๋ชจ๋ ์ํฉ์ ๋ํด ์ ํํ๊ณ ๋ํ์ ์ธ ํ๋์ ํน์ ํ๋ ๊ฒ ์์ฒด๊ฐ ์ค์ฉ์ ์ด์ง๊ฐ ์๋ค.
- ์์ด์ ํธ๋ ์์ ์ ์จ์ ํ ๊ฒฝํ์ผ๋ก๋ถํฐ ํ์ตํด์ผํ๋ค.
๋น์ง๋ ํ์ต๊ณผ์ ์ฐจ์ด์
- ๋น์ง๋ ํ์ต์ ๋ผ๋ฒจ ์๋ ๋ฐ์ดํฐ์ ์จ๊ฒจ์ง ๊ตฌ์กฐ ๊ฐ์ ๊ฒ์ ์ฐพ์๋ด๋ ๊ฒ
- ๊ฐํํ์ต์ ๋น์ทํด๋ณด์ด์ง๋ง ๊ตฌ์กฐ๋ฅผ ์ฐพ๋ ๊ฒ ์๋๋ผ ๋ณด์ ์ ํธ๋ฅผ ์ต๋ํํ๋ ๊ฒ์ด ๋ชฉํ
๊ฐํํ์ต์ challenge
- ํ์๊ณผ ๊ฐ๋ฐ ์ฌ์ด์ ๊ท ํ
- ํฐ ๋ณด์์ ์ป๊ธฐ ์ํด์๋ ๊ณผ๊ฑฐ์ ์๋ํด๋ณธ action ์ค์ ๋ณด์์ ์กฐ์ ํ๋๋ฐ ํจ๊ณผ์ ์ธ ๊ฒ์ ์ฐพ์์ผํ๋ค.
- ๊ทธ๋ฐ๋ฐ ๊ทธ๋ฐ action์ ์ฐพ๊ธฐ ์ํด์๋ ์ด์ ์ ์ ํํ์ง ์์ action์ ์๋ํด์ผํ๋ค.
- exploration-exploitation dilemma
- ์ด๋ฐ ๋๋ ๋ง๋ ์ผ๋จ ์ง๋/๋น์ง๋ ํ์ต์์๋ ๋ํ๋์ง ์์
ํน์ด์
- ๊ฐํํ์ต์ ๋ชฉํ์งํฅ ์์ด์ ํธ๊ฐ ๋ถํน์ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉด์ ๋ฐ์ํ๋ ๋ชจ๋ ๋ฌธ์ ์ ๋ํด ๊ณ ๋ คํ๋ค. (๋ ํฐ ๊ทธ๋ฆผ์๋ ์๋ง์ ์ ์๋๋ก)
- ๋ค๋ฅธ ์ง๋ํ์ต ๊ฐ์ ์ฐ๊ตฌ๋ค์ ์ด๊ฒ ์ต์ข ์ ์ผ๋ก ์ด๋์ ์ ์ฉํ ์ง๊น์ง๋ ๊ณ ๋ คํ์ง ์๋๋ค. ์ผ๋ฐ์ ์ธ ๋ถ๋ถ์ ๊ณ ๋ คํ๊ณ , ํน์ ํํธ์์ ๋ฐ์ํ ๋ฌธ์ ๊ฐ์ ๊ฒ๋ค์ ๊ณ ๋ คํ์ง ์๋๋ค๋ ๋ป.
- ์ด๋ฐ ์ ๊ทผ๋ค์ด ๋ง์ ์ ์ฉํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ธฐ๋ ํ์ง๋ง, ๋ ๋ฆฝ๋ subproblem์ ๋ํ ๊ด์ ์ ํ๊ณ๋ผ๊ณ ๋ณผ ์ ์๋ค.
1.2 examples
- decision making agent์ ํ๊ฒฝ์ด ๊ด๋ จ๋ ์ํธ์์ฉ์์ agent๋ ํ๊ฒฝ์ ๋ํด ์ ๋ชจ๋ฅด๋ ์ํ๋ก ๋ชฉํ ๋ฌ์ฑ์ ์ํด ๋ ธ๋ ฅํ๋ค.
- agent์ action์ ํ๊ฒฝ์ ๋ฏธ๋ ์ํ์ ์ํฅ์ ๋ฏธ์น๊ณ , ๋ค์๋ฒ์ agent์ ์ต์ ๊ณผ ๊ฐ๋ฅํ ๊ธฐํ์๋ ์ํฅ์ ๋ฏธ์น๋ค.
- ๋์์ agent์ action์ด ์ด๋ค ์ํฅ์ ๋ฏธ์น ์ง์ ๋ํด์๋ ์์ ํ ์์ธกํ ์ ์๋ค.
- ์์ด์ ํธ๋ ๋ก๋ด, ์ ๊ธฐ์ฒด ๋ญ ์๋ฌดํผ ๊ทธ๋ฐ ๊ฒ์ ์ ์ฒด๊ฐ ์๋์ด๋ ๋๊ณ , ํ๊ฒฝ์ ๊ผญ ๊ทธ๋ฐ ๊ฒ์ ์ธ๋ถ์๋ง ์กด์ฌํ ํ์๋ ์๋ค.
1.3 Elements of reinforcement learning
policy
- ์ฃผ์ด์ง ์๊ฐ์ agent๊ฐ ํ๋ํ ๋ฐฉ์์ ์ ์ํ๋ค.
- ํ๊ฒฝ์ ์ด์ ์ํ๋ก๋ถํฐ ์ทจํด์ผํ ์ก์ ์ mappingํ๋ ์ญํ
- ์ผ๋ฐ์ ์ผ๋ก ํ๋ฅ
reward signal
- ๊ฐํํ์ต ๋ฌธ์ ์์ ๋ชฉ์ ์ ์ ์ํ๋ค.
- ๋ฌด์์ด agent์๊ฒ ์ข์ ๊ฒ์ด๊ณ ๋์ ๊ฒ์ธ์ง ์๋ ค์ฃผ๊ณ , agent๋ reward signal์ด ์ต๋ํํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ค.
- agent๋ ๋ณด์ ์ ํธ์ ์ง์ ์ํฅ์ ์ค ์ ์๊ณ , ํ๊ฒฝ์ด๋ ์ํ ๋ณํ์ ์ํ ๊ฐ์ ์ ์ํฅ๋ง ๊ฐ๋ฅํ๋ค.
- reward signal์ policy์ ๊ฐ์ฅ ๋ง์ ์ํฅ์ ๋ฏธ์น๋ค. reward๊ฐ ์ ์ผ๋ฉด policy๊ฐ ๋ค์์ ๊ทธ action ๋์ ๋ค๋ฅธ action์ ์ทจํ๋ ์์ผ๋ก.
- ๋ณด์์ ํ๊ฒฝ์ ์ํ์ action์ ๋ํ ํ๋ฅ ์ ํจ์์ผ ์ ์๋ค
value function
- reward๊ฐ ์ฆ๊ฐ์ ์ผ๋ก ์ข์๋์ง๋ฅผ ๋ํ๋ธ๋ค๋ฉด value function์ ๋ฌด์์ด ์ฅ๊ธฐ์ ์ผ๋ก ์ข์์ง๋ฅผ ๋ํ๋ธ๋ค.
- value of the state๋ ํด๋น state์์ ์์ํ์ ๋ agent๊ฐ ๋ฏธ๋์ ์ป์ ๊ฒ์ผ๋ก ์์๋๋ ์ ์ฒด ๋ณด์์ด๋ค.
- e.g. reward๋ ๊ณ์ ๋ฎ์๋ฐ value๋ ๋์ ์ ์๋ค. ์ฅ๊ธฐ์ ๊ด์ ์์ ๊ทธ๊ฒ ์ข๋ค๊ณ ํ๋จํ๊ธฐ ๋๋ฌธ์.
- reward ์์ผ๋ฉด value๋ ์์ ์ ์๊ณ , ๋ณด์์ ๋ ์ป๊ธฐ ์ํด value๊ฐ ์ด์ฌํ ์ถ๋ก ํ๋ค.
- ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ value๋ ์ฐ๋ฆฌ๊ฐ ๊ฒฐ์ ์ ๋ด๋ฆด ๋ ๊ฐ์ฅ ๋ง์ด ๊ณ ๋ คํ๋ ๊ฒ์ด๋ค.
- action์ value judgement์ด๋ค. highest value(not reward)๋ฅผ ๊ณ ๋ฅธ๋ค. ์? value๊ฐ ์ด๋ง์ด๋งํ ์์ reward๋ฅผ ์ฅ๊ธฐ์ ์ผ๋ก ๊ฐ๊ณ ์์ผ๋๊น.
- ์์ฌ ๊ฒฐ์ ๋ฐ ๊ณํ ์๋ฆฝ์ ๊ฐ์ฅ ์ํฅ์ ๋ง์ด ์ค๋ค.
- ๋ชจ๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ํด์ ๊ฐ์ฅ ์ค์ํ ์์๋ ์ด๋ป๊ฒ value ์ถ๋ก ์ ํจ์จ์ ์ผ๋ก ํด๋ผ ๊ฒ์ธ๊ฐ ์ด๋ค.
model
- ํ๊ฒฝ์ ๋์์ ๋ชจ๋ฐฉํ๊ฑฐ๋, ๋ ์ผ๋ฐ์ ์ผ๋ก๋ ํ๊ฒฝ์ด ์ด๋ป๊ฒ ๋์ํ ์ง์ ๋ํ ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- state์ action์ด ์ฃผ์ด์ง๋ฉด ๋ค์์ ์์ธก.
- model์ planning์ ์ฌ์ฉํ๋ค.
- ๋ชจ๋ธ๊ณผ planning์ ๊ฐํํ์ต๋ฌธ์ ํด๊ฒฐ์ ์ฌ์ฉํ๋ ๊ฒ์ model-based ๋ผ๊ณ ํ๊ณ , ๋ฐ๋๋ก model-free ๋ ๋ช ์์ ์ผ๋ก planning์ ๋ฐ๋๋๋ trial-and-error learner์ด๋ค.
1.4 Limitations and Scope
limitations
- ์ฌ๊ธฐ์๋ ๊ฐ์นํจ์ ์ถ์ ์ ๊ด๋ จ๋ ๋ชจ๋ธ์ ์ฃผ๋ก ๋ค๋ฃจ์ง๋ง ๊ผญ ๊ทธ๋ด ํ์๋ ์๋ค.
- genetic, simulated annealing๊ณผ ๋ค๋ฅธ optimization ๋ฐฉ๋ฒ ๋ฑ์ด ์๋ค.
- ์ด๋ค์ ๋ง์ ๊ฐ๊ฐ ๋ค๋ฅธ policy๋ฅผ ๋ฃ์ด ํ์ต๋์ง ์์ agent์ lifetime์ ํ๊ฐํ๊ณ ๊ฐ์ฅ ๋ง์ ๋ณด์์ ์ป๋ action์ ๋ชจ์ ์ ์๋ action์ ๊ณ ๋ฅธ๋ค. = evolutionary
- ์ ์ฑ ๊ณต๊ฐ์ด ์์ฒญ ์๊ฑฐ๋, ์ข์ ์ ์ฑ ์ด ํํ๊ณ ์ฐพ๊ธฐ ์ฝ๊ฑฐ๋, ์ฐพ์ ์๊ฐ์ด ๋ง์ผ๋ฉด ์ด๊ฒ๋ ์ข์ ๋ฐฉ๋ฒ.
- evolutionary methods๋ ํ์ต agent๊ฐ ์ ํํ๊ฒ ํ๊ฒฝ์ ์ํ๋ฅผ ๊ฐ์งํ ์ ์์๋ ์ด์ ์ด ์์.
- value funciton์ ํฌํจ๋์ง ์๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ์ ์ฑ ์ ์ฑ๋ฅ์ ๊ธ์ํ ๊ฐ์ ํ๊ธฐ ์ํด์ parameter์ ๋ฐฉํฅ์ฑ์ ์ถ์ ํจ
policy gradient methods
- ์ถ๋ก ์ ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๊ณ ์๋ ๋์ ๋ง๋ค์ด๋ด๋ฏ๋ก ๊ฐ๋ณ ํ๋ ์ํธ ์์ฉ์ ์ธ๋ถ์ฌํญ์ ๊ดํ ์ด์ ์ ์ฌ์ฉํ ์ ์๋ค.
- ์ด์ค ์ผ๋ถ๋ gradient ์ถ๋ก ์ ํฅ์์ํค๊ธฐ ์ํด value function ์ถ๋ก ์ ์ด์ ์ ์ฌ์ฉํ๊ธฐ๋ ํ๋ค.
scopes
- ๊ฐํํ์ต๊ณผ ์ต์ ํ ๋ฐฉ๋ฒ์ ์ฐ๊ฒฐ์ ํํ ์ค์ธ์ ์์ธ์ด๊ธฐ ๋๋ฌธ์ ์ถ๊ฐ ์ธ๊ธ์ด ํ์ํ๋ค.
- ๊ฐํํ์ต ์์ด์ ํธ์ ๋ชฉํ๊ฐ ์ํ์ ์ธ reward signal์ ์ต๋ํํ๋ ๊ฒ์ด๋ผ๊ณ ํ ๋, ๊ทธ๊ฒ ์ค์ ๋ก ์ต๋๊ฐ์ ์ฐพ์์ผํ๋ค๊ณ ํ๋๊ฒ ์๋๋ผ ๋ ธ๋ ฅํ๋ ๊ฒ.
- ์ต์ ํ์ ์ต์ ์ฑ์ ๊ฐ์ง ์๋ค.
728x90
'๐ฌ ML & Data > ๐ฎ Reinforcement Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [RL Basics] 3. Markov Decision Process (0) | 2025.12.08 |
|---|---|
| [RL Basics] 2. Finite Markov-Decision Processes (0) | 2025.12.08 |
| [๊ฐํํ์ต] TRPO(Trust Region Policy Optimization) ๋ ผ๋ฌธ ์ ๋ฆฌ (8) | 2024.09.02 |
| [MPC] 4. Optimal Control(2) - Taylor Series ์ ์ฉ, Algebraic Riccati Equation(ARE) ๊ตฌํ๊ธฐ (1) | 2024.03.08 |
| [MPC] 4. Optimal Control(1) - LQR๊ณผ Taylor Series(ํ ์ผ๋ฌ ๊ธ์) (1) | 2024.03.06 |