โป ์๋ ๋งํฌ์ ๋ด์ฉ์ ๊ณต๋ถํ๋ฉฐ ํ๊ตญ์ด๋ก ์ ๋ฆฌํ ๋ด์ฉ์ ๋๋ค.
1. Sparse Reward
- Sparse Reward(ํฌ๋ฐํ ๋ณด์) : Agent๊ฐ ๋ชฉํ ์ํฉ์ ๊ฐ๊น์์ก์ ๋๋ง ๊ธ์ ๋ณด์์ ๋ฐ๋ ๊ฒฝ์ฐ
- ํ์ฌ ์คํ ํ๊ฒฝ ์ธํ ๊ณผ ๊ฐ์
- Curiosity-Driven method
- agent๊ฐ ๊ด์ฌ์ฌ ๋ฐ์ ํ๊ฒฝ์๋ ๋๊ธฐ๋ฅผ ๋ฐ๋๋ก
- Curriculum learning
- agent๊ฐ ๋ชฉํ๋ฅผ ๊ฐ๋จํ๊ฒ ์ด๋ฃฐ ์ ์๋๋ก ์ปค๋ฆฌํ๋ผ์ ์์ฑํด์ค
- Auxiliary task
- ๋ณด์กฐ ์์ - ์ด๊ธฐ์ ํฌ์๋ณด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ๊ณผ๋ ๋ค๋ฅด์ง๋ง agent์ ์ฑ๋ฅ ํฅ์์ ๋์์ ์ค
Sparse Reward Task
- ํฌ์ ๋ณด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฐ์ฅ ๊ฐ๋จํ ํ์ = ํ์ฌ agent ์ํ๋ฅผ s๋ก, ๋ชฉํ ์ํ๋ฅผ s_g๋ผ๊ณ ํ ๋, s - s_g์ ๊ฐ์ด ์๊ณ๊ฐ๋ณด๋ค ์์ผ๋ฉด ํด๋น ๋ชฉํ๋ฅผ ๋ฌ์ฑํ ๊ฒ์ผ๋ก ์๊ฐํ๋ ๊ฒ.
- ๋ณด์์ ๋ฐ๊ธฐ ์ํด์๋ ์ด๊ธฐ์ํ s_0๋ถํฐ ํ๊ฒฝ ํ์์ ์์ํด์ผํจ.
- ์ผ์ข ์ local minimum in gradient descent ์ ๋น ์ง์ง ์๊ธฐ ์ํด ์ ํํด๋ณด์ง ์์ ํ๋๋ ์ ํํ๋ฉฐ ํ๊ฒฝ์ ํ์ํด๋๊ฐ์ผํ๊ณ , ๋์์ ๋ณด์์ด ๋ง์ ๋ฐฉํฅ์ผ๋ก ์ ์ฑ ์ ์ ๋ฐ์ดํธ๋ ํด์ผํจ
- ํ๊ฒฝ ํ์๊ณผ ๋ณด์ ์ด์ฉ(๊ฐ๋ฐ)์ trade-off ๋ฌธ์ ๋ฅผ ${\epsilon}-greedy$ ๋ฐฉ๋ฒ์ ์จ์ action์ ํ๋ฅ ์ด ๋์ ๊ฒ๊ณผ ๋๋คํ ๊ฒ ์ค ๊ณ ๋ฅด๋ฉด์ ํ์ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ํด๊ฒฐํ ์ฌ๋ก๊ฐ ์์.
Reward Shaping
- ๊ธฐ๋ณธ ๋ณด์์ ์ถ๊ฐ์ ์ธ ์์ ์ ํตํด์ ๊ฐ์ ํ๋ ๊ฒ์ ์๋ฏธํจ. ๊ฐ์ฅ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ
- ์ถ๊ฐ ๋ณด์์ ํตํด์ ์ ์ ํ๊ฒ ์ค์ ํฌ์ ๋ณด์๊ณผ์ ๊ฐญ์ ์ปค๋ฒํ๋ ๊ฒ
- ๋น๋ ์ก๋ค๊ฐ ์ด๊ฐ์ผ๊ฐ ํ์ธ ์ ์์ -> ์ด๋ฌํ ๋ณด์ ํจ์๋ ์ฃผ๋ก ํธ๋๋ฉ์ด๋๊ณ ์ฌ๋์ ์ ๋ฌธ์ฑ์ ํ์๋ก ํจ.
- ์ด๋ฐ ๊ฒฝ์ฐ์ ์ ์ฑ ํ์ต ์ค์ human bias์ด ๋ฐ์๋๋ ๊ฒฝ์ฐ๊ฐ ์์ ์๋ ์์
- ์ฌ๋์ด ์ฐพ์ง ๋ชปํ ์๋ก์ด ์ ์ฑ ์ ์ฐพ๋ ๊ฒ์๋ ์คํจํ ์ ์์
2. Curiosity-Driven Method
- Curiosity-driven method์ ๋ฐฐ๊ฒฝ์๋ agent๊ฐ ๊ฒฝํํด๋ณด์ง ๋ชปํ state๋ฅผ ๋ฐฉ๋ฌธํ๋ ๊ฒ์ด ๋น์ฝํ ๋ณด์์ ์ฑ์์ค ์ ์๋ค๊ณ ์๊ฐํ๊ณ ๊ถ์ฅํ๋ค๋ ๊ฐ์ค์ด ์์
- ํ์ค์์์ ์ถ์ธก์ ํธ๊ธฐ์ฌ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ฒฝ์ ํ์ํ๋ฉด์ ๋ฐฐ์ฐ๋ ์๊ธฐ์ ๊ฐ์
- ์ฒ์์ ์๊ธฐ ๋ชธ์ ์ ๊ธฐํดํ๋ค๊ฐ, ์ต์ํด์ง๋ฉด ํ๊ฒฝ์ ์๋ ๋ค๋ฅธ ๊ฐ์ฒด๋ค์ ์ง์คํ๋ ๊ฒ์ฒ๋ผ
- ์ด๊ฒ์ฒ๋ผ agent๊ฐ ๊ถ๊ธํดํ๋ฉด์ ํ์ํ๋ค๊ฐ agnent๊ฐ ๊ฐ์ฅ ์ต์ํ์ง ์์(unusual) ์ํ๋ก ํ๋์ ์ ํํด์ ๊ฐ๊ธฐ๋ฅผ ๊ธฐ๋
Intrinsic curiosity-driven exploration by self-supervised prediction
D. Pathak, P. Agrawal, A. A. Efros, and T. Darrell, “Curiosity-driven exploration by self-supervised prediction. ”
- agent๊ฐ ์๋ก์ด ์ํ๋ฅผ ์ฐพ์๊ฐ๋ ๋ฐฉ์์ผ๋ก ํ๊ฒฝ์ ํ์ํ๊ณ ํ๋์ ๊ฒฐ๊ณผ ์์ธก์ ์ค๋ฅ๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ํ๋์ ์ ํํ๋๋ก ํ์ต
- ๋ด์ฌ์ ํธ๊ธฐ์ฌ ๋ชจ๋(Intrinsic curiosity module ICM)์ ํตํด ํธ๊ธฐ์ฌ์ ๊ตฌํ
- ๋ ๊ฐ์ neural network๋ฅผ hidden layer์ ๊ฒฐํฉํ๋ ํํ
- pixel observation ์๋ฒ ๋ฉ์ ์ํด์(?)
1. The Dynamics model
- ์ ํํ ํ๋ $a_t$ ์ ์ํ $s_t$๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ํ $s_{t+1}$์ ์์ธกํจ
- ๋ชจ๋ธ์ ์์ธก๊ฐ๊ณผ ์ค์ state์ ํธ์ฐจ๋ฅผ ์๋ก์์ผ๋ก ๊ฐ์ฃผ
- agent๊ฐ ์์ธก์ ์ญ ์ต์ ํ ํ๋ฉด์ ๋์์ ์์ธก์ด ํ๋ฆฐ ์ํ๋ค์ ์ฐพ์๊ฐ๊ฒ ๋๋ฉด agent๋ ์๋ก์ด ์ํ์ ๋ฐฉ๋ฌธํ๋ action์ ์ง์์ ์ผ๋ก ์ทจํ ์ ์์
2. The Inverse model
- ํ์ฌ ์ํ $s_t$์ ๋ค์ ์ํ $s_{t+1}$์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ $a_t$ ๋ฅผ ์์ธกํจ
- ICM์ด ์์ํ๋ ํ๋์ ๋ํ ์์ธก๊ณผ ๊ด๋ จ์ด ์๋ observation ํน์ฑ๋ค๋ง ์๋ฒ ๋ ํ๋ค๋ ๊ฒ์ ๊ธฐ๋ฐํจ
- ํ๋์ ์ ํํ๋๋ฐ ๊ด๋ จ์ด ์๋ input space์ ์ ๋ณด์ ๊ด์ฌ์ ๊ฐ์ง ์๊ฒ
-
state space์ ์ ์ฒด access ๊ถํ์ด ์์ผ๋ฉด inverse model ์ฌ์ฉํ ํ์ ์์
- agent๋ ๋ง์ ๋ถ๋ถ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ชฉ์ ํจ์๋ฅผ ํ ๋ฒ์ ์ต์ ํํ๊ฒ ๋จ
- $L_I$ : inverse dynamic model๋ก ์์ธกํ ํ๋๊ณผ ์ค์ ํ๋ $a_t$ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ต์ํ
- $L_F$ : dynamic mocdel์ ์์ธก์ ๋ฐ์ ์ํค๊ธฐ ์ํด ๋ชฉํ ํจ์์ ์ฐจ์ด๋ฅผ ์ค์
- $R$ : ์์๋๋ ๋์ ์ธ๋ถ ๋ณด์
- $0 <= \beta <= 1$ ์ผ ๋ inverse model loss๋ forward model loss์ ๋ฐ๋
- $\lambda > 0$ ๋ ์ธ๋ถ ๋ณด์์ด ๋ด์ฌ ๋ณด์ ์ ํธ์ ์ธ๋ถ ์์๊ฐ ์ผ๋ง๋ ์ค์ํ๊ฐ
Planning to Explore via self-supervised World Models
R. Sekar, O. Rybkin, K. Daniilidis, P. Abbeel, D. Hafner, and D. Pathak, “Planning to explore via self-supervised world models.”
- model based agent์์๋ curiority๋ฅผ ์ฌ์ฉํ ์ ์์.
- ๋จผ์ global world model์ ๋น๋ํ๊ธฐ ์ํด ์ธ๋ถ ๋ณด์ ์์ด ํ๊ฒฝ์ ํ์ํ๋ฉด์ ์๊ธฐ ์ง๋ํ์ต์ ํจ.
- ๊ทธ๋ฆฌ๊ณ agent๋ ๊ฒฝํํ์ง ๋ชปํ ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฒฝ์ ์ ์ํ๊ธฐ ์ํด ๋ค์ํ ํน์ tasks์ ๋ํ ๋ณด์ ํจ์๋ฅผ ๋ฐ์.
Why Model-Based self-supervised curiosity exploration
- model-freeํ intrinsic curiosity model ๊ฐ์ ๊ฒฝ์ฐ์๋ ํน์ ํ task์ ์ ์ํ๊ธฐ ์ํ ์ ์ฑ ํ์์ ์ํด ๋ฐ์ดํฐ๊ฐ ๋๋ฌด ๋ง์ด ํ์ํ๋ค๊ณ ์ฃผ์ฅํจ
- ๊ธฐ์กด curiosity ๋ฐฉ์์ ์ต๊ทผ ๋ฐฉ๋ฌธํ ์ํ์ curiocity(ํธ์ฐจ?)๋ฅผ ๊ณ์ฐํ๋๋ฐ, ์ด๋ ๊ฒ ๋๋ฉด ์๋ก์ด ์ํ๊ฐ ์๋๋ผ ์ด๋ฏธ ๋ฐฉ๋ฌธํ ์ํ๋ฅผ ์ ํํ๊ฒ ๋จ
- Inverse model์ ์ค์ ์ํ์ ์์ธก ์ํ์ ์ฐจ์ด๊ฐ ๋ง์ ํ๋์ ์ฐพ๋ ๋์ dynamic model์ ์์๋ธ์ ์ฌ์ฉํด์ ๋ค์ ์ํ ์์ธก์ ๋ถ์ผ์น๋ฅผ ๊ณ์ฐํ๊ธฐ๋ก ํจ.
How to implement
- time step ${o_t}$ ํ๊ฒฝ์ ๋ํ ๊ณ ์ฐจ์ observation๋ ๋จผ์ feature ${h_t}$ ๋ก encoding
- ${h_t}$๋ recurrent latent state ${s_t}$์ input์ผ๋ก
- ํ์ ์ ์ฑ ์ agent๊ฐ ์ต๊ทผ์ ๊ฐ์ฅ ์น์ํ์ง ์์ ์๋ก์ด state๋ก ๊ฐ๋ action์ return
- ์ฒซ ๋ฒ์งธ ํ์ ํ์ด์ฆ์์ agent๋ ์ง์์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ global world model์ ํ์ตํ ๋ค์ ๊ทธ ๋ค์ ํ๊ฒฝ ํ์์ ์ํ agent์ ํ๋์ ์ ํํจ
- world model ๋ด๋ถ์ ํ์ ์ ์ฑ
์ ๋ค์์ dynamic model๋ค์ ๋ถ์ผ์น๋ฅผ ์ํ์ ์ฐธ์ ํจ์ผ๋ก ํ๊ฐ
- = Latent Disagreement
- 1๋จ๊ณ ์์ธก ๋ชจ๋ธ์ ์์๋ธ์ ์ฌ์ฉํจ. ์์๋ธ์ ๋ถํ์ค์ฑ์ ๋ชจ๋ธ์ one-step ์์ธก ํ๊ท ์ ๋ถ์ฐ์ผ๋ก ์์นํ๋จ.
- one-step predictive model์ ๋ค์ ํน์ฑ state ${h_{t+1}}$ ์ ์์ธก
- ๋ฏธ๋ ํน์ฑ state๋ค์ ๋ถ์ฐ ํน์ ๋ถ์ผ์น๋ ๋ด์ฌ ๋ณด์์ด ๋จ
- ์ต์ ํ๋ ๊ฒฐ์ ์ ์ํด์ Plan2Explore์ PlaNet์ด๋ Dreamer์ latent dynamics model์ ์ฌ์ฉํจ
- world model ๋ด๋ถ์ parametric policy๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด์
- ํ์ต๋ world model์ replay buffer์์ ์ป์ ๋ฐ์ดํฐ์์ future latent state๋ฅผ ์์ธกํจ
3. Curriculum Learning
- agent์๊ฒ ์๋ฏธ์๋ sequence๋ฅผ ๊ฐ์ง ์ฌ๋ฌ task๋ค์ ์ฃผ๊ณ , task๋ค์ agent๊ฐ ์ฒ์ ์ฃผ์ด์ง task๋ฅผ ํด๊ฒฐํ ์ ์์ ๋๊น์ง ์๊ฐ์ ๋ฐ๋ผ ์ ์ ๋ณต์กํด์ง.Automatic Goal Generation for Reinforcement Learning
C. Florensa, D. Held, X. Geng, and P. Abbeel, “Automatic goal generation for reinforcement learning agents.”
- curriculum learning์ ์ํด์๋ agent์๊ฒ ํด๊ฒฐํ task๋ค์ ๊ทธ๋ฅ ์ ๊ณตํ๊ธฐ๋ง ํ๋ ๊ฒ ์๋๋ผ ์๋ฏธ์๋ ์์๋ก task๋ฅผ ์ ๊ณตํด์ผํจ
- agent๋ ์ฌ์ด task๋ก ์์ํด์ ์ด๊ธฐ task๋ฅผ ํด๊ฒฐํ ์ ์์ ๋๊น์ง training period๊ฐ ์ง๋๊ฐ ์๋ก ์ด๋ ค์์ง๋ task๋ฅผ ํด๊ฒฐํด์ผํ๋ค.
- ์๋ฏธ์๋ ์์๋ฅผ ์์ฑํ๊ธฐ ์ํด์ GoalGAN์ ์ฌ์ฉํ ์ ์์
- agent๊ฐ ํด๊ฒฐ๊ฐ๋ฅํ ๋ชฉํ๋ค์ ์์ฑํด์ฃผ๋ ๋ชจ๋ธ
4. Auxiliary Tasks
M. Riedmiller, R. Hafner, T. Lampe, M. Neunert, J. Degrave, T. van de Wiele, V. Mnih, N. Heess, and J. T. Springenberg, “Learning by playing solving sparse reward tasks from scratch.”
M. Jaderberg, V. Mnih, W. M. Czarnecki, T. Schaul, J. Z. Leibo, D. Sil-ver, and K. Kavukcuoglu, “Reinforcement learning with unsupervised auxiliary tasks.”
- ํ์ตํ๋ ๋์ agent๊ฐ ๋ณด์กฐ(auxiliary) task๋ฅผ ํตํด์ ๋ณด์ ํ์ฅ
- "Learning by playing solving sparse reward tasks from scratch" ์ auxiliary task๋ curriculum์ ํ์ฉํ main task์ ๊ธฐ๋ฐํ๋ ๊ฑด ์๋
- ๋์ task๊ฐ ๋ณด์กฐ ์ ์ด task์ ๋ณด์กฐ ๋ณด์ ์์ธก task๋ก ์ฐจ๋ณํ๋จ
Auxiliary Control Tasks
Mnih, A. P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, and K. Kavukcuoglu, “Asynchronous methods for deep reinforcement learning.”
- Pixel Changes: ๋น ๋ฅด๊ฒ ๋ณํํ๋ pixels๋ค์ด ์ด๋ฒคํธ๋ฅผ ํน์ ํ๋ ์งํ๊ฐ ๋๋ค๋ ์์ด๋์ด์์ ์์๋จ. agent๋ ์ฌ๋ฐ๋ฅธ ํ๋์ ๊ณ ๋ฆ์ผ๋ก์จ pixel ๋ณํ๋ฅผ controlํ๊ธฐ ์ํด ์๋ํจ
- Network Features: agent๋ agent์ value ํน์ ์ ์ฑ ๋คํธ์ํฌ์ hidden layer์ activation์ ์ ์ดํ๊ธฐ ์ํด ์๋ํจ. ์๋ํ๋ฉด ์ ์ฑ ํน์ value ๋คํธ์ํฌ๋ high level ํน์ฑ์ ์ถ์ถํ ์ ์๊ณ , ๊ทธ๊ฒ agent์ activation์ controlํ ์ ์์ผ๋ฉด ์ ์ฉํ๊ธฐ ๋๋ฌธ์
- Auxiliary Control๊ณผ ๋ณด์ ์์ธก task๋ ๊ณต์ ๋ ๋ชฉํ ํจ์๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ A3C ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด์ agent์์ ๊ฒฐํฉ๋จ.
- NN layer๋ค์ด main๊ณผ auxiliary task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณต์ ๋์ด ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์, agent๋ ๋ชจ๋ task์ ๋ํด์ ๊ฐ์ ๋จ.
Case of Labyrinth environment
- agent๊ฐ ๋ชฉํ์ ๋์ฐฉํ์ ๋๋ง ๋ณด์์ ์ป๋ ํ๊ฒฝ
- agent๊ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ๋๊ธฐ ์ํด ์ธ ๊ฐ์ง ๋ณด์กฐ task๋ฅผ ์ ์ํจ
- Pixel Control: Auxiliary ์ ์ฑ ์ด ์ ๋ ฅ ์ด๋ฏธ์ง์์ฌ๋ฌ ๋ถ๋ถ์์ pixel์ด ์ฌํ๊ฒ ๋ณํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต
- Reward Prediction: replay buffer๋ก๋ถํฐ 3๊ฐ์ frame์ ์ ๊ณต๋ฐ์์ network๊ฐ ๋ณธ ์ ์๋ ๋ค์ frame์ ๋ณด์์ ์์ธกํจ.
- ๋ณด์์ด ํฌ๋ฐํ๊ณ , ์ํ๋ง ์๊ณก์ด ๋ฐ์ํด์ ๋ณด์์ ๋ฐ์ frame์ด ๋ ๋์ด๋๊ธฐ ๋๋ฌธ์
- reward predictor๋ ๊ณ ์ฐจ์ input space๋ฅผ ์ ์ฐจ์ latent space๋ก ๋ณํํ๋ agent์ ํน์ฑ ๋ ์ด์ด๋ค์ ํ์ฑํ๋ ๊ฒ
- Vaule Fucntion Replay: agent๊ฐ A3C ์๊ณ ๋ฆฌ์ฆ์ผ๋ก on-policy value function๋ฅผ ํ์ตํ๋ ๊ฒ์ ์ถ๊ฐ์ ์ผ๋ก replay buffer์์ sample์ ํ์ตํจ
- value iteration์ ๋ค์ํ frame ๊ธธ์ด์์ ์ฌ์ฉ๋๊ณ , reward predictor์ ํตํด์ ํ์ฑ๋ ์๋ก์ด feature๋ค์ ๋ฐ๊ฒฌํด์ ํ์ฉํจ
- ๊ฐ์ ๋ ์ด์ด๋ค์ ๊ณต์ ํ๋ค๊ณ ํด์ task๋ค์ด ๋์์ ๊ฐ์ ๋ฐ์ดํฐ์์ ํด๊ฒฐ๋์ง๋ ์์
- ๋์ A3C agent๊ฐ ๋ฐฉ๋ฌธํ observation๋ค์ ์ ์ฅํ๋ replay buffer์ ์ ์ํ์
- UNREAL agent(UNsupervised REinforcement and Auxiliary Learning agent๊ฐ ๋ ๋ถ๋ฆฌ๋ DRL ๊ธฐ๋ฒ์ ๊ฒฐํฉํจ
- A3C๋ก ํ์ต๋ ์ฒซ ๋ฒ์งธ ์ ์ฑ
์ policy gradient method๋ฅผ ํ์ฉํด์ online์ผ๋ก ์
๋ฐ์ดํธ ๋จ.
- ๊ณผ๊ฑฐ ์ํ๋ฅผ encodingํ ์ ์๋ RNN ํ์ฉ
- ๋ฐ๋ฉด์ auxiliary task๋ replay buffer์ ์ ์ฅ๋๊ณ ๋ช ์์ ์ผ๋ก ์ํ๋ง๋ ์๋ก์ด ๊ฒฝํ ์ํ์ค๋ฅผ ์ฌ์ฉํด์ ํ์ตํจ
- ์ต๋ ํจ์จ์ฑ ๋ณด์ฅ์ ์ํด Q-learning์ off-policy๋ก ํ์ด๋๊ณ , ๊ฐ๋จํ feed-forward ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด์ ํ์ต๋จ.
- A3C๋ก ํ์ต๋ ์ฒซ ๋ฒ์งธ ์ ์ฑ
์ policy gradient method๋ฅผ ํ์ฉํด์ online์ผ๋ก ์
๋ฐ์ดํธ ๋จ.
'๐ฌ ML & Data > ๐ฎ Reinforcement Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[MPC] 2. ์ํ ๊ณต๊ฐ ๋ฐฉ์ ์ ์ ๋ (0) | 2024.03.06 |
---|---|
[MPC] 1. Model Predictive Control Intro (0) | 2024.03.06 |
[๊ฐํํ์ต] DDPG(Deep Deterministic Policy Gradient) (0) | 2023.10.16 |
[๊ฐํํ์ต] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN) (0) | 2023.10.06 |
[๊ฐํํ์ต] gym์ผ๋ก ๊ฐํํ์ต custom ํ๊ฒฝ ์์ฑ๋ถํฐ Dueling DDQN ํ์ต๊น์ง (0) | 2023.08.16 |