๐Ÿฌ ML & Data/๐Ÿ“ฎ Reinforcement Learning

[RL Basics] 1. ๊ฐ•ํ™”ํ•™์Šต์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€

darly213 2025. 12. 8. 14:22
728x90

์•„๋”ฐ ๊ฐ•ํ™”ํ•™์Šต์€ ํ•ด๋„ํ•ด๋„ ํ—ท๊ฐˆ๋ฆฐ๋‹ค. ์•„๋ฌด๋ž˜๋„ ๋‚ด๊ฐ€ ๊ธฐ๋ฐ˜์—†์ด ์ผ๋‹จ ์“ฐ๊ณ  ๋ดค๊ธฐ ๋•Œ๋ฌธ์ด๊ฒ ์ง€... ๋•Œ๋ฌธ์— ๊ธฐ๋ฐ˜์„ ๋‹ค์ง€๋Š” ์‹œ๊ฐ„์„ ๊ฐ€์ ธ๋ณธ๋‹ค. Richard S. Sutton and Andrew G. Barto์˜ ๋ผ๋Š” ๊ฐ•ํ™”ํ•™์Šต๊ณ„์˜ ๋ฐ”์ด๋ธ” ๊ฐ™์€ ์ฑ…์„ ์Šฅ์Šฅ ์ฝ๊ณ  ์ˆ˜์‹์„ ์ •๋ฆฌํ•˜๋ฉด์„œ ์ดํ•ด๋ฅผ ํ•ด๋ณด๊ธฐ๋กœ ํ•œ๋‹ค. ์ฑ…์€ ์˜จ๋ผ์ธ ๊ณต๊ฐœ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ์˜๋ฌธ ๋ฒˆ์—ญ๊ธฐ์™€ ํ•จ๊ป˜๋ผ๋ฉด ๋ฌด์„œ์šธ ๊ฒƒ ์—†๋‹ค!!! ์ œ๋ฏธ๋‚˜์ด ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ•˜๋‚˜ ์งœ์„œ ๊ฐœ์ธ๊ต์‚ฌ๋ฅผ ๋‘๊ณ  ๋ชจ๋ฅด๋Š” ๊ฑธ ๋ฌผ์–ด๋ณด๋ฉด์„œ ๊ณต๋ถ€ํ–ˆ๋‹ค. ๋ƒ…๋‹ค ๋ถ™์—ฌ๋„ฃ๊ธฐ ํ•˜๊ณ  ์„ค๋ช…ํ•ด๋‹ฌ๋ผ๋Š” ๊ฒŒ ๋งŽ์œผ๋‹ˆ๊นŒ ์ฃผ์˜..

https://gemini.google.com/share/c194067ca041

CHAPTER 1. THE REINFORCEMENT LEARNING PROBLEM

1.1 Reinforcement learning

๊ฐ•ํ™”ํ•™์Šต ๋ฌธ์ œ์˜ ๊ฐ€์žฅ ํฐ ํŠน์ด์ 

  • ๋ณธ์งˆ์ ์œผ๋กœ ํ์‡„ ๋ฃจํ”„๊ฐ€ ๋จbeing closed-loop in an essential way
  • ์–ด๋–ค action์„ ์ทจํ• ์ง€์— ๋Œ€ํ•œ ์ง์ ‘์ ์ธ ๋ช…๋ น์„ ๋ฐ›์ง€ ์•Š์Œnot having direct instructions as to what actions to take
  • ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ํฌํ•จํ•จ action์˜ ๊ฒฐ๊ณผ๊ฐ€ ์žฅ๊ธฐ๊ฐ„์— ๊ฑธ์ณ ์ง„ํ–‰๋จwhere the consequences of actions, including reward signals, play out over extended time periods

๊ฐ•ํ™”ํ•™์Šต์˜ ๊ธฐ์ดˆ ์•„์ด๋””์–ด

  • ์‹ค์ œ ๋ฌธ์ œ๊ฐ€ ์ง๋ฉดํ•œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ธก๋ฉด์„ ํ•™์Šต ์—์ด์ „ํŠธ๊ฐ€ ๋ชฉํ‘œ ๋‹ฌ์„ฑ์„ ์œ„ํ•ด ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ํฌ์ฐฉํ•˜๋Š” ๊ฒƒ

์ง€๋„ ํ•™์Šต๊ณผ ์ฐจ์ด์ 

  • ์ง€๋„ํ•™์Šต ๋•Œ์™€ ๋‹ฌ๋ฆฌ ๊ฐ•ํ™”ํ•™์Šต์ด ์ง๋ฉดํ•œ ์ƒํ˜ธ์ž‘์šฉ ๋ฌธ์ œ์—์„œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ํ–‰๋™ํ•ด์•ผํ•  ๋ชจ๋“  ์ƒํ™ฉ์— ๋Œ€ํ•ด ์ •ํ™•ํ•˜๊ณ  ๋Œ€ํ‘œ์ ์ธ ํ–‰๋™์„ ํŠน์ •ํ•˜๋Š” ๊ฒƒ ์ž์ฒด๊ฐ€ ์‹ค์šฉ์ ์ด์ง€๊ฐ€ ์•Š๋‹ค.
  • ์—์ด์ „ํŠธ๋Š” ์ž์‹ ์˜ ์˜จ์ „ํ•œ ๊ฒฝํ—˜์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•ด์•ผํ•œ๋‹ค.

๋น„์ง€๋„ ํ•™์Šต๊ณผ์˜ ์ฐจ์ด์ 

  • ๋น„์ง€๋„ ํ•™์Šต์€ ๋ผ๋ฒจ ์—†๋Š” ๋ฐ์ดํ„ฐ์˜ ์ˆจ๊ฒจ์ง„ ๊ตฌ์กฐ ๊ฐ™์€ ๊ฒƒ์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ
  • ๊ฐ•ํ™”ํ•™์Šต์€ ๋น„์Šทํ•ด๋ณด์ด์ง€๋งŒ ๊ตฌ์กฐ๋ฅผ ์ฐพ๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ

๊ฐ•ํ™”ํ•™์Šต์˜ challenge

  • ํƒ์ƒ‰๊ณผ ๊ฐœ๋ฐœ ์‚ฌ์ด์˜ ๊ท ํ˜•
  • ํฐ ๋ณด์ƒ์„ ์–ป๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ณผ๊ฑฐ์— ์‹œ๋„ํ•ด๋ณธ action ์ค‘์— ๋ณด์ƒ์„ ์กฐ์ ˆํ•˜๋Š”๋ฐ ํšจ๊ณผ์ ์ธ ๊ฒƒ์„ ์ฐพ์•„์•ผํ•œ๋‹ค.
  • ๊ทธ๋Ÿฐ๋ฐ ๊ทธ๋Ÿฐ action์„ ์ฐพ๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ด์ „์— ์„ ํƒํ•˜์ง€ ์•Š์€ action์„ ์‹œ๋„ํ•ด์•ผํ•œ๋‹ค.
  • exploration-exploitation dilemma
  • ์ด๋Ÿฐ ๋”œ๋ ˆ๋งˆ๋Š” ์ผ๋‹จ ์ง€๋„/๋น„์ง€๋„ ํ•™์Šต์—์„œ๋Š” ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์Œ

ํŠน์ด์ 

  • ๊ฐ•ํ™”ํ•™์Šต์€ ๋ชฉํ‘œ์ง€ํ–ฅ ์—์ด์ „ํŠธ๊ฐ€ ๋ถˆํŠน์ • ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉด์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ชจ๋“  ๋ฌธ์ œ์— ๋Œ€ํ•ด ๊ณ ๋ คํ•œ๋‹ค. (๋” ํฐ ๊ทธ๋ฆผ์—๋„ ์•Œ๋งž์„ ์ˆ˜ ์žˆ๋„๋ก)
  • ๋‹ค๋ฅธ ์ง€๋„ํ•™์Šต ๊ฐ™์€ ์—ฐ๊ตฌ๋“ค์€ ์ด๊ฒŒ ์ตœ์ข…์ ์œผ๋กœ ์–ด๋””์— ์œ ์šฉํ• ์ง€๊นŒ์ง€๋Š” ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๋‹ค. ์ผ๋ฐ˜์ ์ธ ๋ถ€๋ถ„์„ ๊ณ ๋ คํ•˜๊ณ , ํŠน์ • ํŒŒํŠธ์—์„œ ๋ฐœ์ƒํ•  ๋ฌธ์ œ ๊ฐ™์€ ๊ฒƒ๋“ค์€ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๋œป.
  • ์ด๋Ÿฐ ์ ‘๊ทผ๋“ค์ด ๋งŽ์€ ์œ ์šฉํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๊ธฐ๋Š” ํ–ˆ์ง€๋งŒ, ๋…๋ฆฝ๋œ subproblem์— ๋Œ€ํ•œ ๊ด€์ ์€ ํ•œ๊ณ„๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

1.2 examples

  • decision making agent์™€ ํ™˜๊ฒฝ์ด ๊ด€๋ จ๋œ ์ƒํ˜ธ์ž‘์šฉ์—์„œ agent๋Š” ํ™˜๊ฒฝ์— ๋Œ€ํ•ด ์ž˜ ๋ชจ๋ฅด๋Š” ์ƒํƒœ๋กœ ๋ชฉํ‘œ ๋‹ฌ์„ฑ์„ ์œ„ํ•ด ๋…ธ๋ ฅํ•œ๋‹ค.
  • agent์˜ action์€ ํ™˜๊ฒฝ์˜ ๋ฏธ๋ž˜ ์ƒํƒœ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ณ , ๋‹ค์Œ๋ฒˆ์˜ agent์˜ ์˜ต์…˜๊ณผ ๊ฐ€๋Šฅํ•œ ๊ธฐํšŒ์—๋„ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค.
  • ๋™์‹œ์— agent์˜ action์ด ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น ์ง€์— ๋Œ€ํ•ด์„œ๋Š” ์™„์ „ํžˆ ์˜ˆ์ธกํ•  ์ˆ˜ ์—†๋‹ค.
  • ์—์ด์ „ํŠธ๋Š” ๋กœ๋ด‡, ์œ ๊ธฐ์ฒด ๋ญ ์•„๋ฌดํŠผ ๊ทธ๋Ÿฐ ๊ฒƒ์˜ ์ „์ฒด๊ฐ€ ์•„๋‹ˆ์–ด๋„ ๋˜๊ณ , ํ™˜๊ฒฝ์€ ๊ผญ ๊ทธ๋Ÿฐ ๊ฒƒ์˜ ์™ธ๋ถ€์—๋งŒ ์กด์žฌํ•  ํ•„์š”๋Š” ์—†๋‹ค.

1.3 Elements of reinforcement learning

policy

  • ์ฃผ์–ด์ง„ ์‹œ๊ฐ„์— agent๊ฐ€ ํ–‰๋™ํ•  ๋ฐฉ์‹์„ ์ •์˜ํ•œ๋‹ค.
  • ํ™˜๊ฒฝ์˜ ์ด์ „ ์ƒํƒœ๋กœ๋ถ€ํ„ฐ ์ทจํ•ด์•ผํ•  ์•ก์…˜์„ mappingํ•˜๋Š” ์—ญํ• 
  • ์ผ๋ฐ˜์ ์œผ๋กœ ํ™•๋ฅ 

reward signal

  • ๊ฐ•ํ™”ํ•™์Šต ๋ฌธ์ œ์—์„œ ๋ชฉ์ ์„ ์ •์˜ํ•œ๋‹ค.
  • ๋ฌด์—‡์ด agent์—๊ฒŒ ์ข‹์€ ๊ฒƒ์ด๊ณ  ๋‚˜์œ ๊ฒƒ์ธ์ง€ ์•Œ๋ ค์ฃผ๊ณ , agent๋Š” reward signal์ด ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉ์ ์œผ๋กœ ํ•œ๋‹ค.
  • agent๋Š” ๋ณด์ƒ ์‹ ํ˜ธ์— ์ง์ ‘ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์—†๊ณ , ํ™˜๊ฒฝ์ด๋‚˜ ์ƒํƒœ ๋ณ€ํ™”์— ์˜ํ•œ ๊ฐ„์ ‘์  ์˜ํ–ฅ๋งŒ ๊ฐ€๋Šฅํ•˜๋‹ค.
  • reward signal์€ policy์— ๊ฐ€์žฅ ๋งŽ์€ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. reward๊ฐ€ ์ ์œผ๋ฉด policy๊ฐ€ ๋‹ค์Œ์— ๊ทธ action ๋Œ€์‹  ๋‹ค๋ฅธ action์„ ์ทจํ•˜๋Š” ์‹์œผ๋กœ.
  • ๋ณด์ƒ์€ ํ™˜๊ฒฝ์˜ ์ƒํƒœ์™€ action์— ๋Œ€ํ•œ ํ™•๋ฅ ์  ํ•จ์ˆ˜์ผ ์ˆ˜ ์žˆ๋‹ค

value function

  • reward๊ฐ€ ์ฆ‰๊ฐ์ ์œผ๋กœ ์ข‹์•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค๋ฉด value function์„ ๋ฌด์—‡์ด ์žฅ๊ธฐ์ ์œผ๋กœ ์ข‹์€์ง€๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.
  • value of the state๋Š” ํ•ด๋‹น state์—์„œ ์‹œ์ž‘ํ–ˆ์„ ๋•Œ agent๊ฐ€ ๋ฏธ๋ž˜์— ์–ป์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ์ „์ฒด ๋ณด์ƒ์ด๋‹ค.
    • e.g. reward๋Š” ๊ณ„์† ๋‚ฎ์€๋ฐ value๋Š” ๋†’์„ ์ˆ˜ ์žˆ๋‹ค. ์žฅ๊ธฐ์  ๊ด€์ ์—์„œ ๊ทธ๊ฒŒ ์ข‹๋‹ค๊ณ  ํŒ๋‹จํ–ˆ๊ธฐ ๋•Œ๋ฌธ์—.
  • reward ์—†์œผ๋ฉด value๋Š” ์žˆ์„ ์ˆ˜ ์—†๊ณ , ๋ณด์ƒ์„ ๋” ์–ป๊ธฐ ์œ„ํ•ด value๊ฐ€ ์—ด์‹ฌํžˆ ์ถ”๋ก ํ•œ๋‹ค.
  • ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  value๋Š” ์šฐ๋ฆฌ๊ฐ€ ๊ฒฐ์ •์„ ๋‚ด๋ฆด ๋•Œ ๊ฐ€์žฅ ๋งŽ์ด ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
    • action์€ value judgement์ด๋‹ค. highest value(not reward)๋ฅผ ๊ณ ๋ฅธ๋‹ค. ์™œ? value๊ฐ€ ์–ด๋งˆ์–ด๋งˆํ•œ ์–‘์˜ reward๋ฅผ ์žฅ๊ธฐ์ ์œผ๋กœ ๊ฐ–๊ณ  ์žˆ์œผ๋‹ˆ๊นŒ.
    • ์˜์‚ฌ ๊ฒฐ์ • ๋ฐ ๊ณ„ํš ์ˆ˜๋ฆฝ์— ๊ฐ€์žฅ ์˜ํ–ฅ์„ ๋งŽ์ด ์ค€๋‹ค.
  • ๋ชจ๋“  ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์š”์†Œ๋Š” ์–ด๋–ป๊ฒŒ value ์ถ”๋ก ์„ ํšจ์œจ์ ์œผ๋กœ ํ•ด๋‚ผ ๊ฒƒ์ธ๊ฐ€ ์ด๋‹ค.

model

  • ํ™˜๊ฒฝ์˜ ๋™์ž‘์„ ๋ชจ๋ฐฉํ•˜๊ฑฐ๋‚˜, ๋” ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” ํ™˜๊ฒฝ์ด ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ• ์ง€์— ๋Œ€ํ•œ ์ถ”๋ก ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
  • state์™€ action์ด ์ฃผ์–ด์ง€๋ฉด ๋‹ค์Œ์„ ์˜ˆ์ธก.
  • model์€ planning์— ์‚ฌ์šฉํ•œ๋‹ค.
  • ๋ชจ๋ธ๊ณผ planning์„ ๊ฐ•ํ™”ํ•™์Šต๋ฌธ์ œ ํ•ด๊ฒฐ์— ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ model-based ๋ผ๊ณ  ํ•˜๊ณ , ๋ฐ˜๋Œ€๋กœ model-free ๋Š” ๋ช…์‹œ์ ์œผ๋กœ planning์— ๋ฐ˜๋Œ€๋˜๋Š” trial-and-error learner์ด๋‹ค.

1.4 Limitations and Scope

limitations

  • ์—ฌ๊ธฐ์„œ๋Š” ๊ฐ€์น˜ํ•จ์ˆ˜ ์ถ”์ •์— ๊ด€๋ จ๋œ ๋ชจ๋ธ์„ ์ฃผ๋กœ ๋‹ค๋ฃจ์ง€๋งŒ ๊ผญ ๊ทธ๋Ÿด ํ•„์š”๋Š” ์—†๋‹ค.
  • genetic, simulated annealing๊ณผ ๋‹ค๋ฅธ optimization ๋ฐฉ๋ฒ• ๋“ฑ์ด ์žˆ๋‹ค.
    • ์ด๋“ค์€ ๋งŽ์€ ๊ฐ๊ฐ ๋‹ค๋ฅธ policy๋ฅผ ๋„ฃ์–ด ํ•™์Šต๋˜์ง€ ์•Š์€ agent์˜ lifetime์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐ€์žฅ ๋งŽ์€ ๋ณด์ƒ์„ ์–ป๋Š” action์„ ๋ชจ์„ ์ˆ˜ ์žˆ๋Š” action์„ ๊ณ ๋ฅธ๋‹ค. = evolutionary
    • ์ •์ฑ… ๊ณต๊ฐ„์ด ์—„์ฒญ ์ž‘๊ฑฐ๋‚˜, ์ข‹์€ ์ •์ฑ…์ด ํ”ํ•˜๊ณ  ์ฐพ๊ธฐ ์‰ฝ๊ฑฐ๋‚˜, ์ฐพ์„ ์‹œ๊ฐ„์ด ๋งŽ์œผ๋ฉด ์ด๊ฒƒ๋„ ์ข‹์€ ๋ฐฉ๋ฒ•.
  • evolutionary methods๋Š” ํ•™์Šต agent๊ฐ€ ์ •ํ™•ํ•˜๊ฒŒ ํ™˜๊ฒฝ์˜ ์ƒํƒœ๋ฅผ ๊ฐ์ง€ํ•  ์ˆ˜ ์—†์„๋•Œ ์ด์ ์ด ์žˆ์Œ.
  • value funciton์— ํฌํ•จ๋˜์ง€ ์•Š๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค์€ ์ •์ฑ…์˜ ์„ฑ๋Šฅ์„ ๊ธ‰์†ํžˆ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ parameter์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์ถ”์ •ํ•จ

policy gradient methods

  • ์ถ”๋ก ์„ ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๊ณ  ์žˆ๋Š” ๋™์•ˆ ๋งŒ๋“ค์–ด๋‚ด๋ฏ€๋กœ ๊ฐœ๋ณ„ ํ–‰๋™ ์ƒํ˜ธ ์ž‘์šฉ์˜ ์„ธ๋ถ€์‚ฌํ•ญ์— ๊ด€ํ•œ ์ด์ ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. 
  • ์ด์ค‘ ์ผ๋ถ€๋Š” gradient ์ถ”๋ก ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด value function ์ถ”๋ก ์˜ ์ด์ ์„ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค.

scopes

  • ๊ฐ•ํ™”ํ•™์Šต๊ณผ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์˜ ์—ฐ๊ฒฐ์€ ํ”ํ•œ ์˜ค์ธ์˜ ์›์ธ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ถ”๊ฐ€ ์–ธ๊ธ‰์ด ํ•„์š”ํ•˜๋‹ค.
  • ๊ฐ•ํ™”ํ•™์Šต ์—์ด์ „ํŠธ์˜ ๋ชฉํ‘œ๊ฐ€ ์ˆ˜ํ•™์ ์ธ reward signal์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์ด๋ผ๊ณ  ํ•  ๋•Œ, ๊ทธ๊ฒŒ ์‹ค์ œ๋กœ ์ตœ๋Œ€๊ฐ’์„ ์ฐพ์•„์•ผํ•œ๋‹ค๊ณ  ํ•˜๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ ๋…ธ๋ ฅํ•˜๋Š” ๊ฒƒ.
  • ์ตœ์ ํ™”์™€ ์ตœ์ ์„ฑ์€ ๊ฐ™์ง€ ์•Š๋‹ค.
728x90