[RL Basics] 1. 강화학습이란 무엇인가

🐬 ML & Data/📮 Reinforcement Learning

[RL Basics] 1. 강화학습이란 무엇인가

darly213 2025. 12. 8. 14:22

728x90

아따 강화학습은 해도해도 헷갈린다. 아무래도 내가 기반없이 일단 쓰고 봤기 때문이겠지... 때문에 기반을 다지는 시간을 가져본다. Richard S. Sutton and Andrew G. Barto의 라는 강화학습계의 바이블 같은 책을 슥슥 읽고 수식을 정리하면서 이해를 해보기로 한다. 책은 온라인 공개되어 있으므로 영문 번역기와 함께라면 무서울 것 없다!!! 제미나이 프롬프트를 하나 짜서 개인교사를 두고 모르는 걸 물어보면서 공부했다. 냅다 붙여넣기 하고 설명해달라는 게 많으니까 주의..

https://gemini.google.com/share/c194067ca041

CHAPTER 1. THE REINFORCEMENT LEARNING PROBLEM

1.1 Reinforcement learning

강화학습 문제의 가장 큰 특이점

본질적으로 폐쇄 루프가 됨being closed-loop in an essential way
어떤 action을 취할지에 대한 직접적인 명령을 받지 않음not having direct instructions as to what actions to take
보상 신호를 포함함 action의 결과가 장기간에 걸쳐 진행됨where the consequences of actions, including reward signals, play out over extended time periods

강화학습의 기초 아이디어

실제 문제가 직면한 가장 중요한 측면을 학습 에이전트가 목표 달성을 위해 환경과 상호작용하며 포착하는 것

지도 학습과 차이점

지도학습 때와 달리 강화학습이 직면한 상호작용 문제에서는 에이전트가 행동해야할 모든 상황에 대해 정확하고 대표적인 행동을 특정하는 것 자체가 실용적이지가 않다.
에이전트는 자신의 온전한 경험으로부터 학습해야한다.

비지도 학습과의 차이점

비지도 학습은 라벨 없는 데이터의 숨겨진 구조 같은 것을 찾아내는 것
강화학습은 비슷해보이지만 구조를 찾는 게 아니라 보상 신호를 최대화하는 것이 목표

강화학습의 challenge

탐색과 개발 사이의 균형
큰 보상을 얻기 위해서는 과거에 시도해본 action 중에 보상을 조절하는데 효과적인 것을 찾아야한다.
그런데 그런 action을 찾기 위해서는 이전에 선택하지 않은 action을 시도해야한다.
exploration-exploitation dilemma
이런 딜레마는 일단 지도/비지도 학습에서는 나타나지 않음

특이점

강화학습은 목표지향 에이전트가 불특정 환경과 상호작용하면서 발생하는 모든 문제에 대해 고려한다. (더 큰 그림에도 알맞을 수 있도록)
다른 지도학습 같은 연구들은 이게 최종적으로 어디에 유용할지까지는 고려하지 않는다. 일반적인 부분을 고려하고, 특정 파트에서 발생할 문제 같은 것들은 고려하지 않는다는 뜻.
이런 접근들이 많은 유용한 결과를 내기는 했지만, 독립된 subproblem에 대한 관점은 한계라고 볼 수 있다.

1.2 examples

decision making agent와 환경이 관련된 상호작용에서 agent는 환경에 대해 잘 모르는 상태로 목표 달성을 위해 노력한다.
agent의 action은 환경의 미래 상태에 영향을 미치고, 다음번의 agent의 옵션과 가능한 기회에도 영향을 미친다.
동시에 agent의 action이 어떤 영향을 미칠지에 대해서는 완전히 예측할 수 없다.
에이전트는 로봇, 유기체 뭐 아무튼 그런 것의 전체가 아니어도 되고, 환경은 꼭 그런 것의 외부에만 존재할 필요는 없다.

1.3 Elements of reinforcement learning

policy

주어진 시간에 agent가 행동할 방식을 정의한다.
환경의 이전 상태로부터 취해야할 액션을 mapping하는 역할
일반적으로 확률

reward signal

강화학습 문제에서 목적을 정의한다.
무엇이 agent에게 좋은 것이고 나쁜 것인지 알려주고, agent는 reward signal이 최대화하는 것을 목적으로 한다.
agent는 보상 신호에 직접 영향을 줄 수 없고, 환경이나 상태 변화에 의한 간접적 영향만 가능하다.
reward signal은 policy에 가장 많은 영향을 미친다. reward가 적으면 policy가 다음에 그 action 대신 다른 action을 취하는 식으로.
보상은 환경의 상태와 action에 대한 확률적 함수일 수 있다

value function

reward가 즉각적으로 좋았는지를 나타낸다면 value function을 무엇이 장기적으로 좋은지를 나타낸다.
value of the state는 해당 state에서 시작했을 때 agent가 미래에 얻을 것으로 예상되는 전체 보상이다.
- e.g. reward는 계속 낮은데 value는 높을 수 있다. 장기적 관점에서 그게 좋다고 판단했기 때문에.
reward 없으면 value는 있을 수 없고, 보상을 더 얻기 위해 value가 열심히 추론한다.
그럼에도 불구하고 value는 우리가 결정을 내릴 때 가장 많이 고려하는 것이다.
- action은 value judgement이다. highest value(not reward)를 고른다. 왜? value가 어마어마한 양의 reward를 장기적으로 갖고 있으니까.
- 의사 결정 및 계획 수립에 가장 영향을 많이 준다.
모든 강화학습 알고리즘에 대해서 가장 중요한 요소는 어떻게 value 추론을 효율적으로 해낼 것인가 이다.

model

환경의 동작을 모방하거나, 더 일반적으로는 환경이 어떻게 동작할지에 대한 추론을 가능하게 한다.
state와 action이 주어지면 다음을 예측.
model은 planning에 사용한다.
모델과 planning을 강화학습문제 해결에 사용하는 것을 model-based 라고 하고, 반대로 model-free 는 명시적으로 planning에 반대되는 trial-and-error learner이다.

1.4 Limitations and Scope

limitations

여기서는 가치함수 추정에 관련된 모델을 주로 다루지만 꼭 그럴 필요는 없다.
genetic, simulated annealing과 다른 optimization 방법 등이 있다.
- 이들은 많은 각각 다른 policy를 넣어 학습되지 않은 agent의 lifetime을 평가하고 가장 많은 보상을 얻는 action을 모을 수 있는 action을 고른다. = evolutionary
- 정책 공간이 엄청 작거나, 좋은 정책이 흔하고 찾기 쉽거나, 찾을 시간이 많으면 이것도 좋은 방법.
evolutionary methods는 학습 agent가 정확하게 환경의 상태를 감지할 수 없을때 이점이 있음.
value funciton에 포함되지 않는 다른 방법들은 정책의 성능을 급속히 개선하기 위해서 parameter의 방향성을 추정함

policy gradient methods

추론을 에이전트가 환경과 상호작용하고 있는 동안 만들어내므로 개별 행동 상호 작용의 세부사항에 관한 이점을 사용할 수 있다.
이중 일부는 gradient 추론을 향상시키기 위해 value function 추론의 이점을 사용하기도 한다.

scopes

강화학습과 최적화 방법의 연결은 흔한 오인의 원인이기 때문에 추가 언급이 필요하다.
강화학습 에이전트의 목표가 수학적인 reward signal을 최대화하는 것이라고 할 때, 그게 실제로 최대값을 찾아야한다고 하는게 아니라 노력하는 것.
최적화와 최적성은 같지 않다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글

[RL Basics] 3. Markov Decision Process (0)	2025.12.08
[RL Basics] 2. Finite Markov-Decision Processes (0)	2025.12.08
[강화학습] TRPO(Trust Region Policy Optimization) 논문 정리 (8)	2024.09.02
[MPC] 4. Optimal Control(2) - Taylor Series 적용, Algebraic Riccati Equation(ARE) 구하기 (1)	2024.03.08
[MPC] 4. Optimal Control(1) - LQR과 Taylor Series(테일러 급수) (1)	2024.03.06

현재글[RL Basics] 1. 강화학습이란 무엇인가

ERROR DENY

[RL Basics] 1. 강화학습이란 무엇인가

CHAPTER 1. THE REINFORCEMENT LEARNING PROBLEM

1.1 Reinforcement learning

강화학습 문제의 가장 큰 특이점

강화학습의 기초 아이디어

지도 학습과 차이점

비지도 학습과의 차이점

강화학습의 challenge

특이점

1.2 examples

1.3 Elements of reinforcement learning

policy

reward signal

value function

model

1.4 Limitations and Scope

limitations

policy gradient methods

scopes

'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글

'🐬 ML & Data/📮 Reinforcement Learning'의 다른글

티스토리툴바

[RL Basics] 1. 강화학습이란 무엇인가

CHAPTER 1. THE REINFORCEMENT LEARNING PROBLEM

1.1 Reinforcement learning

강화학습 문제의 가장 큰 특이점

강화학습의 기초 아이디어

지도 학습과 차이점

비지도 학습과의 차이점

강화학습의 challenge

특이점

1.2 examples

1.3 Elements of reinforcement learning

policy

reward signal

value function

model

1.4 Limitations and Scope

limitations

policy gradient methods

scopes

'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글

'🐬 ML & Data/📮 Reinforcement Learning'의 다른글

관련글

티스토리툴바