'🐬 ML & Data/📮 Reinforcement Learning' 카테고리의 글 목록

PPO를 공부하려고 했는데 이 논문이 선행되어야한다는 이야기를 들어서 가볍게 논문을 읽어봤다. 아직 강화학습 논문 읽는 건 익숙하지 않아서 시간이 꽤 걸렸다. 수학적 개념이 적어서 최대한 꼼꼼히 이해할 수 있게 정리해봤는데, 다른 사람들에게도 도움이 되었으면 해서 포스팅한다.[https://arxiv.org/abs/1502.05477]TRPO(Trust Region Policy Optimization)url: https://arxiv.org/abs/1502.05477title: "Trust Region Policy Optimization"description: "We describe an iterative procedure for optimizing policies, with guaranteed mono..

LQR에 적용 $$V^{*}(x(t), t) = \underset{u[t, t+\Delta t]}{min} \{ \Delta t \cdot l[x(t + \alpha \Delta t), u(t + \alpha \Delta t), t + \alpha \Delta t] + V^{*}(x(t + \Delta t), t+\Delta t) \}$$ 이 식에서 $V^{*}(x(t + \Delta t), t+\Delta t)$ 부분을 위 Taylor Series로 x와 t에 대해서 정리해보자. $x = (x(t), t), v = \Delta t$ 라고 생각하자. 정리하면 아래와 같다. $$V^{*}(x + v) = V^{*}(x) + f'(x)v + f(x)v' + \frac 12 f''(x)v^{2}+ \frac1..

optimal control 기초 - LQR(Linear Quadratic Regulator) LQR이 기초라서 요걸로 system : $\dot x = f(x, u, t), x(t_{0}) = x_{0}$ cost function : $$V(x(t_{0}), u, t_{0}) = \int_{t_{0}}^{T} l[x(\tau), u(\tau), \tau]d\tau + m(x(T))$$ 위 cost function을 최소화하는 입력 $u^{*}(t), t_{0}\le t \le T$ 찾기 -> optimal control의 목적 principle of optimality 에 따라 한 해가 최적이면 sub problem의 해도 최적이 된다. $t_{0} < t < t_{1} < T$ 로 $t_{1}$ 추가..

Input / Output 정리 $N_p$ : 예측하려는 미래 출력 수 $N_c$ : 예측하려는 미래 제어입력 수 경로 추적의 경우, $N_p$개 점을 tracking 하기 위한 $N_c$개 제어 명령... Control Input $\Delta u(k), \Delta u(k+1), \Delta u(k+2), \cdots, \Delta u(k + N_{c} - 1)$ Output $y(k), y(k+1), \cdots, y(k+N_{p})$ $y(k) = Cx(k)$ 이므로 $y(k+1) = Cx(k+1), y(k+2) = Cx(k+2), \cdots$ 로 표현 가능 따라서 예측 state $x(k+1), x(k+2), \cdots, x(k+N_{p})$를 구하면 됨 State variable 구하기 $..

MPC 상태 공간 방정식 유도 상태공강 방정식 + LTI(Linear TimeINvariant, 선형 시간 불변 시스템)의 경우 => Continuous-time state-space model 상태 방정식 : $$\bar{x} = Ax + Bu$$ 출력 방정식 : $$y = Cx$$ MPC는 discrete 한 환경 => Discrete-time state-space model 상태 방정식 : $$x(k+1) = A_{d}x(k) + B_{d}u(k)$$ 출력 방정식 : $$y(k) = C_{d}x(k)$$ MPC 기본 모델은 Discrete-time aumented state-space model 상태 변수 대신 상태 변수의 변화량 $\Delta x$ 사용 상태 방정식 $${x(k+1) - x(k) ..

유튜브 https://www.youtube.com/watch?v=zU9DxmNZ1ng&list=PLSAJDR2d_AUtkWiO_U-p-4VpnXGIorrO-&index=1 블로그 https://sunggoo.tistory.com/65 위 자료를 기반으로 공부한 내용을 가볍게 정리하려고 합니다. 수식 증명이 많겠고, 그 뒤로는 목적에 따라 논문이나 코드 구현을 보면서 추가해보겠습니다. MPC(Model Predictive Control)의 컨셉 기기 상태 변화(dynamics) + 주변 환경 요소 => cost function 제어공학 비선형 / 비볼록(Non-linear, Non-convex) 대상 공부하면서 느끼기에는 강화학습의 향기가 좀 있음 Flow k-1 일 때의 상태 변수를 기반으로 k+1 ~ ..

※ 아래 링크의 내용을 공부하며 한국어로 정리한 내용입니다. Reinforcement Learning: Dealing with Sparse Reward Environments Reinforcement Learning (RL) is a method of machine learning in which an agent learns a strategy through interactions with its environment… medium.com 1. Sparse Reward Sparse Reward(희박한 보상) : Agent가 목표 상황에 가까워졌을 때만 긍정 보상을 받는 경우 현재 실험 환경 세팅과 같음 Curiosity-Driven method agent가 관심사 밖의 환경에도 동기를 받도록 Curric..

DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다. 기존 DQN 방식의 insight들에 batch normalization replay buffer target Q network Actor-critic 파라미터화 된 actor function을 가짐 actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정 policy gradient 방식으로 학습 여기에서 J가 Objective Function(목표함수) actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter..

Dueling Double DQN https://arxiv.org/pdf/1509.06461.pdf https://arxiv.org/pdf/1511.06581.pdf Double DQN DQN에서 reward를 과대 평가하는 문제가 있음. Q Value가 agent가 실제보다 높은 리턴을 받을 것이라고 생각하는 경향 ⇒ Q learning update 방정식에 다음 상태(state)에 대한 Q value 최대값이 존재하기 때문 Q 값에 대한 max 연산은 편향을 최대화한다. 환경의 최대 true value가 0인데 agent가 추정하는 최대 true value가 양수인 경우에 성능 저하 해결을 위해 두 개의 network 사용. Q Next : action selection → 다음 액션으로 가장 좋은 ..

인터넷을 다 뒤져봤는데 강화학습을 gym에서 제공하는 게임 agent 사용해서 하는 예제는 육천만 개고 커스텀해서 학습을 하는 예제는 단 한 개 있었다. 이제 막 공부를 시작하는 사람들에게 도움이 되었으면 하는 마음으로 간단하게 써보고자 한다. 1. Gym의 Env 구조 살펴보기 꼭 그래야하는 것은 아니지만(밑바닥부터 구현하는 방법도 있긴 하다) 어쨌든 gym 라이브러리의 environment 구조를 기반으로 해서 구현해볼 것이다. !pip install gym gym 라이브러리의 env 구조는 대충 아래와 같다. site-packages/gym/core.py 에서 직접 볼 수 있다. class Env(Generic[ObsType, ActType]):m.Generator] = None """ The ma..

[Model Review] Markov Decision Process & Q-Learning 1. 마르코프 결정 프로세스(MDP) 바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스(Markov Process) 상태 S와 전이확률행렬 P로 정의됨 하나의 상태에서 다른 dnai-deny.tistory.com Deep Reinforcement Learning 기존 Q Learning에서는 State와 Action에 해당하는 Q-Value를 테이블 형식으로 저장 state space와 action space가 커지면 Q-Value를 저장하기 위해 memory와 exploration time이 증가하는 문제 ⇒ 딥러닝으로 Q-Table을 생성하는 Q..

1. 마르코프 결정 프로세스(MDP) 바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스(Markov Process) 상태 S와 전이확률행렬 P로 정의됨 하나의 상태에서 다른 상태로 전이가 일어남 상태 전이에 각각 확률 존재 S4의 경우 종료상태 마르코프 성질(Markov property) $$ P[S_{t+1} | S_t] = P[S_{t+1} |S_1,S_2, ... S_t] $$ 상태가 되기까지의 과정은 확률 계산에 영향을 주지 않음. 어느 시점의 상태로 다음 상태를 결정할 수 있을 때 마르코프한 상태라고 함.반례) 운전하는 사진(어느 시점의 사진으로는 후진/전진/속도 등을 파악 불가 → 다음 상태 결정 불가능) ex) 체스 게임(어느 ..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

🐬 ML & Data/📮 Reinforcement Learning

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역