[MPC] 4. Optimal Control(2) - Taylor Series 적용, Algebraic Riccati Equation(ARE) 구하기
·
🐬 ML & Data/📮 Reinforcement Learning
LQR에 적용 $$V^{*}(x(t), t) = \underset{u[t, t+\Delta t]}{min} \{ \Delta t \cdot l[x(t + \alpha \Delta t), u(t + \alpha \Delta t), t + \alpha \Delta t] + V^{*}(x(t + \Delta t), t+\Delta t) \}$$ 이 식에서 $V^{*}(x(t + \Delta t), t+\Delta t)$ 부분을 위 Taylor Series로 x와 t에 대해서 정리해보자. $x = (x(t), t), v = \Delta t$ 라고 생각하자. 정리하면 아래와 같다. $$V^{*}(x + v) = V^{*}(x) + f'(x)v + f(x)v' + \frac 12 f''(x)v^{2}+ \frac1..
[MPC] 4. Optimal Control(1) - LQR과 Taylor Series(테일러 급수)
·
🐬 ML & Data/📮 Reinforcement Learning
optimal control 기초 - LQR(Linear Quadratic Regulator) LQR이 기초라서 요걸로 system : $\dot x = f(x, u, t), x(t_{0}) = x_{0}$ cost function : $$V(x(t_{0}), u, t_{0}) = \int_{t_{0}}^{T} l[x(\tau), u(\tau), \tau]d\tau + m(x(T))$$ 위 cost function을 최소화하는 입력 $u^{*}(t), t_{0}\le t \le T$ 찾기 -> optimal control의 목적 principle of optimality 에 따라 한 해가 최적이면 sub problem의 해도 최적이 된다. $t_{0} < t < t_{1} < T$ 로 $t_{1}$ 추가..
[MPC] 3. 상태(state)와 출력(output) 예측해보기
·
🐬 ML & Data/📮 Reinforcement Learning
Input / Output 정리 $N_p$ : 예측하려는 미래 출력 수 $N_c$ : 예측하려는 미래 제어입력 수 경로 추적의 경우, $N_p$개 점을 tracking 하기 위한 $N_c$개 제어 명령... Control Input $\Delta u(k), \Delta u(k+1), \Delta u(k+2), \cdots, \Delta u(k + N_{c} - 1)$ Output $y(k), y(k+1), \cdots, y(k+N_{p})$ $y(k) = Cx(k)$ 이므로 $y(k+1) = Cx(k+1), y(k+2) = Cx(k+2), \cdots$ 로 표현 가능 따라서 예측 state $x(k+1), x(k+2), \cdots, x(k+N_{p})$를 구하면 됨 State variable 구하기 $..
[MPC] 2. 상태 공간 방정식 유도
·
🐬 ML & Data/📮 Reinforcement Learning
MPC 상태 공간 방정식 유도 상태공강 방정식 + LTI(Linear TimeINvariant, 선형 시간 불변 시스템)의 경우 => Continuous-time state-space model 상태 방정식 : $$\bar{x} = Ax + Bu$$ 출력 방정식 : $$y = Cx$$ MPC는 discrete 한 환경 => Discrete-time state-space model 상태 방정식 : $$x(k+1) = A_{d}x(k) + B_{d}u(k)$$ 출력 방정식 : $$y(k) = C_{d}x(k)$$ MPC 기본 모델은 Discrete-time aumented state-space model 상태 변수 대신 상태 변수의 변화량 $\Delta x$ 사용 상태 방정식 $${x(k+1) - x(k) ..
[MPC] 1. Model Predictive Control Intro
·
🐬 ML & Data/📮 Reinforcement Learning
유튜브 https://www.youtube.com/watch?v=zU9DxmNZ1ng&list=PLSAJDR2d_AUtkWiO_U-p-4VpnXGIorrO-&index=1 블로그 https://sunggoo.tistory.com/65 위 자료를 기반으로 공부한 내용을 가볍게 정리하려고 합니다. 수식 증명이 많겠고, 그 뒤로는 목적에 따라 논문이나 코드 구현을 보면서 추가해보겠습니다. MPC(Model Predictive Control)의 컨셉 기기 상태 변화(dynamics) + 주변 환경 요소 => cost function 제어공학 비선형 / 비볼록(Non-linear, Non-convex) 대상 공부하면서 느끼기에는 강화학습의 향기가 좀 있음 Flow k-1 일 때의 상태 변수를 기반으로 k+1 ~ ..