728x90
LQR์ ์ ์ฉ
$$V^{*}(x(t), t) = \underset{u[t, t+\Delta t]}{min} \{
\Delta t \cdot l[x(t + \alpha \Delta t), u(t + \alpha \Delta t), t + \alpha \Delta t] + V^{*}(x(t + \Delta t), t+\Delta t)
\}$$
- ์ด ์์์ $V^{*}(x(t + \Delta t), t+\Delta t)$ ๋ถ๋ถ์ ์ Taylor Series๋ก x์ t์ ๋ํด์ ์ ๋ฆฌํด๋ณด์.
- $x = (x(t), t), v = \Delta t$ ๋ผ๊ณ ์๊ฐํ์.
- ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ๋ค.
$$V^{*}(x + v) = V^{*}(x) + f'(x)v + f(x)v' + \frac 12 f''(x)v^{2}+ \frac12 f(x)\cdots$$ - ์ฌ๊ธฐ์ $x = (x(t), t), v = \Delta t$ ๋ฅผ ์ ์ฉํ๋ฉด
$$V^{*}(x(t + \Delta t), t+\Delta t)
= V^{*}(x(t), t)[\frac{\partial V^{*}}{\partial x}]^{T} \cdot (x(t), t) \cdot \Delta t \cdot \frac{dx(t)}{dt} \frac{\partial V^{*}}{\partial t} \cdot (x(t), t) \cdot \Delta t \cdot 1 + H.O.T$$- ํธ๋ฏธ๋ถ ํ ๋ $x(t)$๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋ฉด $[\frac{\partial V^{*}}{\partial x}]^{T}$ ๋ ๊ฑฐ๋ฆฌ($x$) ๊ธฐ์ค์ด๋ฏ๋ก ๊ธฐ์ธ๊ธฐ๊ฐ ๋๊ณ , ๋๋ฌธ์ gradient ์ฐ์ฐ์ ์ํด์ ์ ์นํ๋ ฌ๋ก ์ฒ๋ฆฌํด์ฃผ์๋ค.
- $x(t)$ ์ ๋ํ ๋ฏธ๋ถ๊ฐ์ผ๋ก $\frac{dV^{*}}{dt}$ ๋ฅผ ๊ณฑํด์ฃผ์๋ค.
- ํธ๋ฏธ๋ถ ํ ๋ $\Delta t$๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋ฉด $\frac{\partial V^{*}}{\partial t}$ ๋ ์๊ฐ($t$) ๊ธฐ์ค์ด๋ฏ๋ก ๊ทธ๋๋ก ๊ณ์ฐํ๋ค.
- $t$๋ ์์์ด๋ฏ๋ก ์ด์ ๋ํ ๋ฏธ๋ถ๊ฐ์ผ๋ก $1$ ์ ๊ณฑํด์ฃผ์๋ค.
- ์ด๋ค. $H.O.T$ ๋ ๊ณ ์ฐจํญ์ด๋ผ๊ณ ๋ณด๋ฉด ๋๋ค. ์์์ ๋ค์์ ๋ ๋ฆฐ๋ค.
- ์ด ์์ ์๋์ ๊ฐ๊ฒ ๋๋ค.
$$\begin{matrix}V^{*}(x(t), t) &=& \underset{u[t, t+\Delta t]}{min} \{
\Delta t \cdot l[x(t + \alpha \Delta t), u(t + \alpha \Delta t), t + \alpha \Delta t] \\
&& + V^{*}(x(t), t) \\
+ & &[\frac{\partial V^{*}}{\partial x}]^{T} \cdot (x(t), t) \cdot \Delta t \cdot \frac{dx(t)}{dt}\\
+ & &\frac{\partial V^{*}}{\partial t} \cdot (x(t), t) \cdot \Delta t + H.O.T
\} \end{matrix}$$ - $H.O.T$๋ ์์ ๊ฐ์ด๋ฏ๋ก ๋ฌด์ํ๊ณ , ์ ๋ณ์์ $V^{*}(x(t), t)$๋ฅผ ์ ๊ฑฐ, $\Delta t$๋ก ๋๋ ์ฃผ๋ฉด ์๋์ ๊ฐ๋ค.
$$\frac{\partial V^{*}}{\partial t}(x(t),t)=−\underset{u(t)}{min}{l[x(t),u(t),t]+[\frac{\partial V^{*}}{\partial x}]^{T}f(x,u,t)}$$
์ ํ ์์คํ ์ ์ฉ
- system : $\dot x = Ax + Bu, x(t_{0}) = x_{0}$
- cost function : $$V(x(t_{0}), y, t_{0}) = \int_{t_{0}}^{T_{f}}(u^{T}Ru + x^{T}Qx)dt + x^{T}(T_{f})Qx(T_{f})$$
- cost function์ ์ต์ ํํ๋ $u^{*}(t), t_{0} \le t \le T_{f}$ ๋ฅผ ์ฐพ์๋ณด์. $t_{0}$์์ cost function์ ์ต์ ํจ์๋ ์๋์ ๊ฐ๋ค.
$$\begin{matrix} V^{\*}(x(t_{0}), y, t_{0}) = x^{T}(t)Px(t), & P =P^{T} \end{matrix}$$ - ์๋ณธ cost function์ hamilton-jacobi equation์ ์ ์ฉํด๋ณด๋ฉด $l, f, V^{*}$๋ ์๋์ ๊ฐ์ด ์ป์ ์ ์๋ค.
$$\begin{matrix} l=u^{T}Ru + x^{T}Qx & f=Ax+Bu & V^{*} = x^{T}Px \end{matrix}$$ - ์ด๊ฒ์ ์ ์ฉํ๋ฉด ์๋์ ๊ฐ์ ์์ ๊ตฌํ ์ ์๋ค.
$$\frac{\partial V^{*}}{\partial t} = 0 = -\underset{u(t)}{min} [u^{T}Ru+x^{T}Qx + 2x^{T} P(Ax + Bu)]$$ - ์ด ๋ด์ฉ์ quadratic form์ผ๋ก ์ ๋ฆฌํ๋ค.
$$u^{T}Ru+x^{T}Qx+2x^{T}PBu + 2x^{T}PAx=0$$ -
์ ์ ๋ฆฌํ๋ฉด
๋ญ์ผ์ด๊ฒ
$$0=-[(u+R^{-1}B^{T}Px)R(u+R^{-1}B^{T}Px) + x^{T}(Q + PA + A^{T}P - PBR^{-1}B^{T}P)x]$$ - ๋ฐ๋ผ์ ์ ์์ ์ต์ํํ๋ $u^{*}$๋
$$u^{*}= -R^{-1}B^{T}Px$$ - ์ด๊ณ , ์๋ ์กฐ๊ฑด์ ๋ง์กฑํ๋ P
$$Q + PA + A^{T}P - PBR^{-1}B^{T}P = 0$$ - ์ ๊ตฌํ๋ฉด ์ด ์์ด Algebraic Riccati Equation(ARE) ๋ค.
- $Q, R$์ Design factor์ด๋ฉฐ $P$๋ ์ด ๊ฐ์ ๋ฐ๋ผ ์ป์ด์ง๋ ๊ฐ
728x90
'๐ฌ ML & Data > ๐ฎ Reinforcement Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๊ฐํํ์ต] TRPO(Trust Region Policy Optimization) ๋ ผ๋ฌธ ์ ๋ฆฌ (8) | 2024.09.02 |
---|---|
[MPC] 4. Optimal Control(1) - LQR๊ณผ Taylor Series(ํ ์ผ๋ฌ ๊ธ์) (1) | 2024.03.06 |
[MPC] 3. ์ํ(state)์ ์ถ๋ ฅ(output) ์์ธกํด๋ณด๊ธฐ (0) | 2024.03.06 |
[MPC] 2. ์ํ ๊ณต๊ฐ ๋ฐฉ์ ์ ์ ๋ (0) | 2024.03.06 |
[MPC] 1. Model Predictive Control Intro (0) | 2024.03.06 |