[MPC] 4. Optimal Control(1) - LQR과 Taylor Series(테일러 급수)

728x90

optimal control 기초 - LQR(Linear Quadratic Regulator)
LQR이 기초라서 요걸로

system : $\dot x = f(x, u, t), x(t_{0}) = x_{0}$
cost function :
$$V(x(t_{0}), u, t_{0}) = \int_{t_{0}}^{T} l[x(\tau), u(\tau), \tau]d\tau + m(x(T))$$

위 cost function을 최소화하는 입력 $u^{*}(t), t_{0}\le t \le T$ 찾기 -> optimal control의 목적
principle of optimality 에 따라 한 해가 최적이면 sub problem의 해도 최적이 된다.

$t_{0} < t < t_{1} < T$ 로 $t_{1}$ 추가해서 유도하기

$$V^{*}(x(t), t) = \underset{u[t, T]}{min}{\int_{t}^{t_{1}}l[x(\tau), u(\tau), \tau]d\tau + \underset{u[t_{1}, T]}{min}{\int_{t_{1}}^{T}l[x(\tau), u(\tau), \tau]d\tau + m(x(T))}}$$

이 중에서 뒷 항을
$$\underset{u[t_{1}, T]}{min}{\int_{t_{1}}^{T}l[x(\tau), u(\tau), \tau]d\tau + m(x(T))} = V^{*}(x(t_{1}), t_{1})$$

으로 정리할 수 있다. 그러므로 최종 식
$$V^{*}(x(t), t) = \underset{u[t, T]}{min}{\int_{t}^{t_{1}}l[x(\tau), u(\tau), \tau]d\tau + V^{*}(x(t_{1}), t_{1})}$$
이 때, $t_{1} = t + \Delta t$ 으로 선언. $\Delta t$ 는 작은 값이고, $t_{1}$은 $t$ 에서 조금! 시간이 흐른 시점

$t_{1}$을 대체한 식
$$V^{*}(x(t), t) = \underset{u[t, T]}{min}{\int_{t}^{t + \Delta t}l[x(\tau), u(\tau), \tau]d\tau + V^{*}(x(t + \Delta t), t + \Delta t)}$$

적분식을 함수의...어떤 넓이를 구하는 것과 같음. 따라서 너비 * 높이로 구할 수 있는데, 너비는 $\Delta t$ 이고, 높이는 $t$ ~ $t+\Delta t$ 사이의 어느 위치에서의 함수값
- 이 위치를 $t + \alpha \Delta t$ 라고 하면 식은 아래와 같음
  $$V^{*}(x(t), t) = \underset{u[t, T]}{min}{\Delta t \cdot l[x(t+\alpha \Delta t), u(t+\alpha \Delta t), t+\alpha \Delta t] + V^{*}(x(t + \Delta t), t + \Delta t)}$$
이제 뒷 항($V^{*}(x(t + \Delta t), t + \Delta t)$)을 테일러 급수로 정리

Taylor series(테일러 급수)

https://darkpgmr.tistory.com/59
https://sine-qua-none.tistory.com/28

$f(x) = p_{\infty}(x)$ 에서,
$$P_{n}(x) = f(a) + f^{\prime}(a)(x-a) + \frac{f^{\prime \prime}(a)}{2!}(x-a)^{2}+ \cdots + \frac{f^{(n)}(a)}{n!}(x-a)^{n}= \sum\limits_{k=0}^{\infty} \frac{f^{(k)}(a)}{k!}(x-a)^k$$

모든 $x$에 대해서 좌우변이 같지는 않음. $x=a$에 가까울 수록 정확하고, 고차항이 많을 수록 정확함.
$x=a$에서 $f(x)$와 같은 미분계수를 갖는 다항식으로 근사하는 방식
차수가 올라가면 더 긴 구간에서 원본과 유사해지고, 차수가 낮아지면 $x=a$에 가까운 구간에서만 유사함

다변수함수

$$f(x+v) = f(x) + f^{\prime}(x)v+ \frac12 f^{\prime \prime }(x)v^{2} + \cdots$$

위와 같은 식이 테일러 급수 기본

$f: R^{n} \to R$ 이고, $x = (x_{1}, x_{2}, x_{3}, \cdots)$ , $v=(v_{1}, v_{2}, v_{3}, \cdots)$ 이라고 하면
- $f^{\prime}(x) = \bigtriangledown f(x)$ : gradient descent
- $f^{\prime \prime}(x) = H_{f}$ : 헤세(Hessian) 행렬

$x$ 와 $v$가 행렬일 때, 각 변수의 편미분을 적용해서 위 테일러 급수 식을 다시 써보면
$$f'(x)v = \nabla f(x)^{T} v$$ $$f''(x)v^{2}= v^{T}H_{f}v$$ $$\nabla f(x) = (\frac{\partial f}{\partial x_{1}}, \frac{\partial f}{\partial x_{2}},\cdots, \frac{\partial f}{\partial x_{n}})^T$$ $$H_{f}= \begin{bmatrix} \frac{\partial^{2}f}{\partial x_{1}\partial x_{1}} & \frac{\partial^{2}f}{\partial x_{1}\partial x_{2}} & \cdots & \frac{\partial^{2}f}{\partial x_{1}\partial x_{n}} \
\vdots & & & \vdots \
\frac{\partial^{2}f}{\partial x_{n}\partial x_{1}} & \frac{\partial^{2}f}{\partial x_{n}\partial x_{2}} & \cdots & \frac{\partial^{2}f}{\partial x_{n}\partial x_{n}} \end{bmatrix}$$ $$f(x+v) = f(x) + \nabla f(x)^{T}v + \frac12 v^{T}H_{f}v + \cdots$$

2변수 함수

$x=(x_1, x_2)$, $v=(v_{1}, v_{2})$ 라면
$$\nabla f(x) = (\frac{\partial f}{\partial x_{1}}, \frac{\partial f}{\partial x_{2}})$$ $$H_{f}= \begin{bmatrix} \frac{\partial^{2}f}{\partial x_{1}\partial x_{1}} & \frac{\partial^{2}f}{\partial x_{1}\partial x_{2}} \ \frac{\partial^{2}f}{\partial x_{2}\partial x_{1}} & \frac{\partial^{2}f}{\partial x_{2}\partial x_{2}} \end{bmatrix} $$

이 도함수들을 기반으로 $f(x_{1}+ v_{1}, x_{2} + v_{2})$ 구해보면
$$f(x_{1}+v_{1}, x_{2}+ v_{2}) = f(x_{1} , x_{2}) \frac{\partial f(x)}{\partial x_{1}}v_{1} \frac{\partial f(x)}{\partial x_{2}}v_{2} \frac12 \frac{\partial^{2} f(x)}{\partial x_{1}^{2}}v_{1}^{2} \frac{\partial^{2} f(x)}{\partial x_{1}x_{2}}v_{1}v_{2} \frac12 \frac{\partial^{2} f(x)}{\partial x_{2}^{2}}v_{2}^{2} \cdots$$

LQR에 해당 내용을 적용해서 테일러 급수로 식을 바꿔보고, Quadratic form으로 변환하는 과정은 다음 포스트에..

728x90

저작자표시 비영리 변경금지 (새창열림)

'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글

[강화학습] TRPO(Trust Region Policy Optimization) 논문 정리 (8)	2024.09.02
[MPC] 4. Optimal Control(2) - Taylor Series 적용, Algebraic Riccati Equation(ARE) 구하기 (1)	2024.03.08
[MPC] 3. 상태(state)와 출력(output) 예측해보기 (0)	2024.03.06
[MPC] 2. 상태 공간 방정식 유도 (0)	2024.03.06
[MPC] 1. Model Predictive Control Intro (0)	2024.03.06

$t_{0} < t < t_{1} < T$ 로 $t_{1}$ 추가해서 유도하기

Taylor series(테일러 급수)

다변수함수

2변수 함수

'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글

티스토리툴바