3. Ricatti方程式

3.1. Ricatti方程式の導出[1]

最適レギュレータは状態方程式[ Eq.(3.1) ]

(3.1)\[\frac{d \mathbb{X} }{d t} = \mathbb{A} \mathbb{X} + \mathbb{B} \mathbf{u}\]

の下で、次の式で定義される評価汎関数 \(I[\mathbb{X},\mathbf{u},t]\)を最小化するという問題と捉えることができます。ここで、\(Q\)および\(R\)は正定値の対称行列とします。

(3.2)\[{\mathcal O}[\mathbb{X},\mathbf{u}]= \int_{-\infty}^{\infty} dt \frac{1}{2} \left\lbrace\mathbb{X}^T Q \mathbb{X} + \mathbf{u}^T R \mathbf{u}\right\rbrace\]

条件付きの最小値問題ということで、Lagrangeの未定係数\(\Lambda\)を用いて拡大された評価汎関数\(\tilde{\mathcal O}\)を次のように定義してみましょう。

(3.3)\[\begin{split} \tilde{\mathcal O}\left[ \mathbb{X}, \mathbf{u}, {\mathbf \Lambda} \right] &= \int_{-\infty}^{\infty} dt \\ & \left\lbrace \frac{1}{2}\mathbb{X}^T Q \mathbb{X} + \frac{1}{2}\mathbf{u}^T R \mathbf{u} + {\mathbf \Lambda}^T \left( \frac{d \mathbb{X} }{d t} - \mathbb{A} \mathbb{X} - \mathbb{B} \mathbf{u}\right) \right\rbrace \\\end{split}\]

この汎関数の独立変数の変分をとると、\({\mathbf \Lambda}\)についての変分からは状態方程式 Eq.(3.1) が導かれることは直ちにわかります。 \(\mathbf u\)の変分からは、

(3.4)\[\begin{split}\frac{\delta \tilde{\mathcal O}}{\delta {\mathbf u}^T} = R {\mathbf u} - {\mathbb B}^T {\mathbf \Lambda} = 0 \\ {\text or}\qquad \\ {\mathbf u} = R^{-1} {\mathbb B}^T {\mathbf \Lambda}\end{split}\]

が導かれます。 最後に\({\mathbb X}\)についての変分からは、

(3.5)\[\frac{\delta \tilde{\mathcal O}}{\delta {\mathbb X}^T} = Q {\mathbb X} - \frac{d {\mathbf \Lambda}}{d t} - {\mathbb A}^T {\mathbf \Lambda} = 0\]

が導かれます。

ここで、 Eq.(3.4) が状態フィードバックの制御則になることを要求して、

(3.6)\[ {\mathbf \Lambda} = - {\mathbb P} {\mathbb X}\]

で新たな量, \(\mathbb P\)を導入します。

この定義から、

(3.7)\[ \frac{d {\mathbf \Lambda}}{d t} = - \frac{d {\mathbb P}}{d t} {\mathbb X} - {\mathbb P}\left( {\mathbb A} {\mathbb X} - {\mathbb B} R^{-1} {\mathbb B}^T {\mathbb P}{\mathbb X}\right)\]

です。これを Eq.(3.5) に代入すると、

(3.8)\[Q {\mathbb X} + \frac{d {\mathbb P}}{d t} {\mathbb X} + {\mathbb P}\left( A {\mathbb X} - {\mathbb B} R^{-1} {\mathbb B}^T {\mathbb P}{\mathbb X}\right) +{\mathbb A}^T {\mathbb P}{\mathbb X} = 0\]

となります。初期値に関わらず、この条件が成り立つためには、

(3.9)\[Q + \frac{d {\mathbb P}}{d t} + {\mathbb P} {\mathbb A} + {\mathbb A}^T {\mathbb P} - {\mathbb P}{\mathbb B} R^{-1} {\mathbb B}^T {\mathbb P} = 0\]

をみたす\(\mathbb P\)が存在すれば良いことになります。定常状態では\(\frac{d {\mathbb P}}{d t} = 0\)ですから、この式, Eq.(3.9)

(3.10)\[Q + {\mathbb P} A + {\mathbb A}^T {\mathbb P} - {\mathbb P}{\mathbb B} R^{-1} {\mathbb B}^T {\mathbb P} = 0\]

とRicattiの代数方程式に帰着されました。 この方程式が正定値対称な解\(\mathbb P\)をもてば、それが\(I[\mathbb{X},\mathbf{u},t]\)を最小化するという意味で、最適なかつ安定な状態フィードバックを決めることがわかりました。 この時の制御則は、

(3.11)\[{\mathbf u} = R^{-1} {\mathbb B}^T {\mathbf \Lambda} = - R^{-1} {\mathbb B}^T {\mathbb P} {\mathbb X}\]

となります。

[1]Ricatti代数方程式についてはLiapnov関数の方式の方がわかり易いかもしれない。これは、第1.4.2章の議論の裏返しでもある。

3.2. ハミルトン行列

Eq.(3.3) ` をラグランジアンと考えて,ハミルトン形式に書き換えることを考えてみます。\(\mathbb{X}\)に対する"正準運動量"\(\mathbf{P}\)を、

(3.12)\[\begin{split}{\mathbf P}&=\frac{\delta \tilde{\mathcal O}}{\delta\frac{d \mathbb{X}^T}{dt}}\\ &={\mathbf \Lambda}\\\end{split}\]

と定義すると、ハミルトニアン\(\mathcal H\)は,

(3.13)\[\begin{split}{\mathcal H} &= {\mathbf P}^T \frac{d {\mathbb X}}{d t} - L \\ &={\mathbf P}^T \frac{d {\mathbb X}}{d t} -\left\lbrace \frac{1}{2}\mathbb{X}^T Q \mathbb{X} + \frac{1}{2}\mathbf{u}^T R \mathbf{u} + {\mathbf P}^T \left( \frac{d \mathbb{X} }{d t} - \mathbb{A} \mathbb{X} - \mathbb{B} \mathbf{u}\right) \right\rbrace \\ &= -\frac{1}{2}\mathbb{X}^T Q \mathbb{X} - \frac{1}{2}\mathbf{u}^T R \mathbf{u} +{\mathbf P}^T \left( \mathbb{A} \mathbb{X} + \mathbb{B} \mathbf{u}\right)\end{split}\]

となります。更に\({\mathbf u} = R^{-1} {\mathbb B}^T {\mathbf P}\)を代入することで、

(3.14)\[\begin{split}{\mathcal H} &= -\frac{1}{2}\mathbb{X}^T Q \mathbb{X} - \frac{1}{2}{\mathbf P}^T {\mathbb B} R^{-1} {\mathbb B}^T {\mathbf P} +{\mathbf P}^T \left(\mathbb{A} \mathbb{X} + \mathbb{B} R^{-1} {\mathbb B}^T {\mathbf P} \right)\\ \\ &= \frac{1}{2}{\mathbf P}^T {\mathbb B} R^{-1} {\mathbb B}^T {\mathbf P} - \frac{1}{2}\mathbb{X}^T Q \mathbb{X} + {\mathbf P}^T \mathbb{A} \mathbb{X}\\\end{split}\]

と書けます。

この時、"正準方程式"は、

(3.15)\[\begin{split}\frac{d {\mathbb X}}{d t} &= \frac{\delta {\mathbf H}}{\delta {\mathbf P}^T} = {\mathbb A}{\mathbb X} +{\mathbb B} R^{-1} {\mathbb B}^T {\mathbf P} \\ \\ \frac{d {\mathbf P}}{d t} &= -\frac{\delta {\mathbf H}}{\delta {\mathbb X}^T} = Q{\mathbb X} -{\mathbb A}^T {\mathbf P}\end{split}\]

となります[2]。行列表示では、

(3.16)\[\begin{split}\frac{d}{d t}\begin{pmatrix} {\mathbb X}\\ {\mathbb P}\end{pmatrix} = \begin{pmatrix} {\mathbb A},& {\mathbb B}R^{-1}{\mathbb B}^T \\ Q,& -{\mathbb A}^T\end{pmatrix} \begin{pmatrix} {\mathbb X}\\ {\mathbb P}\end{pmatrix}\\\end{split}\]

です。 この拡大された状態方程式は、初期条件\({\mathbb X}_0\)に対して、安定な固有値に対応する固有ベクトル\(\xi_i\)だけを使って、

(3.17)\[\begin{split}\begin{pmatrix}{\mathbb X}_0 \\ {\mathbf P}_0\end{pmatrix} = \Sigma_i a_i \xi_i = \begin{pmatrix} {\mathbf \Xi_{x}} \\ {\mathbf \Xi_{P}}\end{pmatrix} {\mathbb a}\end{split}\]

となる様に\({\mathbf P}_0\)を選んでやれば、この系は安定になることがわかります。

(3.18)\[{\mathbf P}_0 = {\mathbf \Xi_{P}} {\mathbf \Xi_{x}}^{-1} {\mathbb X}_0\]

および \({\mathbf \Xi}\)の各列ベクトルはハミルトン行列の固有ベクトルであることに注意すると[3]

(3.19)\[\begin{split}\begin{pmatrix} {\mathbb A},& {\mathbb B}R^{-1}{\mathbb B}^T \\ Q,& -{\mathbb A}^T\end{pmatrix} {\mathbf \Xi} = {\mathbf \Xi}{\mathbf \Lambda}\\ \\ {\mathbb A}{\mathbf \Xi_x} + {\mathbb B}R^{-1}{\mathbb B}^T {\mathbf \Xi_P}= {\mathbf \Xi_x}{\mathbf \Lambda}\\ {\mathbb Q}{\mathbf \Xi_x} - {\mathbb A}^T {\mathbf \Xi_P}= {\mathbf \Xi_p}{\mathbf \Lambda}\\\end{split}\]

です. 上の二つの式から\(\Lambda\)を消去することで、

(3.20)\[{\mathbb Q} - {\mathbb A}^T {\mathbf \Xi_P}{\mathbf \Xi_x}^{-1} = {\mathbf \Xi_P}{\mathbf \Xi_x}^{-1}{\mathbb A} + {\mathbf \Xi_P}{\mathbf \Xi_x}^{-1}{\mathbb B}R^{-1}{\mathbb B}^T {\mathbf \Xi_P}{\mathbf \Xi_x}^{-1}\]

が成り立つことがわかります。すなわち、\(-{\mathbf \Xi_P}{\mathbf \Xi_x}^{-1}\)はRicatti方程式 Eq.(3.10) の解となっています。

また、正準方程式の時間発展に伴って、

(3.21)\[\begin{split}{\mathbf P}(t) = {\mathbf \Xi_P}{\mathbf \Xi_x}^{-1} {\mathbb X}(t)\\ \\ {\mathbf u} = R^{-1} {\mathbb B}^T {\mathbf \Xi_P}{\mathbf \Xi_x}^{-1} {\mathbb X}(t)\end{split}\]

が成り立つことも確認できます。

[2]\(\begin{pmatrix} A & B\\C & D\end{pmatrix}\)\(\begin{pmatrix} A & -B\\-C & D\end{pmatrix}\)は同じ固有値を持つことに注意すれば、これらのハミルトン行列は文献[A-7][ minami:2019]などの表示と等価である。
[3]ここで、\({\mathbf \Xi_x}\)が正則であることを仮定している。これは可制御性から証明されるべきであるが、未着。