迭代学习控制由 Arimoto 等人 [1]首次提出完整的控制算法后, 已成为近年来控制理论研究的热点问题, 并引起人们的广泛关注. 在迭代学习控制设计中, 采用较多的是 D 型学习律 [1-4] 和 P 型学习律 [5-9], 根据系统所满足的性质, 在重复受控时间内, 用 D 型学习律或 P型学习律进行控制设计. 事实上, 在不同的受控时间段内, 系统所满足的性质可能是不同的,也就是说, 可能在一个时间段内, 系统更适合用 P 型学习律, 在另一个时间段内, 系统更适合用 D 型学习律. 如何对这类系统进行迭代学习控制设计, 并进行相应的分段控制设计, 据笔者所知, 尚无相关的研究论文.
文[8]针对一类具有最一般形式的非线性系统, 采用P型与Newton型迭代学习控制律相结合的方法, 对此类系统进行了控制设计; 文[9]基于收敛性质分析, 对文[8]中的P型迭代学习控制律, 进一步作了鲁棒优化设计, 并得到最优的学习增益取值. 对具有最一般形式的非线性系统, 如何进行控制设计, 始终是非线性系统控制理论研究深感兴趣的内容.
本文提出分段迭代学习控制的概念, 并对文[9]中的系统进行分段迭代学习控制设计. 根据系统在不同时间段内所满足的不同假设条件, 采用不同的学习控制律, 最终组合成整个重复受控时间内的学习控制律, 当该学习控制律作用于系统时, 系统的输出跟踪误差沿迭代轴方向收敛.
本文给出如下符号约定: 对矩阵$A\in {{R}^{n\times n}}$, 记$\left\| A \right\|$为矩阵$A$的2范数, 即$\left\| A \right\|=\sqrt{\rho ({{A}^{\mathrm{T}}}A)}$, 其中$\rho ({{A}^{\mathrm{T}}}A)$为矩阵${{A}^{\mathrm{T}}}A$的谱半径; 对向量${x}(t)\in {{R}^{n}}$, $t\in [\tilde{T}, T]$, $0\le \tilde{T}<T$, 定义${x}(t)$的上确界范数${{\left\| {x}(t) \right\|}_{s}}={\sup\limits_{t\in [\tilde{T}, T]}}\left\| {x}(t) \right\|$, 其中$\left\| {x}(t) \right\|$ 为${x}(t)$ 的2范数; 对给定的$\lambda >0$, 定义${x}(t)$的$\lambda $ -范数${{\left\| {x}(t) \right\|}_{\lambda }}={\sup\limits_{t\in [\tilde{T},T]}}{{\mathrm{e}}^{-\lambda (t-\tilde{T})}}\left\| {x}(t) \right\|$. 由文[8]可知, 范数${{\left\| {x}(t) \right\|}_{s}}$与${{\left\| {x}(t) \right\|}_{\lambda }}$是等价的, 即可用其中任一种范数来证明收敛性结果.
考虑如下形式的单输入 - 单输出非线性系统 [9]:
这里$t\in \left[ 0,T \right],x(t)\in {{R}^{n}},u(t)\in R,y(t)\in R$分别是系统的状态, 控制输入和输出.
设系统(2.1)的输出$y(t)$在不同的时间段内有不同的表达形式:
这里$0<\hat{T}<T$, 而${{\left. \frac{\partial g}{\partial u} \right|}_{t={{{\hat{T}}}^{-}}}}, \dot{u}({{\hat{T}}^{-}})$ 表示函数在$t=\hat{T}$处的左导数.
注 1 在$\hat{T}<t\le T$内, $y(t)$的形式保证了$y(t)$在$[0,T]$内的连续性和可导性.
由此系统(2.1)化为
参照文[8], 记${{\Omega }_{1}}\triangleq D\times U\times [0,\hat{T}]$, ${{\Omega }_{2}}\triangleq D\times U\times (\hat{T},T]$, 其中$D,U$分别为$R^{n}$和$R$中的紧集. 对系统(2.2), 给出如下假设条件:
假设 1 对于给定的初值${x}(0)$及控制输入$u(t)$, 系统(2.2)的解${x}(t),y(t)$存在 唯一, 而${f}({x}(t),u(t),t)$, $g({x}(t),u(t),t)$是足够光滑函数[10].
假设 2 对于给定的理想轨迹${{y}_{r}}(t)\in {{C}^{1}}[0,T]$, 存在唯一的控制输入${{u}_{r}}(t)\in C[0,T]\cap {{C}^{1}}[0,\hat{T}]$, 使得
成立.
假设 3 系统的初始定位条件为 ${{{x}}_{k}}(0)={{{x}}_{r}}(0)$, $k=0,1,2,\cdots $.
设动态系统(2.2)在有限区间$t\in [0,T]$内是可重复的, 在迭代学习过程中, 重写系统(2.2)为
学习控制的目的是寻找适当的学习律, 使得迭代学习序列${{y}_{k}}(t)$一致收敛于理想的输出${{y}_{r}}(t)$, 即
其中${{e}_{k}}(t)={{y}_{r}}(t)-{{y}_{k}}(t)$.
设系统(2.2)在不同时间段内满足不同的假设条件, 在$t\in [0,\hat{T}]$内, 有
假设 4 非线性函数${f}({x},u,t)$在${{\Omega }_{1}}$内对变量${x},u$是全局Lipschitz连续的, 即
其中${{L}_{f}}$是未知的Lipschitz常数.
假设 5 $\forall ({x},u,t)\in {{\Omega }_{1}}$, 有$0<{{\alpha }_{1}}\le \frac{\partial g}{\partial u}\le {{\alpha }_{2}},\left\| {{\left( \frac{\partial g}{\partial {x}} \right)}^{\mathrm{T}}} \right\|\le {{\beta }_{1}},\left\| {{\left( \frac{{{\partial }^{2}}g}{\partial u\partial {x}} \right)}^{\mathrm{T}}} \right\|\le {{\beta }_{2}}, \left| \frac{{{\partial }^{2}}g}{\partial {{u}^{2}}} \right|\le {{\beta }_{3}}$成立, 其中${{\alpha }_{1}},{{\alpha }_{2}}$是已知的常数, ${{\beta }_{1}},{{\beta }_{2}},{{\beta }_{3}}$是未知的常数. 记$D=\left\{ \left. a \right|{{\alpha }_{1}}\le a\le {{\alpha }_{2}} \right\}$.
注 2 假设4, 5使得系统(2.2)在$t\in [0,\hat{T}]$内适合用P型学习律.
在$t\in (\hat{T},T]$内, 对系统(2.2)提出如下的假设条件:
假设 6 $\forall ({x},u,t)\in {{\Omega }_{2}},i=1,2,\cdots ,n$, 有$\left\| {f} \right\|\le {{\beta }_{4}}, \left\| \frac{\partial {f}}{\partial {x}} \right\|\le {{\beta }_{5}}, 0<{{\alpha }_{i1}}\le {{\left( \frac{\partial {f}}{\partial u} \right)}_{i}}\le {{\alpha }_{i2}}$成立, 其中${{\alpha }_{i1}},{{\alpha }_{i2}}$ 是已知的常数, ${{\beta }_{4}},{{\beta }_{5}}$是未知的常数, 而${{\left( \frac{\partial {f}}{\partial u} \right)}_{i}}$表示向量$\frac{\partial {f}}{\partial u}$的第$i$个分量.记$\bar{D}=\left\{ \left. ({{a}_{1}},{{a}_{2}},\cdots ,{{a}_{n}}) \right|{{\alpha }_{i1}}\le {{a}_{i}}\le {{\alpha }_{i2}},i=1,2,\cdots ,n \right\}$.
假设 7 $\forall ({x},u(\hat{T}),t)\in {{\Omega }_{2}},j=1,2,\cdots ,n$, 有$\left| \frac{{{\partial }^{2}}g}{\partial t\partial u(\hat{T})} \right|\le {{\beta }_{6}},\left\| \frac{{{\partial }^{2}}g}{\partial {{{x}}^{2}}} \right\|\le {{\beta }_{7}},\left\| {{\left( \frac{{{\partial }^{2}}g}{\partial t\partial {x}} \right)}^{\mathrm{T}}} \right\|\le {{\beta }_{8}},\left\| {{\left( \frac{{{\partial }^{2}}g}{\partial {x}\partial u(\hat{T})} \right)}^{\mathrm{T}}} \right\|\le {{\beta }_{9}},0<{{\gamma }_{j1}}\le \left( \frac{\partial g}{\partial {x}} \right)_{j}^{\mathrm{T}}\le {{\gamma }_{j2}}$ 成立, 其中${{\gamma }_{j1}},{{\gamma }_{j2}}$是已知的常数, ${{\beta }_{6}}, {{\beta }_{7}}, {{\beta }_{8}}, {{\beta }_{9}}$是未知的常数, 而$\left( \frac{\partial g}{\partial {x}} \right)_{j}^{\mathrm{T}}$表示向量${{\left( \frac{\partial g}{\partial {x}} \right)}^{\mathrm{T}}}$的第$j$个分量. 记
注 3 假设6, 7使得系统(2.2)在$t\in [\hat{T},T]$内适合用D型学习律.
引理 1[11]设$\left\{ {{a}_{k}} \right\}$, $\left\{ {{b}_{k}} \right\}$是满足
的非负实数列, 如有$\mathop {\lim }\limits_{k \to \infty } {\mkern 1mu} {b_k} = 0$, 则有$\mathop {\lim }\limits_{k \to \infty } {\mkern 1mu} {a_k} = 0$.
对系统(2.2)构建分段学习律
其中$q,p>0$为学习增益.
注 4 由(3.1)式可知选取${{u}_{0}}(t)\in C[0,T]$, 则${{u}_{k}}(t)\in C[0,T]$, $k=1,2,3,\cdots $, 由此保证了系统(2.3)解的存在性.
注 5 由(2.3), (3.1)式及假设1中${f}({x}(t),u(t),t),g({x}(t),u(t),t)$的足够光滑性可知 选取${{u}_{0}}(t)\in C[0,T]\cap {{C}^{1}}[0,\hat{T}]$, 则${{y}_{k}}(t)\in {{C}^{1}}[0,T]$, 再由假设2, 有${{e}_{k}}(t)\in {{C}^{1}}[0,T]$.
由此给出如下定理:
定理 1 假设1-7成立, 如果有
则系统(2.2)在分段学习律(3.1)作用下是收敛的, 即$\mathop {\lim }\limits_{k \to \infty } {\mkern 1mu} {\left\| {{e_k}(t)} \right\|_s} = 0$.
证 因证明过程需多次用到泰勒展开公式, 为简便起见, 用$*$表示公式中各个不同的中值, 记$\delta {{{x}}_{k}}={{{x}}_{k+1}}(t)-{{{x}}_{k}}(t), \delta {{u}_{k}}={{u}_{k+1}}(t)-{{u}_{k}}(t)$. 由于系统的分段性质, 证明分两部分进行.
(1) 对$t\in [0,\hat{T}]$. 应用泰勒展开公式, 由(2.3), (3.1)式有
由此有
上式两端取范数, 由假设5及(3.2)式有
取$\lambda$ -范数, 有
由系统(2.3)及假设3, 4可知
由(3.1)式可得
应用Gronwall引理, 有
记${{O}_{1}}({{\lambda }^{-1}})={{L}_{f}}q{{\mathrm{e}}^{{{L}_{f}}\hat{T}}}\frac{1-{{\mathrm{e}}^{-\lambda \hat{T}}}}{\lambda }$, 则有
显然, 当$\lambda $足够大时, 能使${{O}_{1}}({{\lambda }^{-1}})$任意小.
将(3.4)式代入(3.3)式, 有
因为$\rho <1$, 所以取足够大的$\lambda $, 能使得$\rho +{{\beta }_{1}}{{O}_{1}}({{\lambda }^{-1}})<1$成立, 由压缩映射原理可知
再由范数的等价性, 有
特别地
由假设1, 2, 有
(2) 对$t\in (\hat{T},T]$. 由(2.3)式有
将(3.1)式代入上式, 得
上式取范数, 由(3.2), (3.8)式及假设5, 6, 7, 可得
其中$b={{\beta }_{4}}{{\beta }_{7}}+{{\beta }_{5}}\sqrt{\sum\limits_{j=1}^{n}{\gamma _{j2}^{2}}}+{{\beta }_{8}},$
由(3.6), (3.7)式, 有
由(2.3)式及注5, 可知${{\dot{e}}_{k}}(t),{{\dot{e}}_{k+1}}(t),{{{x}}_{k}}(t)-{{{x}}_{k+1}}(t)$ 在$t\in [0,T]$上连续, 由此(3.9)式在$t\in [\hat{T},T]$成立, 即
对(3.11)式取$\lambda $ -范数, 则有
同样由连续性, 对$t\in [\hat{T},T]$, 由方程(2.3)有
取范数, 由假设6及(3.1)式, 有
再次应用Gronwall引理, 有
其中
并有
记${{O}_{2}}({{\lambda }^{-1}})=p{{\mathrm{e}}^{{{\beta }_{5}}(T-\hat{T})}}\sqrt{\sum\limits_{i=1}^{n}{\alpha _{i2}^{2}}}\frac{1-{{\mathrm{e}}^{-\lambda (T-\hat{T})}}}{\lambda }$, 则有
将(3.14)式代入(3.12)式, 有
因为$\rho <1$, 所以取足够大的$\lambda $, 能使得$\rho +b{{O}_{2}}({{\lambda }^{-1}})<1$成立, 而由(3.10), (3.13) 式有$\mathop {\lim }\limits_{k \to \infty } {\mkern 1mu} (b{G_k}(\hat T) + {F_k}(\hat T)) = 0$, 对(3.15)式利用引理1, 得 $\mathop {\lim }\limits_{k \to \infty } {\mkern 1mu} {\left\| {{{\dot e}_k}(t)} \right\|_\lambda } = 0.$ 再由范数的等价性, 有
由(3.6)式可得
由此可知
综上, 由(3.5), (3.5)式得 $\mathop {\lim }\limits_{k \to \infty } {\mkern 1mu} {\left\| {{e_k}(t)} \right\|_s} = 0,t \in [0,T].$
注 6 由假设5, 6, 7, 选取学习增益$q$, 使其满足$0<q<\frac{2}{{{\alpha }_{2}}}$; 选取学习增 益$p$, 使其满足$0<p<\frac{2}{\sum\limits_{i=1}^{n}{({{\alpha }_{i2}}{{\gamma }_{i2}})}}$, 则收敛性条件(3.2)式就能成立.
构建如下非线性系统
理想轨迹为${{y}_{r}}(t)={{t}^{2}}, t\in [0,2]$. 通过验证可知系统(4.1)满足假设条件$1\sim7$ (见附录). 由系统(4.1), 有$\frac{\partial g}{\partial u}=1, \frac{\partial f}{\partial u}\in [0.75,1], \frac{\partial g}{\partial x}\in , \forall u,x\in R$, 即${{\alpha }_{1}}=1, {{\alpha }_{2}}={{a}_{12}}={{\gamma }_{11}}=1, {{a}_{11}}=0.75, {{\gamma }_{12}}=3$.
于是由注6可知$q<\frac{2}{{{\alpha }_{2}}}=2,p<\frac{2}{{{\alpha }_{12}}{{\gamma }_{12}}}=\frac{2}{3}$, 选取学习增益为$q=0.5,p=0.3$, 此时$\rho =\max \left\{ \left| 1-0.5\cdot 1 \right|,\left| 1-0.3\cdot 0.75 \right| \right\}=0.775<1$, 满足定理1的条件. 将$p,q$的值代入(3.1)式, 可得系统(4.1)的分段学习律为
取${{u}_{0}}(t)=0,{{x}_{k}}(0)=0,k=0,1,2,\cdots $, 运用Matlab的Simulink模块进行仿真可得仿真结果如图 1 ~ 图 2所示. 从图中可以看出, 随着迭代次数的增加,跟踪误差在分段学习律下呈较好的收敛趋势.
本文提出了分段迭代学习控制的概念, 并对一类满足通常假设条件的非线性系统进行分段迭代学习控制设计. 根据系统在不同时间段内所满足的不同假设条件, 采用不同的学习控制律. 在前段时间段内, 采用 P 型学习控制律, 在后段时间段内, 采用 D 型学习控制律, 通过两个时间段的合理衔接, 最终组合成整个重复受控时间内的学习控制律, 当该学习控制律作用于系统时, 系统在整个重复受控时间内的输出跟踪误差沿迭代轴方向收敛. 仿真算例验证了算法的有效性. 文 [9] 及本文研究的系统均为单输入单输出, 如何将本文的结论推广到多输入多输出系统, 有待作进一步的研究.