首先介绍文中的符号:${{\Re }^{m\times n}}$表示$m\times n$阶实矩阵的集合, $I$表示单位矩阵, ${{A}^{T}}$表示矩阵$A$的转置, $A\otimes B$表示矩阵$A$与矩阵$B$的Kronecker积. $\left\langle A,B\right\rangle ={\hbox{ trace}}({{B}^{T}}A)$, $\left\| A \right\|$表示矩阵$A$的Frobenius范数, ${{\left\| A \right\|}^{2}}=\left\langle A, A \right\rangle$, ${{\left\| \alpha \right\|}_{2}}$表示向量$\alpha $的$2$-范数, $\left\| \alpha \right\|_{2}^{2}=\left\langle \alpha, \alpha \right\rangle$.若${{P}^{2}}=I$且${{P}^{T}}=P$, 则称实矩阵$P$是反射矩阵.若$A=PAP$或$A=-PAP$, 则称矩阵$A$为关于反射$P$的自反 (或反自反) 矩阵, 记${{R}_{r}}^{n\times n}(P) = \{A\in {{R}^{n\times n}}|PAP=A\}$.若vec$({{X}^{T}})=Q(m,n){\hbox{vec}}(X)$, 其中$X\in {{R}^{m\times n}}$, 则称$Q(m,n)$为置换矩阵, 且
矩阵$A=({{a}_{ij}})\in {{R}^{m\times n}}$的拉伸算子${\hbox{vec}}(\cdot)$为
$\nabla f(X )$表示$f(X)$关于$X$的梯度算子, 即$\nabla f(X )=$ ${{\left( \frac{\partial f}{\partial {{x}_{11}}},\frac{\partial f}{\partial {{x}_{21}}},\cdots ,\frac{\partial f}{\partial {{x}_{mn}}} \right)}^{T}}$, ${{\nabla }^{2}}f(X )$为Hessian矩阵, 其中$X=({{x}_{ij}})\in {{R}^{m\times n}}$.
我们知道关于反射矩阵的自反矩阵或反自反矩阵在系统与控制理论、工程、科学计算和其他领域都有广泛的应用[1-2].近年来, Sylvester矩阵方程$AXB+C{{X}^{T}}D=E$是计算数学研究的热点之一, 并且取得很多成果.若矩阵方程相容, 文献[3]利用Moore-Penrose广义给出了$AX+{{X}^{T}}C=B$解的表达式, 文献[4-5]用共轭梯度迭代算法给出矩阵方程$AXB+C{{X}^{T}}D=E$极小范数最小二乘解, 2011年文献[6]给出了$XA+A{{X}^{T}}=0$的一般解, 2012年文献[7]给出$AXB+C{{X}^{T}}D=E$的可解性, 文献[8]给出求解方程${{A}_{1}}{{X}_{1}}{{B}_{1}}=C$, ${{A}_{2}}{{X}_{2}}{{B}_{2}}=D$的自反 (或反自反) 最佳逼近解.若矩阵方程不相容, 对于任意给定矩阵, 盛[9]提出一种算法求得最佳逼近解, 2012年文献[10]提出一种算法求$AXB+CXD=E$的自反 (或反自反) 最佳逼近解.
目前还未见研究方程$AXB+C{{X}^{T}}D=E$的自反 (或反自反) 最佳逼近解的文献.一般来说, 较容易求得该矩阵方程无约束条件的解, 但很难求该矩阵方程的带约束条件的解.我们利用共轭方向法思想, 先构造一个可行方向, 然后根据这个可行方向再构造相互共轭的下降方向, 所以初始矩阵通过有限次迭代能够收敛于全局最小点.
本文考虑如下问题:
问题 Ⅰ给定矩阵$A, C\in {{\Re }^{m\times l}}$, $B, D\in {{\Re }^{l\times n}}$, $ E\in {{\Re }^{m\times n}}$, 求$X\in \Re _{r}^{l\times l}(P)$, 使得
问题 Ⅱ设问题I的解集合为${{S}_{E}}$, 给定${{X}^{*}}\in R_{r}^{l\times l}(P)$, 求$\hat{X}\in {{S}_{E}}$使得
对于矩阵方程$AXB+C{{X}^{T}}D=E$, 若它们是相容的, ${{S}_{E}}$是解的集合; 若它们不相容, ${{S}_{E}}$就是最小二乘解的集合.所以无论矩阵方程$AXB+C{{X}^{T}}D=E$是否相容, 都可以认为${{S}_{E}}$是问题Ⅰ的解集合.问题Ⅱ是在${{S}_{E}}$里找一个与矩阵${{X}^{*}}\in R_{r}^{l\times l}(P)$最接近的矩阵.由于数据不完整或者修改数据, 在线性系统的测试和复原过程中, 会提出问题Ⅱ, 未知矩阵的估计值${{X}^{*}}$可以通过实验观测和统计分布的信息获得.
显然问题I的最小二乘解等价 (1.3) 式的最小二乘解
其中$X\in \Re _{r}^{l\times l}\left( P \right)$.
本文的结构如下:第2部分给出问题Ⅰ和问题Ⅱ的一个迭代算法并证明所给算法是收敛的; 第3部分用三个数值例子来验证该算法的有效性; 第4部分给出结论.
下面给出问题I和Ⅱ的算法, 算法的具体步骤如下:
步骤1 输入$A\in {{\Re }^{m\times l}}$, $B\in {{\Re }^{l\times n}}$, $C\in {{\Re }^{m\times l}}$, $D\in {{\Re }^{l\times n}}$和$E\in {{\Re }^{m\times n}}$;
步骤2 任给自反矩阵${{X}_{1}}\in \Re _{r}^{l\times l}(P)$, 其中$P\in \Re _{r}^{l\times l}$是任意广义自反矩阵;
步骤3 计算
步骤4 如果${{g}_{1}}\text{=}\mathbf{0},$则停止迭代; 否则转入步骤5;
步骤5 计算$ {\hbox{vec}}({{X}_{k+1}})={\hbox{vec}}({{X}_{k}})+\frac{{{\left\| {{g}_{k}} \right\|}^{2}}}{{{\left\| {{d}_{k}} \right\|}^{2}}}{\hbox{vec}}({{d}_{k}}),$即${{X}_{k+1}}={{X}_{k}}+\frac{{{\left\| {{g}_{k}} \right\|}^{2}}}{{{\left\| {{d}_{k}} \right\|}^{2}}}{{d}_{k}};$
步骤6 如果${{g}_{k+1}}=\mathbf{0}$, 则停止迭代; 否则$k:=k+1$, 转入步骤5.
为了证明该算法的收敛性, 首先给出下面一些定理.
定理1 设$F(X)={{\left\| E-AXB-C{{X}^{T}}D \right\|}^{2}}$, $R=E-AXB-C{{X}^{T}}D$, 其中$X\in \Re _{r}^{l\times l}(P)$, 则
(i) 存在${{X}^{*}}\in \Re _{r}^{l\times l}(P)$使得$\nabla F({{X}^{*}})=\mathbf{0}$, 且$\nabla F(X)=-2{\hbox{vec}}({{A}^{T}}R{{B}^{T}}+D{{R}^{T}}C)$.
(ii) ${{\nabla }^{2}}F(X)$为半正定矩阵.
证 (i) 令${\hbox{vec}}({{X}^{T}})=Q(l,l){\hbox{vec}}(X)$, ${{A}_{1}}={{B}^{T}}\otimes A+({{D}^{T}}\otimes C)Q(l,l)$,
所以
显然, 矩阵方程${{A}_{1}}^{T}{{A}_{1}}{\hbox{vec}}(X)-{{A}_{1}}^{T}{\hbox{vec}}(E)=\mathbf{0}$是相容的, 则存在${{X}^{*}}\in \Re _{r}^{l\times l}(P)$使得${{A}_{1}}^{T}{{A}_{1}}{\hbox{vec}}({{X}^{*}})-{{A}_{1}}^{T}{\hbox{vec}}(E)=\mathbf{0}$, 即$\nabla F({{X}^{*}})=\mathbf{0}$.
(ii) 因为$\nabla F(X)=2{{A}_{1}}^{T}{{A}_{1}}{\hbox{vec}}(X)-2{{A}_{1}}^{T}{\hbox{vec}}(E)$, 所以${{\nabla }^{2}}F(X)=2{{A}_{1}}^{T}{{A}_{1}}$.由于对于任意$Y\in {{\Re }^{{{l}^{2}}}}$都有${{\left\| {{A}_{1}}Y \right\|}^{2}}\ge 0$ $\Rightarrow \left\langle {{A}_{1}}Y,{{A}_{1}}Y \right\rangle \ge 0$$\Rightarrow {{Y}^{T}}{{A}_{1}}^{T}{{A}_{1}}Y\ge 0$, 所以${{\nabla }^{2}}F(X)$为半正定矩阵.
定理2[11] 设$S\subset {{\Re }^{n}}$为凸集, $f:S\subset {{\Re }^{n}}\to \Re $在$S$的内点集$\operatorname{int}S$二次连续可微, 若${{x}^{*}}\in \operatorname{int}S$为$f(x)$的驻点, 且$\forall x\in \operatorname{int}S$, ${{\nabla }^{2}}f(x)$半正定, 则${{x}^{*}}$为$f(x)$在$\operatorname{int}S$上的全局极小点.
定理3 若$\left\{ {{X}_{i}} \right\}$, $\left\{ {{g}_{i}} \right\}$和$\left\{ {{d}_{i}} \right\}$是算法产生的序列, 则${{g}_{i}},\ {{d}_{i}},\ {{X}_{i}}\in \Re _{r}^{l\times l}(P)$ $\left( i=1,2,\cdots \right)$.
证 下面用数学归纳法来证明${{g}_{i}},{{d}_{i}},{{X}_{i}}\in \Re _{r}^{l\times l}(P)$ $\left( i=1,2,\cdots \right)$.
当$i=1$时, 所给的初始矩阵${{X}_{1}}\in \Re _{r}^{l\times l}(P)$, 显然${{g}_{1}}\in \Re _{r}^{l\times l}(P)$, ${{d}_{1}}\in \Re _{r}^{l\times l}(P)$.
假设当$i=k$ $\left( k\ge 2 \right)$时, ${{g}_{k}},{{d}_{k}},{{X}_{k}}\in \Re _{r}^{l\times l}(P)$结论成立.当$i=k+1$时,
故${{g}_{i}} ,{{d}_{i}},{{X}_{i}}\in \Re _{r}^{l\times l}(P)$ $\left( i=1,2,\cdots \right)$.
定理4 若${{X}^{*}}\in \Re _{r}^{l\times l}(P)$是$\nabla F(X)=\mathbf{0}$的解, $\left\{ {{X}_{i}} \right\}$, $\left\{ {{g}_{i}} \right\}$和$\left\{ {{d}_{i}} \right\}$是算法产生的序列.如果${{g}_{i}}\ne \mathbf{0}$, 则${{d}_{i}}\ne \mathbf{0}$ $\left( i=1,2,\cdots ,s \right)$.
证 首先利用数学归纳法证明$\left\langle {{d}_{i}},{{X}^{*}}-{{X}_{i}} \right\rangle ={{\left\| {{g}_{i}} \right\|}^{2}}$ $\left( i=1,2,\cdots ,s \right)$, 当$i=1$时,
假设当$i=k$ $(s>k\ge 2)$时, $\left\langle {{d}_{k}},{{X}^{*}}-{{X}_{k}} \right\rangle ={{\left\| {{g}_{k}} \right\|}^{2}}$成立.当$i=k+1$时,
故$\left\langle {{d}_{i}},{{X}^{*}}-{{X}_{i}} \right\rangle ={{\left\| {{g}_{i}} \right\|}^{2}}$成立, 所以当${{g}_{i}}\ne \mathbf{0}$时, ${{P}_{i}}\ne \mathbf{0}$ $(i=1,2,\cdots ,s)$.
定理5 若${{g}_{1}}$和${{d}_{1}}$是算法产生的, ${\hbox{vec}}({{g}_{1}}^{T})=Q(l,l){\hbox{vec}}({{g}_{1}})=Q{\hbox{vec}}({{g}_{1}})$.如果${{g}_{1}}\ne \mathbf{0}$, 则$\nabla F{{({{X}_{1}})}^{T}}{\rm vec}({{d}_{1}})<0$.
证
假设$\left\| \left[ {{B}^{T}}\otimes A+({{D}^{T}}\otimes C)Q \right]{\hbox{vec}}({{g}_{1}}) \right\|_{2}^{2}=0$, 则$\left[ {{B}^{T}}\otimes A+({{D}^{T}}\otimes C)Q \right]{\hbox{vec}}({{g}_{1}})=\mathbf{0}$, 从而可得
因为${{g}_{1}}\ne \mathbf{0}$, 根据定理4可得${{d}_{1}}\ne \mathbf{0}$, 这与${\hbox{vec}}({d}_{1})=\mathbf{0}$矛盾, 所以
即$\nabla F{{({{X}_{1}})}^{T}}{\hbox{vec}}({{d}_{1}})<0. $
定理5表明了算法中的搜索方向${\hbox{vec}}({d}_{1})$是一个可行性下降方向.下面将证明所有的搜索方向相互共轭.
定理6 $\left\{ {{g}_{i}} \right\}$和$\left\{ {{d}_{i}} \right\}$是算法产生的序列, 且${{d}_{i}}\ne \mathbf{0}$ ($i=1,2,\cdots ,l$), 则
证 因为$\left\langle A,B \right\rangle =\left\langle B,A \right\rangle $, 其中$A,B\in {{\Re }^{m\times n}}$, 所以只需证明当$1\le i<j$时结论成立即可.用数学归纳法分两步来证明该结论:
第一步 证明$\left\langle {{g}_{i}},{{g}_{i+1}} \right\rangle =0$且$\left\langle {{d}_{i}},{{d}_{i+1}} \right\rangle =0$ $(i=1,2,\cdots )$.当$i=1$时,
假设当$i\le k-1 (s>k\ge 2)$结论成立.当$i=k$时,
故$\left\langle {{g}_{i}},{{g}_{i+1}} \right\rangle =0$且$\left\langle {{d}_{i}},{{d}_{i+1}} \right\rangle =0$ $(i=1,2,\cdots )$成立.
第二步 根据第一步结论, 假设对于任意$i$和$k$都有$\left\langle {{g}_{i}},{{g}_{i+k}} \right\rangle =0$且$\left\langle {{d}_{i}},{{d}_{i+k}} \right\rangle =0$成立.
下面证明$\left\langle {{g}_{i}},{{g}_{i+k+1}} \right\rangle =0$且$\left\langle {{d}_{i}},{{d}_{i+k+1}} \right\rangle =0$成立.
由第一步和第二步可得$\left\langle {{g}_{i}},{{g}_{j}} \right\rangle =0$且$\left\langle {{d}_{i}},{{d}_{j}} \right\rangle =0$ $\left( i,j=1,2,\cdots ,i\ne j \right)$成立.
定理7 若$\forall {{X}_{1}}\in \Re _{r}^{l\times l}\left( P \right) $, 其中$P\in \Re _{r}^{l\times l}$是广义自反矩阵, 算法能在有限迭代步内得到问题I的自反解.
证 假设${{g}_{i}}\ne \mathbf{0}$$\left( i=1,2,\cdots ,{{l}^{2}} \right)$, 由定理4可知, ${{d}_{i}}\ne \mathbf{0}$ $\left( i=1,2,\cdots ,{{l}^{2}} \right)$, 因此根据算法能够计算出${{X}_{{{l}^{2}}+1}}$和${{g}_{{{l}^{2}}+1}}$.由定理6可得$\left\langle {{g}_{i}},{{g}_{{{l}^{2}}+1}} \right\rangle =0$ $\left( i=1,2,\cdots ,{{l}^{2}} \right)$和$\left\langle {{g}_{i}},{{g}_{j}} \right\rangle =0$ $\left( i,j=1,2,\cdots ,{{l}^{2}},i\ne j \right)$.因为$\left\{ {{g}_{1}},{{g}_{2}},\cdots ,{{g}_{{{l}^{2}}}} \right\}$是矩阵空间$\Re _{r}^{{{l}^{2}}}$的正交基, 所以${{g}_{{{l}^{2}}+1}}=\mathbf{0}$, 即可推导出$\nabla F({{X}_{{{l}^{2}}+1}} )=\mathbf{0}$.由定理1--定理3可得, ${{X}_{{{l}^{2}}+1}}$为问题I的自反解.
定理8[12] 假设最小剩余问题${{\left\| Mx-b \right\|}_{2}}=\text{min}$有解${{x}^{*}}\in R\left( {{M}^{T}} \right)$, 则${{x}^{*}}$是该剩余问题的极小范数最小二乘解.
定理9 在所给算法中, 如果取初始矩阵${{X}_{1}}=\frac{1}{2}({{A}^{T}}N{{B}^{T}}+D{{N}^{T}}C)+\frac{1}{2}P({{A}^{T}}N{{B}^{T}}+D{{N}^{T}}C)P$, 其中$N\in {{\Re }^{m\times n}}$, 特别取${{X}_{1}}=\mathbf{0}$, 算法能够在有限迭代步内获得问题Ⅰ的极小范数最小二乘自反解.
证 如果取初始矩阵${{X}_{1}}=\frac{1}{2}({{A}^{T}}N{{B}^{T}}+D{{N}^{T}}C)+\frac{1}{2}P({{A}^{T}}N{{B}^{T}}+D{{N}^{T}}C)P$, 由定理7可知, 算法能在有限迭代步内得到问题I的自反解${{X}^{*}}$, 且${{X}^{*}}$能表示成
记${\hbox{vec}}({X}^{T})=Q{\hbox{vec}}({X})$, 其中$X\in {{\Re }^{l\times l}}$.
下面将证明${{X}^{*}}$是问题Ⅰ的极小范数最小二乘自反解:
若$\tilde{N}\in {{\Re }^{m\times n}}$, 则
故当取初始矩阵${{X}_{1}}=\frac{1}{2}({{A}^{T}}N{{B}^{T}}+D{{N}^{T}}C)+\frac{1}{2}P({{A}^{T}}N{{B}^{T}}+D{{N}^{T}}C)P$时, 特别${{X}_{1}}=\mathbf{0}$, 由定理8可得, 算法获得的自反解${{X}^{*}}$就是自反的极小范数最小二乘解.
若问题I的解集${{S}_{X}}$为非空集, $\bar{X}$是所给的逼近矩阵, 其中$\bar{X}\in \Re _{r}^{l\times l}(P)$, 则
令$\tilde{X}=X-\bar{X}$及$\tilde{E}=E-A\bar{X}B-C{{\bar{X}}^{T}}D$, 那么最佳逼近问题Ⅱ就等价于先求 (2.2) 式的自反极小范数最小二乘解.
由算法可得(2.2)式的自反极小范数最小二乘解${{\tilde{X}}^{*}}$, 从而计算出问题Ⅰ和Ⅱ的自反最佳逼近解$\hat{X}={{\tilde{X}}^{*}}+\bar{X}$.
本节用三个数值例子来验证上述算法的可行性.第一个例子是当矩阵方程$AXB+C{{X}^{T}}D=E$有自反解且逼近矩阵为零矩阵时, 求该方程的自反最佳逼近解; 第二个例子是当矩阵方程$AXB+C{{X}^{T}}D=E$不相容且逼近矩阵为零矩阵时, 求该方程的自反最佳逼近解; 最后一个例子是当矩阵方程$AXB+C{{X}^{T}}D=E$有自反解且逼近矩阵为非零矩阵时, 求$AXB+C{{X}^{T}}D=E$的自反最佳逼近解.用Matlab2007R进行仿真模拟, 取初始自反矩阵${{X}_{1}}=\mathbf{0}$.
例1 考虑下面最小剩余问题:
其中
可以验证下面的$X$就是矩阵方程$AXB+C{{X}^{T}}D=E$有自反解,
利用所给的算法, 迭代29步得到
相应的余项
相对误差
其中下标是迭代步数.
例2 仍考虑 (3.1) 式的最小剩余问题, $A, B, C, D, P$和$\bar{X}$同例1,
可以验证该方程$AXB+C{{X}^{T}}D=E$不相容, 利用算法得到
例3 仍考虑 (3.1) 式的最小剩余问题, $A, B, C, D, E$和$P$同例1,
利用算法, 迭代37步得到
所以自反最佳逼近解为
本文利用共轭方向法思想, 提出了求矩阵方程$AXB+C{{X}^{T}}D=E$自反最佳逼近解的一个迭代算法.无论$AXB+C{{X}^{T}}D=E$是否相容, 任取一个初始自反矩阵${{X}_{1}}$, 所给的算法都能够在有限迭代步内获得其自反最佳逼近解.三个数值例子的结果表明该算法是可行性的.