本文讨论长方形矩阵约束最小二乘问题, 即考虑下列约束逼近问题
其中$m>n$, $\mathcal {P}\subset \mathbb{R}^{m\times n}$是具有某种特定模式的矩阵构成的子空间. $\|A\|$表示实矩阵$A$的Frobennius范数, 定义为$ \|A\|^2=\langle A, A\rangle=\sum\limits_{i, j=1}^{n}(A_{ij})^2, $其中的内积为$\langle A, B\rangle$=trace$(A^TB)$.
对于问题(1.1) 一系列的矩阵逼近问题已经被研究.若对$X$没有任何约束限制($ (\mathcal {P}=\mathbb{R}^{n\times n})$), 文献[1]给出了标准的最小二乘研究, 得到了通解$X=A^+B$, 其中$A^+$表示矩阵$A$的Moore-penrose逆.若$ \mathcal {P}$为正交矩阵集合则生成正交Procrustes问题[2, 3].若$ \mathcal {P}$为对称矩阵集合则生成对称Procrustes问题, 此类问题起源于弹性结构的研究, 根据关系式$Xf_i=d_i$假设测量力向量函数$f_i$是与测量位移向量$d_i$有关的, 其中$X$是对称应变矩阵. Higham [4]通过奇异值分解分析了对称Procrustes问题并给出了稳定的算法.当$\mathcal {P}$为一些闭凸锥, 比如对称半正定锥和(对称)非负锥, 则生成相应约束的Procrustes问题, Andersson and Elfving[5]解决了此类问题, 得到了最优矩阵, 并给出了解决此类问题的投影类型算法.
在工程计算和微分方程求数值解时, 常会碰到实对称三对角或实对称五对角矩阵.但是关于实对称五对角矩阵的最小二乘问题研究比较少, 相关结论也不多.本文我们研究此类问题, 即实对称五对角矩阵Procrustes问题:
其中$\mathcal {T}\subset \mathbb{R}^{n\times n}$为实对称五对角矩阵构成的子空间.所谓实对称五对角矩阵即具有以下对称形式的矩阵
本文是对文献[48]的拓展研究, 然而是用一种完全不同并且相对简单的方法, 虽然实对称五对角是特殊的对称矩阵.本文也是文[9]的推广研究, 文[9]研究了Toeplitz矩阵Procrustes问题, 本文将此方法应用于实对称五对角矩阵, 即首先通过矩阵的奇异值分解简化问题, 然后用分析方法和结合高等矩阵分析知识解决此类问题.
在这一节中我们描述问题(1.2) 中可行集$\mathcal {T}$.
给定矩阵$A, \ B\in \mathbb{R}^{m\times n}$, 子空间$\mathcal {T}$可以表述成
其中$a_g, b_r, c_s\in \mathbb{R}$, 矩阵$G_g, P_r, S_s\in \mathbb{R}^{n\times n}$定义如下
显然, $G_g, P_r, S_s$构成子空间$\mathcal {T}$的一组基.
首先把问题(1.2) 转化为一个较简单的问题.假设矩阵$A$具有下列形式的奇异值分解
其中$P\in R^{m\times m}$和$Q\in R^{n\times n}$是正交矩阵, $\Sigma={\hbox{diag}}(\sigma_1, \sigma_2, \cdots, \sigma_n), \sigma_1\geq \cdots\geq\sigma_n\geq 0$.
因为Frobenius范数的正交不变性, 我们得到
其中$ T=\Sigma Q^TX\in R^{n\times n}, \ \ \ C=\begin{bmatrix}C_1\\C_2\end{bmatrix}=P^TB, \ \ \ C_1\in R^{n\times n}, $则问题(1.2) 等价于
其中$\mathcal {T}^{'}$是下列子空间
我们引入符号$P_\mathcal {U}(A)$表示矩阵$A$在集合$\mathcal {U}$上的投影.下列定理描述了矩阵$C_1$在子空间$\mathcal {T}^{'}$上的投影.
定理2.1 如果$C_1 \in R^{n\times n}$, 那么问题(1.2) 的通解为
证 目标函数$f:\mathbb{R}^{3n-3}\rightarrow \mathbb{R}, $
记$\Delta=\sum\limits_{g=1}^{n}a_gG_g+\sum\limits_{r=1}^{n-1}b_rR_r+\sum\limits_{s=1}^{n-2}c_sS_s$.显然$f$是二阶连续可微的, 我们可以计算$\dfrac{\partial f}{\partial a_p}(a, b, c)$使得对所有的$1\leq p\leq n$有
(2.3) 式右边的乘积因子
那么(2.3) 变成
注意到$\left(\Sigma Q^T\Delta\right)_{i, j}$是$\Sigma Q^T$的第$i$行与$\Delta$的第$j$列的内积, 如果令$c_{-1}=0, $ $b_0=0, $ $c_0=0, $ $c_{n-1}=0, $ $b_n=0, $ $c_n=0$, 则对所有的$1\leq i, j\leq n$, 有
类似地, 元素$(\Sigma Q^TG_p)_{i, j}$是$\Sigma Q^T$的第$i$行与第$j$列的内积, 因此
那么(2.4) 式右边的第一个和式可以写成
定义$\sum\limits_{i=1}^{n}Q_{m, i}Q_{k, i}\sigma_i^2=\nu^T\theta$, 其中$\nu^T=(Q_{m, 1}Q_{k, 1}, Q_{m, 2}Q_{k, 2}, \cdots, Q_{m, n}Q_{k, n})$, $\theta=(\sigma_1^2, \sigma_2^2, \cdots, \sigma_n^2)$, 我们知道$\nu$的所有元素之和是正交矩阵$Q$其中两列的内积, 且当其列序号$m\neq k$时其值为0.因此对$m\neq k$, 有
因此对所有的$m\neq k$都有$\nu^T\theta=0$, 且
这时(2.4) 式变成
对所有的$p=1, \cdots, n$都成立.根据多元函数求极小值的一阶必要条件
得到
注意到当rank$(A)=n$时, (2.7) 式的分母恒不为0, 因为$A$的奇异值全大于0, 则
意味着$ \sigma_iQ_{p, i}=0 \rightarrow\ [Q_{p, 1}, Q_{p, 2}, \cdots, Q_{p, n}]=0, $这与$Q$是正交矩阵矛盾!但是当rank$(A)=k<n$时, (2.7) 式的分母有可能为0, 只需令$Q$的第$p$行的前面$k$个元素全为0, 后面的$n-k$个元素至少有一个非零元即可.因此当(2.7) 式的分母有为0时, 我们令$a_p^*$可取任意值.
类似于$\dfrac{\partial f}{\partial {a_p}}$, 计算$\dfrac{\partial f}{\partial {b_p}}$, 对所有的$1\leq q\leq n-1$,
同样
因此结合(2.5), (2.9), (2.8) 式变成
同样根据多元函数一阶必要条件$\dfrac{\partial f}{\partial {b_p}}=0, \ \ q=1, \cdots, n-1$, 有
同样当rank$(A)=n$时, (2.11) 式的分母不为0, 当rank$(A)=k<n$时, (2.11) 式的分母可能为0, 可能的取法为$Q$的第$q$行和第$q+1$行的前面$k$个元素全为0, 后面的$n-k$个元素每行都至少含有一个非零元.因此当(2.11) 的分母为0时, 我们令$b_q^*$取任意值.
类似于$\dfrac{\partial f}{\partial {a_p}}$, $\dfrac{\partial f}{\partial {b_p}}$, 对所有的$1\leq t\leq n-2, $
因此结合(2.5), (2.13), (2.12) 式变成
同样根据多元函数极小值问题一阶必要条件$\dfrac{\partial f}{\partial c_t}=0, \ \ t=1, \cdots, n-2$, 有
类似于(2.11) 式中对分母的讨论, 当rank$(A)=n$时它恒不为0, 当rank$(A)=k<n$时, 它有可能为0.同样当(2.15) 式的分母为0时, 我们令$c_t^*$取任意值.现在我们需要证明$a_p^*(1\leq p\leq n)$, $b_q^*(1\leq q\leq n-1)$, $c_t^*(1\leq t\leq n-2)$是$f$的极小值.计算
很容易证明上述不等式中等号不能同时成立, 因为$Q$是正交矩阵, 特别地, 当${\rm rank}(A)=n$, 上述不等式的严格不等号同时成立.同时有
这说明关于二阶导数的海赛(Hessian)矩阵$\bigtriangledown^2f(a^*, b^*, c^*)$是半正定的.特别地, 当rank$(A)=n$时为正定, 因此, $a_p^*(1\leq p\leq n)$, $b_q^*(1\leq q\leq n-1)$, $c_t^*(1\leq t\leq n-2)$确实是$f$的极小值.
从定理2.1可以看出, $a_p^*(1\leq p\leq n)$, $b_q^*(1\leq q\leq n-1)$, $c_t^*(1\leq t\leq n-2)$只依赖与矩阵$A$的奇异值分解中的三个分解因子$P$, $Q$, $\Sigma$.但是不像对角因子$\Sigma$, 左右正交因子$P$, $Q$并不是唯一确定的即使矩阵$A$是列满秩的, 这种不唯一性的程度取决于奇异值的重数.类似于文献[10]中的定理3.11', 下列引理描述矩阵$A$的奇异值分解中正交因子的所有可能取法以及它们之间的关系.
引理2.1 给定矩阵$A\in \mathbb{R}^{m\times n}$, 假定$A$的所有不同的奇异值为$\sigma_1> \cdots >\sigma_k>0$, 它们的重数分别为$\mu_1, \cdots, \mu_k\geq 1$, $\mu_1+\cdots+\mu_k=r$.令$A$的奇异值分解为$A=P{\hbox{diag}}(\Sigma, 0_{m-r, n-r}) Q$, 其中$\Sigma={\hbox{diag}}(\sigma_1I_{\mu_1}, \cdots, \sigma_kI_{\mu_k})\in \mathbb{R}^{r\times r}$.令$\hat{P}\in \mathbb{R}^{m\times m}$, $\hat{Q}\in \mathbb{R}^{n\times n}$为给定的正交矩阵, 那么$A=\hat{P}{\hbox{diag}}(\Sigma, 0_{m-r, n-r})\hat{W}^T$当且仅当存在正交矩阵$U_i\in \mathbb{R}^{\mu_i\times \mu_i}$, $i=1, \cdots, k$, $\tilde{V}\in \mathbb{R}^{(m-r)\times (m-r)}$, $\tilde{W}\in \mathbb{R}^{(n-r)\times (n-r)}$使得
下面结合引理2.1我们证明当矩阵$A$列满秩时问题(1.2) 只有唯一解, 当矩阵$A$不是列满秩时, 问题(1.2) 有无穷多解.首先下列众所周知的引理保证问题(1.2) 解的存在性.
引理2.2 [5] 设$\mathcal{H}$为实数域上的线性子空间, $\mathcal {C}$是$\mathcal {H}$上的非空闭凸锥.假定$f$是凸函数并且强制性的(在线性子空间$\mathcal{H}$上定义内积$\langle X, Y\rangle={\hbox{trace}}(XY^T), \ \ X, Y\in \mathcal {H}$, 称函数$f$在$\mathcal {C}$上具有强制性如果$\min\limits_{\|X\|\rightarrow \infty, X\in \mathcal{C}}f(X)=\infty.$), 那么极小值问题$\min\limits_{X\in \mathcal{C}}f(X)$有解, 并且如果$f$是严格凸的, 解是唯一的.
假定$A$是列满秩的, 且$A$的另一奇异值分解为$A=\hat{P}\begin{bmatrix}\Sigma\\0\end{bmatrix}\hat{Q}$, 其中
其中矩阵$P, Q$在式2.1中给出, 分块矩阵$P=[P_1, P_2]$, $\hat{P}=[\hat{P}_1, \hat{P}_2]$, 其中$P_1\in \mathbb{R}^{m\times n}, \hat{P}_1\in \mathbb{R}^{m\times n}$则有
根据定理2.1, 我们可得到另外一组依赖于$\hat{Q}$和$\hat{C}_1(=\hat{P}_1^TB)$的解$\hat{a}_p^*(1\leq p\leq n)$, $\hat{b}_q^*(1\leq q\leq n-1)$, $\hat{c}_t^*(1\leq t\leq n-2)$, 具体表达式类似于(2.7), (2.11), (2.15) 式.但是
因此$\hat{a}_p^*=a_p^*(1\leq p\leq n)$, $\hat{b}_q^*=b_q^*(1\leq q\leq n-1)$, $\hat{c}_t^*=c_t^*(1\leq t\leq n-2)$.这说明当矩阵$A$是列满秩时, 问题(1.2) 只有唯一解, 这与引理2.2中的结论相符.从上亦可以看出, 当rank$(A)<n$, 问题(1.2) 的解是与引理2.1中的矩阵$\tilde{V}, \tilde{W}$是有关的, 因此也就说明解并不是唯一的.
根据上面的讨论, 给出求解问题(1.2) 的数值算法如下:
算法 给定实矩阵$A, B\in \mathbb{R}^{m\times n} (m\geq n)$,
1.得出矩阵$A$的奇异值分解分解$A=P\begin{bmatrix}\Sigma\\0\end{bmatrix}Q^T$, 分块矩阵$P=[P_1, P_2], \ P_1\in \mathbb{R}^{m\times n}$, 计算$C_1=P_1^TB$.
2.按定理(2.1) 计算$a_p^*(1\leq p\leq n)$, $b_q^*(1\leq q\leq n-1)$, $c_t^*(1\leq t\leq n-2)$.
3.得到问题(1.2) 的解, 若rank$(A)=n$, 则该解是问题的唯一解.
例 给定矩阵
其中rank($A)=8$, 计算矩阵$A$的奇异值分解, 得到$A$的奇异值为
依算法得问题(1.2) 的唯一解为