设X为n×m矩阵,y=f(X)为X的一个实值函数,矩阵
\frac{\partial y}{\partial X} \stackrel{\Delta}{=} \left(\begin{array}{cccc} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots \cdots & \frac{\partial y}{\partial x_{1 m}} \\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots \cdots & \frac{\partial y}{\partial x_{2 m}} \\ \vdots & \vdots & & \vdots \\ \frac{\partial y}{\partial x_{n 1}} & \frac{\partial y}{\partial x_{n 2}} & \cdots \cdots & \frac{\partial y}{\partial x_{n m}} \end{array}\right)_{n \times m}\\
称为y对X的微商。
以下对部分常用的矩阵微商进行介绍,本文中E_{ij}代表(i,j)元为1,其余元素均为0的矩阵.
\frac{\partial \ln \left|X^{\prime} A X\right|}{\partial X}=2 A X\left(X^{\prime} A X\right)^{-1} \\
其中A为对称矩阵。
证明: 为证明此命题,先给出如下引理。
记矩阵X_{m×m}的元素x_{ij}的代数余子式为X_{ij},则
\frac{\partial \left|X\right|}{\partial X}=| X|\left(X^{-1} \right)^{\prime} \\
证明: 由|X|=\sum_{j=1}^{m} x_{i j} X_{i j}且X_{ij}中不含x_{ij},据矩阵微商定义可得\frac{\partial \left|X\right|}{\partial X}=(X_{ij})_{m×m},由代数余子式定义可知,\frac{\partial \left|X\right|}{\partial X}=| X|\left(X^{-1} \right)^{\prime}.
\frac{\partial \left|Y\right|}{\partial X}=\sum_{i,j}(\frac{\partial \left|Y\right|}{\partial Y})_{ij} \frac{\partial (Y)_{ij}}{\partial X}=\sum_{i,j}(Y_{kl})_{ij} \frac{\partial (Y)_{ij}}{\partial X}=\sum_{i,j}|Y|(Y^{-1})'_{ij} \frac{\partial (Y)_{ij}}{\partial X} \\
其中Y_{kl}代表矩阵Y元素y_{kl}的代数余子式,(Y_{kl})表示有这些代数余子式组成的矩阵,此处运用了偏导数的链式法则。
\frac{\partial \ln \left|Y\right|}{\partial X}=\frac{1}{|Y|}\frac{\partial \left|Y\right|}{\partial X}=\sum_{ij}(Y^{-1})'_{ij}\frac{\partial (Y)_{ij}}{\partial X} \\
设 X 和 Y 分别为 n \times m, p \times q 矩阵, A, B, C, D 分别为 p \times m, n \times q, p \times n, m \times q 矩阵 (可以是 X 的函数), 则下两个条件等价
(1) \frac{\partial Y}{\partial x_{i j}}=A E_{i j}(m \times n) B+C E_{i j}^{\prime}(m \times n) D, \quad i=1, \cdots, m, j=1, \cdots, n\\ (2)
\frac{\partial(Y)_{i j}}{\partial X}=A^{\prime} E_{i j}(p \times q) B^{\prime}+D E_{i j}^{\prime}(p \times q) C, \quad i=1, \cdots, p, j=1, \cdots, q \\
据上述引理可知,
\frac{\partial \ln \left|X^{\prime} A X\right|}{\partial X}=\sum_{ij}\frac{1}{|X'AX|}|X'AX|((X'AX)^{-1})'_{ij}\frac{\partial (X^{\prime} A X)_{ij}}{\partial X} \\ =\sum_{ij}((X'AX)^{-1})'_{ij}\frac{\partial (X^{\prime} A X)_{ij}}{\partial X} \cdot (1) \\
由\frac{\partial\left(X^{\prime} A X\right)}{\partial x_{i j}}=\frac{\partial X^{\prime}}{\partial x_{i j}}(A X)+X^{\prime} \cdot \frac{\partial A X}{\partial x_{i j}}=E_{i j}^{\prime} A X+X^{\prime} A E_{i j}\\ 据转换定理可知
\frac{\partial\left(X^{\prime} A X\right)_{i j}}{\partial X}=A X E_{i j}^{\prime}+A X E_{i j} \\
代入(1)可知
\frac{\partial \ln \left|X^{\prime} A X\right|}{\partial X}=\sum_{ij}((X'AX)^{-1})'_{ij} (AXE'_{ij}+AXE_{ij}) \\ =AX [\sum_{ij}((X'AX)^{-1})'_{ij}E'_{ij}+\sum_{ij}((X'AX)^{-1})'_{ij}E_{ij}] \\ =2AX(X'AX)^{-1}. \\
以下给出另外一些常见的矩阵微商结论,采用方法与上述相同。
\frac{\partial \operatorname{tr}\left(X A X^{\prime}\right)}{\partial X}=X\left(A+A^{\prime}\right) \\
证明: 由矩阵迹的定义可知,tr(XAX')=\sum_{i}(XAX')_{ii}.故有
左=\frac{\partial \operatorname{tr}\left(X A X^{\prime}\right)}{\partial X}=\sum_{i} \frac{\partial\left(X A X^{\prime}\right)_{i i}}{\partial X}\cdot (2) \\
依照与定理1中相同方法可得,
\frac{\partial\left(X A X^{\prime}\right)}{\partial x_{i j}}=E_{i j} A X^{\prime}+X A E_{i j}^{\prime} \\
由转换定理
\frac{\partial\left(X A X^{\prime}\right)_{i j}}{\partial X}=E_{i j} X A^{\prime}+E_{i j}^{\prime} X A \\
代入(2)即得所需结论。
设Y=AXB,则\frac{\partial Y}{\partial X}=A\otimes B'.
证明: 由\frac {\partial Y}{\partial x_{ij}}=AE_{ij}B,故有
vec(\frac {\partial Y}{\partial x_{ij}})'=vec(B'E_{ji}A')=(A\otimes B')vec(E_{ji}), \\
则
\frac {\partial Y}{\partial X}=((A\otimes B')vec(E_{11}),...,(A\otimes B')vec(E_{pq}))=A\otimes B'. \\
\frac{\partial X^{-1}}{\partial X}=-(X^{-1})'\otimes X^{-1}. \\
证明:由题可知,X为非奇异矩阵,故有XX^{-1}=I \Rightarrow
\frac{\partial X}{\partial X}(I\otimes X^{-1})+\frac{\partial X^{-1}}{\partial X}(X'\otimes I)=\frac{\partial XX^{-1}}{\partial X}=0. \\
且有(X')^{-1}\otimes I=(X'\otimes I)^{-1},\Rightarrow
\frac{\partial X^{-1}}{\partial X}=-(I\otimes X^{-1})((X')^{-1}\otimes I)=-(X^{-1})'\otimes X^{-1}. \\
证毕.
本次对矩阵微商进行了简要介绍,还有诸多微商公式本文并未列出,感兴趣的读者可以自行寻找矩阵论相关书籍进行查阅。作为一种强力而有效的工具,矩阵微商拥有诸多应用,最为经典的即为统计学中求解参数的极大似然估计时对似然函数求极大值,此时采用的即为求微商且令其为0的方法,其余的诸如求解参数的最小二乘估计以及贝叶斯框架下求解参数的最大后验估计等均可能用到矩阵微商。
[1] 王松桂. 线性模型的理论及其应用[M]. 安徽教育出版社, 1987.
[2] 张金槐. 线性模型参数估计及其改进[M]. 国防科技大学出版社, 1992.
[3] 李 乔. 矩阵论八讲[M]. 上海科学技术出版社, 1988.