线性代数要点总结

本文是根据《线性代数及其应用》整理的复习笔记。之后又补充了部分《矩阵代数》第0章的内容。

一般的,表示向量应该加粗斜体小写,表示矩阵用大写,但是大多数时候我想偷个懒;

教材中涉及到的很多应用我都没来得及细看,只是对“干货”做了一个简单的总结;

1. 线性方程组

1.1 线性方程组

为什么要研究线性代数?解线性方程组是一个重要的理解线性代数的角度。一个线性方程有如下形式: \[ a_1x_1+a_2x_2+\dots+a_nx_n = b \] 其中,\(a_i\)\(b\)是该线性方程的系数,一般是常量,\(x_i\)是未知数,一般是变量。线性方程组就是一组含有相同变量的线性方程,满足所有方程的解的集合称为解集,因此线性方程组可分为无解、有唯一解和有无穷多解三类。其中,有解(唯一解或者无穷解)又称为方程组是相容的,无解又称为不相容的。

我们可以将\(m\)个方程\(n\)个未知数的线性方程组的参数写成一个的参数矩阵: \[ A=\left( \begin{array}{cccc} a_{11}&\dots&a_{1n}\\ &\vdots&\\ a_{m1}&\dots&a_{mn}\\ \end{array} \right) \]

\[ \mathbf{x}=(x_1,\dots,x_n)^T \]

\[ \mathbf{b}=({b_1,\dots,b_m})^T \]

方程组写成矩阵形式为 \[ A\mathbf{x}=\mathbf{b} \]

对上式还可以从对向量进行线性变换的角度进行解释,见后文

解线性方程组的一般方法是高斯消去法,基本思想是,通过对方程组的方程之间进行一些操作,保证得到的新方程组与原来的方程组有着相同的解集,并且新的方程组的形式是非常容易求解的。

这种“操作”即在线性方程的增广矩阵\((A|\mathbf{b})\)上进行如下三种行变换(这些行变换是可逆的):

  • 倍加:把某一行乘以一个常数加到另一行上;

  • 倍乘:把某一行乘以一个常数;

  • 交换:交换某两行;

这三种行变换能够保证得到一个解集相同的线性方程组,也就是说它能够保证增广矩阵的一些性质(列向量的线性相关关系),但是也会有一些改变(行向量的线性相关关系),这在后文会讲到。 事实上我在初学线性代数的时候时常纠结“行”还是“列”,在后文中,提到“向量”,均指列向量,这只是一种数学上讨论问题的简化方式,与使用计算机实现时的存储无关,也可以都用行向量来讨论线性代数中的各种问题,把高斯消去改成列变换,等等。

这种“新的形式”是阶梯型或者简化阶梯型

(行)阶梯型为:

  • 每一非零行在每一零行之上;
  • 每一行的第一个非零元素所在的列位于前一行第一个非零元素所在的列的右边;
  • 每一行的第一个非零元素下方都是0;

在这基础上,简化(行)阶梯型还要满足下述条件:

  • 每一非零行的第一个非零元素是1,并且是该列所在列的唯一非零元素;

同一个矩阵可能因为行变换序列的选择不同得到不同的阶梯型,但是最终的简化阶梯型是唯一的;

在阶梯型中,每一非零行的第一个非零元素的位置称为主元位置,主元位置所在列为主元列

在计算机实现高斯消去时,选择某列中绝对值最大的元素作为主元,避免精度问题带来误差

在经过上述“操作”,得到了想要的“形式”之后,解便可以给出,其中对应于主元列的变量称为基本变量,其他变量(阶梯型全0行)称为自由变量。对于阶梯型对应的线性方程组

  • 方程矛盾/最右列是主元列,比如出现0=4等,则无解;
  • 无自由变量,有唯一解;
  • 有自由变量,将基本变量用自由变量表示,还可以写成以自由变量为权重的一组基向量的加权和;

### 1.2 向量方程

在这一节中我们将从另一个角度理解\(A\mathbf{x}=\mathbf{b}\)。在此之前,我们需要补充一些概念:

向量表示一组数,包含n个数的向量的集合记为\(\mathbb{R}^n\)

给定\(\mathbb{R}^n\)中向量\(v_1, \dots, v_p\)和标量\(c_1, \dots, c_p\),向量 \[ y = c_1v_1+\dots +c_pv_p \] 称为向量\(v_1, \dots, v_p\)\(c_1, \dots, c_p\)为权的线性组合

将属于\(\mathbb{R}^n\)中的向量\(v_1, \dots, v_p\)所有的线性组合得到集合记为\(\text{Span}\{v_1,\dots,v_p\}\),称为\(v_1, \dots, v_p\)所张成的\(\mathbb{R}^n\)子集;

现在再来重新解释\(A\mathbf{x}=\mathbf{b}\),将\(A\)按列分块,可以将线性方程组表示为如下的向量方程: \[ x_1a_1+\dots+x_na_n=b \] 对于”向量\(b\)能否表示为向量\(a_1,\dots,a_n\)的线性组合“的问题,等价于是判断\(A\mathbf{x}=\mathbf{b}\)是否有解的问题。

对于先前涉及到的定义,\(A\)\(m\times n\)矩阵则下列四个命题等价:

  • 对于\(\mathbb{R}^m\)中每个\(b\)\(AX=b\)都有解;
  • \(\mathbb{R}^m\)中的每个\(b\)都是\(A\)中列向量的线性组合;
  • \(A\)的各列生成\(\mathbb{R}^{m}\)
  • \(A\)在每一行都有一个主元位置;(这里\(A\)是线性方程组的系数矩阵,而不是增广矩阵)

1.3 线性方程组的解集

我们继续扩充一些与解集相关的定义。

记录一类特殊的线性方程组,\(A\mathbf{x}=\mathbf{0}\),称为齐次线性方程组,必有一个\(\mathbf{x}=\mathbf{0}\)的解,称为平凡解,通常我们更在乎其非平凡解,非平凡解不是一个确定的常数解,而是一个线性空间(可以想象成在某个直线或某个平面上的点都是解,后文会定义该空间),表示为参数向量形式;齐次线性方程组的解集总可以表示为\(\text{Span}\{v_1, \dots, v_p\}\),其中\(v_i\)是解向量。

齐次方程\(A\mathbf{x}=\mathbf{0}\)有非平凡解当且仅当方程至少有一个自由变量;

\(A\mathbf{x}=\mathbf{0}\)\(A\mathbf{x}=\mathbf{b}\)的解集有什么关系?若\(A\mathbf{x}=\mathbf{b}\)至少有一个非令解\(p\),则\(A\mathbf{x}=\mathbf{b}\)的解集是所有形如\(w=p+v_h\)向量的集合,其中\(v_h\)是齐次方程\(A\mathbf{x}=\mathbf{0}\)的任意一个解;

1.4 线性无关

我们需要研究一种向量集合的性质,从人脑可以想象的\(\mathbb{R}^3\)中向量集合来讲,就是判断该集合中向量中任意一个向量是否位于其他向量张成的直线/平面上,均不满足则线性无关,一旦有一个满足则线性相关,下面是严格的定义:

\(\mathbb{R}^n\)中的一组向量\(v_1, \dots, v_p\)线性无关的,当且仅当向量方程 \[ x_1v_1+\dots+x_pv_p=0 \] 仅有平凡解(即权重\(x_1,\dots,x_p\)均为0),

否则为线性相关的,在线性相关的集合中,至少有一个向量一定能够表示为其他向量的线性组合;

特别地,对于包含单个向量的几个,当且仅当该向量是零向量时称该集合是线性相关的;

\(\mathbb{R}^3\)中某个向量集合中,我们可以想象1个非零向量张成一个直线,2个不互为倍数的向量张成一个平面,3个线性无关的向量就可以张成\(\mathbb{R}^3\)了,此时再加入任何向量都可以表示为之前3个的线性组合。事实上有如下定理:

若一个向量组的向量个数超过向量元素个数(以列向量为例,即对应的矩阵行数小于列数),则向量组线性相关;

1.5 初识线性变换

除了线性方程组和向量方程的形式,理解\(A\mathbf{x}=\mathbf{b}\)的第三个角度是线性变换。尽管线性变换本身的定义要广泛得多,我仍然习惯于使用图形学中的入门案例来想象线性变换在干什么:对于3维世界中的一个物体,我们最终希望得到其在2维屏幕上的投影,就需要施加一个对于物体的坐标施加一个透视变换矩阵;

线性变换\(T:\mathbb{R}^n\rightarrow \mathbb{R}^m\),是指它是一个将\(\mathbb{R}^n\)中的向量\(x\)映射到\(\mathbb{R}^m\)中的向量\(T(x)\)的变换,\(\mathbb{R}^n\)\(T\)定义域\(\mathbb{R}^m\)\(T\)余定义域\(T(x)\)称为,像的集合称为值域

用矩阵变换表示上述线性变换为\(x\mapsto Ax\),其中\(A\)\(m\times n\)的矩阵;

写出线性变换\(T:\mathbb{R}^n\rightarrow \mathbb{R}^m\)标准矩阵\(A\)

\(A\)的每一个列向量作用于\(n\)维空间中的\(n\)个单位向量,即 \[ A=[T(e_1),\dots, T(e_n)] \] 线性变换是一种映射,我们也要讨论一下映射的存在与与唯一性:

  • 映射\(T:\mathbb{R}^n\mapsto \mathbb{R}^m\)称为到\(\mathbb{R}^m\)上的映射(即满射),若\(\mathbb{R}^m\)中的任意向量\(b\)至少有一个\(\mathbb{R}^n\)中的\(x\)与之对应;
  • 映射\(T:\mathbb{R}^n\mapsto \mathbb{R}^m\)称为一对一映射(即单射),若\(\mathbb{R}^m\)中的每个\(b\)\(\mathbb{R}^n\)至多一个\(x\)的像

与之前的定义结合,我们可以得到满射/单射的等价条件,设\(T:\mathbb{R}^n\mapsto \mathbb{R}^m\)的标准矩阵为\(A\)

  • \(T\)是满射,当且仅当\(A\)的列生成\(\mathbb{R}^m\)
  • \(T\)是单射,当且仅当\(A\)的列线性无关,也可以推出\(A\mathbf{x}={0}\)仅有平凡解;

2. 矩阵代数

上一章引入矩阵,是为了简明地表示一个线性方程组、一个向量方程、或者一个线性变换;那么矩阵本身作为一个变量,它有那些运算性质?

2.1 矩阵乘法

矩阵加、乘、数乘等运算方法,运算律等按下不表,矩阵乘法的多种计算方法需要了解一下,在不同的应用场景中有不同的解释方式,设\(A\)\(m\times n\)矩阵,\(B\)\(n\times p\)矩阵,\(C=AB\)\(m\times p\)矩阵

  • \(AB\)的列是\(A\)\(B\)的对应列的乘积:\(AB\)的每一列都是\(A\)的各列的线性组合,以\(B\)的对应列的元素为权(基本定义) \[ AB=[a_1,\dots,a_n][b_1,\dots,b_p]=[c_1,\dots,c_p] \] 其中,\(C\)的第\(j\)列表示为: \[ c_j = b_{j1}a_1+\dots+b_{jn}a_n \]

  • \(AB\)的行列计算法则(常见实现) \[ C_{ij}=\sum_{k}^{n}A_{ik}B_{kj} \]

  • \(AB\)的行是\(A\)的对应行与\(B\)的乘积:。。。

  • \(A\)的每一列与\(B\)的行的乘积之和(矩阵分块乘法思想) \[ AB=[a_1,\dots,a_n][b_1,\dots,b_n]^T=a_1b_1+\dots+a_nb_n \]

左乘对角矩阵,\(DA\),相当于用\(D\)的各个对角元素乘以\(A\)的各行

右乘对角矩阵,\(AD\),相当于用\(D\)的各个对角元素乘以\(A\)的各列

2.2 矩阵的逆

只有方阵才有逆矩阵的定义。方阵\(A\)的逆的定义是存在一个矩阵\(C\)使得\(AC=I\)\(CA=I\)。不可逆矩阵又称为奇异矩阵,可逆矩阵又称为非奇异矩阵

那么对于先前一直讨论的\(A\mathbf{x}=\mathbf{b}\),若\(A\)可逆,则有\(\mathbf{x}=A^{-1}\mathbf{b}\)。事实上,可逆矩阵定理,将包含一大堆使得上市成立的定理,我们会在后文慢慢补充。

标量代数中的习惯,让我们总想求出一个\(A^{-1}\)使用矩阵乘法求解,事实上在实现时使用在高斯消去法求解,而求逆矩阵的方法也用高斯消去,不仅复杂度更小,精度更好,而且还能在过程中判断是否可逆

在介绍行变换求逆之前,我们先回顾一下先前的三种行变换,并把行变换表示成左乘初等矩阵的形式,以\(3\times3\)矩阵为例:

  • 倍加,第一行乘4加到第三行 \[ E_1=\left( \begin{array}{ccc} 1&0&0\\ 0&1&0\\ 4&0&1 \end{array} \right) \]

  • 交换,第一行与第二行交换 \[ E_2=\left( \begin{array}{ccc} 0&1&0\\ 1&0&0\\ 0&0&1 \end{array} \right) \]

  • 倍乘,第三行乘5 \[ E_3=\left( \begin{array}{ccc} 1&0&0\\ 0&1&0\\ 0&0&5 \end{array} \right) \]

初等矩阵是单位矩阵经过一次初等行变换或者初等列变换得到的矩阵

那么可以从行变换的角度理解矩阵的逆:行变换可以视为左乘一系列初等矩阵,初等矩阵是可逆的,其积\(C\)也是可逆的;矩阵\(A\)可逆,当且仅当\(A\)行等价于\(I\),这时把\(A\)变为\(I\)的一系列初等变换同时把\(I\)变成\(C=A^{-1}\);因此可以写一个增广矩阵\([A, I]\),如果能通过行变换变成\([I,C]\),则既证明了\(A\)可逆,又得到\(A^{-1}=C\);也可以把该过程视为解\(n\)个方程组,\(I\)\(n\)列是增广列,统一都放在了右边,当我们只需要\(A^{-1}\)的部分列时,可以使用这样的方法。

可逆矩阵定理(一)

2.3 分块矩阵

分块矩阵的乘法也可以用通常的行列法进行,只要\(A\)的列的分法与\(B\)的行的分法一致;使用如下记号来表示分块矩阵、子矩阵等:

\(A\in M_{m\times n}(F)\),对于指标集\(\alpha \subseteq \{1,\dots,m\}\)\(\beta \subseteq \{1,\dots,n\}\),把\(A\)中位于\(\alpha\)的各行与位于\(\beta\)的各列组成的子矩阵记为\(A(\alpha, \beta)\)

\(m=n\)时,\(A(\alpha,\alpha)\)为主子矩阵,简记为\(A(\alpha)\)

\(A(\alpha',\beta')\)是划去对应行列得到的子矩阵;

\(\alpha_1,\dotsm,\alpha_t\)组成\(\{1,\dotsm,m\}\)的一个划分,\(\beta_1,\dotsm,\beta_s\)组成\(\{1,\dotsm,n\}\)的一个划分,\(A\in M_{m\times n}(F)\)\(B\in M_{n\times p}(F)\),则分块矩阵乘法可以表示为 \[ [AB](\alpha_i,\gamma_j)=\sum_{k=1}^sA(\alpha_i,\beta_k)B(\beta_k,\gamma_j) \]

2.4 LU分解

为了求解一系列系数相同的线性方程组:\(Ax=b_i\),在实际过程中通常是在求解第一个方程组时使用行变换,并得到\(A=LU\),之后的几个方程组使用\(Ly=b\),\(Ux=y\)求解,由于\(L\)是下三角矩阵,\(U\)是与\(A\)等价的阶梯型矩阵,这样的求解步骤要快得多。那么如何进行分解?注意到倍加行变换是单位下三角矩阵,他们的积仍然是单位下三角矩阵,逆矩阵也是下三角矩阵,则\(U\)\(A\)的行变换结果,\(L=(E_p\dots E_1)^{-1}\)(也不会真的求逆,而是找到\(L\),使得使用相同的行变换把\(L\)变成\(I\)

在上述条件下,要求只能使用倍加行变换来得到阶梯矩阵,实际上,行交换常常是不可避免的,\(L\)可以为置换下三角矩阵

2.5 \(\mathbb{R}^n\)中的子空间

这一小节提前定义一些概念,在后面正式讨论向量空间时很有用:

子空间\(\mathbb{R}^n\)中的向量子集\(H\),包含零向量,对向量加法和标量乘法是封闭的;

矩阵的列空间是A的各列的线性组合的集合,记作 \(\text{Col} A\)

矩阵的零空间\(Ax=0\)的所有解的集合,记作\(\text{Nul} A\)

子空间是一个无限大的集合,希望通过研究生成该子空间的有限向量集合,即一组线性无关集,称为\(H\)的一组

判断一个向量\(b\)是否属于\(\text{Col} A\),求解\(Ax=b\)是否有解,即\(b\)能否使用\(A\)的各列线性组合得到,这是显式的;判断其是否属于\(\text{Nul}A\),则看\(Ab=0\)是否成立即可,这是隐式的;

如何得到矩阵零空间的基?求解齐次线性方程组\(Ax=0\)的解,并表示为参数向量形式;

如何得到矩阵列空间的基?将矩阵化为阶梯型,其中的主元列对应着基向量。(因为\(Ax=0\)\(Bx=0\)有相同的解集,则\(A\)\(B\)的列的线性相关关系时一致的,因此行变换不改变线性相关关系),但是注意,使用变换前的主元列作为基!

非零子空间的维数 \(\text{dim}H\),是\(H\)的任意一个基的向量个数(注意不是向量的元素个数),零子空间的维数定义为0;

矩阵\(A\)\(\text{rank} A\)\(A\)的列空间的维数;

rank A = dim Col A = A的列空间的维数 = A的主元列个数;dim Nul A = Ax=0的自由变量个数;rank A + dim Nul A = n(A的列数)

手工求秩看起来很简单,但是在计算机中由于浮点数的精度问题(0!=0),使用主元列个数作为秩会导致误差,通常使用后文介绍的奇异值分解求秩

可逆矩定理(二)

2.6 小秩修正矩阵的逆

如果已知一个矩阵的逆,当再加上一个小秩矩阵时,其逆如何变化?下面这种方法,比直接求逆要高效:

已知\(X\)\(n\times r\)矩阵,\(Y\)\(r\times n\)矩阵,\(R\)\(r\times r\)奇异矩阵,\(B\)是非奇异的,非奇异矩阵\(A\)\(n\times n\)的且已知其逆\(A^{-1}\),有: \[ B=A+XRY \] 那么B \[ B^{-1}=A^{-1}-A^{-1}X(R^{-1}+YA^{-1}X)^{-1}YA^{-1} \] 因为有: \[ \begin{aligned} BB^{-1}&=I-X(R^{-1}+YA^{-1}X)^{-1}YA^{-1} + XRYA^{-1}-XRYA^{-1}X(R^{-1}+YA^{-1}X)^{-1}YA^{-1}\\ &=I - X\left( -(R^{-1}+YA^{-1}X)^{-1}+R-RYA^{-1}X(R^{-1}+YA^{-1}X)^{-1} \right)YA^{-1}\\ &=I-XR\left( -R^{-1}(R^{-1}+YA^{-1}X)^{-1}+I-YA^{-1}X(R^{-1}+YA^{-1}X)^{-1} \right)YA^{-1}\\ &=I-XR(-I+I)YA^{-1} &=I \end{aligned} \]\(B^{-1}B=I\) (证明略)

笔者不知道\(B^{-1}\)是有什么神奇方法构造出来的,只能证明它是对的

如果\(r<<n\),那么等式右边的运算比直接对\(B\)求逆要简单得多;

如果\(r=1\)\(R=[1]\),那么有: \[ B^{-1}=A^{-1} - \frac{1}{1+YA^{-1}X}A^{-1}XYA^{-1} \]

3. 行列式

在某本紫色的教材上,这是第一章的内容,常常让大一新生摸不着头脑,为什么要研究一堆数堆放成一个矩阵后,算出一个值?在实际问题中,通常不会求一个很大的矩阵的行列式,也不会使用行列式的值来判断矩阵可逆、求逆矩阵等(尽管在理论上是可以的),\(2\times2\)行列式和\(3\times 3\)行列式还有些几何意义;下面对相关内容进行简单介绍。

3.1 行列式的计算法则

只对方阵讨论行列式,行列式的定义是递归定义,使用\(A_{ij}\)表示矩阵\(A\)去除第\(i\)行和第\(j\)列后的结果,那么 \[ \det A = a_{11}\det A_{11} - a_{12}\det A_{12} + \dots + (-1)^{1+n}a_{1n}\det A_{1n} \] 上式是按照第一行展开的,又称\(A\)的第一行的余因子展开式,我们还可以按照任意一行或者一列展开,符号遵循一个棋盘形状(行+列为偶数则为1,否则为0,行列从1开始)

这种算法,对于\(n\times n\)行列式需要约\(n!\)次乘法

行列式的部分性质:

  • \(\det A^T = \det A\)
  • \(\det AB = (\det A)(\det B)\)
  • \(A\)\(n*n\)矩阵,处理一列之外都是固定的向量,则\(\det A\)是那个可变列向量的线性函数

利用起之前的行变换,我们有一种快速的计算行列式的方法。在2.2节中,三种变换的行列式值分别为:\(\det E_1 = 1\)\(\det E_2 = -1\)\(\det E_3 = 5\),事实上,倍加行变换不改变行列式的值,交换两行将行列式的值变为其相反数,倍乘一行将使得行列式的值按相同倍数变化,使用行变换将矩阵变为上三角/下三角矩阵后,求出对角线乘积,再乘以所有行变换矩阵的行列式的积即可;

一个\(n\times n\)矩阵使用行变换展开大约需要\(2n^3/3\)次运算

另一种直接展开行列式的方法是交错和\[ \det A = \sum_{n}\text{sgn}(\sigma)\prod _{i=1}^na_{i\sigma(i)} \] 其中\(\sigma\)是从1到n的\(n!\)种排列,\(\text{sgn}(\sigma)\)是符号函数,对于\(\sigma\)到顺序排列\(\{1,\dots,n\}\)的最小对换,是偶数时,\(\text{sgn}(\sigma)=1\),是奇数时\(\text{sgn}(\sigma)=-1\)

对于\(A\)积和式\(\text{per} A\),是另一种冠以矩阵函数,只要将上式中的\(\text{sgn}(\sigma)\)换成常量\(1\)即可;

3.2 克拉默法则

下面一个法则解决的问题是,已知一个含有参数的增广矩阵(无法做高斯消去),我们能不能写出解的一般形式呢(用于研究解随着某个参数的变化如何变化),特殊地,能不能求出逆矩阵的一般形式呢?

克拉默法则:对于\(n*n\)的矩阵\(A\)和任意的\(\mathbb{R}^n\)中的向量\(b\)\(A_i(b)\)表示用b替代A的第i列得到的矩阵,设\(A\)是可逆的,则方程\(Ax=b\)的解可以由下式给出: \[ x_i = \frac{\det A_i(b)}{\det A} \] 该法则可以直接由行列式的乘法性质推出,方程组\(Ax=b\)改写成如下形式: \[ AI_i(x)=A_i(b) \] 两边同时取行列式,注意有\(\det I_i(x)=x_i\) \[ \det A \det I_i(x)=\det A_i(b) \]

利用克拉默法则,由\(AA^{-1}=E\),可以得到逆矩阵的一般形式,\(A^{-1}=\frac{1}{\det A} \text{adj} A\),其中伴随矩阵是由一系列余因子\(C_{ij}\)组成的矩阵的转置;

3.3 行列式的几何意义

  • \(A\)\(2*2\)矩阵,则其以其列向量确定的平行四边形面积\(\det A\);若\(A\)\(3*3\)矩阵,则其以其列向量确定的平行六面体体积\(\det A\)
  • \(\det A\)还可以描述在\(\mathbb{R}^2\)中的面或在\(\mathbb{R}^3\)中的体经过\(A\)对应的变换后,面积/体积的变化倍数

4. 向量空间

一些民科的视频常常以”人类无法想象超过3维的空间“为噱头开始胡编乱造,什么“第4维度是时间”啊,“9维空间是宇宙”啊,令人啼笑皆非;本章研究向量空间,在满足同样的公理上,会发现高维空间,无非就是空间中的每个向量由更多数组成(长了一点),从几何上无法想象罢了,但是不影响用来解决实际问题。

4.1 向量空间的公理与定理

向量空间可以是实的,也可以是虚的,可以是连续的,也可以是离散的

除了\(\mathbb{R}^n\)之外,一些也是向量空间例子:

  • 对于\(n\ge 0\),次数最高位\(n\)的多项式集合\(\mathbb{P}_n\)
  • 三维空间中所有有向线段的集合
  • 数的双向无穷序列空间\(\{y_k\}=(\dots,y_{-1}, y_0, y_1, \dots )\)
  • 定义在集合\(\mathbb{D}\)(实数集)上的全体实函数的集合

判断向量空间\(H\)的一个子集\(V\)是其一个子空间,只需要验证:

  • \(V\)的零向量在\(H\)
  • \(H\)的向量加法与标量乘法对自己封闭

对于\(\mathbb{R}^3\),其(真)子空间只有两种情况,过原点的直线或者过原点的平面

4.2 线性变换

在第一章中初始过线性变换,这里给出一个严格的定义:

由向量空间\(V\)映射到向量空间\(W\)的线性变换\(T\)是一个规则,它将\(V\)中的每个向量\(x\)映射成\(W\)中的唯一向量\(T(x)\),且满足对加法与数乘的封闭性;

线性变换\(T\)(从向量空间\(V\)映射到向量空间\(W\))的(或零空间)是\(V\)中所有满足\(T(u)=0\)的向量的集合,\(T\)值域\(W\)中所有具有形式\(T(x)\)的向量的集合;

定义在一般向量空间中的线性相关与\(\mathbb{R}^n\)中的线性相关类似,都是判断一个齐次方程有无非平凡解,但是后者的齐次方程还能写成一个齐次方程组(矩阵),但前者的定义比较广泛,不一定能写成矩阵/线性方程组形式;

例如,\(\{\sin t, \cos t\}\)\(C[0,1]\)上是线性无关的

对于一个向量空间\(H\),我们研究其“最小生成集”,即向量空间的,基是生成的子空间是\(H\)并且线性无关的一组向量集合;

4.3 坐标与坐标变换

我们可以向量空间中的基想象成一组坐标轴(可能不标准,不正交,但是一定两两不平行/重合),使用基的线性组合表示向量空间中的任意向量时,组合的权重就是该向量在该基下的坐标;确定基后,坐标是唯一的;

\(B=(b_1,\dots,b_n)\)\(V\)的一个基,\(x\)相对于基\(B\)的坐标是那组权重\((c_1, \dots,c_n)=[x]_B\),称为x的B-坐标向量,从\(x\)\([x]_B\)是由\(B\)确定的坐标映射,\(B\)都对应了到标准基的坐标变换矩阵\(P_B=[b_1,\dots,b_n]\),该矩阵一定是可逆的; \[ x=P_B[x]_B \] 一个向量空间\(V\)的基\(B\)若含有\(n\)个向量(维数是n),则\(V\)\(\mathbb{R}^n\)同构\(n\)\(V\)的一个内在性质,不依赖于基的选择;

如果是从一个非标准基变换到另一个非标准基,那么坐标变换矩阵如何写出呢?设\(B\)\(C\)是向量空间\(V\)的基(\(n\)列),则存在一个\(n\times n\)坐标矩阵\(P_{C\leftarrow B}\),使得 \[ [x]_C = P_{C\leftarrow B}[x]_B \] 由于在标准坐标变换中,有 \[ P_B[x]_B=P_C[x]_C \]\[ P_{C\leftarrow B} = P_{C}^{-1}P_{B} \] 有时根据情景我们可以直接写出:\(P_{C\leftarrow B}\)的列是基B中向量的C-坐标向量,(\(P_{C\leftarrow B}\)的列也是C-坐标向量)

4.4 秩

在2.5节中,我们定义秩是列空间的维数,也就是线性无关列的最大个数。那与线性无关行的最大个数有关系吗?事实上,他们都是相等的;

首先,若两个矩阵\(A\)\(B\)行等价,则他们的行空间相同,若\(B\)是阶梯型矩阵,则\(B\)的非零行构成\(A\)的行空间的一个基,同时也是B的行空间的一个基(因为对于阶梯型矩阵,非零行是线性无关的,任何一个非零行不能是它下面的非零行的线性组合),那么同样可以使用行变换来求解行空间的基,只不过在求列的基时,使用行变换后主元列的列号到原矩阵中索引原始列;而在求行的基是时,直接使用行变换后的非零行;

注意,与列不同,行变换不保持行的线性相关关系,但是新行是旧行的线性组合,因此B的非零行对应A的行不一定线性无关

有如下关系:矩阵的列空间的维数=行空间的维数=主元列的个数=阶梯型非零行的个数=矩阵的秩;

关于秩的不等式

  • 对于\(A \in M_{m\times n}(F)\)\(\text{rank}A\le \min\{m,n\}\)
  • 一个矩阵划去若干行或列后,得到的矩阵的秩不大于原来的矩阵的秩;
  • 如果\(A\in M_{m\times k}(F)\)\(B\in M_{k\times n}(F)\),则\(\text{rank}A +\text{rank}B - k \le \text{rank}AB \le \min\{\text{rank}A, \text{rank}B\}\)
  • 如果\(A,B\in M_{m\times n}(F)\),则\(\text{rank}(A+B)\le \text{rank}A + \text{rank} B\)
  • 如果\(A\in M_{m\times k}(F)\)\(B\in M_{k\times p}(F)\)\(C\in M_{p\times n}(F)\),则\(\text{rank}AB +\text{rank}BC \le \text{rank}B + \text{rank}ABC\)

关于秩的等式

  • 左乘或者右乘非奇异矩阵,秩不变;

  • 如果\(A,B\in M_{m\times n}(F)\),则\(\text{rank}A=\text{rank}B\),当且仅当存在非奇异矩阵\(X\in M_{m}(F), Y\in M_n(F)\),使得\(B=XAY\)

  • 如果矩阵\(A\in M_{m\times n}(F)\)有秩\(k\),那么存在非奇异矩阵\(X\in M_{m\times k}(F), Y\in M_{k\times n}(F), B\in M_{k}(F)\),那么 \[ A=XBY \] 特殊地,对于任何秩为1的矩阵,都可以写成\(A=xy^T\),其中\(x\in F^m, y\in F^m\)是两个列向量;

5. 特征值与特征向量

特征值/特征向量,对于一个矩阵而言,究竟意味着什么?可能是找到一个向量,使得它在应用了该矩阵后,没有改变方向?可能是对于一个主特征值严格大于其他特征值的\(A^k\),当\(k\rightarrow +\infty\)时,都会把任意非零向量”撇“到其主特征向量方向上去?我也需要在更多应用中慢慢理解;

5.1 特征值、向量、方程

定义如下:

\(A\)\(n\times n\)矩阵,\(x\)为非零向量,若存在数\(\lambda\)使得\(Ax=\lambda x\)成立,则\(\lambda\)\(A\)特征值\(x\)称为对于\(\lambda\)特征向量

特征方程\(\det(A-\lambda I) = 0\)\(\lambda\)作为方程根的重数,称为\(\lambda\)的(代数)重数

我们又可以补充可逆矩阵定理(三):

\(A\)\(n\times n\)矩阵,则\(A\)是可逆的当且仅当

  • 0不是A的特征值
  • A的行列式不等于0

特征向量之间的线性相关性:

\(\lambda_1, \dots, \lambda_r\)\(n\times n\)矩阵\(A\)相异的特征值,\(v_1,\dots, v_r\)是对应的特征向量,则\(\{v_1,\dots, v_r\}\)线性无关;

与一阶差分方程的关系:

一阶差分方程\(x_{k+1}=Ax_{k}\)的解,可以通过找到\(A\)的一个特征值,得到\(x_{k+1}=\lambda^kx_0\)

5.2 对角化

将矩阵\(A\)的所有特征值写入对角矩阵\(D\),对应的特征向量按列写入矩阵\(P\),则有\(AP=PD\),如果\(P\)可逆,那么有\(A=PDP^{-1}\),这种形式有“好处”,我们可以专门定义一种相似性

A和B是\(n*n\)矩阵,如果存在可逆矩阵\(P\),使得\(P^{-1}AP = B\),则称A相似于B,把A变成B的变换称为相似变换;

相似性的特点/好处是:

  • 若矩阵A,B是相似的,则他们有相同的特征多项式核相同的特征值(重数也相同)

    行变换通常会改变特征值

  • 将A写成\(A=PDP^{-1}\)的形式,其中\(P\)为可逆矩阵,\(D\)为对角矩阵,那么\(A^k = PD^kP^{-1}\)

什么条件下,\(P\)可逆呢?

对角化定理:设\(A\)\(n*n\)矩阵,其特征向量为\(\lambda_1, \dots, \lambda_p\),当\(p=n\)或者\(p<n\)但每个\(\lambda_k\)对应的特征空间的维数等于特征方程在\(\lambda_k\)的重数,当且仅当\(A\)可以对角化;

5.3 特征向量与线性变换

先回顾一下坐标变换:

线性变换的矩阵:在从\(n\)维向量空间\(V\)变换到\(m\)维向量空间\(W\)时,设\(B\)\(C\)分别是\(V\)\(W\)的基,我们知道可以写出标准矩阵\(A\)(\(m\times n\))直接对向量进行变换, 即\(T(x)=Ax\),现在介绍一种直接对向量坐标变换的矩阵\(M\),使得\([T(x)]_C = M[x]_B\)

其中 \[ M=[T(b_1)_C \dots T(b_n)_C] \] \(T(b_1)_C\)是类似于\(b_1=t_1c_1 + t_2c_2 + t_3c_3\)中的参数向量\((t_1, t_2, t_3)^T\)

\(B\)\(C\)是同一线性空间的基时,矩阵\(M\)即为先前介绍的坐标变换矩阵;

\(W=V\),\(C=B\)时,\(M\)称为为变换\(T\)相对于\(B\)的矩阵,或者\(B-\)矩阵;

下面的证明,旨在从对角化出发,推广到相似矩阵可以充当该矩阵对应线性变换的\(B-\)矩阵:

对于\(\mathbb{R}^n\)上的线性变换\(x\mapsto Ax\),假设\(A\)是可对角化的,那么存在由\(A\)的特征向量组成的\(\mathbb{R}^n\)的基,\(A=PDP^{-1}\),则对角矩阵\(D\)是变换\(x\mapsto Ax\)\(B-\)矩阵;\(P\)也是(到标准坐标的)坐标变换矩阵,有\([x]_B=P^{-1}x\) \[ \begin{aligned}\\ [T]_B &= [[T(b_1)]_B\dots[T(b_n)]_B]\\ &= [[Ab_1]_B\dots[Ab_n]_B]\\ &= [P^{-1}Ab_1\dots P^{-1}Ab_n]\\ &= P^{-1}A[b_1\dotsb_n]\\ &= P^{-1}AP\\ &= D \end{aligned} \] 推广上述结论,只要矩阵\(A\)\(C\)相似,有\(A=PCP^{-1}\),在\(P\)的列向量组成的基\(B\)下,有变换\(x\rightarrow Ax\)\(B-\)矩阵\(C\);反之也成立,任意的基\(B\),变换\(x\rightarrow Ax\)\(B-\)矩阵相似于\(A\)

5.4 其他

方阵\(A\)没有足够的特征向量组成可逆的\(P\),但是仍可以通过找到一组基构造一个可逆的\(P\),并得到的\(PAP^{-1}\)是三角矩阵,称之为\(A\)约当形

6. 正交性与最小二乘法

在实际问题中,\(Ax=b\)通常无解(方程数大于未知数个数),希望找到一个\(\hat{x}\)使得\(A\hat{x}\)尽可能接近\(b\),这是我们讨论这一章的一个目的。

6.1 基本概念

向量的内积、长度、距离、正交的概念按下不表;

如果向量\(z\)与在\(\mathbb{R}^n\)的子空间\(W\)中的任意向量都正交,则\(z\)正交于\(W\),与\(W\)正交的\(z\)的全体的集合称为\(W\)正交补,即\(W^{\perp}\)

\(A\)\(m\times n\)矩阵,则\((\text{Row} A)^{\perp} = \text{Nul} A\),且\((\text{Col} A)^{\perp} = \text{Nul} A^T\)

\(x\)\(\text{Nul} A\)中的向量,则\(Ax=0\),即\(x\)\(A\)的每一行都正交

6.2 正交集

正交集,是一个集合中的向量两两正交;单位正交集,要求是单位向量;

如果\(S\)\(\mathbb{R}^n\)中由非零向量组成的正交集,则\(S\)是线性无关集,是一组基;

正交基比其他基优越,因为正交基线性组合的权值比较容易计算,\(c_j = \frac{y\cdot u_j}{u_j\cdot u_j}\),对于标准正交基(单位正交基)该权重的分母为1;

一个\(m\times n\)矩阵\(U\)具有单位正交列向量的充要条件是\(U^TU=I\)\(U^TUx=x\)对于所有\(\mathbb{R}^n\)中的\(x\)都成立;

因而当\(U\)是方阵时,有\(U^T=U^{-1}\)

\(U\)是一个具有单位正交列的\(m\times n\)矩阵,且\(x\)\(y\)\(\mathbb{R}^n\)的向量,则:

  • \(\norm{Ux}=\norm{x}\)
  • \((Ux)\cdot(Uy)=x\cdot y\)
  • \((Ux)\cdot(Uy)=0\)的充分必要条件是\(x\cdot y = 0\)

6.3 正交投影

如果\(\{u_1,\dots,u_p\}\)\(\mathbb{R}^n\)中子空间\(W\)的单位正交基,那么\(y\)\(W\)上的投影向量为 \[ \text{proj}_W y = (y\cdot u_1)u_1 + \dots + (y\cdot u_p)u_p \] 如果\(U=[u_1,\dots,u_p]\),则对于所有的\(y\in\mathbb{R}^n\) \[ \text{proj}_Wy=UU^Ty \]

6.4 格拉姆-施密特方法

对于\(\mathbb{R}^n\)中任何非0子空间,构造正交基或者标准正交基的算法,基本思想是,从1维子空间开始,不断纳入新的向量,是当前向量减去其在已知正交基的子空间中的投影得到的;

详细过程暂略;

6.5 矩阵QR分解

如果\(m\times n\)的矩阵\(A\)的列线性无关,则\(A=QR\),其中\(Q\)的列是\(\text{Col} A\)的一个标准正交基,施密特方法保证了\(R\)是上三角矩阵,并且是可逆的,对角线元素为正; \[ Q^TA=Q^T(QR)=IR=R \]

6.6 最小二乘法

最小二乘问题又可以理解为,在\(\text{Col}A\)中寻找与\(b\)最接近的向量,\(\hat{b}=\text{proj}_{\text{Col}A}b\),求解\(A\hat{x}=\hat{b}\),由向量与投影向量的差垂直于投影平面的性质,有\(b-A\hat{x}\)正交于\(A\)的每一列,即\(A^T(b-A\hat{x})=0\),进而得到最小二乘解的法方程 \[ A^TAx=A^Tb \] \(A^TA\)可逆的充要条件是,\(A\)的列是线性无关的;

使用法方程求解最小二乘解可能因为\(A^TA\)的病态造成较大误差,\(QR\)分解也可以用来求解最小二乘解:设\(m\times n\)矩阵\(A\)具有线性无关的列,则\(A=QR\)\(Ax=b\)的最小二乘解是\(x=R^{-1}Q^Tb\),可以验证,\(Ax=QQ^Tb\),正是\(b\)\(\text{Col}A\)上的投影;

7. 对称矩阵和二次型

7.1 对称矩阵

对称矩阵比其他类型的矩阵更常出现在应用中,结合前几章的知识,我们会得到许多对称矩阵非常好的性质:

如果\(A\)是对称矩阵,那么不同特征空间的任意两个特征向量是正交的,且\(A\)能满足对角化条件,则\(A=PDP^{T}\) (\(P^T=P^{-1}\)): \(n\times n\)的矩阵\(A\)可以正交对角化的充要条件就是\(A\)是对称矩阵;

对于一个特征值得到的多个特征向量,却不一定是正交的,需要使用格拉姆施密特方法化为该特征空间的单位正交基

矩阵\(A\)的特征值的集合称为\(A\),有如下谱定理

对称矩阵谱分解,即把正交对角化的结果展开

7.2 二次型

\(\mathbb{R}^n\)上的二次型是一个定义在\(\mathbb{R}^n\)上的函数,在向量\(x\)处的值为\(Q(x)=x^TAx\)\(A\)\(n*n\)对称矩阵,称为关于二次型的矩阵;

我们期望得到一个没有交叉项的二次型,便于求极值等,对应的是对角矩阵,因此我们引入二次型的变量代换:

\(x\)\(\mathbb{R}^n\)中的一个向量变量,\(P\)的列是\(\mathbb{R}^n\)的一个基,\(x=Py\)\(y\)\(\mathbb{R}^n\)中的一个新变量: \[ x^TAx=(Py)^TA(Py)=y^T(P^TAP)y \] 新的二次型矩阵是\(P^TAP\),如果\(A\)能够正交对角化,则\(P^TAP=p{-1}AP=D\)\(D\)\(A\)的特征值组成的对角矩阵;

\(P\)称为二次型的主轴,这个变量代换的过程,在\(\mathbb{R}^2\)空间中想象,就是将以原点为中心的二次曲线(已经是关于原点对称的,没有一次项或者常数项)的主轴旋转到\(x\)轴和\(y\)轴方向;

二次型\(Q(x)=x^TAx\)有以下分类:

  1. 正定的,如果对于所有\(x\ne0\)\(Q(x)>0\),当且仅当\(A\)的所有特征值全正;
  2. 负定的,如果对于所有\(x\ne0\)\(Q(x)< 0\),当且仅当\(A\)的所有特征值全负;
  3. 不定的,有正有负

7.3 条件优化

\(A\)是对称矩阵,\(m\)\(A\)的最小特征值,\(M\)\(A\)的最大特征值,如果\(x\)是对应\(M\)的单位特征向量,那么\(x^TAx=M\),如果\(x\)是对应\(m\)的单位特征向量,则\(x^TAx=m\)

\(||x||=1\)的条件下,\(m\)\(M\)分别是该二次型的最小值和最大值;

7.4 奇异值分解

不是所有矩阵都有分解式子\(A=PDP^{-1}\)且使得\(D\)是对角的,但是分解\(A=QDP^{-1}\)对任意的\(m\times n\)矩阵\(A\)都有可能;

回顾之前的特征值的定义,如果\(||x||=1\),则 \[ ||Ax||=\lambda \] 对于最大特征值对应的特征空间中的向量,均能使得\(||Ax||\)最大化;在\(||Ax||\)最大时,也能保证\(||Ax||^2=x^T(A^TA)x\)取得最大值,这是个二次型,其中\(A^TA\)是对称矩阵,在\(||x||=1\)的条件下,问题转化为了上一小节中讨论的条件优化问题。以下,我们引出奇异值的定义:

\(A\)\(m\times n\)矩阵,那么\(A^TA\)是对称矩阵且可以正交对角化,让\(\{v_1,\dots,v_n\}\)\(\mathbb{R}^n\)额单位正交基且构成\(A^TA\)的特征向量,\(\lambda_1,\dots,\lambda_n\)是对应的特征值,那么对于\(1 \le i \le n\)有: \[ ||Av_i||^2=v_i^TA^TAv_i=v_i^T(\lambda_iv_i)=\lambda_i \] 所以,\(A^TA\)所有特征值都非负(半正定的),按照从大到小排序,并开根号,即为\(A\)奇异值\(\sigma_1,\dots,\sigma_n\),奇异值是向量\(Av_1,\dots,Av_n\)的长度;

在对\(A^TA\)的特征值排序后,设有\(r\)个非零特征值,即对应\(r\)个非零奇异值,那么\(Av_1,\dots,Av_r\)\(\text{Col} A\)的一个正交基,\(\text{rank} A = r\)

这就是计算机计算矩阵的秩的方法——非零奇异值的个数

矩阵\(A\)\(m\times n\))的奇异值分解,涉及一个\(m\times n\)的矩阵\(\Sigma\),左上角是\(r\times r\)的对角矩阵\(D\),对角线元素是\(A\)的奇异值从大到小排列,另外还有一个\(m\times m\)的正交矩阵\(U\)\(n\times n\)的正交矩阵\(V\),使得\(A=U\Sigma V^T\)

\(V\)的前\(r\)列正是\(A^TA\)中对应的\(r\)个特征向量标准化的结果;而\(U\)的前\(r\)列构造为\(Av_i\)标准化的结果 \[ u_i=\frac{1}{\sigma_i}Av_i \]

\[ U\Sigma = AV \]

我们将\(U\)的列称为左奇异向量,将\(V\)的列称为右奇异向量;当\(r<m\)或者\(r < n\)时,\(U\)\(V\)的剩余列怎么填?

可以先利用正交性算出一组基并且使用施密特方法与先前的基进行正交化,不过,抛弃那几列,让\(U_r\)\(m\times r\)\(V_r\)\(n\times r\),仍有\(U\Sigma V^T=U_rD V_r^T\),即简化的奇异值分解

一些结合先前定义的结论:

  • \(\{u_1,\dots,u_r\}\)\(\text{Col}A\)的标准正交基
  • \(\{u_{r+1},\dots,u_{m}\}\)\(\text{Nul}A^T\)的标准正交基
  • \(\{v_{r+1},\dots,v_{n}\}\)\(\text{Nul} A\)的标准正交基
  • \(\{v_1,\dots,v_r\}\)\(\text{Row}A\)的标准正交基

伪逆(穆尔-彭罗斯逆)\(A^+=V_rD^{-1}U_r^T\)

伪逆的另一种定义是: \[ A^+ = \lim_{\epsilon\rightarrow 0}(A^TA+\epsilon I)^{-1}A^T = \lim_{\epsilon\rightarrow 0}A^T(AA^T+\epsilon I)^{-1} \]

\(A\in \mathbb{R}^{m\times n}\),若 \(\operatorname{rank} A = m\),则 \(A^{+} = A^T(AA^T)^{-1}\),若 \(\operatorname{rank} A = n\),则 \(A^{+} = (A^TA)^{-1}A^T\);

使用伪逆也可以表示最小二乘解 \[ \hat{x}=A^+b=V_rD^{-1}U_r^T \] 因为 \[ Ax=(U_rDV_r^T)(V_rD^{-1}U_r^T)b=U_rU_r^Tb \] 仍然推出了在\(\text{Col} A\)上的正交投影;

可逆矩阵定理(四)

\(A\)\(n\times n\)矩阵,则下列命题与\(A\)可逆等价:

  • \((\text{Col} A)^{\perp} = \{0\}\)
  • \((\text{Nul} A)^{\perp}= \mathbb{R}^n\)
  • \(\text{Row}A=\mathbb{R}^n\)
  • \(A\)\(n\)个非零的奇异值;

7.5 主成分分析

观测矩阵:一个由\(N\)次采样\(p\)维数据得到的\(p\times N\)矩阵;

样本均值\(M=\frac{1}{N}(X_1+\dots+X_N)\)

使用样本的平均偏差表示\(B=X-M\)

协方差矩阵\(S=\frac{1}{N-1}BB^T\)

协方差矩阵是对称的,是半正定的,其中 \[ S_{ij}=\sum_{k}^{N}(X_{ik}-M_i)(X_{jk}-M_j) \] 总方差为协方差对角线元素之和,即\(\text{tr}(S)\)

如果\(S_{ij}=0\),我们认为第\(i\)个变量与第\(j\)个变量是无关的;

之后我们假设\(X_1,\dots,X_N\)已经是平均偏差形式,主成分分析的目标就是确定一个变量代换\(X=PY\),其中\(P=[u_1,\dots, u_p]\)是正交矩阵,使得代换后的新变量\(y_1,\dots, y_p\)是两两无关的,并且方差递减;

我们可以求出\(Y\)的协方差 \[ \begin{aligned} \frac{1}{N-1}YY^T &= \frac{1}{N-1}P^TXX^TP \\ &= P^TSP \end{aligned} \] 期望\(P^TSP\)为对角型,设\(D\)\(S\)的特征值由大到小排序的对角矩阵,一定有\(S=PDP^T\)其中\(P\)是单位正交矩阵,那么不妨就让我们期望的\(P^TSP=D\)

协方差矩阵\(S\)的单位特征向量\(u_1,\dots, u_p\)就是\(X\)的主成分,第一主成分是最大的特征值对应的特征向量;

单位正交变换不改变矩阵的迹(不改变向量的长度和夹角),即上述变量代换不改变总方差,因此\(\lambda_j/\text{tr}(D)\)反映了成分\(j\)占总体的比例;

在实际应用中,基于奇异值分解的主成分分析比基于特征值分解的主成分分析更常用(算得更快更准):\(B\)是具有平均偏差形式的\(p\times N\)的观测矩阵,\(A=\frac{1}{\sqrt{N-1}}B^T\),则\(A^TA\)是协方差矩阵\(S\),对\(A\)进行奇异值分解,\(A\)的奇异值的平方就是\(S\)的特征值,\(A\)的右奇异向量就是主成分。

8. 更多

8.1 Schur complement

wiki - Schur complement 这里比较详细的给出了schur complement的由来已经应用;

8.2 Matrix determinant lemma

wiki - Matrix determinant lemma

8.3 关于tr的一些小技巧

  • 矩阵内积:\(\operatorname{tr}(YX) = \sum_{i,j} Y_{i,j}X_{i, j}\)
  • \(\operatorname{tr}(vv^T) = v^Tv\)
  • \(\nabla_X \operatorname{tr}(YX) = Y\)
  • \(\dots\)

8.4 Derivative of \(\log\det X\)

blog