线性代数 广泛应用在计算机专业的各个领域。由于是大一学的课,现在对矩阵的反应已经大不如前。
本文章旨在温故线性代数,总结经典定理和证明,提供给自己和读者一个快速复健的平台。
线性空间
设 V 是一个非空集合,F 是一个域,在 V 和 F×V 上定义 加法 和 数乘 两种运算。
- ⟨V:+⟩ 是一个交换群(加法群),我们把其单位元记作 0。
- 对于 ∀α,β∈V, ∀λ,μ∈F 以及域 F 的乘法单位元 1,有:
- 1α=α
- λ(μα)=(λμ)α
- (λ+μ)α=λα+μβ
- λ(α+β)=λα+λβ
则称 V 对于上述两种运算在域 F 上构成一个 线性空间,记作 V(F)。
设 W 是线性空间 V(F) 的一个非空子集,如果 W 对 V 中的运算也构成 F 的线性空间,则称 W 为 V 的 线性子空间。W 是子空间的充分必要条件是 W 对 V(F) 的线性运算封闭。
设 W 是线性空间 V(F) 的一个非空子集,定义 L(W) 为 W 中所有有限子集在域 F 上的一切线性组合所构成的集合,此过程被称为 W 的 线性扩张。显然 L(W) 是 V 中包含 W 的最小子空间。
设 V(F) 是一个线性空间,αα1,αα2,…,ααm∈V,如果存在不全为 0 的 λ1,λ2,…,λm∈F,使得
λ1αα1+λ2αα2+⋯+λmααm=00
则称 αα1,αα2,…,ααm 线性相关,否则称为 线性无关。
若向量组 {αα1,αα2,…,ααn} 线性无关,{ββ,αα1,αα2,…,ααn} 线性相关,则 ββ 可被 {αα1,…,ααn} 唯一表示。
在线性空间 V(F) 里,若 V 的有限子集 B={ββ,αα1,αα2,…,ααn} 线性无关且 L(B)=V,则称 B 是 V 的一组 基,∣B∣ 是 V 的 维度。如果 B 是对于 V(F) 的一个子集 S 而言的,记 ∣B∣ 为 S 的 秩。
设 W1,W2 是线性空间 V(F) 的两个子空间,定义子空间的 交 与 和 为:
W1∩W2={αα∣αα∈W1∧αα∈W2}W1+W2={αα∣αα=αα1+αα2,αα1∈W1,αα2∈W2}
注意子空间的 交 与 和 依然是子空间。此外,子空间交与和还满足 维度公式:
dimW1+dimW2=dim(W1+W2)+dim(W1∩W2)
若 W1∩W2={00},则 W1+W2 也被称为 W1 和 W2 的 直和,记为 W1⊕W2。
已知 B={αα1,αα2,…,ααn} 是 n 维欧式空间的一组基,则可以用 Schmidt 正交化 构出一组 单位正交基。
线性映射
从线性空间 V1(F) 到 V2(F) 的一个 映射 σ 是 线性 的,如果对于 ∀αα,ββ∈V1 和 ∀λ,μ∈F 都有:
σ(λαα+μββ)=λσ(αα)+μσ(ββ)
设 σ 是线性空间 V1(F) 到 V2(F) 的线性映射,则定义:
- V1 的所有元素在 σ 下的像所组成的集合被称为 σ 的 像,记为 σ(V1) 或 Imσ。
- V2 的零元在 σ 的原像集合被称为 σ 的 核,记为 σ−1(002) 或 Kerσ。
定理:线性映射 σ:V1→V2 是单射 ⇔ σ−1(002)={001}
后推前:假设存在 σ(αα1)=σ(αα2),则 σ(αα1)−σ(α2α2)=σ(αα1−αα2)=00,根据条件得 αα1=αα2
把线性空间 V1(F) 到 V2(F) 的所有线性映射组成的集合记作 L(V1,V2)。额外定义 L(V1,V2) 上的加法为 (σ+τ)(αα)=σ(αα)+τ(αα),αα∈V1,数乘为 (λσ)(αα)=λ(σ(αα)),αα∈V1,则 L(V1,V2) 也是线性空间。
设 σ∈L(V1,V2),B={αα1,αα2,…,ααn} 是 V1 的基,V1 中任一向量 ξ=x1αα1+x2αα2+,…,+xnααn 在 σ 下的像可表示为 σ(ξ)=x1σ(αα1)+x2σ(αα2)+,…,+xnσ(ααn)。即 σ 的值域是基 B 在 σ 下的像 σ(B) 的线性扩张。定义 线性变换 σ 的秩 为 σ(V1) 的维数,即 r(σ)=dimσ(V1)。
对于有限维线性空间 V1,V2,若 dim(V1)=n,则线性映射 σ 的像和核满足如下的维数公式:
r(σ)+dim(Kerσ)=n
证明:构造 Kerσ 的一组基 Bk={αα1,αα2,…,ααk},将其扩充成 V1 的基 {αα1,…,ααk,ααk+1,…,ααn} ,则 r(σ)=dimσ(V1)=dimL(σ(ααk+1),…,σ(αnαn)),只需再证 σ(ααk+1),…,σ(αnαn) 线性无关。假设存在一组系数使其相加 =0,那么它就能被 Bk 线性表示;但已知 B1 是线性无关的,则系数只能全为 0。
推论:若 V1 和 V2 都是 n 维线性空间,线性映射 σ∈L(V1,V2) ,则 r(σ)=n⇔σ 是单射 ⇔σ 是满射
矩阵的基本变换和性质
设 A∈MF,如果存在 B∈MF 使得 BA=AB=E,则称矩阵 A 是可逆的,并把 B 叫做 A 的 逆矩阵。
若方程 AX=b 对于任意的 b 都有唯一解,则 A 是可逆矩阵,且解 X=A−1b。
域 F 上全体 n 阶矩阵 Mn(F) 关于矩阵乘法构成 含幺半群,但是全体 n 阶可逆矩阵关于矩阵乘法构成 群。
若 AT=A,则称方阵 A 为 对称矩阵;若 AT=−A,则称方阵 A 为 反对称矩阵。
将倍加、倍乘、对换行称为矩阵的三大 初等变换。从单位矩阵 E 经过一次初等变换的矩阵称为 初等矩阵。
定理:任何一个可逆矩阵 A 可以表示成若干个初等矩阵 P1,P2,…,Pk 的乘积。
如果 A 经过初等变换能变成 B,则称 A 相抵于 B,记为 A≃B。相抵关系是一个等价关系。
矩阵的行秩和列秩是相等的,统称为矩阵的 秩。初等行(列)变换不改变矩阵的秩。可逆矩阵 满秩。
r(A+B)≤r(A)+r(B)r(AB)≤min(r(A),r(B))
方阵的行列式
设 A,B 是 n 阶方阵,则 ∣AT∣=∣A∣,∣AB∣=∣A∣∣B∣。
在 n 阶行列式 D=∣ai,j∣n×n 中,去掉元素 ai,j 所在的第 i 行和第 j 列的所有元素而得到的 n−1 阶行列式称为元素 ai,j 的 余子式,记作 Mi,j。并把 Ai,j=(−1)i+jMi,j 称为元素 ai,j 的 代数余子式。
设 A 是 n 阶可逆矩阵,构造 伴随矩阵 A∗ 为 A 的代数余子式矩阵的转置,即:
A∗=⎣⎡A11A12…A1nA21A22…A2n…………An1An2…Ann⎦⎤
那么有性质:AA∗=∣A∣E,即 ∣A∣1A∗ 是 A 的逆矩阵。
取 A 的任意 k 行和任意 k 列的交点构成的方阵的行列式称为 A 的 k 阶子式。如果取得正好是前 k 行和前 k 列,则称为 A 的 k 阶主子式。A 的非零子式的最高阶数称为 A 的 行列式秩。
定理:r(A)=k 的充要条件是 A 的行列式秩等于 k。
Cramer 法则:若线性方程组 AX=b 满足 D=∣A∣=0,则方程组有唯一解 xj=DDj。
推论:齐次线性方程组 AX=0 有非零解的充分必要条件是 ∣A∣=0。
正交矩阵和相似矩阵
对于欧式空间 V(R) 的一个线性变换 σ ,若 ∀α,βα,β∈V,(σ(αα),σ(ββ))=(αα,ββ)(即内积保持不变),则称 αα是 正交变换,对应的矩阵叫做 正交矩阵。αα 是正交变换的充要条件是:∀αα∈V,∣σ(αα)∣=∣αα∣。
矩阵 A 是正交矩阵,当且仅当 ATA=E。注意此时 ∣A∣=±1。
如果对于 A,B∈Mn(F),存在可逆矩阵 C∈Mn(F),使得 C−1AC=B,则称 A 相似 于 B,记为 A∼B。容易证明,矩阵的相似关系在集合 Mn(F) 上构成等价关系。
相似矩阵 其实是同一个线性变换 σ 在不同基下得到的矩阵。
若 A∼B,则 f(A)∼f(B),其中 f(X)=amXm+am−1Xm−1+⋯+a0E。
特征值和特征向量
设矩阵 A∈Mn(F),如果存在数 λ0∈F 和非零向量 X∈V,使得 AX=λ0X,则称数 λ0 为 A 的一个 特征值,X 为 A 属于 λ0 的 特征向量。称 f(λ)=∣λE−A∣ 为 A 的 特征多项式。
根据定义,特征向量 X 的几何意义是:经过 A 的变换后方向不变的一组向量。
特征多项式 f(λ)=λn+b1λn−1+⋯+bn−1λ1+bn,其中 bk=(−1)kSk,Sk 是全体 k 阶主子式之和。
推论:若矩阵 A 的 n 个特征值为 λ1,λ2,…,λn,则:
i=1∑nλi=i=1∑nAi,i∏λi=∣A∣
定理:若矩阵 A 和 B 相似,则他们的特征多项式相等,即 ∣λE−A∣=∣λE−B∣。
证明:若 A∼B,即存在可逆矩阵 P,使得 P−1AP=B,于是:
∣λE−B∣=∣λE−P−1AP∣=∣P−1(λE−A)P∣=∣P−1∣∣λE−A∣∣P∣=∣λE−A∣
说明:线性变换 σ 在不同基下对应的矩阵是相似矩阵,所以他们的特征多项式均相同。说明不同基下的特征多项式(特征值)是 σ 的 不变量。他们也可以统称为线性变换 σ 的特征多项式。
设 V 是域 F 上的线性空间,λ0 是其一个特征值,称以下子空间为 σ 关于 λ0 的 特征子空间 Vλ0:
Vλ0={ξ∣σ(ξ)=λ0ξ,ξ∈V}
定理:设 λj,j∈[1..m] 是 n 维线性空间 V(F) 的线性变换 σ 的互不相同的特征值,Vλj 是相应的特征子空间,则 m 个特征子空间的和是直和,即 dim(Vλ1+Vλ2+⋯+Vλm)=n。
说明:可以想象投影映射 σp:RR3 中的向量关于某个二维平面 W 的投影。 σp 的特征值是 λ1=0 和 λ2=1(重根),对应的特征子空间分别是 W⊥,W,其中 dimVλ1=1,dimVλ2=2。
Caylay-Hamilton Theorem:f(λ)=λn+b1λn−1+⋯+bn−1λ1+bn 是方阵 A 的特征多项式,则:
f(A)=An+b1An−1+⋯+bn−1A1+bn=0
证明可参考 shb 的博客。
可对角化
如果线性变换 σ 在某个基下对应的矩阵 A 为对角阵,则称 σ 为 可对角化 的线性变换。同样,与对角阵相似的矩阵 A 称为可对角化矩阵。与 A 相似的对角矩阵 Λ 称为 相似标准形。
定理:矩阵 A∈Mn(F) 可对角化的充分必要条件为 A 有 n 个线性无关的特征向量。
证明:设 A∼Λ=diag(λ1,λ2,…,λn),则存在可逆矩阵 P 使 AP=PΛ。若 P=(XX1,…,XXn) 则:
A(XX1,…,XXn)=(XX1,…,XXn)⎣⎡λ1λ2…λn⎦⎤
容易发现 AXXj=λjXjXj,即 (XX1,…,XXn) 是 A 的 n 个线性无关的特征向量。反之亦然。
对于一个 n 阶可对角化矩阵 A,我们一般用如下的步骤求其变换矩阵:
- 求出 A 的所有不同特征值 λ1,λ2,…,λm,他们的重数分别是 r1,r2,…,rm,且 ∑ri=n。
- 将 m 个特征子空间的基向量依次排成 n 阶矩阵构成 P,即 P=(XX1,1,…,XX1,r1,…,XXm,1,XXm,rm)
则有 P−1AP=λ1,…,λ1,…,λm,…,λm。
实对称矩阵
如果 n 阶矩阵 A 满足 Ai,j 都是实数且 Ai,j=Aj,i,则称 A 是 实对称矩阵。
二次曲线 f(x1,x2)=a1,1x12+2a1,2x1x2+a2,2x22 可以写成 XXTAXX 的形式,其中 A 是有关系数的实对称矩阵,XX=(x1,x2)T。
定理:实对称矩阵的特征值都是实数。
证明:设 λ 是 A 的任一个特征值,只需证明 λ=λ。根据 AX=λX 和 (A)T=A 就有
λ(X)TX=(X)TAX=(X)T(A)TX=(AX)TX=λ(X)TX
定理:实对称矩阵里属于不同特征值的特征向量相互正交。
证明:设 λ1,λ2 是两个特征值,X1 和 X2 是对应的特征向量(实向量)。那么有:
λ1(X1,X2)=(AX1,X2)=(AX1)TX2=X1TATX2=X1TAX2=(X1,AX2)=λ2(X1,X2)
由于 λ1=λ2,则 (X1,X2)=0。
定理:若矩阵 A 是 n 阶实对称矩阵,则存在 n 阶正交矩阵 Q,使得 Q−1AQ=diag(λ1,λ2,…,λn)。
具体求 Q 的步骤是:取 A 不同特征值下的单位正交基,按顺序排成 Q。
主轴定理:对于任一个 n 元二次型 f(x1,x2,…,xn)=XXTAXX,都存在正交变换 XX=QYY,使得:
XXTAXX=YYT(QTAQ)YY=λ1y12+⋯+λnyn2
矩阵树定理 Kirchhoff’s Matrix-Tree Theorem
定义无向图 G 的关联矩阵(incidence matrix)Bn,m 为:
Bi,j=⎩⎨⎧1−10i=steji=edejotherwise
定义无向图 G 的拉普拉斯矩阵(Laplacian matrix)或基尔霍夫矩阵(Kirchhoff matrix)为:Q=BBT 。
注意到 Q 也满足公式 Q=D(G)−Adj(G) ,即无向图的拉普拉斯矩阵是度数矩阵和邻接矩阵的差。
定理1:拉普拉斯矩阵的所有代数余子式均相等。
证明:为了证明上述定理,只需证明对于某一行 i,Ai,j=Ai,k,即 (−1)i+jMi,j=(−1)i+kMi,k。考察 Mi,j 对应的列向量,其中并不包含原矩阵的第 j 个列向量 j。现在,把所有列都加到第 k 个列向量 k 上。注意到,拉普拉斯矩阵的每一行和每一列的和都是 0,所以 k=−j。现在我们再把新的子矩阵的 k 不断地向 j 处调换,一共调换 ∣j−k∣−1 次。所以 Mi,k=(−1)∣j−k∣Mi,j,即 Ai,j=Ai,k。
定理2:拉普拉斯矩阵的行列式为 0。
证明:高斯消元过程不会改变每行和都是 0 的性质,所以消完后 An,n=0。我们也可以直接展开第一行证明。
矩阵树定理:无向图 G 的拉普拉斯矩阵 Q 去掉任意一行任意一列的行列式 ∣Q′∣ 即为 G 的生成树个数,即:
t(G)=n1λ1λ2…λn−1,λn=0
推广1:无向图还能带边权,Adji,j=k 表示 i 到 j 之间存在 k 条边,依然能求得正确的生成树个数。
推广2:如果给出一个有向图和一个点 k,删掉根所在的行列可正确求出以 k 为根的外向树个数。
推广3:矩阵树定理还能求构成 k 个连通块的森林的方案数。对于某一种方案 F,设 k 个点集为 V1,V2…,Vk,定义权值为 w(F)=∣V(F1)∣×∣V(F2)∣×…∣V(Fn)∣。那么我们有:
F∑w(F)=qkqk=i1,i2,…,in−k⊆{1…,n−1}∑λi1λi2…λin−k
原来树的方案该推论的一个特例:k=1,qk=λ1…λn−1。
矩阵范数
我们知道,向量范数的定义是:∣∣xx∣∣k=k∑∣xi∣k。
矩阵范数没有公认的统一定义,但是它必须满足以下这些规则:
∣∣A∣∣≥0,∣∣00n,m∣∣=0,∣∣αA∣∣=α∣∣A∣∣,∣∣A+B∣∣≤∣∣A∣∣+∣∣B∣∣
有些教科书认为矩阵范数是定义在方阵上的,还需满足相容性:
∣∣AB∣∣≤∣∣A∣∣⋅∣∣B∣∣
我们可以从向量范数去推导一种可能的矩阵范数,它被称为 诱导范数。
∣∣A∣∣k=sup{∣∣Ax∣∣k:x∈Rn,∣∣x∣∣k=1}
对于特殊的 k,矩阵范数还有以下的一些求法:
∣∣A∣∣1=1≤j≤nmaxi=1∑m∣ai,j∣∣∣A∣∣2=max∣λi∣,∣∣A∣∣2=max{xTAx:∣∣x∣∣=1}∣∣A∣∣∞=1≤i≤mmaxj=1∑n∣ai,j∣