广义特征向量
首先回顾 特征值 章节 中的特征子空间 $E[T, \lambda]$. 对于 $T \in L(V)$ 的不同特征值 $\lambda_1, \lambda_2, \cdots, \lambda_m$.
有结论 $E[T, \lambda_1] \oplus E[T, \lambda_2] \oplus \cdots \oplus E[T, \lambda_m] \le V$.
也就是说通常不能找到 $n$ 个线性无关的特征向量. 那么我们能不能通过拓展特征向量的定义, 得到广义特征向量. 使得广义特征向量的维数等于 $n$ 呢.
特征向量的定义为, $\alpha \in V, (T - \lambda I)(\alpha) = 0$. 将广义特征向量定义为
广义特征向量构成 广义特征子空间 $G(T, \lambda) = \text{null} (T-\lambda I)^{\dim V}$. 显然特征子空间 $E(T, \lambda) \subseteq G(T, \lambda)$.
一个随之而来的问题是, 为什么定义中 $i$ 的最大取值为 $n$. 是否存在 $\alpha$ 必须要 $i=\dim V +1$ 才能使得 $(T - \lambda I)^i(\alpha) = 0$.
其实如果存在 $\text{null } T^m = \text{null } T^{m+1}$, 那么一定有 $\text{null } T^{m+i} = \text{null } T^{m+i+1}$. 比如说如果 $\text{null } T^2 = \text{null } T^3$, 那么就不用继续找了, $\text{null } T^2$ 里面就是所有的特征向量. 由于 $V$ 中至多有 $n$ 个线性无关的特征向量, 因此 $\text{null } T^n$ 必然包含了所有线性无关的特征向量.
下面说明 $\text{null } T^m = \text{null } T^{m+1} \Rightarrow \text{null } T^{m+i} = \text{null } T^{m+i+1}$.
证明 \
已知 $T^{m+i} \subseteq T^{m+i+1}$, 只需要说明 $T^{m+i+1} \subseteq T^{m+i}$ 即可.
任意 $\alpha \in \text{null }T^{m+i+1}$, 且 $(T-\lambda I)^{m+i+1}(\alpha) = 0$.
可以推出
回顾一下, 我们引入广义特征向量的意义.
$T$ 在一组特征值组成的基下, 对应矩阵 $A$.
$T(\alpha_1, \alpha_2, \cdots, \alpha_n) = (\alpha_1, \alpha_2, \cdots, \alpha_n) A$.
如果 $V$ 可以表示为多个不变子空间的直和, 那么 $A$ 就可以进行分块对角化.
但是通常 $V$ 不能写为他们的直和. 但是引入广义特征向量之后可以做到这一点.
直和
维数
虽然 $V = \text{range }T \oplus \text{null}T$ 一般不成立, 但是可以证明 $V = \text{range }T^n \oplus \text{null}T^n$.
补充: 求导运算可以作为对于 $V = \text{range }T \oplus \text{null}T$ 的反例.
首先根据维数公式, $\dim V = \dim \text{range } T^n + \dim \text{null } T^n$. 那么只需要证明 $\text{range } T^n \cap \dim \text{null } T^n = {0}$ 即可.
设 $\alpha \in \text{range } T^n \cap \text{null } T^n$, 要证明 $\alpha = 0$.
空间
容易证明不同特征值的特征向量线性无关, 因此:
进一步, 可以说明 $G(T, \lambda)$ 构成一个不变子空间.
即若 $\alpha \in \text{null } (T - \lambda I)^n$, 那么 $T(\alpha) \in \text{null } (T-\lambda I)^n$ 也成立.
证明 \
已知 $(T-\lambda I)^n(\alpha) = 0$, 考虑 $(T-\lambda I)^n (T(\alpha))$.
通常两个线性变换是无法交换的. 但是设想将 $(T-\lambda I)^n$ 展开, 后面乘以 $T$. 还是可以从前面提取出一个 $T$. 因此 $(T-\lambda I)^n(T(\alpha)) = T((T-\lambda I)^n(\alpha)) = 0$.
可以总结三个性质
- $(T - \lambdai I) |{G(T, \lambda_i)}$ 表示 $(T - \lambda_i I)$ 在子空间 $G(T, \lambda_i)$ 上的作用, 且是幂零变换.
- $G(T, \lambda_i)$ 为 $T$ 的不变子空间
- $V = G(T, \lambda_1) \oplus G(T, \lambda_2) \oplus \cdots \oplus G(T, \lambda_m)$
幂零变换
之前已经说过, 线性变换 $T$ 的矩阵可以写成分块对角的形式. 特别的, 如果 $T$ 为幂零变换. 那么可以写成严格上三角的形式.
证明\
根据 $\text{null }T^{m+i+1} \subseteq \text{null }T^{m+i}$, 可以得到
那么可以取 $\alpha{1,1}, \cdots, \alpha{1,k_1} \in \text{null } T \Rightarrow T(\alpha_1) = 0$. 从而 $A$ 的前 $k$ 列为 $0$.
继续考虑 $\alpha{2,1}, \cdots, \alpha{2,k2} \in \text{null } T^2 \Rightarrow T(\alpha_2) \in \text{null } T$. 所以 $\alpha{2,}$ 可以完全由 $\alpha_{1,}$ 来表示, 对角线上的值仍然为 $0$.
重数
$G(T, \lambda)$ 与代数重数对应, $E(T, \lambda)$ 与几何重数对应. 在线性代数中, 代数重数为特征方程的根, 几何重数为特征值对应的特征向量.
其中
$\lambda_i$ 为特征值, $n_i$ 为对应的代数重数. 可以进行简要说明:
可以看出 $A_i$ 已经化成了上三角形式, 可以进行进一步简化得到约当标准型.
Jordan 型
这是一个约当块,
在矩阵 $A$ 中, 特征值 $2$ 的约当块有两个; 特征值 $1$ 的约当块有一个.
- 特征值对应的所有 Jordan 块个数就是该特征值的几何重数, 也就是说一个 Jordan 块对几何重数的贡献为 1.
- 回顾 几何重数 的定义 $\dim {v \in V, (T - \lambda I) v = 0}$. 显然只有 Jordan 块第一列对应的那个特征向量才满足这个条件, 因此每个 Jordan 块的贡献为 1.
- 特征值对应的所有 Jordan 块的维度和 为该特征值的代数重数.
- 顺便回顾 代数重数 的定义 $\dim {v \in V, \exist n \in N \text{ s.t. } (T - \lambda I)^n v = 0}$
如何求 Jordan 型
- 解出特征值
- 根据解出的特征值讨论 Jordan 型的形式
- 计算特征值对应的特征向量
以 $\dim V=3$ 为例, 解出 $\lambda_1, \lambda_2, \lambda_3$.
- $\lambda_1 \neq \lambda_2 \neq \lambda_3$: 对角型, 直接求特征向量就行
- $\lambda_1 = \lambda_2 \neq \lambda_3$: 计算 $\lambda_1$ 有几个特征向量
- 2 个: $\lambda_1$对应两个 Jordan 块, 对角型
- 1 个: $\lambda_1$ 对应一个 Jordan 块
- $\lambda_1 = \lambda_2 = \lambda_3$: 计算 $\lambda_1$ 有几个特征向量
- 3 个: 对角型
- 2 个: 和 (2) 中一样
- 1 个:
$\dim V = 4$ 会更加复杂, 如 $\lambda_1 = \lambda_2 = \lambda_3 = \lambda_4$.
解出两个特征向量, 那么 Jordan 型是 $3+1$ 还是 $2+2$ 的形式呢.
还需要观察幂零指数.
Jordan Basis
简单来说 Jordan Basis 是尝试在 $V$ 上寻找一组基, 使得线性变换 $T$ 对应的变换矩阵 $A$ 是 Jordan 标准型.
我想到的一个简单的想法是
https://www.youtube.com/watch?v=jWo65wklbYM
Hamilton-Cayley 定理
对于 $T \in L(V)$, 其特征多项式为
其中 $n_i$ 为代数重数.
则我们可以推出
证明
$\forall \alpha \in G(T, \lambda_i)$, 要证
由于 $\alpha \in G(T, \lambda)$, 可知 $(T - \lambda_i)^{n_i} (\alpha) = 0$. 那么可以通过交换使得上式中出现 $(T - \lambda_i)^{n_1} \cdots (T - \lambda_i)^{n_i} (\alpha) = 0$, 命题得证.
注意, 一般线性变换的 composition 不满足交换律. 但是这里可以验证, 当我们进行展开之后, 交换律的最终形式不变.
类似的, 对矩阵也有 Hamilton-Cayley 定理. 若 $A_{n\times n}$ 的特征多项式为
那么有
当然, $f_A(A)$ 的多项式展开也为 $0$:
应用
Hamilton-Cayley 定理主要起到降幂的作用.
从 $f_A(A) = 0$ 可以看出, $A^n$ 以及更高的次数可以通过 $E, A, \cdots, A^{n-1}$ 进行线性表示.
例如对于三阶矩阵 $A_{3\times 3}$, 求 $A^{1000}$.
之前我们的处理是进行对角化, 但是一般的矩阵无法进行对角化. 可以化为 Jordan 标准型
但是化为 Jordan 标准型又比较困难, 这时候可以利用 Hamilton-Cayley 定理.
利用多项式除法可以构造等式
那么如何求 $a_2, a_1, a_0$ 呢 ? 根据上式容易知道如下公式也是成立的.
那么只需要带入三个 $\lambda$ 的值就可以得到三个方程去解了.
$A_{3\times 3}$ 最多有 3 个特征值 $\lambda_1, \lambda_2, \lambda_3$, 且 $Q(\lambda_1) f_A(\lambda_1) = 0$.
但是如果 $\lambda_1 \neq \lambda_2 \neq \lambda_3$, 那么显然 $A$ 是可以对角化的, 何必脱裤子放屁呢.
所以考虑 $\lambda_1 = \lambda_2 \neq \lambda_3$ 的情况, 此时我们只能得到两个有效的方程.
方法是对等式两边求导.
代入 $\lambda_1$, 由于 $\lambda_1$ 对应的代数重数是 $2$, 所以 $f_A’(\lambda) = (\lambda - \lambda_1)^2 (\lambda - \lambda_3)$, 因此 $f_A’(\lambda_1) = 0$.
零化多项式
对于多项式 $f(\lambda)$, 如果 $f(A) = 0$, 称 $f$ 为 $A$ 的零化多项式.
- 矩阵 $A$ 的零化多项式必然存在, 至少特征多项式就是 $A$ 的一个零化多项式
- 最小多项式 $m_A(\lambda)$: 零化多项式中次数最低且最高项系数为 $1$ 的
性质
最小多项式唯一\
证明:\
设存在两个最小多项式 $m_A(\lambda), n_A(\lambda)$, 那么显然 $m_A(\lambda), n_A(\lambda)$ 的最高阶数相等. 又由于 $m_A(\lambda) - n_A(\lambda)$ 也是最小多项式, 我们就得到了一个阶数更低的零化多项式. 矛盾.设 $f(\lambda)$ 为 $A$ 的零化多项式, 则 $m_A(\lambda) \mid f(\lambda)$
证明:\
假设 $m_A(\lambda) \nmid f(\lambda)$, 那么我讲 $f(\lambda)$ 表示为那么 $r(\lambda)$ 作为余项阶数肯定低于 $m_A(\lambda)$, 而且也是零化多项式. 从而与 $m_A(\lambda)$ 是最小多项式矛盾.
由于特征多项式必然是零化多项式, 所以最小多项式必能整除特征多项式. $m_A(\lambda) \mid f_A(\lambda)$
$A$ 的每个特征值都是最小多项式的根
对于特征值 $\lambda_i$ 有 $A\alpha = \lambda_i \alpha$. 则显然
假设 $\lambda_i$ 不是 $m_A(\lambda)$ 的根, 那么 $m_A(\lambda) \neq 0$, 矛盾.
若 $A \sim B$, 则 $m_A(\lambda) = m_B(\lambda)$.
证明的思路是, 利用性质(2) 说明 $m_A(\lambda) \mid m_B(\lambda)$ 和 $m_B(\lambda) \mid m_A(\lambda)$, 从而 $m_A(\lambda) = m_B(\lambda)$.
要说明 $m_A(\lambda) \mid m_B(\lambda)$, 也就是 $m_B(A) = 0$.
同理可得 $m_B(\lambda) \mid m_A(\lambda)$, 证毕.
分块对角矩阵的零化多项式
设 $f(\lambda)$ 为 $A$ 的零化多项式, 则
显然 $f(Ai) = 0$, 那么每个分块也对应有最小多项式 $m{Ai}(\lambda) \mid f(\lambda)$,
并且 $m_A(\lambda)$ 为 $m{A_i}(\lambda)$ 的最小公倍式.举例来说,
那么对于 $\lambda=2$, Jordan 块的最大阶数为 $2$, 对于 $\lambda=1$, 最大阶数为 $1$.
因此 $m_A(\lambda) = (\lambda-2)^2 (\lambda-1)$.另一个应用是利用分块的最小多项式求 Jordan 标准型.
之前我们提到多三阶矩阵 Jordan 标准型的求法, 而四阶矩阵更加困难.因为四阶矩阵求出特征值 $\lambda_i$ 的几何重数之后仍然无法确定 Jordan 块的形式.
比如 $\lambda_1 = \lambda_2 = \lambda_3 = \lambda_4 = 1$, 且几何重数为 $2$.
那么 Jordan 块的形式应该是 $1+3$ 还是 $2+2$ 呢.这两种情况下 $(\lambda-1)$ 的最高次不同, 所以可以通过检验 $(A-E)^2 = 0$ 确定是哪一种.
如果成立, 那么最高阶数为 $2$, Jordan 标准型为 $2+2$ 形式. 否则为 $1+3$ 形式.$A_{n\times n}$ 可对角化 $\Leftrightarrow m_A(\lambda)$ 无重根.
证明
$A_{n\times n}$ 可对角化 $\Rightarrow m_A(\lambda)$ 无重根.
可对角化说明有 $n$ 个特征值, 那么 $m_A(\lambda) = (\lambda - \lambda_1) \cdots (\lambda - \lambda_n)$.$A_{n\times n}$ 可对角化 $\Leftarrow m_A(\lambda)$ 无重根.
记 $\lambda_i$ 的代数重数为 $n_i$.
$\lambda_i$ 的几何重数为几何重数小于等于代数重数
如果能够说明 $(m-1)n \geq \sum_{i=1}^m \text{rank} (A - \lambda_i I)$, 那么说明几何重数的和等于代数重数的和, $A$ 也就可以对角化.
根据矩阵乘积秩的性质:
又因为 $m_A(\lambda)$ 无重根, 所以
证毕.
应用
利用这个结论, 我们可以轻松判断一些矩阵是可以对角化的.
比如幂等矩阵 $A^2 = A$.由于 $f_A(\lambda)$ 没有重根, 所以 $m_A(\lambda)$ 也没有重根, 因此 $A$ 可对角化.
类似的, 如果 $A^2 = E$, 那么 $f(\lambda) =\lambda^n - 1$. $n$ 个不同的根, 说明 $A$ 可对角化.
圆盘定理
圆盘定理可以用来估计 $A_{n\times n} \in C^{n\times n}$ 的特征值范围.
通常矩阵的特征值都是求不出来的, 因此需要用圆盘定理进行近似估计.
第一圆盘定理
$\lambda$ 为 $A$ 的任意特征值, 那么
也就是说, $A$ 的任意特征值一定会落在某个圆盘内.
举例
那么在复平面上看, $\lambda$ 的范围是以 $(1, 0)$ 为中心 $\sqrt{5}$ 为半径的圆盘.
证明
不妨取 $A$ 的特征值为 $\lambda_0$, $\alpha = (x_1, x_2, \cdots, x_n)^T$ 为特征向量.
设 $\alpha = (x_1, x_2, \cdots, x_n)^T$ 中模最大的元素是 $x_i$.
那么
当然, 上述定理是关于 $A$ 的行的, 类似的我们也可以得到关于 $A$ 的列的结论.
第二圆盘定理
已经根据第一圆盘定理将 $A$ 的特征值 $\lambda_i$ 限制在复平面的圆盘中.
第二圆盘定理给出进一步的结论: 如果 $k$ 个圆盘重合, 那么这些圆盘的并集中存在 $k$ 个特征值.
举例来说, 如果两个圆盘有交集, 那么这两个圆盘的并集中肯定存在两个特征值.
特比的, 如果有 $n$ 个相互分离的圆盘, 那么 $A$ 可对角化.
(我感觉第二圆盘定理没有什么不平凡的地方啊, 这不就是直接根据第一圆盘定理推出的吗).
考虑 $A_{n\times n} \in R^{n\times n}$, 并且圆盘分离. 那么 $A$ 的特征值都为实数.
简略说明如下:
$A$ 的特征方程为实系数方程, 因此 $f_A(\lambda) = 0$ 的根必然是共轭的.
也就是说, 若 $f_A(a+bi) = 0$, 那么 $f_A(a-bi) = 0$.
那么在复平面上有沿着 $x$ 轴对称的两个点 $(a, b), (a, -b)$.
又因为第一圆盘定理对实矩阵限定的圆盘, 其圆心也在 $x$ 轴上, 所以圆盘中至少有两个特征值.
与第二圆盘定理说的, 单独的圆盘只有一个特征值矛盾.
例题
给定某 $A_{4\times 4}$,
- (1), 估计特征值范围
(2), 证明 $A$ 可逆.
证明 $A$ 可逆的思路有
- 算行列式 $|A - \lambda E| = 0$, 发现没有 $\lambda = 0$ 的根.
- 利用行变换证明 $A$ 满秩
- 观察 (1) 中的圆盘, 发现零点不在任何圆盘中
谱半径
谱半径 $\rho(A)$ 定义为 $\max {|\lambda_1|, |\lambda_2|, \cdots, |\lambda_n|}$.
$\mu, \mu’$ 分别表示 行(列)元素模的和 的最大值.
我们有结论 $\rho \leq \min {\mu, \mu’}$
尚未给出证明
作业
矩阵分解占分不少, 老师提醒我们要开始复习了.