矩阵相关理解

矩阵传达了两种信息:

(1)静态信息
一个矩阵其实同时包含两个信息 :

  • 在哪个向量空间下描述事物,即坐标系信息,以及坐标值信息。

(2)动态信息
一个矩阵表示一种线性变换;

  • 矩阵的静态信息可以看作动态信息的矩阵经过变换后得来的。所以,一个矩阵可以拆分称几个矩阵相乘的形式。
  • 一个 $m*n$ 的矩阵,即可看作一个线性映射:将所给矩阵从 $m$ 维空间映射到 $n$ 维空间。

1.线性变换

【从动态信息角度理解】

【1】线性变换几何直观理解

例如 :旋转、推移,伸缩:

  • 直线变换后仍是直线
  • 直线比例保持不变
  • 原点变换后仍是原点

【2】矩阵变换

注意相乘的顺序:

$$A_{线性变换后}=W \bullet A=线性变换\bullet原矩阵\tag{1}$$

矩阵变换实际上是“基的变换”,见式(3)(4)。

举例子,一个以原点为中心的正方形,基向量为 $i,j$ :
$$
\begin{bmatrix}
1 \\
0
\end{bmatrix} \
$$
\begin{bmatrix}
1 \\
0
\end{bmatrix}

然后逆时针旋转 $\theta$ ,即,旋转矩阵 $T_{rotate}=$
$$
\begin{bmatrix}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta)
\end{bmatrix} \tag{2}
$$
则基向量变为 $i’,j‘$ :
$$
\begin{bmatrix}
cos(\theta) \\
sin(\theta)
\end{bmatrix} $$
$$
\begin{bmatrix}
-sin(\theta) \\
cos(\theta)
\end{bmatrix}
$$
也就是,旋转变换后的基向量就是旋转矩阵的列。————》列空间

用公式表述上述变化:
$$ A=a \bullet i+b \bullet j=[i,j] \bullet [a;b]=基\bullet坐标 \tag{3}$$

$$T_{rotate} \bullet A=T_{rotate} \bullet [i,j] \bullet [a;b]=[i’,j’] \bullet [a;b]=]A’ \tag{4}$$

$$A’=a \bullet i’+b \bullet j’\tag{5}$$

2.行列式

[1] 【从动态信息角度理解】

行列式的本质:行列式是线性变换的伸缩因子

看上述的旋转,旋转矩阵 $T_{rotate}$的行列式的值为:
$$
\begin{matrix}
cos(\theta) \bullet cos(\theta)-(sin(\theta) \bullet (-sin(\theta)))=1\
\end{matrix} \tag{5}
$$

即旋转变换后正方形的面积不变。

$$| 行列式 | > 1 , 对于图形有放大作用$$
$$| 行列式 |= 1 , 图形大小不变$$
$$0 < | 行列式 | < 1 , 对于图形有缩小作用 $$

[2] 【从静态信息角度理解/看成一个单纯的矩阵】

行列式值物理意义:

$$ 二阶矩阵A的行列式值 = 矩阵A的列组成的平行四边形的面积$$
$$三阶矩阵A的行列式值 = 矩阵A的列组成的平行六面体的体积$$

3.秩:

(将一个矩阵看作线性变换来思考)

秩 :列空间的维度

数学家们定义,矩阵中的最大的不相关的向量的个数,就叫秩,即 列空间的维度。

  • 不在一条直线上的向量,即为不相关的向量。

  • 【秩 = 列秩 = 行秩】 是恒成立的。所以直接把「列秩」称为「秩」也不算错误

$$ 图像A——>秩为0的线性变换——>一个零维的点$$
$$图像A——>秩为1的线性变换——>一维直线$$
$$图像A——>秩为2的线性变换——>二维图像$$

所以,可以理解:

$没有线性变换矩阵可以将一个点还原为原来的图像,所以秩为0的矩阵没有逆矩阵,即 不可逆 。$

也就是:

$如果B经过线性变换P之后,得到结果M;但 M 无法经过线性变换还原为B,则称矩阵P不可逆$。

4.低秩的意义

形象地理解:

低秩表征一种冗余程度,秩越低表示数据冗余性越大,因为用很少几个基就可以表达所有数据了,也就是说,可以用 $rank(A)$ 个线性无关的特征向量通过线性组合,基本地还原图片$A$ 的信息。

一个矩阵是 low rank,说明它比它看起来更简单,矩阵信息量较低,实际坐标空间的维度就低,矩阵中大量内容线性相关,信息相关性高,则有规律,表示 $”可大幅压缩”$ ;

如果矩阵内容大量线性相关,则该矩阵可以等价位少数几个向量多次组合而来,对于机器学习而言,这种信息 $“易建模(我的通俗理解,容易学习出函数f)”$。

5.矩阵的特征值理解

视频 非常形象,这个系列的都很好。看完就懂啦!

矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。

在这个变换的过程中,原向量主要发生旋转、伸缩的变化。

如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就

称为这个矩阵的特征向量,伸缩的比例就是特征值。

6.奇异值的理解

【1】奇异值的物理意义

矩阵的奇异值是一个数学意义上的概念,一般由奇异值分解(即SVD分解,矩阵分解的一种)得到。

下面考虑二维矩阵 $A$(一张人脸图像,像素为 $450 \bullet 333$)。

将$A$进行奇异值分解,即分解为若干个秩一矩阵(秩为1的矩阵)之和:
$$
\begin{matrix}
A=\sigma_1u_1v_1^T+ \sigma_2u_2v_2^T+…+\sigma_ru_rv_r^T \
\end{matrix} \tag{6}
$$
其中等式右边每一项的系数 $\sigma$ 就是 奇异值 , $u$、$v$ 分别表示列向量,大小分别为 $4501$ 和 $3331$。注意,每一项 $uv^T$ 都是秩一矩阵。将奇异值大小顺序排列,假定式(6)是按奇异值大小顺序排列的。

  • 保留奇异值较大的几项(前几项),舍去奇异值较小的项(后几项),会得到和原图差别不大的图像。保留的项越多,结果和原图差距越小。对于含噪的,奇异值较小的项在很大概率上是噪点(在图像处理领域,应用于数据压缩和图像去噪)。

  • 一般情况下,存储一张图片,并不需要存储所有的项,所以可以达到节省存储空间的目的。

  • 假设保留前50项,结果已经很接近 $A$:$A$,$450 \bullet 333=149850$ ;
    前50项,$(450+333+1) \bullet 50 = 39200$,存储量仅为前者的 20% 。

  • 奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关。每个矩阵$A$都可以表示为一系列秩为 1 的“小矩阵”之和,而奇异值则衡量了这些“小矩阵”对于 $A$ 的权重。
    知乎郑宁的回答特别好。

【2】奇异值的几何意义

博客 讲得特别好。
未完待续