矩阵传达了两种信息：

（1）静态信息
一个矩阵其实同时包含两个信息 :

在哪个向量空间下描述事物，即坐标系信息，以及坐标值信息。

（2）动态信息
一个矩阵表示一种线性变换；

矩阵的静态信息可以看作动态信息的矩阵经过变换后得来的。所以，一个矩阵可以拆分称几个矩阵相乘的形式。
一个 $m*n$ 的矩阵，即可看作一个线性映射：将所给矩阵从 $m$ 维空间映射到 $n$ 维空间。

1.线性变换

【从动态信息角度理解】

【1】线性变换几何直观理解

例如：旋转、推移，伸缩：

直线变换后仍是直线
直线比例保持不变
原点变换后仍是原点

【2】矩阵变换

注意相乘的顺序：

$$A_{线性变换后}=W \bullet A=线性变换\bullet原矩阵\tag{1}$$

矩阵变换实际上是“基的变换”，见式（3）（4）。

举例子，一个以原点为中心的正方形，基向量为 $i,j$ :
$$
\begin{bmatrix}
1 \\
0
\end{bmatrix} \
$$
\begin{bmatrix}
1 \\
0
\end{bmatrix}

然后逆时针旋转 $\theta$ ，即，旋转矩阵 $T_{rotate}=$
$$
\begin{bmatrix}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta)
\end{bmatrix} \tag{2}
$$
则基向量变为 $i’,j‘$ ：
$$
\begin{bmatrix}
cos(\theta) \\
sin(\theta)
\end{bmatrix} $$
$$
\begin{bmatrix}
-sin(\theta) \\
cos(\theta)
\end{bmatrix}
$$
也就是，旋转变换后的基向量就是旋转矩阵的列。————》列空间

用公式表述上述变化：
$$ A=a \bullet i+b \bullet j=[i,j] \bullet [a;b]=基\bullet坐标 \tag{3}$$

$$T_{rotate} \bullet A=T_{rotate} \bullet [i,j] \bullet [a;b]=[i’,j’] \bullet [a;b]=]A’ \tag{4}$$

$$A’=a \bullet i’+b \bullet j’\tag{5}$$

2.行列式

[1] 【从动态信息角度理解】

行列式的本质：行列式是线性变换的伸缩因子

看上述的旋转，旋转矩阵 $T_{rotate}$的行列式的值为：
$$
\begin{matrix}
cos(\theta) \bullet cos(\theta)-(sin(\theta) \bullet (-sin(\theta)))=1\
\end{matrix} \tag{5}
$$

即旋转变换后正方形的面积不变。

$$| 行列式 | > 1 , 对于图形有放大作用$$
$$| 行列式 |= 1 , 图形大小不变$$
$$0 < | 行列式 | < 1 , 对于图形有缩小作用 $$

[2] 【从静态信息角度理解/看成一个单纯的矩阵】

行列式值物理意义:

$$ 二阶矩阵A的行列式值 = 矩阵A的列组成的平行四边形的面积$$
$$三阶矩阵A的行列式值 = 矩阵A的列组成的平行六面体的体积$$

3.秩:

（将一个矩阵看作线性变换来思考）

秩：列空间的维度

数学家们定义，矩阵中的最大的不相关的向量的个数，就叫秩，即列空间的维度。

不在一条直线上的向量，即为不相关的向量。
【秩 = 列秩 = 行秩】是恒成立的。所以直接把「列秩」称为「秩」也不算错误

$$ 图像A——>秩为0的线性变换——>一个零维的点$$
$$图像A——>秩为1的线性变换——>一维直线$$
$$图像A——>秩为2的线性变换——>二维图像$$

所以,可以理解：

$没有线性变换矩阵可以将一个点还原为原来的图像，所以秩为0的矩阵没有逆矩阵，即不可逆。$

也就是：

$如果B经过线性变换P之后，得到结果M;但 M 无法经过线性变换还原为B,则称矩阵P不可逆$。

4.低秩的意义

形象地理解：

低秩表征一种冗余程度，秩越低表示数据冗余性越大，因为用很少几个基就可以表达所有数据了，也就是说，可以用 $rank(A)$ 个线性无关的特征向量通过线性组合，基本地还原图片$A$ 的信息。

一个矩阵是 low rank,说明它比它看起来更简单，矩阵信息量较低，实际坐标空间的维度就低，矩阵中大量内容线性相关，信息相关性高，则有规律，表示 $”可大幅压缩”$ ；

如果矩阵内容大量线性相关，则该矩阵可以等价位少数几个向量多次组合而来，对于机器学习而言，这种信息 $“易建模（我的通俗理解，容易学习出函数f）”$。

5.矩阵的特征值理解

此视频非常形象，这个系列的都很好。看完就懂啦！

矩阵乘法对应了一个变换，是把任意一个向量变成另一个方向或长度都大多不同的新向量。

在这个变换的过程中，原向量主要发生旋转、伸缩的变化。

如果矩阵对某一个向量或某些向量只发生伸缩变换，不对这些向量产生旋转的效果，那么这些向量就

称为这个矩阵的特征向量，伸缩的比例就是特征值。

6.奇异值的理解

【1】奇异值的物理意义

矩阵的奇异值是一个数学意义上的概念，一般由奇异值分解（即SVD分解，矩阵分解的一种）得到。

下面考虑二维矩阵 $A$（一张人脸图像，像素为 $450 \bullet 333$）。

将$A$进行奇异值分解，即分解为若干个秩一矩阵（秩为1的矩阵）之和：
$$
\begin{matrix}
A=\sigma_1u_1v_1^T+ \sigma_2u_2v_2^T+…+\sigma_ru_rv_r^T \
\end{matrix} \tag{6}
$$
其中等式右边每一项的系数 $\sigma$ 就是奇异值 , $u$、$v$ 分别表示列向量，大小分别为 $4501$ 和 $3331$。注意，每一项 $uv^T$ 都是秩一矩阵。将奇异值大小顺序排列，假定式（6）是按奇异值大小顺序排列的。

保留奇异值较大的几项（前几项），舍去奇异值较小的项（后几项），会得到和原图差别不大的图像。保留的项越多，结果和原图差距越小。对于含噪的，奇异值较小的项在很大概率上是噪点(在图像处理领域，应用于数据压缩和图像去噪)。
一般情况下，存储一张图片，并不需要存储所有的项，所以可以达到节省存储空间的目的。
假设保留前50项，结果已经很接近 $A$:$A$,$450 \bullet 333=149850$ ;
前50项,$(450+333+1) \bullet 50 = 39200$，存储量仅为前者的 20% 。
奇异值往往对应着矩阵中隐含的重要信息，且重要性和奇异值大小正相关。每个矩阵$A$都可以表示为一系列秩为 1 的“小矩阵”之和，而奇异值则衡量了这些“小矩阵”对于 $A$ 的权重。
知乎郑宁的回答特别好。

【2】奇异值的几何意义

博客讲得特别好。
未完待续