线性映射和雅可比矩阵

一般的，我们将 $n$ 维空间中的向量记为 $\boldsymbol{x_{n\times1}}$ ， $m$ 维空间中的向量记为 $\boldsymbol{y_{m\times1}}$ ， $n$ 维空间的向量可以通过线性映射转化到 $m$ 维空间

\boldsymbol{y}=A_{m\times n}\boldsymbol{x}

矩阵 $A_{m\times n}$ 即为雅可比矩阵

A_{m\times n}=\begin{bmatrix} \displaystyle\frac{\partial{\boldsymbol{f}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{\boldsymbol{f}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{\boldsymbol{f}}}{\partial{x_{n}}} \end{bmatrix}

A_{m\times n}=\begin{bmatrix} \displaystyle\frac{\partial{f_{1}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{1}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{1}}}{\partial{x_{n}}} \\ \displaystyle\frac{\partial{f_{2}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{2}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{2}}}{\partial{x_{n}}} \\ \vdots & \vdots & \ddots & \vdots \\ \displaystyle\frac{\partial{f_{m}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{m}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{m}}}{\partial{x_{n}}} \\ \end{bmatrix}

为了与一般准则保持一致，我们使用 $J$ 来表示雅可比矩阵，其分量可表示为

J_{i,j}=\displaystyle\frac{\partial{f_{i}}}{\partial{x_{j}}}

雅可比矩阵推导

方阵

在推导雅可比矩阵前，我们要先了解两个数学概念之间的不同：函数与映射

根据《数学分析》中的概念：

$R^m$ —> $R$ 的这类映射我们称之为函数， $R^m$ —> $R^n$ 的这类映射我们称之为广义的映射

函数

根据上述的概念，我们可知函数是一种特殊的映射，其将 $m$ 维空间的向量映射为一个具体的数值

在函数领域，我们写出一般情况下的泰勒展开公式

一元函数的泰勒展开式：

f(x)=f(x_{k})+(x-x_{k})f'(x_{k})+\displaystyle\frac{1}{2!}(x-x_{k})^2f''(x_{k})+o((x-x_{k})^2)

二元函数的泰勒展开式：

\begin{gather*} f(x,y)=f(x_{k},y_{k})+(x-x_{k})f'_x(x_{k},y_{k})+(y-y_{k})f'_y(x_k,y_k)+ \\ \displaystyle\frac{1}{2!}(x-x_{k})^2f''_{xx}(x_k,y_{k})+\displaystyle\frac{1}{2!}(x-x_{k})(y-y_{k})f''_{xy}(x_k,y_{k})+\displaystyle\frac{1}{2!}(y-y_{k})^2f''_{yy}(x_k,y_{k})+o^n \end{gather*}

$n$ 元函数的泰勒展开式：。。。

将泰勒展开写成矩阵形式：

\begin{gather*} {f(\boldsymbol{x})}={f(\boldsymbol{x_k{}})}+[\nabla f(\boldsymbol{x_k{}})]^T(\boldsymbol{x}-\boldsymbol{x_k{}})+\displaystyle\frac{1}{2!}[\boldsymbol{x}-\boldsymbol{x_{k}}]^TH(\boldsymbol{x_{k}})[\boldsymbol{x}-\boldsymbol{x_{k}}]+o^n \end{gather*}

如果我们忽略泰勒展开中的高阶项，那么

f(\boldsymbol{x})\approx f(\boldsymbol{x_k{}})+[\nabla f(\boldsymbol{x_k{}})]^T(\boldsymbol{x}-\boldsymbol{x_k{}})

可进一步得到：

\Delta {f}=[\nabla f(\boldsymbol{x_k{}})]^T \Delta \boldsymbol{x} \tag{1}

其中， $\Delta \boldsymbol{f}$ 和 $\Delta \boldsymbol{x}$ 的维度相同，将其转换成微分的形式，结合微分与梯度中多元函数微分的形式更好地理解

df(x_1, x_2, ...,x_n) =\begin{bmatrix} \displaystyle\frac{\partial{f}}{\partial{x_{1}}} \displaystyle\frac{\partial{f}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f}}{\partial{x_{m}}} \\ \end{bmatrix}\begin{bmatrix} dx_1 \\ dx_2 \\ \vdots \\ dx_m \\ \tag{*} \end{bmatrix}

映射

映射相比函数而言更为普适，其代表 $m$ 维空间向 $n$ 维空间的映射，即将一个 $m$ 维的向量映射为一个 $n$ 维的向量函数

对照公式* ，我们把等式左侧的单一值函数微分变为由 $m$ 个函数微分组成的向量函数微分，该向量函数微分的每个分量函数微分都是由 $n$ 维向量 $\boldsymbol{x}$ 的微分与对应函数偏导的内积映射而来，共有 $m$ 个函数微分，故单一值函数的多元函数微分映射关系被执行了 $m$ 次，有：

\begin{bmatrix} df_1 \\ df_2 \\ \vdots \\ df_m \\ \end{bmatrix}=\begin{bmatrix} \displaystyle\frac{\partial{f_{1}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{1}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{1}}}{\partial{x_{n}}} \\ \displaystyle\frac{\partial{f_{2}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{2}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{2}}}{\partial{x_{n}}} \\ \vdots & \vdots & \ddots & \vdots \\ \displaystyle\frac{\partial{f_{m}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{m}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{m}}}{\partial{x_{n}}} \\ \end{bmatrix}\begin{bmatrix} dx_1 \\ dx_2 \\ \vdots \\ dx_n \\ \end{bmatrix}

对等式左右两侧的微分作积分，即可得到一般形式下的 $n$ 维向量向 $m$ 维向量映射的关系式：

\begin{bmatrix} f_1 \\ f_2 \\ \vdots \\ f_m \\ \end{bmatrix}=\begin{bmatrix} \displaystyle\frac{\partial{f_{1}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{1}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{1}}}{\partial{x_{n}}} \\ \displaystyle\frac{\partial{f_{2}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{2}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{2}}}{\partial{x_{n}}} \\ \vdots & \vdots & \ddots & \vdots \\ \displaystyle\frac{\partial{f_{m}}}{\partial{x_{1}}} & \displaystyle\frac{\partial{f_{m}}}{\partial{x_{2}}} & \cdots & \displaystyle\frac{\partial{f_{m}}}{\partial{x_{n}}} \\ \end{bmatrix}\begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \\ \end{bmatrix}