神经网络基础——矩阵求导运算
本篇文章不涉及过多理论推导。关于本篇文章,在实践中会用即可。 矩阵求导有以下9种可能情况:
| 自变量/因变量 | 标量 |
向量 |
矩阵 |
|---|---|---|---|
| 标量 |
|||
| 向量 |
|||
| 矩阵 |
以下分别讨论。
一阶导数
标量对标量求导
这里是最简单的情况,本篇默认读者已掌握,不再赘述。
向量对标量求导
行向量对标量求导
设行向量,则有
列向量对标量求导
设列向量,则有
矩阵对标量求导
设,则有
标量对向量求导
标量对行向量求导
设,则有
标量对列向量求导
设,则有
标量对矩阵求导
设,则有
向量对向量求导
列向量对行向量求导(雅可比矩阵)
设,则有
上式也称为雅可比矩阵
行向量对列向量求导
设,则有
行向量对行向量求导
设,则有
其中的定义见行向量对标量求导
列向量对列向量求导
设,则有
其中的定义见列向量对标量求导
矩阵对向量求导
矩阵对行向量求导
设,则有
其中的定义见矩阵对标量求导
矩阵对列向量求导
设,则有
其中的定义见矩阵对标量求导
向量对矩阵求导
行向量对矩阵求导
设,则有
其中的定义见行向量对标量求导
列向量对矩阵求导
设,则有
其中的定义见列向量对标量求导
矩阵对矩阵求导
设,则有
其中的定义见矩阵对标量求导
二阶导数
二阶导数可以视作对一阶导数的导数,从而推导出来。这里要介绍的是一个特别的导数结果,称为海森矩阵(Hessian矩阵)。
海森矩阵
设标量和行向量
。Hessian矩阵定义为
对
的二阶导(第二次求导要转置行向量
),即
查看12道真题和解析