1 前言
当模型在训练集上损失居高不下,且增加模型复杂度后损失未降反升时,问题通常不在于模型 bias,而在于优化过程本身——梯度下降易在高维损失景观中被困于鞍点,本文结合 Hessian 矩阵与实验证据,梳理相关核心结论。
2 梯度下降收敛停滞的关键原因
梯度下降过程中,当梯度∇L (θ)=0 时,损失函数值不再变化,优化陷入停滞。造成这一现象的原因并非仅为局部最小值点,还可能是鞍点,两者核心区别如下:
-
局部最小值点(local minimum point):梯度为 0,且任意方向移动损失均增大,优化达到局部最优;
-
鞍点(saddle point):梯度为 0,存在一对正交方向,沿其中一个方向移动损失增大,沿另一个方向移动损失减小,并非最优解,却会导致梯度下降停滞。
综上,局部最小值点与鞍点的梯度均为 0,这两类梯度为 0 的点统称为驻点。


那么当我们遇到梯度为 0 的驻点时,如何判断其是局部最小值点还是导致优化停滞的鞍点呢?此时需要引入 Hessian 矩阵进行判别:
3 Hessian 矩阵与二次型
要判断一个临界点到底是什么,我们需要用到二阶泰勒展开,在临界点 $\theta’$ 附近近似损失函数:
$$
L(\theta) \approx L(\theta’) + \frac{1}{2} (\theta - \theta’)^T H (\theta - \theta’)
$$
这里的 $H$ 就是Hessian 矩阵,是由损失函数 L (θ) 各参数的二阶偏导数构成的对称方阵,用于刻画损失函数曲率,辅助判断驻点类型。












