梯度下降可行性的两种简单证明

梯度下降方法作为深度学习中优化算法的根基,那么到底为什么这种方法能够降低损失函数值呢,下面给大家分享两种“证明”方法,可能不是很严谨,但是能够说明问题。

定义问题:损失函数定义为\(L(w)\),其中 \( w \) 为参数

方法一:从导数定义的角度

简单从梯度的定义出发,进行简单的证明,可能不是很严谨,不过可以说明问题。

方法二:从泰勒公式的角度

以上两种方式中间推导过程有些相似,都首先采用了近似,然后再通过做差的方式构造一个非负数的平方项,完成证明。

参考文献:

发表评论

电子邮件地址不会被公开。 必填项已用*标注