极大似然估计与极大后验估计

极大似然估计(MLE,Max Likelihood Estimation)

极大后验估计(MAP, Maximum A Posteriori probability estimation)

似然函数与概率函数的区别 \(p(x|\theta)\)

频率学派和贝叶斯学派

先验与后验

贝叶斯估计

先验与后验共轭是贝叶斯估计问题可以进行简化

贝叶斯预测中的解构\(P(\hat{x}|X)\)

贝叶斯估计与贝叶斯预测

先占个坑,详细的内容后续有时间再填完

KL散度与Seq2Seq模型倾向生成通用回复现象之间的联系

KL散度定义

KL散度是用来衡量两个分布之间差异的非对称性度量,即K(p||q)不等于K(q||p)

KL散度越接近1,说明两个分布约相似,越接近0则分布差异性越大

性质:

证明:

证明过程中使用了Jensen’s inequality(Jensen不等式)性质。

对话生成中Seq2Seq模型的优化目标

采用极大似然估计的优化策略,加负号变为损失函数,可以进行下面的变形:

根据KL散度的定义,结合图像

在点A时,被积函数为正,且绝对值较大
在点B时,被积函数为负,且绝对值较小

对于到Seq2Seq的优化目标中,真实分布概率高而生成分布概率低的情况导致损失函数的值较高。

真实分布是既定事实,无法调整,而生成分布可以通过调整参数,使那部分的生成概率升高,来降低损失函数的值。真实分布中出现概率较高的回复就是通用回复,因此模型倾向于提高这些通用回复的生成概率,导致训练好的Seq2Seq模型倾向于生成通用回复。

梯度下降可行性的两种简单证明

梯度下降方法作为深度学习中优化算法的根基,那么到底为什么这种方法能够降低损失函数值呢,下面给大家分享两种“证明”方法,可能不是很严谨,但是能够说明问题。

定义问题:损失函数定义为\(L(w)\),其中 \( w \) 为参数

方法一:从导数定义的角度

简单从梯度的定义出发,进行简单的证明,可能不是很严谨,不过可以说明问题。

方法二:从泰勒公式的角度

以上两种方式中间推导过程有些相似,都首先采用了近似,然后再通过做差的方式构造一个非负数的平方项,完成证明。

参考文献: