KL散度与Seq2Seq模型倾向生成通用回复现象之间的联系

KL散度定义

KL散度是用来衡量两个分布之间差异的非对称性度量,即K(p||q)不等于K(q||p)

KL散度越接近1,说明两个分布约相似,越接近0则分布差异性越大

性质:

证明:

证明过程中使用了Jensen’s inequality(Jensen不等式)性质。

对话生成中Seq2Seq模型的优化目标

采用极大似然估计的优化策略,加负号变为损失函数,可以进行下面的变形:

根据KL散度的定义,结合图像

在点A时,被积函数为正,且绝对值较大
在点B时,被积函数为负,且绝对值较小

对于到Seq2Seq的优化目标中,真实分布概率高而生成分布概率低的情况导致损失函数的值较高。

真实分布是既定事实,无法调整,而生成分布可以通过调整参数,使那部分的生成概率升高,来降低损失函数的值。真实分布中出现概率较高的回复就是通用回复,因此模型倾向于提高这些通用回复的生成概率,导致训练好的Seq2Seq模型倾向于生成通用回复。

发表评论

电子邮件地址不会被公开。 必填项已用*标注