1.KL散度

  • 用来衡量两个分布之间的差异,等于一个交叉熵减去一个信息熵(交叉熵损失函数的由来)
    在这里插入图片描述

1.1 KL散度的性质

  • 非负性(用Jenson‘s inequality 证明)
  • 不对称性,即KL(P||Q)≠KL(Q||P)

1.2 KL散度的问题即JS散度的引出

  • 正是由于KL散度的不对称性问题使得在训练过程中可能存在一些问题,为了解决这个问题,我们在KL散度基础上引入了JS散度

2. JS(Jenson’s Shannon)散度

  • 一般地 ,JS散度是对称的,其取值是 0 到 1 之间。如果两个分布 P,Q 离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为 0。 梯度消失了。

为什么会出现两个分布没有重叠的现象

参考此博客

文章目录1.KL散度1.1 KL散度的性质1.2 KL散度的问题即JS散度的引出2. JS散度为什么会出现两个分布没有重叠的现象参考文献1.KL散度用来衡量两个分布之间的差异,等于一个交叉熵减去一个信息熵(交叉熵损失函数的由来)1.1 KL散度的性质非负性(用Jenson‘s inequality 证明)不对称性,即KL(P||Q)≠KL(Q||P)1.2 KL散度的问题即J... ●非负性。即KL 散度 大于等于零。 ●非对称性。即运算时交换P和Q的位置,得到的结果也不一样。(所以这里严格来讲也不能把KL 散度 称为KL距离,距离一定符合对称性,所以要描述准确的话还是建议用KL 散度 来表述) 对离散分布来说:
Jensen Sha nnon div ergence (J-S 散度 ) is a method of measuring the similarity between two probability distributions. It is based on the Kullback Leibler div ergence (K-L 散度 ), with some notable (and useful)...
前面我们介绍了相对熵(KL 散度 )的概念,知道了它可以用来表示两个概率分布之间的差异,但有个不大好的地方是它并不是对称的,因此有时用它来训练神经网络会有顺序不同造成不一样的训练结果的情况(其实个人觉得也就是训练时间差异罢了,也没那么严重)。为了克服这个问题,有人就提出了一个新的衡量公式,叫做 JS JS JS 散度 ,式子如下: JS (P1∥P2)=12KL(P1∥P1+P22)+12KL(P2∥P1+P22...
JS 散度 ( Jensen - Sha nnon ) JS 散度 度量了两个概率分布的相似度,基于KL 散度 的变体,解决了KL 散度 非对称的问题。一般地, JS 散度 是对称的,其取值是0到1之间。 定义如下: KL 散度 JS 散度 度量的时候有一个问题: 如果两个分配P,Q离得很远,完全没有重叠的时候,那么KL 散度 值是没有意义的,而 JS 散度 值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为0。梯度消失了。
3. JS div ergence 不是最佳的 div ergence        在第三篇当中我们介绍了fGAN告诉我们的结论:不只是 JS div ergence ,任何的 div ergence (统称为f- Div ergence )都可以被放到GANs的架构中去。    &amp
KL 散度 JS 散度 、Wasserstein距离一、KL 散度 二、 JS 散度 三、Wasserstein距离 一、KL 散度 KL 散度 又称为相对熵,信息 散度 ,信息增益。KL 散度 是两个概率分布 P 和 Q 差别的非对称性的度量,如果两个分布 P 、Q 离得很远,完全没有重叠的时候,那么KL 散度 值是没有意义的。 KL 散度 是用来度量使用基于 “Q的编码” 来编码来自 “P的样本” 平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布、模型分布、或P的近似分布。定义如下: 因为对数函数是凸
转自:https://www.jianshu.com/p/43318a3dc715?from=timeline&isappinstalled=0 https://blog.csdn.net/ericcchen/article/details/72357411 https://www.cnblogs.com/smuxiaolei/p/7400923.html 实际含义包括数据和假设的概...
文章目录前言KL div ergence JS div ergence Wasserstein distance总结 这三个东西都可以用来两个分布的差异。其中三最难,其本身是来自另外的领域,如果你不想深入研究,理会精神和来龙去脉即可。 KL div ergence 这个话不多说,更加详细的讲解见:KL 散度 (主)和交叉熵(次)的介绍。 所以此处直接列公式, JS div ergence 即: Jensen - Sha nnon Div ergence 其来源于KL div ergence ,其计算方式如下: 可见,其是对称