机器学习数学基础之信息论

发布时间 2023-04-06 19:35:54作者: crazypigf

信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。

  • 发生可能性较大的事件包含较少的信息
  • 发生可能性较小的事件包含较多的信息
  • 独立事件包含额外的信息

对于事件 \(\mathbf x=x\),定义自信息self-information为:

\[I(x)=-\log P(x) \]

自信息仅仅处理单个输出。如果计算自信息的期望,它就是熵,记作\(H(P)\)

\[H(\mathbf x)=\mathbb E_{\mathbf x\sim P}[I(x)]=-\mathbb E_{\mathbf x\sim P}[\log P(x)] \]

\(KL\)散度:对于给定的随机变量\(\mathbf x\),它的两个概率分布函数 \(P(x)\)\(Q(x)\) 的区别可以用\(KL\)散度来度量:

\[D_{KL}(P||Q)=\mathbb E_{\mathbf xsim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb E{\mathbf x\sim P}\left[\log P(x) -\log Q(x) \right] \]

  • \(KL\)散度非负。当它为0时,当且仅当 \(P\)\(Q\)是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)
  • \(D_{KL}(P||Q) \neq D_{KL}(Q||P)\)

交叉熵\(cross-entropy\)\(H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb E{\mathbf x\sim P}\log Q(x)\)