【數學心】第478章平均信息量

繁简轉換
[繁]
[简]

選擇背景顏色

選擇字體大小
[特大]
[大]
[中]
[小]

[回報錯誤]

《數學心》第478章平均信息量

　　如果隨機變量 X 是在 S={1， 2，…， M}裡取值，那麽可以證明，熵值 H(X)的取值必定在 0 和 logM 之間。當隨機變量 X 在 S 上均勻分布的時候，H(X)取最大值 logM;當 X 以百分之百的概率取 S 中的某個數值的時候，H(X)取最小值 0。前者對應於“不確定性”最大的 X，而後者對應於“不確定性”最小的(即完全可以確定的)X。所以，也可以把熵值 H(X)理解為對隨機變量 X 的“不確定性“(或“不可預測性”)的度量。

　　因此，隨機變量所包含的“信息量”和它的“不確定性”其實是同一個概念。一個隨機變量越難以確定，它所包含的信息量越多。這種認識對初次接觸熵的人來說或許不夠自然。但仔細體會一下，確實是有道理的。如果俺想告訴你的事你很容易猜到，或者說你不用問幾個問題就能知道，那俺要說的話對你來說就沒多少信息量。

　　在熵的定義裡-logP(a)又是什麽物理意義呢?當然這個數字可以理解為 a 編碼所需要的比特數(在前面例子裡，我們能看到以1/8概率出現的事件，需要用3個比特來編碼)。換一個角度理解，-logP(a)可以理解為 a 的“驚奇度”。一個出現概率極低的事件 a，比如世界末日，它一旦出現就會令人非常驚奇，所以對應的-logP(a)就會很大;而如果 a 出現的概率很大，它的出現就不會太令人吃驚，所以對應的-logP(a)就會很小。因此，熵值 H(X)也可以理解為隨機變量 X 的“平均驚奇度”。

鍵盤左右鍵 ← → 可以切換章節