【數學心】第474章信源編碼對應20個問題

繁简轉換
[繁]
[简]

選擇背景顏色

選擇字體大小
[特大]
[大]
[中]
[小]

[回報錯誤]

《數學心》第474章信源編碼對應20個問題

　　現在回到“二十個問題”遊戲。如果這個遊戲一個一個分開玩，其實就是在數據壓縮的時候，對信息源裡蹦出的每個隨機變量單獨做壓縮。如果這個遊戲攢 n 個一起玩，其實就是對隨機序列中的 n 個隨機變量同時進行壓縮。顯然，對每個隨機變量單獨進行壓縮一定不會比對整個隨機序列同時做壓縮效率更高(這裡的效率是用平均每個隨機變量壓縮後的比特數來衡量的，比特數越低，效率越高)。這裡的道理是這樣的:比如俺倆攢 n 個“二十個問題”遊戲一起玩，但你設計問題的時候，每個問題只是針對序列中的一個隨機變量，而不是針對整個序列。這樣的問問題策略顯然等同於把每個遊戲分開玩。也就是說，這個遊戲一個一個分別玩可以認為是攢起來一起玩的一種特例。因而分別玩能達到的效率，攢起來玩也可以達到。因為同樣的道理，如果這個遊戲攢 2n 個一起玩，其效率也一定不比攢 n 個一起玩低。也就是說，為了提高效率，n 應該越大越好。

　　那麽攢起來玩的效率到底最高可以達到多少呢?或者說，對一個給定的信息源，平均每個蹦出來的隨機變量最少需要多少個比特來表示呢?這個數字通常跟序列的長度 n 相關，而且對於任意一個給定的 n，即使俺們能夠確定最優的壓縮方法，精確地確定這個數字也是一件很棘手的事。不過既然俺們已經認識到 n 越大越好，那不妨考慮 n 取無窮大吧。

　　當 n 取無窮大時，如果俺們能夠計算出信息源裡平均每個蹦出的隨機變量最少需要多少比特來表示，這個數字不僅標記了最優的壓縮效率，它同時還有著更深刻的物理意義:它跟序列的長度 n 無關，也跟編碼方法無關;換言之，這個比特數隻取決於信息源本身(即隨機變量X或其分布 P(x))。因為這個比特數是由最優編碼/解碼方法實現的，它同時說明了兩件事:

　　1.只要解碼端接收到的平均比特數不到這個數字(平均到每個隨機變量上)，不論用什麽編碼/解碼方法都一定無法重建信息源裡蹦出的隨機序列。

　　2.只要解碼端接收到的平均比特數超過這個數字，就一定有一種編碼/解碼方法可以使解碼端重建這個序列。

　　這就是說，在平均意義上，你一定需要這麽多比特來表達信息源裡蹦出的每一個隨機變量，而且只要這麽多比特就夠了！因此，這個比特數實際上就標注了這個信息源在以什麽樣的“速率”釋放“信息”，或者說標注了這個信息源裡蹦出的每個隨機變量平均包涵了多少“信息”！

　　下面俺們就來看看是否可以導出這個最小比特數。

　　嗯，沒錯，終於要掀開她的紅蓋頭了。等不及了吧。

鍵盤左右鍵 ← → 可以切換章節