把這種推演用到任意信息源。如果一個信息源往外蹦的隨機變量都獨立而且服從同一個定義在S={1, 2,…, M}上的分布P(x),那麽以下結論依次成立。
信息源裡蹦出的隨機序列幾乎可以肯定是典型的!
每個典型序列出現的概率差不多就是 P(1)^(nP(1))*P(2)^(nP(2))*…*P(M)^(nP(M))!
典型序列的個數 T 差不多就是P(1)^(-nP(1))*P(2)^(-nP(2))*…*P(M)^(-nP(M))!
壓縮這個信息源蹦出的每個隨機變量平均所需要的最少比特數就是(logT)/n!
這個數字(logT)/n 就等於:-P(1)log P(1)- P(2) log P(2)- …- P(M)log P(M).
這個數字,就是熵。
從熵的表達式看,熵是通過一個概率分布函數 P(x)來定義的。因為概率分布函數 P(x)都對應於它所描寫的隨機變量 X,所以俺們也可以認為熵是對隨機變量 X 的某種特性的度量,而把它記作 H(X)。從壓縮的角度講,熵值 H(X)是對產生隨機變量 X 的信息源編碼所需要的平均最小比特數,或隨機變量 X 中固有的平均信息量。