PS7 - 小專題: 為何高斯分佈擁有最大熵?

高爾頓板,或稱做quincunx,是由Galton爵士 (1822-1911) 所發明用來驗證中央極限定理 (CLT) 的裝置。它也是第一位討論均值回歸 (regression to the mean) 現象的科學家,但同時亦是優生學 (eugenics) 這樣錯誤觀念的推廣者

上篇雜記的結尾我們提到了對於一個趨於穩態的系統擁有最大的熵,而這也是統計力學的直接應用,用物理的角度來講便是當系統平衡時 Gibbs 自由能不再變化 (\(\Delta G =0\)),而在此時會對應到系統的熵有全域極大值 (global maximum)。故大自然很多現象都已經處於穩態的狀況下,我們對這個現象的母體做抽樣,所得到的觀測樣本應也有最大熵,則描述這些觀測樣本最好的分佈便是符合該條件下擁有最大熵的機率分佈。而指數族的分佈符合最大熵的特點,我們在這個小專題內便嘗試證明高斯與二項式分佈在連續和離散的隨機變量下的條件擁有最大熵的性質。

一、機率熵

上篇雜記裡裡我們探討了夏儂熵,或者稱作資訊量\(I\)的意含,所以一個系統內 (我們這裡就不再用系綜這種彆扭的歷史名詞了) 每個成員出現的機率是\(p_i\),則對該系統的熵可以用夏儂熵公式來表示 \[ I(p) = -\sum_i p_i \ln p_i. \tag{7.1} \] 所以對某一組連續機率分佈函數\(p(x)\),其中\(x\)是隨機變量,則將(7.1)的求和符號改成積分後有 \[ I(p) = -\int p(x)\ln p(x) dx, \tag{7.2} \] 稱為機率分佈\(p(x)\)的機率熵,而積分的上下限則看隨機變量的範圍,例如高斯分佈就是\(\pm \infty\)。如果今天我們有兩組機率分佈\(p(x)\)和\(q(x)\),我們便可以定義它們之間的相對熵,或稱作KL散度 (Kullback-Leibler divergence),定義為 \[ D_{KL}(q,p)\equiv\int q(x)\ln \left(\frac{q(x)}{p(x)}\right) dx = I(q,p)-I(q)\geq 0, \tag{7.3} \] 是正定的 (positively defined),其中 \[ I(q,p)=-\int q(x)\ln p(x) dx, \tag{7.4} \] 稱作機率分佈\(q\)和\(p\)之間的交叉熵 (cross entropy)。

1.1 Gibbs不等式

為了得到KL散度大於0可以透過Gibbs不等式 (Gibbs' inequality) 來看,我們有 \[ I(q) \leq I(q,p), \tag{7.5}\] 等號成立在\(q=p\),所以Gibbs不等式表示任一機率分佈\(q\)的機率熵恆小於它和任意其他分佈\(p\)的相對熵。故套回(7.3)我們得到了KL散度恆為正的特點。

二、連續分佈的情況

那麼我們已經有我們所需要的資訊了,回到高斯分佈的議題上。我們寫下高斯分佈的分佈函數為 \[ p(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[ -\frac{(x-\mu)^2}{2\sigma^2} \right],\tag{7.6} \] 其中\(\mu\)和\(\sigma\)分別表示平均數和標準差。則套用(7.2)我們得到高斯分佈的機率熵為\(I(p)=\ln \sqrt{2\pi e} \sigma\),而對其它擁有相同的標準差但不知名的分佈函數\(q(x)\),它和高斯分佈之間的交叉熵則是 \[ \begin{align*} I(q,p) & =-\int q(x)\ln p(x)=-\int q(x)\ln\left\{ \frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(x-\mu)^{2}}{2\sigma^{2}}\right]\right\} dx\\ & =\ln(\sqrt{2\pi}\sigma)\underbrace{\int q(x)dx}_{1}+\frac{1}{2\sigma^2}\underbrace{\int q(x)(x-\mu)^{2}dx}_{q的變異數=\sigma^2}\\ & =\ln\sqrt{2\pi e}\sigma = I(p). \tag{7.7}\end{align*} \] 不難發現最後得到了\(I(q,p)=I(p)\)的結論。所以利用KL散度(7.3)恆為正的特點,我們有 \[ \begin{alignat*}{1} D_{KL}(q,p) & =I(q,p)-I(q)\geq0\\ I(q,p) & \geq I(q)\\ I(p) & \geq I(q),\tag{7.8} \end{alignat*} \] 第二步其實就是Gibbs不等式,而最後一步則用了(7.7)的結果。所以(7.8)告訴我們對任意連續分佈\(q\),高斯分佈的熵\(I(p)\)恆大於等於\(I(q)\),高斯分佈擁有最大熵得證。
 另外就是如果不知道KL散度為正定(7.3)的話,我們直接從Gibbs不等式著手也可以導出(7.8)的結論,這是因為KL散度大於0這件事之所以成立是來自於Gibbs不等式(7.5)的直接應用。

三、離散分佈的情況

按照上節的結論,我們是不是可以直接猜測離散分佈的話則是二項式分佈 (binomial distribution) 擁有最大熵?答案是對的,讓我們先看一下二項式分佈 \[ p(k;n,\lambda)=C^n_k\left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k}.\tag{7.9} \] 若為丟銅板問題,則(7.9)意味著在\(n\)次丟銅板試驗中出現正面次數的期望值是\(\lambda\),而拋出\(k\)次正面的機率分佈。所以其對應的機率熵為 \[ \begin{alignat*}{1} I(p) & =-\sum_{k}p(k)\ln\left[C_{k}^{n}\left(\frac{\lambda}{n}\right)^{k}\left(1-\frac{\lambda}{n}\right)^{n-k}\right]\\ & \propto-\sum_{k}p(k)\left[k\ln\left(\frac{\lambda}{n}\right)+(n-k)\ln\left(1-\frac{\lambda}{n}\right)\right]\\ & =-\sum_{k}p(k)\left[k\ln\left(\frac{\lambda}{n-\lambda}\right)+n\ln\left(\frac{n-\lambda}{n}\right)\right]\\ & =-n\ln\left(\frac{n-\lambda}{n}\right)-\ln\left(\frac{\lambda}{n-\lambda}\right)\underbrace{\sum_{k}p(k)k}_{\lambda},\tag{7.10} \end{alignat*} \] 第二步的正比(\(\propto\))符號是因為\(\sum_k p(k)\ln C^n_k\)是一常量,我們將它從方程中剔除較易於討論。
 相對於另一個不知名的離散分佈\(q(k)\),其中\(k\)是離散的隨機變量,我們有交叉熵 \[ \begin{alignat*}{1} I(q,p) & =-\sum_{k}q(k)\ln\left[C_{k}^{n}\left(\frac{\lambda}{n}\right)^{k}\left(1-\frac{\lambda}{n}\right)^{n-k}\right]\\ & \propto-n\ln\left(\frac{n-\lambda}{n}\right)-\ln\left(\frac{\lambda}{n-\lambda}\right)\underbrace{\sum_{k}q(k)k}_{\bar{k}},\tag{7.11} \end{alignat*} \] 接著令\(\bar{k}=\lambda\),我們就有\(I(q,p)=I(p)\)。直接套用Gibbs不等式得到 \[ I(q)\leq I(q,p)=I(p).\tag{7.12} \] 則二項式分佈相較於其他離散分佈\(q\)有最大熵得證。

四、小結

這裡我們佐證了兩個常用的分佈之所以可以適用在大部分自然現象的觀測是因為它們有最大的機率熵,而這些機率分佈都屬於指數家族的成員,其實也可以做個推廣,對指數家族成員都擁有在給定條件下的最大熵分佈,所以它們非常的適合拿來描述一個處於穩態 (或亞穩態) 的自然現象或系統。從數理邏輯的角度出發,對我們使用高斯分佈的合理性給出了依據,終於不再懵懵懂懂不知所以然的使用它們了!

留言

這個網誌中的熱門文章

物理雜記3 - Ising模型與模擬退火

IA9a - K-means分群與EM算法: 理論