IA9a - K-means分群與EM算法: 理論
![]() |
市場內分門別類的產品 |
原則上K-means分群是EM算法 (expectation-maximization algorithm) 的一個特例,相較於EM從似然函數 (likelihood) 的方式出發並導出不同資料點對不同群 (或稱聚類、簇,cluster) 的貢獻度,K-means單純用歐氏距離來分類,雖然這加快了K-means算法的計算效率,但顯然的這麼naïve的方法會產生明顯的缺陷。但仍讓我們會先從簡單的K-means開始,並探討K-means算法的結果在某些情況下和人類肉眼辨識的結論會產生明顯的歧義,接著再推進到通用的EM算法,除了python的demo外,我也會證明在數學上如何從EM得到K-means的極限 (僅限高斯混合的情況),而在這個part內,讓我們先從數學理論的角度來面。
一、K-means分群
今天如果我有一大坨資料共120個點如圖1所示,從資料的散佈趨勢來看,很明顯的分成兩群,那我們是不是可以有一個演算法來自動化將資料點如同我們臆測的一樣分成兩袋?一個最簡單的發法便是使用K-means分群,而這個大寫K表示群的數量,以圖1而言,我們猜測K=2,所以是個2-means分群問題。![]() |
圖1. 資料散佈圖 (普魯士藍) 與初始化的紅綠兩點 |
所以為了達成分群,我們需要先初始化兩個點,這兩個點代表兩群的中心。事實上,初始化的位置不必要一定剛好在兩群的中心,可以是任意挑選的地方,但為了計算方便,我們會將起始化的兩點開始在靠近資料點的平均值附近,如同圖1中紅綠兩點。我們將這兩個初始化的點叫作pk其中k=1,2表示第k群。另外將資料點的集合用D={d1,d2⋯dn⋯d120}表示,所以我們計算每個點dn=(xdn,ydn)和pk=(xpk,ypk)的歐氏距離 ℓn,k=√(xdn−xpk)2+(ydn−ypk)2. 若該點和p1的距離小於和p2的距離 (ℓn,1<ℓn,2),則我們說dn比較靠近p1且應該和p1分在一起。當所有的點都輪過一次Eq. (1)的計算後,應該會分出兩群了,我們在分別計算出這兩群的平均位置並將之重新賦與給p1,2並完成一次迭帶的結果,如圖2。
![]() |
圖2. 經過一次迭代後的結果 |
不難發現淺綠色和淡橘色的兩群資料點便是經過Eq. (1)後認定應該是分在一起的群組,然後透過這兩群我們重新計算這兩群的平均點,新的pk已經和圖1的位置不一樣了。我們將新的pk代入Eq. (1)同樣的重複迭代過程,直到紅綠兩點都不再變化位置為止,最終的結果如圖3,這是經過3次迭代後的結果,現在每個資料點都已經找出和它最靠近的群了。由於這個過程非常簡單,我們就不列出代碼細節,可以參考隨附的python腳本 (會在part 2和EM算法一起給),但我們接下來會看到K-means算法會產生一個和人類視覺相抵觸的結果,而這顯然是K-means分群的謬誤。
![]() |
圖3. 經歷三次迭代後紅綠兩個資料群的平均點皆不再移動位置 |
1.1 錯的離譜!
為了容易比較,我們生成兩群一樣120個資料點,分別從均值為 μ1=(0,1),μ2=(2.7,3.8) 和協方差矩陣 (covariance matrix) 為 Σ1=(0.10.0840.0847),Σ2=(0.1−0.142−0.1429) 的高斯分佈中所生成,當然電腦只會看到它們merge在一起而不是兩個分開的群。接著我們一樣給定兩個初始點pk如圖4。![]() |
圖4. 由高斯分佈生成的兩群資料點與初始化點pk |
很合理的認為,通過Eq. (1)的K-means算法,最終我們應該可以分出左右兩群,況且初始化點也離我們的視覺所告訴我們群的位置,這應該不是個難事。我們通過3次迭代後如圖5所示,這個結果非常令人跌破眼鏡,一個對人類來說如此容易辨別的分群,電腦居然出現除此離譜的謬誤。K-means並沒有將資料點分成左右兩群,而是將它分成上下兩群,如果你以為在多幾次迭代結果會自動修正,那麼很遺憾的只是徒勞而已,K-means truncated在這個莫名其妙的地方了!
![]() |
圖5. 經過5次迭代K-means分群的結果 |
但如果我們真的仔細檢視每一次迭代得出對每個dn的ℓn,k,我們會發現K-means其實非常正確的分出了該dn比較靠近p1或p2,所以數學上如圖5的結果並沒有違背我們對K-means的認知,所以可見K-means並不善於分類這種狹長形不對稱結構的資料分佈。也許你會從圖3的比較猜484這個K-means比較能分上下而不分左右,答案是no-no,見圖6,我們將Σk的對角元素對調 (原本朝x方向伸展的變成朝y方向伸展),並重新run一次K-means,分類結果一樣不如預期啊!
![]() |
圖6. 對調Σk的對角元素生成的資料點使用K-means分群經過5次迭代後的結果,一樣和我們的分群預測相抵觸 |
二、是你的還是我的?EM演算法
我們在上一節中明顯的看到,K-means透過歐氏距離ℓ來區分每個資料點dn到底比較靠近哪個pk,如果在這次迭代中我發現某個點比較靠近第p1 (即ℓn,1<ℓn,2,則它強迫dn被分到第1群去,而最後再用所有被強迫分到第1群去的點的平均算出下一個p1。這種方式就像IA8裡提到的ICM一樣,到底該取什麼值 (分到哪群去) 都是絕對的,所以只要assign的時候分錯 (這種錯不是電腦的錯,而是我們在implant算法的時候思考就錯了),我又用錯誤的分群在計算下一次分群所需的pk,最後K-means不斷使用錯誤的分群來做迭代,最終得到的分類結果當然也不會是正確的了,就像是被truncated在局域而非全域的最佳解上!所以我們希望每個點被分到哪個群不再是一個yes/no (binary系統) 的問題,而是一個機率決定的問題。比如一樣以一個K=2的情況,我們讓每個點都得到一個值0≤γn≤1,愈小則表示離群1的中心值愈靠攏,愈大則離群2的中心愈靠攏,所以我們不再像之前一樣強迫分兩類,而是以比例原則來調控每個點到底比較有可能屬於哪個群。如果群與群之間有著明確的楚河漢界,那群的界線就會非常明確,若群與群彼此交融,那麼這條界線就會是一個漸進的過程,我們將在下面看到。在正式進入EM算法以前,讓我們先談一談高斯混合模型 (mixtures of Gaussians) 。
2.1 高斯混合模型
首先將資料集寫成x (其實就是前面的d),因為每個資料點都可以看成是從某個分佈中採樣的點所組成的隨機變量 (這有個專門稱呼讀術語叫獨立同分佈iid)。在繼續以前,讓我們先介紹一個有K個元素的向量z,特別的是在這個向量裡面總是只有一個元素不為0,其值為1,考慮一個K=6 (或稱6維) 的例子我們有z=(0,0,1,0,0,0),所以對z裡的每個元素zk∈{0,1},但又限製了只有一個不為0,我們又稱這種向量叫one-hot向量 (one-hot vector) 或1-of-K表示 (1-of-K representation)。![]() |
圖7. z和x之間的關係圖 |
所以對一個z,假設第k元素為1 (也透露了其它都是0) 的機率是 p(zk)=πk, 再者,我們假設z和隨機變量x之間有一個如圖7所描述的關係。所以我們稱z是x的隱變數 (hidden/latent variable),而聯合機率為 p(x,z)=p(x|z)p(z). 而對一個z而言,我們有 p(z)=K∏kπzkk, 強調一下Eq. (4)並不是likelihood function而是和Eq. (2)等價的描述。假定z的第k個元素zk=1且滿足1≤k≤K,那麼我們有Eq. (4)變為 p(z)=π01π02⋯π1k⋯π0K−1π0K=1×1×⋯×πk×⋯×1×1=πk 正是Eq. (2)!假使給定zk=1的條件生成x的機率是 p(x|zk=1)=N(x|μk,Σk) 則等價為 p(x|z)=K∏k=1N(x|μk,Σk)πk. 這樣便完成大部分的數學工作了。
由於我們只在意x,所以我們要計算Eq. (3)的邊緣機率 p(x)=∑zp(x|z)p(z) 來得到關於x的所有訊息,通過Eqs. (4,6)展開後我們有 ∑zp(x|z)p(x)=∑z∏kN(x|μk,Σk)zk∏kπzkk=N(x|μ1,Σ1)π1|z=(1,0,0....)+N(x|μ2,Σ2)π2|z=(0,1,0....)+N(x|μ3,Σ3)π3|z=(0,0,1....)+⋯+N(x|μK,ΣK)πK|z=(0...0,1)=K∑k=1πkN(x|μk,Σk), 故得 (上面那些∏k的求積符號當求和給出一個特定的比如說z2=1的向量z=(0,1,0...0)時就可以直接拿掉了,因為這些在相乘的因子除了k=2外都有一個0的次方,所以任何數的0次方都變成1了) p(x)=K∑k=1πkN(x|μk,Σk) 正是我們所要的高斯混合模型的表達式。Eq. (8)顯示了資料集x是由K個均值μk和斜方差矩陣Σk的高斯分佈所構成,每個分佈的權重是πk的機率分佈p(x)。
另一個有趣的分佈是若我們把圖7的箭頭反向,若已知x可不可以逆推回去對應的哪個k有zk=1的機率,實際上就是將Eq. (5)倒施逆行的意思,故我們通過貝氏定理有 p(zk=1|x)=p(x|zk=1)p(zk=1)p(x)=πkN(x|μk,Σk)∑Kk=1πkN(x|μk,Σk)≡γ(zk) 我們在當中使用了Eqs. (2,5,9)並定義該結果叫做γ(zk)。在上式中πk為zk=1的先驗機率,而γ(zk)則視為是當x給定 (被觀測到) 時zk=1的後驗機率。我們也稱γ(zk)為成分k作為解釋x的置信度 (responsibilities)。
2.2 EM演算法
OK,讓我們從Eq. (9)出發,整個式子表示了當給定參數μk和Σk後它們生成x的機率,若使x={xn}Nn=1且每筆資料都是從某個高斯混合中抽出的獨立同分佈樣本,我們有 p(xn)=∑kπkN(xn|μk,Σk), 故資料集x的似然函數顯然是 L(x)=N∏n=1p(xn)=N∏n=1[∑kπkN(xn|μk,Σk)]. 將其取對數後得到 lnL(x)=N∑n=1ln[∑kπkN(xn|μk,Σk)]. 而最佳的參數θ={π,μ,Σ}便是使得Eq. (11)有最大的組合,我們要使用maximum likelihood法 (可以參考PS6)。首先使Eq. (11)最大的μk可計算 ∂lnL∂μk=−N∑n=1πkN(xn|μk,Σk)∑jπjN(xn|μj,Σj)⏟γ(znk)Σk(xn−μk)=0. 預設Σk是non-singular,我們可以將上式乘上Σ−1k得到 μk=1NkN∑n=1γ(znk)xn 和 Nk=N∑n=1γ(znk) 其中γ(znk)解釋同Eq. (10),多了個下標n表示結果是對特定某個資料點xn最有可能的解釋。同理Σk和πk都可以用相同的方法導出,再繼續給出答案以前,讓我們先回顧一下Eq. (12)。
還記得一開始是假設資料點可以分成K個高斯分佈的群體,而μk表示的是第k個高斯的均值點,但與K-means不同的是,這個μk並不像K-means只考慮那些被assigned到第k個群裡的點才有貢獻,而是整個資料集的N個點都納入計算當中了。所以代表我們並沒有強迫哪個點被分類到哪個群,而是它們都是屬於整體分佈p(x)的一份子,我們改用在Eq. (12)裡的置信度γ(znk)來決定資料點xn有多大的貢獻會到第k個群裡,離k群近的置信度會比較遠的來得大以調控貢獻的程度。這樣折衷的方式較K-means來得有彈性,也避免落入將某次分錯結果的影響不斷傳播到往後的迭代中,我們稍後便會看到結果。
接著對Σk和πk的計算方法同上,只是將偏微分中的μk換掉罷了,結果如下 Σk=1NkN∑n=1γ(znk)(xn−μk)⊗(xn−μk) 和 πk=NkN. 在Eq. (14)裡的符號⊗表示外積 (outer product),以2維平面空間為例,兩個向量A和B外積變成 (a1a2)⊗(b1b2)=(a1a2)(b1,b2)=(a1b1a1b2a2b1a2b2), 而因為上式第2步的關係,也有人會寫成A⊗B=ABT,其中T表轉置 (transpose)。
所以我們便完成了所有的計算啦!不難發現在求參數θ前我們都需要先知道置信度γ(znk),置信度告訴我們每個資料點xn對第k個群的預期 (expectation) 貢獻是多少,所以首先求得γ(znk)便是EM算法中的第E步 (E-step),而有了置信度後,我們接著便可以導出使likelihood function最大化 (maximization) 的參數θ,這便是第M步 (M-step),故EM算法便是在這兩個步驟之間交替而成,直到達成特定的停止條件後便回傳數值結果 (EM-EM-EM-... until met stopping criterion)。
2.3 高斯混合的EM偽代碼
所以我們現在就可以來給出計算步驟的偽代碼了,當然最初的高斯混合分佈的所有參數都是隨機的,透過EM步驟不斷交替逐漸收斂到最佳的解上:
- 初始化參數群θ={μk,Σk,πk}
- E-step: 利用Eq. (10)計算每個資料點對第k個高斯分佈的置信度γ(znk)
- M-step: 利用γ(znk)和Eqs. (12-15)重新計算最佳參數群θ
- 檢查M-step所計算得到的參數是否收斂或達成停止條件,若有則停止計算,若否則重回第2步
三、超越高斯分佈: 通用EM
我們這節簡要的描述一個通用EM算法的概念,且不再要求資料的生成必須來自高斯分佈。假定如圖7的圖模型,我們知道資料集x和隱變量zk之間存在一定的連結 (兩個其實都是隨機變量),而它們之間又條件相依於參數群θ,一個顯然的聯合分佈變可以寫成p(x,zk|θ)。原則上如果{x,zk}構成一個完整資料集 (complete data set) 那麼直接計算這個聯合分佈就得到x的邊緣機率 p(x|θ)=K∑k=1p(x,zk|θ). 然而隱變量zk不能直接觀測到,我們只獲得了x的資訊,這稱做不完整資料集 (incomplete data set),所以直接計算Eq. (16)是不可能的,因為我們缺了資料輸入zk。為了能夠計算Eq. (16)我們必須先得到關於z的間接資訊,而這僅能從後驗機率p(zk|x,θ)中獲得 (如上一節的Eq. (10))。若現在我們有一組參數群的結果叫θold,它可能來自初始化的猜測,或是上一步迭代的結果,我們用它和x一起計算後驗機率p(zk|x,θold),這便是某個zk出現的機率,接著在將它乘上聯合機率分佈得到了 K∑k=1p(zk|x,θold)⏟上一步得到的θoldp(x,zk|θ)≡Q(θ,θold). 而我們必須找到一個新的參數θ使得Q有最大,即滿足 θnew=argmax Q(θ,θold), 其中稱Q作輔助函數 (auxiliary function)。而事實上Eq. (17)並不是很rigorously的從數學中推導出來的,它是透過一個紆迴的過程,期望找到參數θ能讓data likelihood function有最大 ˆθ=argmax L(θ)=argmax N∏n=1[K∑k=1p(xn,zkn|θ)], 這其實也是之前提過的MAP方法,我們假定Eq. (19)和Eq. (18)有正相關,能使Eq. (18)最大的參數也能使真正的likelihood function Eq. (19)有最大。
3.1 通用EM偽代碼
所以這裡給出通用EM的pseudocode,當給定觀測量x和隱變數z聯合分佈的形式 p(x,z|θ) (就忽略下標k了),我們就是要找出使p(x|θ)最大的參數θ:
- 初始化參數θold
- E-step: 計算後驗機率 (或稱置信度) p(zk|x,θold)
- M-step: 通過Eqs. (17,18)計算新的θnew
- 檢查是否收斂或達成停止條件,若是則停止計算,若否則用θnew取代θold並重回步驟2
留言
張貼留言