PS3 — 心機已破礙為通: 是真理還是鬼扯? 檢定!
清院本清明上河圖—虹橋市集(1736),陳枚等五人 |
多少長安名利客,機關用盡不如君—黃庭堅《牧童詩》
一、數據有道理?
人生有很多面臨抉擇的時刻,雖然說不上是生死的訣別,大部分反倒是一些小家子氣的事情。今天想吃法國菜,但選哪間餐廳比較好呢?餐廳A得了4.1顆星而餐廳B只有3.5顆,所以表示A比較好囉?可是餐廳B的主廚比較帥耶>///<、另外出國訂旅館也是、向網路賣家買東西也先要看評價,甚至求神問卜也要打聽哪家廟比較靈驗、或信徒比較多,好像我許的願望比較有機會實現。
而對於商業經營者而言,每週消費者點清燉牛肉麵的數量比紅燒牛肉麵多了78碗,所以清燉牛肉麵銷量似乎較好,應該多備double的料以備不時之需?同樣的網頁廣告,用格式二的方式呈現在上週比格式一每天平均多出31次點擊數,所以格式二比較吸靚?
日常生活中,不僅僅是個人,也包含了企業,都不斷地在從大量的資料中希望能看出一絲端倪,來幫助我們做下一步的決定。這個決定攸關個體的利益,我做的決定是不是能幫助我獲得更多的快樂、更大的利潤?但是我們所看到,所掌握的數據,真的就如同表面的呈現這麼簡單嗎?背後是否藏有更多的秘密?讓我們來一窺數據世界的虛虛實實!
二、仰觀俯察,通德類情:母體與樣本
1. 見微知著,抽樣數據
前面的文章已經談到了真實的母體數量 (population) 之龐大,我們不可能殫精竭慮的遍歷所有群體中的個體,而是會從中採集一定數量的樣本 (sample),這個過程就稱作取樣 (或採樣、抽樣,sampling),以期能夠從這些樣本能夠展現出母體本身的特性,或甚至可以用來推斷母體在未來可能的趨勢與行為,見圖1。圖1. 母體 (population) 與樣本 (sample),重繪自ref. 2的Figure 2-1 |
為了能夠使採集的樣本具有代表性 (representativeness),採樣的過程必須是隨機,即隨機採樣 (random sampling)。例如總統選舉的民調是對台灣的國民做隨機電訪,雖說電訪應該是隨機的,但不同年齡層、不同性別、或居住在不同地區對政黨支持或是議題支持則有可能展現出不同的趨勢。所以在電訪時應盡量使樣本散居在台灣各地1,則可以避免天龍國觀點或南部觀點,或甚至選擇的區域都是特定年齡的人口,這種盡量保證各個類別的數據抽樣機會都是均等的步驟所得到的樣本便稱作簡易隨機樣本 (simple random sample),是避免產生樣本偏差 (sample bias) 的辦法之一2。
總括來說,並不是樣本數愈大愈好,反而是樣本的品質決定一切。如果今天都只抽天龍國的居民來做總統選舉的民調,就算抽了10萬個有效樣本,也抵不過只有2000個有效樣本的全國抽樣顯得有代表性。
1 不同地區由於人口不一,最後的結果是需要做加權的
2 在ref. 2, p. 45頁舉了1936年美國總統選舉Landon對上Roosevelt,當時的兩家民調公司Literary Digest和Gallup Poll (現在叫做蓋洛普民調) 預測了截然不同的結果。在於Literary Digest做民調時產生了樣本偏差,不經意地只選擇的特定有錢有勢的選民,而忽略了普羅大眾的聲音,所以導致預測Landon會大勝結果卻是雪崩式的大輸
假設母體有標準差\(\sigma\),那麼每次都抽取n個樣本並取平均\(\bar{x}_i\)重複無限多次後 (\(i\)表示從1到\(\infty\)),這無限多個樣本平均值所組成的分布的標準差可證為 (可惜我們這裡不導)\[{\rm SD}_{\bar{x}}=\frac{\sigma}{\sqrt{n}},\]但在通常的情況下我們並不知\(\sigma\)真正的值,所以我們可以用樣本本身的標準差\(s\)來取代\(\sigma\)作為對\({\rm SD}_{\bar{x}}\)的估計,這便稱作標準誤差 (standard error) ,其表示式為\[{\rm SE}_{\bar{x}}=\frac{s}{\sqrt{n}}.\]所以用\({\rm SE}_{\bar{x}}\)來估計\({\rm SD}_{\bar{x}}\),我們只需要做一次抽樣,找出這個抽樣的標準差\(s\)即可。另外如果每次抽樣的數量n愈大,所對應的\({\rm SE}_{\bar{x}}\)便愈小,亦即多次抽樣平均所組成的分布愈來愈集中且其平均值\(\sum_i \bar{x}_i /R\)也愈來愈靠近母體本身真正的平均值\(\mu\),也代表了樣本數愈多,其分布與母體分布的差異便愈小的意思!
總括來說,並不是樣本數愈大愈好,反而是樣本的品質決定一切。如果今天都只抽天龍國的居民來做總統選舉的民調,就算抽了10萬個有效樣本,也抵不過只有2000個有效樣本的全國抽樣顯得有代表性。
1 不同地區由於人口不一,最後的結果是需要做加權的
2 在ref. 2, p. 45頁舉了1936年美國總統選舉Landon對上Roosevelt,當時的兩家民調公司Literary Digest和Gallup Poll (現在叫做蓋洛普民調) 預測了截然不同的結果。在於Literary Digest做民調時產生了樣本偏差,不經意地只選擇的特定有錢有勢的選民,而忽略了普羅大眾的聲音,所以導致預測Landon會大勝結果卻是雪崩式的大輸
2. 樣本分布=母體分布?
首先在符號使用上,每次抽樣出來的樣本數據我們通常使用\(\bar{x}\)表示其平均,即樣本平均 (sample mean), 而母體平均 (population mean) 通常用\(\mu\)來表示。其中樣本平均是從抽樣結果中觀察到的,母體平均通常是從抽樣結果推斷出來的。那我們不禁要問,我們如何能確定抽出來的樣本可以貼近母體的狀態?假設母體有標準差\(\sigma\),那麼每次都抽取n個樣本並取平均\(\bar{x}_i\)重複無限多次後 (\(i\)表示從1到\(\infty\)),這無限多個樣本平均值所組成的分布的標準差可證為 (可惜我們這裡不導)\[{\rm SD}_{\bar{x}}=\frac{\sigma}{\sqrt{n}},\]但在通常的情況下我們並不知\(\sigma\)真正的值,所以我們可以用樣本本身的標準差\(s\)來取代\(\sigma\)作為對\({\rm SD}_{\bar{x}}\)的估計,這便稱作標準誤差 (standard error) ,其表示式為\[{\rm SE}_{\bar{x}}=\frac{s}{\sqrt{n}}.\]所以用\({\rm SE}_{\bar{x}}\)來估計\({\rm SD}_{\bar{x}}\),我們只需要做一次抽樣,找出這個抽樣的標準差\(s\)即可。另外如果每次抽樣的數量n愈大,所對應的\({\rm SE}_{\bar{x}}\)便愈小,亦即多次抽樣平均所組成的分布愈來愈集中且其平均值\(\sum_i \bar{x}_i /R\)也愈來愈靠近母體本身真正的平均值\(\mu\),也代表了樣本數愈多,其分布與母體分布的差異便愈小的意思!
圖2. (上): 原始收入資料的分布,共1000筆;從資料裡面(中): 取出n = 5;(下): 取出n = 25個數據並取平均,重覆1000次作其分布圖
|
我們來看個例子,假設國稅局內部資料統計出台灣某個區域居民的收入資料共1000筆如圖2(上),可以看出這個里的居民收入呈現一個雙峰的特性,月均收入是3.5萬元左右,標準差是1.91萬元,不過月收入超過10萬元的人也佔有舉足輕重的數量,所以影響了月均收入的值。為了不被極值 (extreme, outlier) 影響,我們採用裁剪平均值 (trimmed mean) 的方式來重新看待這個區域的月均收入3。去掉尾端10%的超高收入後,我們重新得到該區域的月均收入是3.04萬元,這樣的統計量比較貼近圖2(上)大部分居民的月收入區間,也非常接近中位數3.08萬元。
今有一家企業想要開一間賣場,但是賣場要賣哪些類型的商品需要評估該區域的平均收入而定,在無法取得國稅局內部的資料下,該企業打算自己使用電訪隨機抽樣來估計。除了取得該區域的平均收入外,也可以粗步估計該區域居民收入離散的程度,即從樣本的\(s\)推敲出母體的\(\sigma\)。我們可以從圖2(中)與圖2(下)發現隨機電訪25得到的\({\rm SE}_{\bar x}\)比隨機電訪5人更接近母體的\({\rm SD}_{\bar x}\),亦即電訪愈多人所得到樣本標準差\(s\)有更大的機會能代表母體標準差\(\sigma\)。這對於決策者來說,如果收入較集中在平均附近,那麼我就可以針對調查該收入水平的人的偏好去進特定的商品來賣。假設月均收入大部分集中在小康3萬上下,那麼他們可能偏好的就是量販店物美價廉的日用品而不是高單價或粗製濫造的便宜貨,所以店長就可以盡量不要進太多這類收入民眾不偏好的貨品,避免囤貨太久導致虧損。
另一方面如果收入偏向分散,那麼代表這個區域的居民購買類型可能很多元,可能有只負擔的起便宜貨的、有偏好物美價廉的商品的、也有願意掏腰包買高單價商品,店長在進貨的時候就可以將貨品分散各個類別裡,因為他知道如果只進其中幾種類型的商品,那麼最後可能讓部分的居民買不到他想要的東西,便索性不來了。
所以從這個例子我們可以了解到,如果能夠survey足夠的樣本,那麼我們便可以得到更貼近於真實情況的數據,這可以在我們做任何決策的時候提供堅實的立足點!在例子中重覆1000次當然是不可能也沒有意義的 (數學推導是取\(\infty\)次啊!!!),這只存在於模擬當中,是用來驗證當採樣數n夠大的時候,不僅僅降低了標準誤差,同時也傳達了樣本的標準差愈可能代表母體的標準差這個訊息,亦即這個大數樣本可用來代表母體的分布型態。
3 前面的文章我們只介紹了平均,並提到平均容易受極值影響,例如例子裡面的超高所得族群,這可能可以美化政府公布的數據,但是不能貼近民眾的感受。除了可以改採中位數外,我們也可以用裁剪的方式去掉頭尾分布中極端的部分,例如去掉頭尾各10%的超高和超低所得得到的平均,這就稱作裁剪平均值 (trimmed/truncated mean),這樣的統計量 (statistics) 就不比較不受極值影響,他們有個專有名詞作robust statistics,robust就是指紮實不受外在擾動的意思
今有一家企業想要開一間賣場,但是賣場要賣哪些類型的商品需要評估該區域的平均收入而定,在無法取得國稅局內部的資料下,該企業打算自己使用電訪隨機抽樣來估計。除了取得該區域的平均收入外,也可以粗步估計該區域居民收入離散的程度,即從樣本的\(s\)推敲出母體的\(\sigma\)。我們可以從圖2(中)與圖2(下)發現隨機電訪25得到的\({\rm SE}_{\bar x}\)比隨機電訪5人更接近母體的\({\rm SD}_{\bar x}\),亦即電訪愈多人所得到樣本標準差\(s\)有更大的機會能代表母體標準差\(\sigma\)。這對於決策者來說,如果收入較集中在平均附近,那麼我就可以針對調查該收入水平的人的偏好去進特定的商品來賣。假設月均收入大部分集中在小康3萬上下,那麼他們可能偏好的就是量販店物美價廉的日用品而不是高單價或粗製濫造的便宜貨,所以店長就可以盡量不要進太多這類收入民眾不偏好的貨品,避免囤貨太久導致虧損。
另一方面如果收入偏向分散,那麼代表這個區域的居民購買類型可能很多元,可能有只負擔的起便宜貨的、有偏好物美價廉的商品的、也有願意掏腰包買高單價商品,店長在進貨的時候就可以將貨品分散各個類別裡,因為他知道如果只進其中幾種類型的商品,那麼最後可能讓部分的居民買不到他想要的東西,便索性不來了。
所以從這個例子我們可以了解到,如果能夠survey足夠的樣本,那麼我們便可以得到更貼近於真實情況的數據,這可以在我們做任何決策的時候提供堅實的立足點!在例子中重覆1000次當然是不可能也沒有意義的 (數學推導是取\(\infty\)次啊!!!),這只存在於模擬當中,是用來驗證當採樣數n夠大的時候,不僅僅降低了標準誤差,同時也傳達了樣本的標準差愈可能代表母體的標準差這個訊息,亦即這個大數樣本可用來代表母體的分布型態。
3 前面的文章我們只介紹了平均,並提到平均容易受極值影響,例如例子裡面的超高所得族群,這可能可以美化政府公布的數據,但是不能貼近民眾的感受。除了可以改採中位數外,我們也可以用裁剪的方式去掉頭尾分布中極端的部分,例如去掉頭尾各10%的超高和超低所得得到的平均,這就稱作裁剪平均值 (trimmed/truncated mean),這樣的統計量 (statistics) 就不比較不受極值影響,他們有個專有名詞作robust statistics,robust就是指紮實不受外在擾動的意思
三、聖賢度量,得為道中:假說檢定
OK,現在我們已經知道從母體中抽樣來推斷母體的情況,但有時候母體的分布並不是我們所在意的情況,而是母體的狀態是否符合需求的標準。
例如商家一口氣進口了10個貨櫃的蔬果,那麼海關從每個貨櫃中各抽樣數蔬果出來檢驗農藥殘留度,有可能抽驗的蔬果農藥殘留度都在法定許可範圍內,也有可能有一兩件或多件是超標的。那即使所有抽樣都合格,就代表整批都沒有問題嗎?如果只有一兩件超標,真的要10櫃全部退回或銷毀嗎?或者製造商從生產線裡抽樣數件商品出來,要怎麼樣才算是達到生產線的良率,或者整樣才算這批生產是有瑕疵的?我今天向製造商進了1萬個商品,我的條件是損壞率要小於1%,亦即只能有100商品是有問題的,我隨機抽了50個出來檢查,如果有1個壞掉,損壞率是2%,那整批退掉有科學根據嗎?空廚工廠做了5000個JUMBO便當,已知JUMBO便當的廣告是足量1台斤 (600 g),隨機抽出35個便當平均重量是583 g,標準差23 g,這樣有沒有欺騙消費者?要整批打入不良品嗎?……等等
利用抽樣商品來檢驗並推斷母體的健康度是我們或是企業本身關心的議題,他也可以用來在法理上對付難纏的奧客!在判斷這些問題前,我們需要先有估計的概念。
4 可以查ref. 3附錄的z值表來計算曲線下的面積
而型I錯誤就顯得比較嚴重,例如賣能量水、吃沒有意義的保健品、兜售高風險的投資給收入不豐的客戶等等。它們完全不會比維持現狀好,甚至可能有害,但效果被誇大,甚至被不實的報導傳頌。這代表有人為操作數據或故意偏袒對立假設的結果的情況發生!
例如商家一口氣進口了10個貨櫃的蔬果,那麼海關從每個貨櫃中各抽樣數蔬果出來檢驗農藥殘留度,有可能抽驗的蔬果農藥殘留度都在法定許可範圍內,也有可能有一兩件或多件是超標的。那即使所有抽樣都合格,就代表整批都沒有問題嗎?如果只有一兩件超標,真的要10櫃全部退回或銷毀嗎?或者製造商從生產線裡抽樣數件商品出來,要怎麼樣才算是達到生產線的良率,或者整樣才算這批生產是有瑕疵的?我今天向製造商進了1萬個商品,我的條件是損壞率要小於1%,亦即只能有100商品是有問題的,我隨機抽了50個出來檢查,如果有1個壞掉,損壞率是2%,那整批退掉有科學根據嗎?空廚工廠做了5000個JUMBO便當,已知JUMBO便當的廣告是足量1台斤 (600 g),隨機抽出35個便當平均重量是583 g,標準差23 g,這樣有沒有欺騙消費者?要整批打入不良品嗎?……等等
利用抽樣商品來檢驗並推斷母體的健康度是我們或是企業本身關心的議題,他也可以用來在法理上對付難纏的奧客!在判斷這些問題前,我們需要先有估計的概念。
1. 估計與信心水準
我們想知道台灣30歲人口的身高是多少?假設我們隨機抽出100個30的人並得到平均身高是171.3 cm,但會剛好落在這個平均身高裡的人口機率有多少?還是我們可以說30歲人口的身高有100%的機率會落在0 cm到500 cm內?這顯得是打迷糊仗,沒道理啊!
根據CLT,我們可以合理的認為由於母體數量夠龐大,對30的所有台灣人而言,其身高分布可以是常態分布,那只要抽樣的數量夠多 (n > 30),那麼樣本本身的統計量便具有代表性。
圖3. (左): 台灣30歲民眾的身高分布;(右): 同左,但橫軸變換為z-score |
在圖3(左),我們畫出隨機抽樣100位30民眾並將身高畫成分布圖,而圖3(右)同圖3(左),只是我們做了一道稱做歸一化 (或叫標準化,normalization) 的步驟,我們將其橫軸轉為無因次量z。這樣做有個好處,假設我們要比較不同年齡的身高分布,這得出的分布圖在橫軸鐵定即使是在\(1\sigma\)區間也涵蓋不同的身高範圍 (即定義域不同),很難放在一起比較。但如果我們將他們做歸一化的變換,則將他們都壓縮到\(\{...,-2,-1,0,1,2,...\}\)之間,就可以放在一起比較了。不同的整數表示不同的\(\sigma\),像2就表示\(2\sigma\)。這個轉換可以表示成\[z=\frac{x-\bar{x}}{\sigma},\]理論上母體標準差\(\sigma\)和樣本標準差\(s\)是不同的,但由於基本上不可能遍歷所有母體來取得平均,且樣本數夠大我們可以認為樣本具有代表性,所以我們可以用樣本平均\(\bar{x}\)取代\(\mu\),同理標準差也是,這裡的\(\sigma\)就是樣本標準差\(s\)。
回到身高的問題,限在我們抽樣的100位30歲的民眾當中除了已知平均身高是171.3 cm外,我們還知道標準差是4.2 cm。這意味著我們可以說有68%的30歲的民眾當中,身高坐落在\(171.3\pm 4.2\) cm之間。所以身高區間\(171.3\pm 4.2\) cm是我們想要估計的量,而68%則是所謂的信心水準 (或是信賴區間)。同理我們也可以估算\(171.3\pm 10\) cm涵蓋了多少30歲的民眾。這個區間涵蓋了\(-2.3\leq z \leq 2.3\),對應到z-score曲線下的面積占總面積4的97.86%,我們可以用像電視台比較唬人的說法:在100分有效樣本與97.86%的信心水準下,台灣30歲的民眾身高介於\(171.3\pm 10\) cm之間。另外\(\pm\)後所接的數字不一定要相同,這裡取相同只是純粹方便理解而已。
回到身高的問題,限在我們抽樣的100位30歲的民眾當中除了已知平均身高是171.3 cm外,我們還知道標準差是4.2 cm。這意味著我們可以說有68%的30歲的民眾當中,身高坐落在\(171.3\pm 4.2\) cm之間。所以身高區間\(171.3\pm 4.2\) cm是我們想要估計的量,而68%則是所謂的信心水準 (或是信賴區間)。同理我們也可以估算\(171.3\pm 10\) cm涵蓋了多少30歲的民眾。這個區間涵蓋了\(-2.3\leq z \leq 2.3\),對應到z-score曲線下的面積占總面積4的97.86%,我們可以用像電視台比較唬人的說法:在100分有效樣本與97.86%的信心水準下,台灣30歲的民眾身高介於\(171.3\pm 10\) cm之間。另外\(\pm\)後所接的數字不一定要相同,這裡取相同只是純粹方便理解而已。
4 可以查ref. 3附錄的z值表來計算曲線下的面積
2. 建立假設
好了,我們現在已知狀況A,那麼透過觀測的數據,我們要接受狀況A或反對狀況A呢?不過是下一小節的主題不是這裡XD。我們這裡先介紹一些術語,狀況A的情境就稱作零假設 (null hypothesis) \(H_0\),而不同於狀況A的情況就稱作對立假設 (alternative hypothesis) \(H_1\),透過已有的觀察或證據,我們可以接納零假設為真,當然這意味著對立假設是錯的,反之亦然。
舉些例子,發生一起搶案,警察抓到某位嫌疑犯B先生,因為是嫌疑犯,警察首當認為他就是真正的犯人,B先生是犯人的假設就是零假設\(H_0\),而不是犯人就是對立假設\(H_1\)。而透過科學鑑定、目擊者和監控錄影,警察用來推斷B先生到底是不是犯人,是要接受\(H_0\)移交給檢察官起訴,還是\(H_1\)洗清他的嫌疑。
另一個例子是藥廠發明了一種減肥新藥讓你瘦,那麼現階段已經有同種類的減肥藥不怕吃,所以假設不怕吃的減重效果優於或至少不輸新藥讓你瘦的假設就是零假設\(H_0\),而新藥讓你瘦比不怕吃能夠在同時間內減下更多體重的假設就是對立假設\(H_1\)。接下來要接受\(H_0\)或\(H_1\)則交由數據來決定。
從上面這幾個例子來看,零假設\(H_0\)通常意味著維持現狀,而對立假設\(H_1\)則代表著改變現狀。至於要接受哪一個,則是下一節的重點。但有沒有可能有兩種情況是\(H_0\)為真卻被拒絕,或\(H_0\)為偽卻被接受,如表1。
舉些例子,發生一起搶案,警察抓到某位嫌疑犯B先生,因為是嫌疑犯,警察首當認為他就是真正的犯人,B先生是犯人的假設就是零假設\(H_0\),而不是犯人就是對立假設\(H_1\)。而透過科學鑑定、目擊者和監控錄影,警察用來推斷B先生到底是不是犯人,是要接受\(H_0\)移交給檢察官起訴,還是\(H_1\)洗清他的嫌疑。
另一個例子是藥廠發明了一種減肥新藥讓你瘦,那麼現階段已經有同種類的減肥藥不怕吃,所以假設不怕吃的減重效果優於或至少不輸新藥讓你瘦的假設就是零假設\(H_0\),而新藥讓你瘦比不怕吃能夠在同時間內減下更多體重的假設就是對立假設\(H_1\)。接下來要接受\(H_0\)或\(H_1\)則交由數據來決定。
從上面這幾個例子來看,零假設\(H_0\)通常意味著維持現狀,而對立假設\(H_1\)則代表著改變現狀。至於要接受哪一個,則是下一節的重點。但有沒有可能有兩種情況是\(H_0\)為真卻被拒絕,或\(H_0\)為偽卻被接受,如表1。
情況
|
接受\(H_0\)
|
拒絕\(H_0\)
|
\(H_0\)為真
|
○
|
型I錯誤
|
\(H_0\)為偽
|
型II錯誤
|
○
|
在分析數據後可能出現兩種錯誤的情況:
- 型I錯誤 (Type I error):\(H_0\)為真卻被拒絕
- 型II錯誤 (Type II error):\(H_0\)為偽卻被接受
而型I錯誤就顯得比較嚴重,例如賣能量水、吃沒有意義的保健品、兜售高風險的投資給收入不豐的客戶等等。它們完全不會比維持現狀好,甚至可能有害,但效果被誇大,甚至被不實的報導傳頌。這代表有人為操作數據或故意偏袒對立假設的結果的情況發生!
3. 假設檢定 (hypothesis test)
檢定 (test) 的意義在於給定機率模型 (chance model) 後,發生這般極端事件 (extreme) 的機率是多少?5即給出背景事件 (background) 發生的機率後 (機率模型),我們如何判定一個發生的事件到底是屬於背景事件的機率擾動 (variation),還是真的是有其他原因造成的 (極端事件)。
所以檢定並不是去討論像「被雷劈的機率是多少?」這樣的問題是攏統而且沒意義的,在哪裡被雷劈?地球、月球或外太空?那個地方有可能發生雷雨嗎?還是是其他的原因造成電能釋放?這些都沒有辦法說明,亦即不存在機率模型 (一個背景) 的話。正確的討論應該是在某個地方正下著暴雨伴隨閃電 (給定模型),請問走在路上被雷連續劈兩次 (疑似極端事件) 的機率是多少?
給定了暴雨伴隨閃電,我們可以觀察出平均每分鐘有幾次落雷,若在暴雨發生區域落雷的地點是隨機的,我們就可以算出單位面積落雷的機率 (就是之前文章講的機率密度啦!),所以我走在路上的某個瞬間 (人必然在地面上佔有一定的面積) 被雷劈到的機率就可以被求出來 (即背景,屬於機率模型預測的常態事件)。假設算出這個機率是每一萬人 (沒有掩體保護且均勻分散在該區域中) 就有一人被劈到,但事實卻發生了瞬間有3人被落雷擊中,請問這是吻合機率模型的常態事件 (屬於\(2\sigma\)的信賴區間內),還是真的發生了不可能的事件 (位於\(2\sigma\)以外的區間)?
所以檢定並不是去討論像「被雷劈的機率是多少?」這樣的問題是攏統而且沒意義的,在哪裡被雷劈?地球、月球或外太空?那個地方有可能發生雷雨嗎?還是是其他的原因造成電能釋放?這些都沒有辦法說明,亦即不存在機率模型 (一個背景) 的話。正確的討論應該是在某個地方正下著暴雨伴隨閃電 (給定模型),請問走在路上被雷連續劈兩次 (疑似極端事件) 的機率是多少?
給定了暴雨伴隨閃電,我們可以觀察出平均每分鐘有幾次落雷,若在暴雨發生區域落雷的地點是隨機的,我們就可以算出單位面積落雷的機率 (就是之前文章講的機率密度啦!),所以我走在路上的某個瞬間 (人必然在地面上佔有一定的面積) 被雷劈到的機率就可以被求出來 (即背景,屬於機率模型預測的常態事件)。假設算出這個機率是每一萬人 (沒有掩體保護且均勻分散在該區域中) 就有一人被劈到,但事實卻發生了瞬間有3人被落雷擊中,請問這是吻合機率模型的常態事件 (屬於\(2\sigma\)的信賴區間內),還是真的發生了不可能的事件 (位於\(2\sigma\)以外的區間)?
3.1 置換檢定 (Permutation test)
我們來介紹一個比較直觀的檢定方法,稱作置換檢定,這個方法是生物與統計學家R. A. Fisher爵士在1930年代所提出來的,由於這個方法屬於耗時計算 (computationally intensive),在當時當代的電腦尚存於概念 (但是機械式計算機已經問世許久) 中,所以並不是這麼的實際。不過對現代的電腦而言,任何一台輕型筆電甚至手機,都已經可以非常有效率地來重現Fisher的置換檢定。
我們用例子來介紹,在一開始我們提到了電商用廣告的點擊數來推論到底哪一種呈現比較容易吸引瀏覽者打開來看。廣告方案一開始有A方案運作了一周後緊接著B方案也被提出,經過三週後A方案共記錄了21天點擊資料 (例如第一天共45次點擊、第二天38次、第三天47次……),而B方案則是14天的資料,它們二者的點擊數可以用圖4的箱型圖6 (box plot) 來呈現。
我們用例子來介紹,在一開始我們提到了電商用廣告的點擊數來推論到底哪一種呈現比較容易吸引瀏覽者打開來看。廣告方案一開始有A方案運作了一周後緊接著B方案也被提出,經過三週後A方案共記錄了21天點擊資料 (例如第一天共45次點擊、第二天38次、第三天47次……),而B方案則是14天的資料,它們二者的點擊數可以用圖4的箱型圖6 (box plot) 來呈現。
圖4. A案與B案的點擊數,平均上B案多出13.53次點擊數。箱型圖的意義是最下與最上的橫槓表示樣本中最小與最大的值,而箱子 (黃色部分) 的下方與上方分別代表\(Q_{1/4}\)和\(Q_{3/4}\)的點,中間的白線則是中位數 |
基本上B方案比A方案平均多出13.53次點擊數,所以代表B方案真的比較好嗎?為了檢驗這個差異只是由於機率擾到造成還是真的坐落在極難發生的區間,我們可以把兩個方案的資料混在一起並打亂,然後從中取出兩組一組21筆資料代表A案,而剩下的14筆資料則為B案,各取平均後相減,這便是置換一次後的結果,重複1000次,我們可以得到圖5。
圖5. 重複1000次的置換檢定的結果 |
圖5為重複1000次置換檢定後A案和B案兩者點擊數差異的分布圖,雖然原始資料點的平均點擊差坐落在\(1\sigma\)以外,但仍然處於\(2\sigma\)內,亦即在目前的統計資料上,我們無法說平均B案點擊數大於A案13.53次是真的代表B案呈現廣告的方式比較好,它仍處在常態分佈預測中可接受的擾動內。
在這個例子的置換檢定裡我們是先合併所有樣本並打亂其順序,在從中隨機取出21與14個樣本各代表A與B,而每次取出後我們不把樣本放回 (without replacement),亦即我們隨機取出21個後,剩下的14個就是B了。另外有一種取樣是可以將樣本放回去重取的 (with replacement),這種方式就稱作自助檢定 (bootstrap test),這是與置換檢定不一樣的地方。
在這個例子的置換檢定裡我們是先合併所有樣本並打亂其順序,在從中隨機取出21與14個樣本各代表A與B,而每次取出後我們不把樣本放回 (without replacement),亦即我們隨機取出21個後,剩下的14個就是B了。另外有一種取樣是可以將樣本放回去重取的 (with replacement),這種方式就稱作自助檢定 (bootstrap test),這是與置換檢定不一樣的地方。
3.2 p-值法 (p-value)
在前面我們談了假設,也簡單的探討了檢定的概念,不過前面置換檢定的結論是說看起來還在\(2\sigma\)內,所以是屬於背景機率擾動所允許的。不過這樣的說法實在太過故弄玄虛,到底有沒有什麼用更精確的數字來界定到底要接受還不接受呢?
有的,其中一個就是所謂的p-值法。我們一樣用前一小節廣告的例子做範例。一開始我們已經有A方案了,代表A方案是眾多方案的首選,假設A方案比所有方案都要能夠獲得較多的廣告點擊次數,這個A較優的假設就是我們的零假設\(H_0\) (維持現狀)。但後面突然殺出一個程咬金B方案,而且看起來還平均獲得較多的點擊數,所以如果B方案要比A來的優,這就是我們的對立假設\(H_1\) (改變現狀),從數字上來看我們到底該接受還是拒絕零假設\(H_0\)呢?
有的,其中一個就是所謂的p-值法。我們一樣用前一小節廣告的例子做範例。一開始我們已經有A方案了,代表A方案是眾多方案的首選,假設A方案比所有方案都要能夠獲得較多的廣告點擊次數,這個A較優的假設就是我們的零假設\(H_0\) (維持現狀)。但後面突然殺出一個程咬金B方案,而且看起來還平均獲得較多的點擊數,所以如果B方案要比A來的優,這就是我們的對立假設\(H_1\) (改變現狀),從數字上來看我們到底該接受還是拒絕零假設\(H_0\)呢?
圖6. 同圖5但表示成PDF的形式 |
圖6同圖5,其意義是接受\(H_0\)為真的條件下,即AB兩案無熟優孰劣的狀況,兩案所得之平均點擊數之差。以0為中心,向左是平均A得較多點擊數,向右是B得較多,但只要是在兩個標準差 (\(2\sigma\)) 的範圍內,基本上就是不分勝負。圖6與圖5不同的是我們表成PDF的形式,並且用常態分布去擬合數據得到的綠線。
對於每一張類似常態分布的數據圖來說,1-2-3個\(\sigma\)範圍所佔據曲線下的面積是68.2-95.4-99.6%,我們通常用68-95-99來方便記憶。通常只要數據落在\(2\sigma\)的區間以外,我們就會認為有異常,因為\(2\sigma\)以外佔總面積的5%,我們通常用\(\alpha=0.05\)來界定到底數據有沒有狀況,這個\(\alpha\)便稱作顯著水平 (detection significance)。當然\(\alpha\)沒有一定要是0.05,它也可以是0.01或任意介於\(0<\alpha<1\)的數字,不過0.05和0.01是約定成俗的值。
對於每一張類似常態分布的數據圖來說,1-2-3個\(\sigma\)範圍所佔據曲線下的面積是68.2-95.4-99.6%,我們通常用68-95-99來方便記憶。通常只要數據落在\(2\sigma\)的區間以外,我們就會認為有異常,因為\(2\sigma\)以外佔總面積的5%,我們通常用\(\alpha=0.05\)來界定到底數據有沒有狀況,這個\(\alpha\)便稱作顯著水平 (detection significance)。當然\(\alpha\)沒有一定要是0.05,它也可以是0.01或任意介於\(0<\alpha<1\)的數字,不過0.05和0.01是約定成俗的值。
繼續回到正題,由於我們是要看B有沒有優於A,故我們只看右半邊的圖,因為右半邊代表B得到比A多的點擊數。假設顯著水平是\(\alpha=0.05\),即要有顯著的表明B比較好,那麼平均點擊數的差要落在右半邊\(2\sigma=25.92\)的區間外,在圖6上則是藍色實線的右邊。由於5%的面積是總和左右兩邊得來的,因為我們只取右半邊,所以藍線右邊曲線下的面積僅佔2.5%,即\(\alpha/2=0.025\)。
所以假設平均點擊數之差是\(y\),用紅線表示 (在圖6我們已經把它畫在\(2\sigma\)以外的區間了,真實情況不見得是如此),那麼紅線右端曲線下的面積所佔的比例則稱作p-值。假設\(y=31.5\),那麼有\(p=0.0084\)。這意味著數據點右方曲線下面積遠遠小於右半邊\(2\sigma\)以外所占的面積,故我們可以合理的推斷\(y=31.5\)處在\(2\sigma\)之外,有統計顯著性,亦即B案真的比A案好,應該拒絕\(H_0\)。
那如果\(y=8.5\),則\(p=0.2578\),p-值遠大於右半邊\(2\sigma\)以外所占的面積,表示處在數據點處在\(2\sigma\)內,可以視為是機率擾動造成的結果,沒有統計顯著性,無法說B案比A案好,應該接受\(H_0\)繼續維持原方案。
由於我們在這個例子是只看分布圖右半邊 (如果坐落在左半邊\(2\sigma\)外則表示A案有絕對優於B案的優勢XD,你知道為什麼嗎?),所以\(\alpha\)折半,這樣的做法就叫做單尾 (one-way) 檢定,對於某些是兩邊都要看的話\(\alpha\)就不需要折半,這種就叫做雙尾 (two-way) 檢定。所以我們可以歸納出對單尾檢定而言若要則接受\(H_0\)則\[p>\frac{\alpha}{2}\]反之則拒絕\(H_0\)。雙尾的話就直接\(\alpha\)不需要1/2。
一個附註是p-值法可以給我們對於給定的機率模型和數據,我們有多大的把握可以接受或拒絕零假設,但這個方法並非是決定性的 (definitive)!它可以給我們建議,但是否推翻原來的機率模型,必須要透過其他更詳細的檢定。美國的統計協會 (ASA) 在2016年給出如何看待p-值的六大原則 (引用ref. 2, p. 97),大意是:
所以假設平均點擊數之差是\(y\),用紅線表示 (在圖6我們已經把它畫在\(2\sigma\)以外的區間了,真實情況不見得是如此),那麼紅線右端曲線下的面積所佔的比例則稱作p-值。假設\(y=31.5\),那麼有\(p=0.0084\)。這意味著數據點右方曲線下面積遠遠小於右半邊\(2\sigma\)以外所占的面積,故我們可以合理的推斷\(y=31.5\)處在\(2\sigma\)之外,有統計顯著性,亦即B案真的比A案好,應該拒絕\(H_0\)。
那如果\(y=8.5\),則\(p=0.2578\),p-值遠大於右半邊\(2\sigma\)以外所占的面積,表示處在數據點處在\(2\sigma\)內,可以視為是機率擾動造成的結果,沒有統計顯著性,無法說B案比A案好,應該接受\(H_0\)繼續維持原方案。
由於我們在這個例子是只看分布圖右半邊 (如果坐落在左半邊\(2\sigma\)外則表示A案有絕對優於B案的優勢XD,你知道為什麼嗎?),所以\(\alpha\)折半,這樣的做法就叫做單尾 (one-way) 檢定,對於某些是兩邊都要看的話\(\alpha\)就不需要折半,這種就叫做雙尾 (two-way) 檢定。所以我們可以歸納出對單尾檢定而言若要則接受\(H_0\)則\[p>\frac{\alpha}{2}\]反之則拒絕\(H_0\)。雙尾的話就直接\(\alpha\)不需要1/2。
一個附註是p-值法可以給我們對於給定的機率模型和數據,我們有多大的把握可以接受或拒絕零假設,但這個方法並非是決定性的 (definitive)!它可以給我們建議,但是否推翻原來的機率模型,必須要透過其他更詳細的檢定。美國的統計協會 (ASA) 在2016年給出如何看待p-值的六大原則 (引用ref. 2, p. 97),大意是:
- p-值可以指出數據與假定的機率模型到底有多不吻合
- p-值並不能作為我們探討問題時所作的假設是對是錯的機率,也不能做為度量數據是來自背景隨機過程產生的機率
- 對於科學結論、商業或政治決策不能僅僅依賴p-值是否通過某些特徵值 (即大於或小於\(\alpha\)) 來決定
- 一個好的的推論是來自完整的報告與採樣過程是否透明
- p-值或統計顯著性\(\alpha\)並不能作為度量發生效應的大小或是結果是否重要
- 單獨地透過p-值並來驗證我們在探討問題時所做的機率模型或假設並不是一個好的做法
3.3 其它檢定
其實上面所提的兩個檢定,像置換檢定就不是有很明確的定義到底該不該拒絕或接受\(H_0\),而ASA也說了p-值是用來輔助而不是拿來論斷 (verdict) 一個研究裡面假設的好壞,真正幾個比較重要的檢定如t-檢定、卡方檢定、變異數檢定ANOVA……等等是比較常用也較好的做法,礙於這裡篇幅有限,我們會在有需要用到它們的時候再一起介紹!
5 取自ref. 2, p. 96,原文是...the probability question being answered is not "what is the probability that this happened by chance?" but rather "given a chance model, what is the probability of a result this extreme?"
6 在Mathematica裡我們可以用BoxWhiskerChart來畫箱型圖,而在R裡可以使用ggplot
6 在Mathematica裡我們可以用BoxWhiskerChart來畫箱型圖,而在R裡可以使用ggplot
四、小結
這篇主要的目的是想傳遞,雖然我們可以透過記錄數據來輔助我們判斷該在日常生活中做什麼樣的決定,但其實也發現數據所展現出來的意義不見得跟我們所想的一樣。例如舉的廣告點擊數,如果不做進一步的分析,單憑平均點擊數就要改弦易轍的換成B方案看起來是得不到學理上的支持。不果我們也遺留的很多例子沒有講,另外也還有數個重要的檢定,它們在日常決策中也扮演著要角的地位,我們之後有機會再一一的抽絲剝繭!
留言
張貼留言