PS2 — 因果本無心,天機皆可洩: 統計!

Fortuna (1754), Tadeusz Kuntze
世間多少荒唐事,何獨神仙有是哉

一、眾言落花本有意

每周接到騷擾電話的次數、補教名師表示今年指考物理科非常的簡單,可我怎麼都不會寫!我在台灣算是低收入戶嗎?股票投資會賺錢嗎?醫療險推銷員說台灣人一生花在在醫療上的經費平均超過300萬,早買賺愈多、半(扮)仙老師鐵口直斷年過40接下來會遭婦女病纏身……等等。
 生活中總充滿著無盡的變數與不確定性,正是這種混沌的狀態,另我們感到迷惘,甚至很怕遭逢意外人生便從此跌入谷底萬劫不復。甚至當大家說發生的機率很低時卻發生在我身上,這是因為我太幸運還是因為業障積太多,就跟老婆子的陳年宿便一樣令人擔憂。所以在傻傻的以為有買有保庇時,其實簽的都是滿紙荒唐言,一把辛酸淚;都云買家癡,誰解其中味?~笑!

二、是偶然還是注定?統計分布 (statistical distribution)

在討論到底這件事會不會發生的問題時,問題本身看似單一,但不同時刻同個問題可能有不同的發生機率,這就是事件對時間的分布。尤有甚者,同個問題還可以劃分出不同的子事件Ai,其中A1好發於年輕族群、A2則在壯年、A3較易於發生在男人生上……這也是分布,而且是更複雜,含有更多維度(multi-dimensional)資訊的分布(我知道你在想什麼,但絕對不是像星際效應那種蟲洞黑洞的時空維度XD)。我們接著來看看這些看似隨機而且雜亂的事件,其中到底蘊含了什麼奧妙?又該怎麼看待發生在每個人身上的機率這件事?

1. 關於事件分布的二三事

在開始討論統計分布以前,我們先來預備一些基本知識。首先對真實世界而言,母體(沒有人在演駭客任務!)的事件數是非常大量,或者可以說趨近於無限大(),基本上我們不可能有時間與人力去普查一個無限大量的事件,所以我們會對母體做採樣(sampling),採集出來的結果就稱作樣本(sample),如果採集的過程是隨機的,那麼這一組樣本資料則可視為是隨機變量(random variables)。
圖1. 房間粒子溫度採樣,非按照比例繪製
 直接看圖1會比較好理解,假設一個房間內有大量的粒子,每個粒子有不同的溫度Ti,我們不可能把每個粒子都抓下來量溫度,這太曠日廢時了。所以取而代之,我們在同一個時刻隨機在房間的任意處量取該處的溫度(採樣),某處所量得的溫度T1,而總共量了n次,共有n個樣本{T1,T2,T3,...,Tn},對樣本作溫度區間的直方圖(histogram),如圖2.
圖2. 不同溫度區間中的樣本的數量,τm為該區間所對應的溫度平均
 在圖2中我們發現不同溫度區間裡的樣本數雖然不盡相同,但整體似乎呈現一特定的趨勢。其中圖上的σ稱作標準差(standard deviation),其定義為σ=1nni=1(TiˉT)2.平均值ˉT左右各由1個σ所構成的區域約佔據整體68%,而2個σ構成的區域則約占據整體的95%,若σ的值愈大代表資料愈離散,則平均值愈不能代表整體。
 若將樣本資料由小排到大,那麼第n/2個資料點則稱作中位數(median),用Q12表示,以此類推我們還可以得到四分位數(quartile),代表第n/4個資料,記作Q14,當然還有十分位、百分位……等等,依照需求來使用。
 我們也可以找出該房間粒子溫度的期望值(expectation value)。圖2中m條直方中每條都對應一個該區間的中位溫度τm,假設在該區間的樣本數是nm,則表示量到溫度τm的機率P(τm)=nm/n,那麼該房間的溫度期望值是E{T}=mi=1P(τi)τi.當然啦,間隔切得更細即m愈大,那麼就會得到更細部的資訊,20個區間當然會比9個區間擁有更精細的資料結構。
 這裡只是講一下簡單的統計方便後面使用,我們差不多該在這裡停下來總結一下,免得迷失在茫茫的字海當中。假設隨機變量X中有樣本資料{x1,x2,...,xN}N筆,其中若每個xi出現的機率為P(xi),則總結於表1。若P(xi)對每個xi皆相等,那麼期望值等於平均值。
表1. 統計名詞與定義,其中N為資料數
平均值
期望值
標準差
中位數
ˉx=1Nixi
E{x}=iP(xi)xi
σ=1Ni(xiˉx)2
Q12
平均值又作μ
P(xi)xi被抽中的機率
σ2又稱變異數(variance)
位於中間的資料點

2. 壽命、薪資、成績和那些羞羞的事: 常態分布 (Normal distribution)

常態分布又稱作高斯分布(Gaussian distribution),可追溯至18世紀de Moivre關於二項式分布的研究,後來透過Laplace推廣,而Gauss則宣稱他是最早推導出該分布形式的人。對於一組遵從位置參數μ,尺度參數σ的隨機變量,其機率密度函數可以表示為f(x)=12πσe(xμ)22σ2.另外對任何母體作採樣,其每次採樣的平均數會是常態分布,所以當採樣數夠大時(>30),母體原始的分布是無關緊要的,第三節會提到這是中央極限定理的結果。在實際採樣下常態分佈的位置參數μ代表的是樣本平均,而尺度參數σ則是樣本標準差。
 另如一個人的真實體重是75 kg(現實狀況是不可能知道確切的體重),那麼他站在體重計1上量可能得到75.11、體重計2號得74.57、體重計3得76.04,一路用不同台體重計量下去,那麼這些體重計得出的體重的會是一組常態分佈,而體重期望值(常態分佈期望值等於平均值)會非常接近真實的體重。
 人的壽命也是,死的時候皆近平均壽命的人數與遠離平均壽命的人是會是一組常態分佈。薪資和成績理論上的分布也應該是常態分佈,但由於資本主義導致某些階層出現磁吸效應,亦即有錢的會愈有錢,沒錢的人愈被剝削,所以分布導致M型化。學生第一次考砸後,第二次沒信心考砸的機率就增高,期末考要救不容易,而期初就考得好的學生會念書念得比較起勁,往後的考試成績也會有所提升,成績亦呈現雙峰化(現在L型化的比例應該也不少啦XD)。至於羞羞的事嘛~台灣平均破處年齡是18.9歲,所以從台灣全人口中對各年齡層隨機抽樣,初夜發生在偏離18.9歲的分布應該是呈現減少的狀態而且遵從常態分佈。
 在古典物理學裡面,對於一個孤立的絕熱系統,其任一處於平衡態的時刻,該系統在所有可能的狀態分布(通常在意的是系統處在能量E對上其平均溫度T的分布)可以視為是波茲曼分布(Boltzmann distribution),也稱吉布斯分布(Gibbs distribution),而波茲曼分布就是常態分佈的直接應用。另外由於系統能量可以對應到粒子的速度v,所以將波茲曼分布應用到探討一個系統下的粒子可能的速度分布就叫做馬克士威-波茲曼分布(Maxwell-Boltzmann distribution),它們實際上都是一體的兩面,所以常態分布在平衡態物理學上,特別是熱力學與統計力學中扮演著重要的地位!

3. 腫摸都不打給倫家惹?騷擾電話的次數: 泊松分布 (Poisson distribution)

泊松分布最早可追溯至18世紀de Moivre的研究,但在19世紀由數學家Siméon Poisson借助來研究冤錯案(wrongful conviction)發生的次數而聞名,故後人稱之為Poisson分布。Poisson分布主要用來研究稀有事件發生的機率,假設在單位時間(時間可以替換成任意單位如時間或距離)內平均發生某事件的次數是μ次,則發生k次的機率則是P(k)=μkk!eμ.例如在近20年內台灣共發生5件重大冤錯案(不含正在審查中),所以平均每4-5年會發生1件冤案,所以我們可以估計在2018-2023年發生2件冤案的機率是P(k=2,μ=1)=0.18即18%。但這絕對不能解釋為5年內每100個案件就有18件是冤案,這比較像是假如有100個國家,每個國家的冤案率都相當的話,那每五年中大概會有18個國家會發生兩次的冤案。
 看來似乎有點難懂,換個例子,自從我裝了whoscall後我開始可以直接封鎖一些像祖國信託打來的信貸電話,但還是有一些推銷茶葉或葛格倫家豪想泥的電話會不小心溜過app的封鎖線,那麼不住意就被我接起來啦。所以假設每位有手機的用戶在長時間裝了whoscall之後,可以將騷擾電話壓到每兩周1通左右,則在兩周內接到3通騷擾電話的機率是P(k=3,μ=1)=0.06即表示每100人中有6個人會在半個月內接到3通電話。那超過3通則是100×[13k=0P(k,μ=1)Δk]1.89約是每百人有將近2人半個月內會接到4通以上的騷擾電話。因為Poisson分布是離散的,所以在上面的累積分佈函數CDF我用Δk取代dk,其中Δk=1

二項式分布(Binomial distribution). 該分布與Poisson分布如出一轍,其旨在於揭露若事件發生的機率是p,那麼在m次測試中出現k次該事件的機率為P(k;m,p)=Cmkpk(1p)mk.對二項式分布而言,檢驗只有Yes or No兩種,例如頭擲一枚公正硬幣,出現正反的積率皆是1/2,那麼擲10次出現8次反面的機率是C108(12)8(112)1080.044大概是4.4%,找100個人投10次硬幣,其中約有4人會出現8次反面。二項式分布的期望值與變異數分別是mpmp(1p)。另外若將mpε則毫無懸念地趨近於Poisson分布,ε通常用來指無窮趨近於0但永遠比0大那麼一丁點的數(說它是東西可能比較貼近)。

4. 其他特殊分布

如果當樣本數極少時(<10),其標準差可能偏離母體許多(即未知標準差),這時我們可以使用學生t分布(Student's t-distribution)。該分布是由Willam S. Gosset在20世紀初以筆名Student發表,是為該名稱的由來。對於隨機變量T其機率分布函數為f(t)=Γ(ν+12)νπΓ(ν2)(1+t2/ν)(ν+1)/2其中ν=n1稱作自由度(d.o.f.)且Γ(z)=0tz1etdt為Gamma函數。當d.o.f.不斷增加的時候,T的分布趨近於μ=0σ=1的常態分佈。
 在統計分析裡面還有非常多的分布,這些分布不完全有明白的物理意義,但它們大體上都可以用形狀參數(shape parameter)和尺度參數(scale parameter)來構造,像是Gamma分布、Beta分布、χ2分布……等等,它們在分析上皆有其重要的數學意涵,特別是在檢定數據上,有機會遇到再說啦!

三、The Bigger, the Better

1. 大數法則 (law of large numbers)

大數法則表示當我們取的樣本數愈多時,其樣本平均會愈來愈接近母體平均。例如執1枚公正骰,假設每面出現的機率是1/6,則期望值是E{}=1+2+3+4+5+66=3.5,則當我投擲愈多次骰子時其平均出現的次數會愈來愈接近3.5,如圖3。
圖3. 擲出n次公正骰的期望值,模擬(紅)與理論值(綠)。
可用Mathematica語法構造圖3的測驗:
  Table[
   {n,Mean[RandomInteger[{1,6},n]]},   (*產生n個在{1,6}間的隨機變數*)
   {n,1,1000}];
函式RandomInteger[{a,b},n]用來產生n個介於{a,b}的整數。

2.中央極限定理 (central limit theorem, CLT)

中央極限定理用白話講是說在不清楚原來母體真正的分布下(可能永遠不知道),那麼隨機從母體中抽樣多次,每次都抽取大量的樣本,那麼每次抽樣的這些樣本平均(sample mean)會趨近於常態分布。所以母體真正的樣子已經不重要了。
 這個定理或者應該說它的表述最早是由de Moivre在18世紀初發現(這傢伙超強,前面提到的幾個重要分布哪個是跟他無關?),埋沒將近一世紀後被在19世紀重新被Laplace發現並收錄進他的著作《機率分析論》中,20世紀初由俄國數學家Aleksandr M. Lyapunov給出嚴謹的證明。
 口說無憑,我們來run個模擬測試測試CLT到底準不準。因為大部分的連續分布看起來都跟常態分布有那麼點像,所以我們找一個最不像常態的均勻連續分布(uniform distribution),其機率函數為fu(x)={1xminxmaxfor xminx<xmax0,otherwise其中隨機變量會分布在{xmin,xmax}中,結果如圖4。
圖4. 上圖是原始的母體(模擬),下圖是採樣500次每次20個樣本的樣本平均的分布。
 圖4上圖是以fu(x)生成10000個在x{0,100}的母體,下圖是隨機採樣母體500次每次取20個樣本的樣本平均分布。其中500次採樣得出的樣本平均的平均ˉxs=49.6853非常接近母體的平均ˉxm=49.7511,對應的標準差σs=6.38,採樣結果的分布可以用常態分布來描述(橘線),這就是CLT的威力啊!
  但其實如果你看每次採樣的那20個樣本,它的分布還是非常相似於母體的分布,只有在做成平均後才變成常態分布。這其實呼應了我們在第二節的例子,每次量測房間溫度其實都是超多顆粒子撞擊溫度計後得出的平均,我隨機量測了n次後,這些溫度當然就是常態分布啦!1所以我們也可以說波茲曼分布是CLT的當然結論!
 要產生圖4的結果可以由下Mathematica語法來處理,先用UniformDistribution生成10000筆位於x{0,100}的母體資料,再利用RandomSample隨機抽出MatrixUni裡的20筆樣本並使用Mean求平均,並重複500次這個隨機取樣的過程:
  MatrixUni=RandomVariate[
   UniformDistribution[{0,100}],
   10000];     (*產生10000個隨機變數並指派給MatrixUni*)
  Table[
   Mean[RandomSample[MatrixUni,20]],
   {n,500}];   (*從MatrixUnit中任選20個樣本並取平均,重複500次*)
另外可以用Variance來找出變異數。如果這樣不能說服你,在Mathematica裡還有一種合併多個不同分布產生一個全新但奇異甚至沒道理的分布(當然他在數學上是符合分布的意義),這可以利用MixtureDistribution[{w1,w2,...},{dist1,dist2,...}]來達成,其中w1w2分別是分布1(dist1)和分布2(dist2)的權重。例如我們可以造出一個混和常態分布和均勻分布且權重是4:3的新分布,這個分布沒有任何意義但是造型很奇特,我們同樣也可用它產生大量的母體資料,然後再做多次的抽樣平均,這組抽樣平均的資料點也是符合常態分佈的。即使面對這種毫無章法、混亂無比的分布,CLT還是完勝,所以宇宙不是沒道理的!

1 當然如果我們有一種超精細的量子溫度計可以量測每顆粒子的溫度,撇開海森堡測不準原理造成的困擾 (假設我們像Star Trek裡面一樣有一種海森堡補償器,或是像物理學諾貝爾桂冠Kip Thorne在他的書裡提到在建造重力波探測器時,他們用了一種量子相干會互相抵銷的方式來探測比量子噪音還小的重力波訊號),每次取樣房間粒子的溫度時,這些溫度會是它們真正的分布而不再是常態分布。不過這種違背量子原理的想法,還是趕快丟掉XD 

四、小結

所以嘞,我們看到很多以為是無法被分類、怪奇,甚至覺得要靠神怪才能解決的事情,實際上背後早就都有一套方式在描述,甚至這些方式都並不是特設,而是可以推廣到生活的任何狀況,像常態、Poisson和二項式就是非常常見的分布,就連求神問卜到底會中哪隻籤都遵從這些分布(抽中的籤詩遵從均勻分布,擲筊結果則是二項式分布),所以要嘛不是這些傳統信仰是話唬爛就是神靈根本沒有偏好任何死老百姓,祂一直在告訴你:人生的景況很多時候就是一組常態分布常態分布常態分布,因為非常重要所以跟你擲筊擲三遍一樣要說三遍!live your own life咖實在啦,但記得回來添香油錢!另外就連該不該買醫療險,我們都可以拿政府公布的數據來做個簡單的計算,就知道保險公司到底有沒有坑你,那種繳20年還不能領回然後用我們是終身保障,或者可以給下一代領回來打太極的都不要保,跟健保賭誰比較快倒,我睹這家公司倒掉和不認帳的機率比較高!

關於定理的命名與科學家的姓名. 芝加哥大學的統計學家S. Stigler曾經開玩笑說很少有定理的名稱是以定理的發現者命名,反而多半是以之後較著名並且曾經使用過這些定理的數學家來命名,像常態(高斯)分布、Poisson分布、CLT……等等,這種命名的方法被戲稱為Stigler定律。另外科學家的姓名前如果有注意到常常會跟著de,像是Abraham de Moivere、Pierre-Simon de Laplace,這個de相當於達文西Leonard da Vinci的da,這類冠上d開頭的字通常代表“的”,猶如英文的's。近代以前的人特別是庶民階層通常沒有姓只有名(given name, first name),但後來國家的概念發展出來後為了人口普查而強迫每個人都要有姓(last name),那要哪裡找個姓來冠,不然就隨便抓個地名、長相……等等好了。像da Vinci的意思就是“在文西地方的”,達文西的真正翻譯應該是“文西地方的李奧納多”XD。以前人取姓也就是亂取一通,方便跟敷衍公務員為主,例如住在高處就取個Hill,看起來頗聰穎就叫Bright,他爸是鐵匠索性就Smith。至於像是發現白努力定律的丹尼爾·白努力(Daniel Bernoulli)則來自貴族世家白努力家族(Bernoulli family在當時是瑞士顯赫的淵學世家),通常貴族世家對自己的血統是非常在乎的,所以他名字的大意就是生在白努力家的丹尼爾,巴不得要讓全世界都知道我是來自白努力家族,其實Bernoulli在還沒發跡前也是當名字在用的而沒有所謂的姓。這類軼事在巴森的《黎明到衰頹》第五章有一小段描述歐洲姓氏的原由。

留言

這個網誌中的熱門文章

PS7 - 小專題: 為何高斯分佈擁有最大熵?

IA9a - K-means分群與EM算法: 理論

IA1 - 布豐投針,圓周率π的估計