PS1 — 命定的機運: 機率!

FortunaSebald Beham (1541)
Fortune favors the bold
拉丁諺語

一、天生帶賽?

為什麼感覺每次大樂透開獎就是有幾個幸運兒可以抱走千萬分之一的頭獎、朋友每期發票怎麼老是都會中個兩百元,seafood真的有神力嗎?人生有太多的不公平與競爭,好像別人總是過得比較好,也比較幸運,我就比較衰洨,但真的是如此嗎?是自欺欺人,還是真有其事,歡迎來到機率的世界。在這裡,我們都不過是一組數字!

二、漫談機率,雖然我什麼都沒談XD

1. 什麼是機率 (probability)?

簡單來講,假設事件\(A_1,A_2,...A_i\)所對應到的發生次數分別是\(n_1,n_2,...,n_i\),那麼全事件\(n\)則是\(N=n_1+n_2+...+n_i=\sum_{k=1}^i n_k\),那麼對特定事件\(A_j\)發生的機率\(P(A_j)\)則是$$P(A_j)=\frac{n_j}{N}$$其中\(n_j\)為事件\(A_j\)發生的次數,另外$$P(E)\equiv P(A_1+A_2+...+A_i)=\frac{\sum_{k=1}^i n_k}{N}=1$$其中\(P(E)\)為全機率,代表所有事件發生的機率,恆為1。
 舉個聽到煩的例子,擲一枚硬幣100次,如果正面的次數是53次而反面的是47次,見表1,則我們說\(N=100\)且擲出正面的機率是\(P(正面)=53/100\approx0.53\)而\(P(反面)=47/100\approx0.47\)。當然還有其他的例子,例如一個地區內每次雷雨發生時被雷劈中的機率、在人行道上被不長眼的汽車撞的機率、每次不安全性行為染上HIV的機率、廟裡抽籤抽到上上籤的機率……透過對這些數字的感覺,可以在潛意識裡幫助我們做出日常生活中每一刻的決策。
表1. 擲公正硬幣100次正反出現次數與機率
次數
53
47
機率
53/100
47/100

2. 什麼是平均 (mean)?

平均(\(\bar{x}\))即是所有數據的總和除上數量,即$$\bar{x}=\frac{\sum_i x_i}{N}.$$例如飲料店這禮拜每日售出飲料的杯數如表2,平均下來每天賣了277杯。除此之外還有成績平均、每戶擁車數、每人擁房地產數……等等。
表2. 飲料店這星期每日出售杯數
星期
售出杯數
210
207
192
197
337
417
381
平均日賣
277.28
 雖然平均是讓我們一窺採集的數據可能的情況,但很多時候平均並不一定能貼近個別數據點的狀況。如果當數據分布是有雙峰,或是不對稱,則平均很難反應多數的情況,因為會受到極值的影響。像表2的日均售出杯數是277杯,但是在周間該店每天的售出量均少於平均,僅有在周末銷量才大舉增加,而且超出平均許多。另外如果一個班級十位學生有三位考100分而7位考了0分,平均是每人30分,像這幾個例子的平均皆無參考價值,所以平均並不能總是拿來概一而論整體的情況。像政府所公布的平均薪資、幸福指數……等等,通常結論時常悖離民眾觀感,基本上淪為年度結報上的譁眾取寵,或博媒體笑話的版面罷了。

3. 什麼是機率密度 (probability density)?

機率密度函數,有時稱機率質量密度函數或簡稱機率函數,假如有一組隨機變量 \(X=\{5,5,5,4,1,5,2,3,5,2,1,4,4,2,3\}\)內含15個樣本(反正就是\(\{...\}\)裡面的東西),那麼從\(X\)裡隨便抽出5的機率是5/15而抽出2的機率是3/15,見表3。所以\(P(k=x)\)從\(X\)中抽出\(x\)的機率,而整個\(P(k)\),\(k\)對上所有\(x \in X\)就稱作機率密度函數(probability density function, PDF),或機率函數。
表3. 從\(X\)中抽出號碼\(x\)的機率
號碼 \(x\)
1
2
3
4
5
機率 \(P(k=x)\)
2/15
3/15
2/15
3/15
5/15
 上面是指在抽到\(k\)等於特定的\(x\)的機率,另外我們也可以問如果抽到3(含)以下的機率\(P(k\leq x=3)\)是多少,那麼只要把抽到1、2和3的機率通通加起來就可以了,即7/15。這種求對\(X\)中所有小於某個樣本\(x\)的機率總和\(P(k\leq x)\)我就就稱作機率累積密度函數(cumulative density function, CDF) \(F(x)\),通常\(F(a)=P(k\leq a)\)表示對所有在\(k\leq a\)的機率求合。
 表3的機率密度函數\(P(k)\)是離散的由於\(X\)本身也是離散,但自然界也有很多情況\(P(k)\)是連續的,這時\(P(k)\)就可以用一個在區間\([a,b]\)連續的函數\(f(k)\)來表示。其中歸一化(normalization)條件要求$$\int_a^b f (k) dk=1$$即在\([a,b]\)的機率總和一定要是1,而對應的CDF則可表示成$$F(c)=P(k\leq c)=\int_a^c f (k) dk$$其中\(c\in [a,b]\)。

三、那些命中註定的事?

我們常常會覺得別人很幸運,另如有人中了樂透,中了千元發票,或是看別人中獎,單然看別人重大車禍GG可能會反過來覺得很幸運。如果我們拿稀有事件來比較,大概怎麼樣都會覺得這些jackpot的傢伙很lucky,我們應該在有了統計學的概念後再回來分析這些稀有事件其實沒想像的這麼神秘,我們先來看幾個比較貼近生活的例子。

1. 吉凶禍福吾當知

傳統信仰上的抽籤,大概不脫是先向神明闡明問題後再到到籤筒隨機抽出一支籤,然後擲筊詢問是否這支籤就是神明大人的指示。如果是的話必須擲出三次聖筊(一陰一陽),假設筊是公正的1,那麼每擲出聖筊的機率2是1/2,所以連擲三次都要聖筊的機率是1/8。這個機率表示平均每抽8次就會抽中神明允諾你的籤,或每8個求神問卜的人當中就有一個人會抽到神明大人允諾的籤。看來不需要試很多次就可以抽中想要的籤!
  另外還有一點就是抽的那支籤和擲出三次聖筊的機率是相互獨立的,所以乾脆就直接省掉擲筊的過程比較快XD。台灣最常見的籤詩大概是雷雨師一百首,現代人解籤好像已經不太看上面的大吉、中平之類的吉凶禍福,比較是直接看籤詩和詢問的問題來解。由於一個人大概很難在廟宇裡問超過100個以上的問題,所以比較好的做法應該是統計全台使用雷雨師百首的廟宇,假設人在選籤時是公正的,然後每個月全台都有一萬人在詢籤,我賭管怎麼擲筊,每首籤詩平均會被100人上下抽中的機率蠻高的(這大概可以用二項式分布來做個統計),但我不要賭要是輸的話被雷劈的機率~"~

2. 樂透頭獎的人數有高於預期嗎

樂透頭獎中獎的機率是1400萬分之一,更精確地來講是\(P(頭獎)=1/C^{49}_6=1/13983816\),最近一期(第1216期)的銷售金額超過2.8億元,一注50元的話則是賣出超過500萬張,從機率看會有0.33個人中獎,想當然爾當期是0人中頭獎。符號\(C^m_n\)表示從\(m\)個數字裡隨機抽出\(n\)個數字的所有組合情況,表示式為$$C^m_n=\frac{m!}{(m-n)!n!}$$其中排列不計。
 這個千萬分之一的中獎機率實在是有點難解,我們換個方向來看這個問題,根據台彩統計,節至第1216期為止總共開出324位頭獎得主,假設每期賣出400萬張的話(精確的統計應使用台彩所公布每期賣出的張數),那麼頭獎人數的期望值=\(總賣出張數\times P(頭獎)=4\times 10^6\times 1216/C^{49}_6 \approx 347\)人,與真正的324人相差不遠。所以下次有人在說大樂透中獎的機率是不是高出異常,你就可以打臉他中獎人數其實符合數學的預測!

3. 保單在手,保障無窮

出國旅行時大部分人通常都會買張旅平險保障平安,這裡我們挑最簡單的致死率來分析,有機會在專論更細的資料與不同的保險。基本上根據國際民航組織ICAO近來年載客量通常是超過30億人,而平均年致死人數是600-700人左用(2014年達735人),故搭飛機噶屁的機率是245萬分之1,意思就是要搭245萬次飛機後才有機會死一次(然後再活過來?! 以為在演明日邊境),假定這個數字無關航空公司,我們來做個計算。
 通常一張旅平險會收取1000元,並且事故致死賠償約200萬,假設有10億人願意買旅遊平安險,則保險公司可以收取共1兆元的金額,那賠償給735人的金額則約是14.7億元,所以保險公司賣你這個價位,實算暴歛啊啊啊啊!而且沒出事還不退還部分款項!

4. 發票的中獎率

每次當我們結完帳之後,店家都會開立發票(又稱收據receipt、invoice,表銀貨兩訖),發票上面有一組8碼從0~9的號碼。2011年實施的新制為8碼全中的特獎與特別獎各一組,則其中獎機率為$$P(特獎)=P(特別獎)=\frac{1}{10^8}$$為億分之一,若不在乎金額把兩獎是為同等則是5000萬分之一,代表每5000萬張發票就有一張是特獎或特別獎的中獎發票。比中大樂透頭獎還低,那到底為什麼呢?這就是所謂的供需問題,雖然特別獎金額完全無法與大樂透相比,可根據財政部統計台灣一年開出87億張發票,理論上每年應產生87位特別獎得主,以一年開六期發票,平均一期應有14~15位特別獎產生,實在驚人!雖然機率極小,近乎不可能,但透過巨量的母體數,可以將微小現像具像成可觀測量!至於為什麼每期的特別獎人數似乎都壓在個位數呢?比較conspiracy的原因是財政部有刻意微調特別獎的中獎率,另外比較可能的原因是,不是沒中,是只有持自然人身分才能對獎,所以發票打上統一編號後基本上是無法對獎的,也就被屏除在外啦!
 不過大家比較在乎的應該不是頭獎或特別獎這種,而是200元的六獎小確幸,末尾3碼全中的機率是千分之一,但由於新制每期六獎會開出3組號碼與2組特別號共5組,所以將乘以5,中獎機率約是\(1/200\),即每累積200張就會中一張。歸納一下,統一發票中獎的機率可以表示成$$P(中獎)=\frac{3+x}{10^y}$$其中\(x\)只有在計算六獎時需要加上本期增開的特別號,假設增開2組則\(x=2\),六獎以外的獎都是\(x=0\)。而\(y\)則是對應的獎像末尾要中幾個號碼,六獎是3碼則\(y=3\),五獎則是\(y=4\)……以此類推。想多中點200元就多累積幾張發票吧!

四、小結

機率是幫助我們能夠更透徹的了解日常生活中所發生的事件,而不被人云亦云或玄妙的理由所遮蔽,甚至不被政客、宗教掮客或詐欺行為所欺騙,他可以快速給我們這件事情或投資報酬率到底合不合理,也許每個人在這裡都不過是個數字,但這並不減損我們感受周遭生活的一切!

1 因為筊的形狀,所以擲出陰陽的機率一定不是公正的。按照其幾何造型,陰面(凸面)容易受力矩而向下,這時陽面(平面)會朝上顯露出來,所以擲出陽面的機率通常比陰面高
2 總共4種情況:陰陽、陽陰、陰陰、陽陽,所以\(P(聖筊)=2/4\)。飯科學有幾集專門討論這裡不詳述。但如果陰陽機率不同,則\(P(聖筊)\)會些微小於1/2

留言

這個網誌中的熱門文章

物理雜記3 - Ising模型與模擬退火

PS7 - 小專題: 為何高斯分佈擁有最大熵?

IA9a - K-means分群與EM算法: 理論