隨機性、大數法則與中央極限定理

常態分佈(Normal Distribution)搭配中央極限定裡(CLT,Central Limit Theorem)的概念,大概是統計學裡應用最廣泛的組合了,不過,也是最常被「一知半解」的對象。

但是從「隨機性」的角度來看,幾乎是不可避免的必然。

大數法則與經典的丟硬幣機率問題

從數學教育家最喜愛的硬幣舉例開始這頁長篇大論吧: 一個「公正」硬幣有兩面,則每一面落地時朝上的機率都相等,也就是1/2,如果拋投6次,正反面會各出現3次,拋投10次,則正反面會各出現5次。對數學家來說,這樣才是符合數學「機率」的結果。

但是,怎麼可能製造出總是出現完美公正結果的硬幣呢? 歷史上有許多大名鼎鼎的研究者,花費漫長的歲月擲骰子、丟硬幣,總是無法完全符合機率,於是得出一個小結論:數學理想的機率不可能存在真實情況。對數學家來說,這意味著公式預測的結果總是存在真實誤差。

儘管如此,在十萬次硬幣投擲中,正面出現了50012次同時反面出現了49988次,這樣的投擲機率難道就全無價值嗎? 以實際應用為宗旨的統計學家可不這麼認為,既然無法排除誤差,那麼就擁抱它吧。

雖然過去動輒數萬次的拋投硬幣沒能證明「理想機率」的正確性,但也不是完全沒有收穫,Jakob Bernoulli的「大數法則(Law of Large Numbers)」,說明了在拋投次數夠大的情況下,硬幣出現正反面的機率會非常接近1/2,在嚴格的終極情況下,理想機率與拋投機率會相當,藉此降低「隨機性」的困擾。

這可以用下列公式說明:

law-of-large-numbers

伯努力的二項式與巴斯卡三角形

由於我們不可能實驗無限多次,因此讓誤差「任意小」是不可能的任務,那麼多小是可以接受的範圍? 另外需要多大的樣本才能達到這一情況?

在硬幣的例子中,只有正反面兩種結果,依照Bernoulli的二項機率式,在出現正面機率為p,拋擲n次,結果正面出現x次的機率可用以下的公式計算:

bernoulli-coins-probability

為了讓大數法則不只是純粹的經驗法則,Bernoulli花費漫長的歲月一一計算每個可能結果的機率,再和實際投擲的結果對照,試圖找出在給定的小誤差之內,需要至少多大的樣本。

在沒有電腦的年代,Bernoulli用的計算工具是經典的「巴斯卡三角形(Pascal’s Triangle)」,國中數學裡主要用來展開(a+b)^n的各項係數,但還有其他重要的用途,先前在《不只是左尾:Wilcoxon Signed-Rank Test》舉出文獻條件機率形式的應用,在這裡,它用來計算「特定和的組合數量」。

Pascal-triangle

簡單來說,想知道從5個候選人的挑選機會(只有選或不選兩種可能)當中,選出0人的方法有幾種,那就看第6個row的第1個column,不用說只有1種,而9個挑選機會當中,隨意選出6人的方法數量,答案在第10個row的第7個column,84種。

每一個挑選結果的方法次數,除以總方法數量,就是「理想機率」,Bernoulli就是靠著這個方法來判斷實際與假定機率的差異。

如果投擲了數萬次,要找出其中正面出現的方法數有多少,機率又是多少,那可需要一個堪比埃及金字塔的嚇人三角形,天文數字加上無止盡的組合對照,這是人力無法克竟全功的實驗。所以你現在知道為什麼大數法則總是與經驗法則的說法連在一起。

上過統計課的人可能會想到,重複的二項機率在樣本數夠大的情況下會近似常態分佈,如此一來就能用信賴區間(Confidence Level)導出所需要的樣本數,以解決這個古老的難題。

聰明! 不過二項分配到底是怎麼近似常態分配的…?

推論統計學的一代巨星:中央極限定理

答案就是「中央極限定理」。學統計一定聽過中央極限定理的大名。它號稱是統計學上最重要的概念之一,到底什麼是中央極限定理?

維基百科是這麼寫的:

「中央極限定理是機率論中的一組定理。中央極限定理說明,大量相互獨立的隨機變數,其均值的分布以常態分佈為極限。這組定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變數之和近似服從常態分佈的條件。」

看看其他網路上的解釋:

「中央極限定理:不論母群體是否為常態分配,只要抽樣的樣本數量夠大的時候,則樣本平均數的抽樣分配會趨近於常態分配;而所謂的的抽樣樣本數量要夠大,根據學者專家的建議至少要大於三十的樣本。」

某學校統計系的網頁:

「中央極限定理是討論不論母群體之機率分配為何種型式,由同一母體抽出 n 個獨立變量,當 n 夠大時,其樣本平均數的抽樣分配會近似常態分配。」

上面這些詮釋雖然都是正確的,但個別敘述的微小差異,還是透露出知識傳遞的不完全,如果去翻一般的統計學教科書,看到的答案八成也是如此。想要憑直覺快速了解大數法則與中央極限定理的本質,不妨玩一玩University of South Carolina教學網站所提供的小程式

中央極限定理的潛在假設與使用限制

上面的定義有些細節可以討論:

第一,是平均數、數列之和還是其他的什麼才會近似常態分佈?

第二,什麼叫樣本數量夠大?

第三,是近似常態分配的「機率密度函數」還是「累計機率函數」?

先來回答第一個問題,不管是數列之和還是平均數,隨著樣本變大,機率分配都會近似與常態分配,更好的詮釋或許是「線性組合統計量」在大樣本下的機率分配會趨近於常態分配。

這並不奇怪,因為常態分配並非一成不變,一個常態曲線是根據兩個重要參數來決定的,平均數的位置與變異數的大小。但無論是哪一種,都可以透過資料的標準化來近似「標準常態分配」,習慣上多以平均數為主,並不是很大的問題。

不過,平均數或數列和的機率分配近似常態,真正奇怪的地方在於,根本沒有人可以直接「針對平均數或數列和」做抽樣,我們都是先抽出一些「樣本點」,再把這些樣本點的數值計算成平均數或數列和。常態分配事實上是具有「可相加性」,那麼是否意味,當抽樣次數夠多的時候,個別樣本點的機率分配會近似常態?

我想應該沒人看過書上這麼寫吧,因為答案是不。原因在稍後的圖裡可以看得很清楚。

而第二個問題,過去文獻指出30個樣本是普遍最低的可信標準,並不是說30個樣本就能「保證」有常態的性質。很多研究在說明的時候,指出因為中央極限定理有30個樣本的要求,故本研究X個樣本已達到標準blablabla…,其實只是一個信心,至於是否能夠被驗證則視研究的設計而定。

正因為無法保證太多,文獻的建議應該被解讀為,如果不知道要抽多少,起碼先抽30個再說吧。魔鬼藏在細節裡,如果能被檢驗,應該會發現在操作變數較多的情況下就算有幾百個樣本也不見得會有很好的常態近似…。

雖然30是一個很好的經驗數,但僅供參考,若詳加考慮其他條件之後,樣本數的需求會截然不同。例如,當原本的研究母體的機率分配明顯呈現對稱型態的時候,很可能15-25個樣本已經具備顯著的常態性質。反過來說,假如原本的研究母體的機率分配根本是隨機亂數的時候,小於30個樣本幾乎無法構成有意義的圖形。

就大數近似的觀點而言,假如不可能有超大的樣本集,那麼研究母體原先的機率分配其實仍是很有影響力的,所以並不是所有書本作者都喜歡強調「無論原本母體分配為何都能近似常態」。

另一個理由是,畢竟常態分配是一個極端值很少、中間值較多的型態,研究對象如果其實是「雙峰分配(M字形狀)」,有兩個像常態圖形的峰段同時存在,在非常大的樣本下還是會達到常態近似,可是據此做出的決策卻可能一點用處也沒有。

第三個問題,所謂的近似常態分配指的是「機率密度函數」而不是「累計機率函數」,由於圖形的差異,應該能夠一目了然,大部分時候我們說的常態分配都與機率密度函數有關,涉及時間等累積問題的時候,才會用到累計機率函數,例如說,學習曲線。

learning-curve-probability

中央極限定理與常態分布 Normal Distribution 的關係

稍加釐清是重要的,因為它點出了近似常態分配的意義為何。

當研究人員鎖定了特定的研究目標,透過抽樣程序收集樣本的時候,所抽出的樣本次數分布會直接反映出母體資料的分布情況,即使有很大量的樣本,「每一個樣本被抽出的機會仍然會反映出原本的機率分配,跟常態無關」。

但是,當我們計算「線性組合統計量」,例如數列和或加工後的平均數,情況就不一樣了,「每一個平均數或數列和彷彿成為新的樣本點,而被抽出的機會隨著原本的樣本數越大逐漸趨近於常態機率」。

它的概念如下圖:

normal-distribution-example

線性組合統計量的由來,當回顧Bernoulli二項機率式與巴斯卡三角形的關係,一切豁然開朗。

pascal-triangle-bernoulli

pascal-triangle-bernoulli2

先前的範例「想知道從5個候選人的挑選機會(選或不選)當中,選出0人的方法有幾種」,改用另一種方式來問「想知道從5個候選人的挑選機會(選或不選)當中,選出某n人的機率是多少」,將巴斯卡三角形中的方法數除以總次數就能得到抽出某n人的機率,而每一層級的總和…,正好為1。

圖形如下,隨著層級變多,機率樣式也越趨近於常態分配:

以線性樣本迴歸式為例,可以清楚體現中央極限定理對近似常態的效果。不用說,迴歸式正是一組線性組合統計量!

approximate-normal-distribution-CLT

其中,誤差項e是比較特別的存在。

回顧文章一開始的內容提到,投擲多次硬幣,正反面的分佈仍然會與「理應」出現的次數有所差異,「有時候多、有時候少」,這種歸於隨機、非人為的因素,彷彿是服從「亂數機率分佈」一般,當重複遭遇多次之後,其誤差平均在中央極限定理之下,「也服從常態分佈」,而且由於正負抵銷的關係,期望值為0,因此一般假設它服從的是平均數為0、標準差為1的常態分佈。

所以在描述中央極限定理時,僅僅提到「平均數」並不是一個完整的說明,而服從常態分佈的效力也還有其他的附帶條件需要被思考。如果現學現賣,用「隨機誤差」與「常態分佈」的關係來思考中央極限定理被認識的情況,總是有些人多懂一點、有些人少懂一點,加加減減之後,似乎也就是一知半解了。

「中央極限定理」,同樣的道理放在許多地方或許都不足為奇吧?

更多精彩內容,千萬別錯過:

* 統計R語言實作筆記系列 – 2D視覺化進階 GGPLOT()的基本架構(一)

* 統計R語言實作筆記系列- 直線ABLINE()、曲線CURVE()與多邊形POLYGON()

* EXCEL 交互參照必學神器, 用 LOOKUP 系列函數一鍵搞定資料比對 : HLOOKUP篇

*通往線性代數的聖母峰 : 特徵值分解(EIGENVALUE DECOMPOSITION)、奇異值分解(SINGULAR VALUE DECOMPOSITION) 與主成分分析(PRINCIPAL COMPONENT ANALYSIS)

廣義線性模型觀點:統計迴歸分析(REGRESSION)的基本原理與結構

(Visited 39,926 times, 168 visits today)

Wendell.Huang

科技公司嫌棄太活潑,消費品牌挑剔太沉悶…, 經常必須解釋自己在學什麼, 不小心就摔破對方眼鏡的業餘書呆子。

4 Comments

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *