數大有時不美的統計性質

推論統計的主要工作是根據已知的資料去做區分、估計、檢定、建立模型及預測的工作,為使結果更加精確,往往要求「數大」的樣本數。但是數大一定比較好嗎?

例如「信心水準 1 – Alpha 」並非越大越好,因為 Alpha 與 Beta 有著反方向相依的關係,而 Beta 會影響檢定力( Power ),因此才會有常用的 Alpha 值如 0.05 、 0.01 等等。

另外迴歸模型中迴歸係數也不是越大越好,乍看之下較大的迴歸係數表示自變數對依變數有很強的影響力,但不同自變數具有不同的單位,而且變異程度也不相同,因此需要透過標準化迴歸係數( Standardized Regression Coefficient )來解釋不同自變數對依變數的真正效果大小。

但除了這些常見的「數大不美」案例以外,還有幾項是經常被忽略,卻對推論而言相當重要的情形,在此列出與讀者做個分享。

誤解一:樣本越大越好嗎?

大樣本之於統計推論是一項重要的條件,如果樣本夠大,那麼中央極限定理( CLM )將使得線性統計量近似於常態分配,而常態性質是推論的四大基礎統計量 Z 、 T 、 Chi-Square 、F 所必須的前提,重要性不言可喻。

大樣本還能為統計分析帶來一些其他的優勢,例如以樣本資料執行母體平均數的區間估計( Interval Estimation ),公式為:

區間估計

Z 的值受到分析者設定信心水準( 1-Alpha )的影響,當信心越高 Z 值越大,預測的範圍越寬,相對地,也就比較不精確。提升精確度即是縮小預測母體平均數的可能範圍,信心水準會降低,這兩者有著反向的關係。

上面的公式表明了要在信心不變的前提下提高精確度,唯一方法就是增加樣本數。

此外最大概似估計法( MLE )估計出之參數具有漸進特性,其不偏( Unbiased )、有效( Efficiency )以及常態的性質須在大樣本下才能維持。迴歸模型的標準誤也受到樣本大小的影響,其他條件不變下,樣本越大會使得標準誤越小。

以複迴歸為例:

迴歸標準誤

樣本大還對檢定力( Power=1-Beta )有正面的影響。沒錯,樣本數就是這麼重要,但是…,別以為它一定越多越好。

因為統計學者指出,當樣本數太大時,即使模型的 R^2 很小,多元模型幾乎都能顯著。將 Alan McLean ( 2001 , p17 )《 On the Nature and Role of Hypothesis Tests 》中的例子稍作修改如下:

大樣本單尾

可見得真正大量的樣本未必是件好事。

有學者的分析( Tabachnick & Fidell )建議在能使參數估計符合不偏、一致、有效前提下,取所必須的最小樣本,能夠避免樣本過大的問題。

然而統計顯著又該怎麼說呢?

一個頗值得參考的修正方法就是加入實務顯著的觀點,亦即探討 22 與 20 的差異是否真正會造成實務上應用的不同?就像某工業區全部廠商一天生產螺絲釘 20*10^5 個,對其中抽樣 10^ 5個,第一天不良品為 20 個,第二天不良品為 22 個,試問這兩天的不良品數量有無差異?

統計上的確顯著了,但可能不具有實際意義。這個方法有賴研究者根據實際經驗、理論或者合理的邏輯推斷來決定實務顯著與否,儘管決策有可能依照主觀意見不同而有相反的結果,不過當統計顯著和實務顯著都指向同一方向的時候,就不需要煩惱這個問題了。

另外如果樣本過大,而母體實際上規模有限時,抽樣母體設為無窮大的假設將遭到破壞,有可能抽樣分配近似常態的效果不佳,而且參數必須做有限母體修正( Finite Population Correction )。無限母體的判別法則通常以母體樣本總數 N 大於抽樣樣本數 n 乘以二十倍,則無須再做修正。

誤解二:判定係數 R^2 越大越好嗎?

判定係數( Coefficient of Determination ),或習慣寫為 R^2 ,是線性迴歸模型中用來判別模型好壞的主要依據,它的公式如下:

判定係數

其中 SSR 是自變數變異, SST 代表總變異,因此可以將 R^2 視為此模型「解釋變異的能力」,所以說 R^2=0.9 的模型應該比起 R^2=0.6 的模型好得多吧?

只能說…,不見得。

Why ?因為 SSR 是來自所有變數的變異量加總,只要提高 SSR ,那麼 R^2 就會增加,於是把無限多個自變數加入又如何呢?

理論上 R^2 應該會變得非常趨近於 1 ,但這表示模型具有很好的解釋力嗎?事實上這樣做很可能會得到一大堆迴歸係數不顯著的自變數,於是就無法分別什麼變數才是重要的。而模型中如果只有一個或兩個有用的自變數就已經能達到 R^2=0.6 的水準,那麼這個模型反而非常具有參考價值。

這是不是說掌握重要的自變數比單純增加模型解釋變異力更有價值?

當我們逐一掌握了有用的關鍵變數, R^2 當然會得到增加,而現實中干擾的因素實在是太多了,譬如經濟成長率的分析,或是股票指數的分析,掌握少數關鍵變數比起投入上千個自變數以得到高R^2的模型有意義多了,因此 R^2 的高低要考慮到預測用的變數是否容易掌握,才能進一步了解模型的優劣。

關於 R^2 有篇文章非常值得一讀, David Leinweber 的「 Stupid Data Mining Tricks – Overfitting the S&P 500 」,一些 blogs 都能找到它的相關文章, Leinweber 在文中提出了幾個非常簡單而有力的質問,對分析有興趣者務必一看,這裡就不多介紹了。

誤解三: P-value 越小越好;檢定統計量越大越好嗎?

在統計報表上,通常 P 值與參數的檢定統計量例如常見的 t 值、 z 值有著反向關係,當檢定統計量越大時, P 值就會越小,因而經常在期刊上看到以數個「 * 」來代表一個參數的顯著程度。

但如果回歸基礎,你會發現 P-value 與假設檢定的關係本身其實就是一個大問題。

兩位統計界的上古神獸, Fisher 以及 Pearson 的競爭造成統計上關於 P-value 與 Alpha 值的疑義、假設檢定( Hypothesis Testing )的使用觀念上有著分歧,現在一般教科書上看到的內容是兩者綜合的結果,而比較傾向 Neyman-Pearson 的觀點。

有興趣的讀者可以進一步參閱李茂能教授載於《測驗統計年刊》的《虛無假設顯著性考驗的演進、議題與迷思》,這也是一篇水準極佳的良好學習素材。

這裡舉 Z 檢定為例,它的 P-value 是以現有資料得出統計量後,再檢定欲測試的變數值藉以算出 Z 分數,此分數所對應 Z 值表的機率。回到先前的例子:

Z檢定分數

在執行統計檢定時, Pearson 派的假設檢定會先設定一 Alpha 水準,當 P-value 小於此值時視為統計顯著,反之亦然。當 Alpha 為 0.025 時,此 Z 分數對應的機率值約為 0.5-0.46=0.04 ,此結果並不顯著。

那麼問題來了:當一個模型中兩迴歸係數檢定結果 P1=0.011,P2=0.007 ,兩個 P 值都是顯著的,是否表示 P 值低的係數較好?若以 Pearson 派的角度而言,其實兩者是等價的,因為在設定 Alpha 值後,所有檢定都只有顯著與不顯著兩種結果而已。

但是二分法會產生一個問題,那就是 0.024 的顯著與 0.026 的不顯著可能不構成前面提過的「實務顯著」,而這一點差距是很可能因為樣本數增加變為顯著的。

而在 Fisher 派看來, P 值就是 Alpha ,可以視為現有資料計算下犯「 TypeI 錯誤」的機率,由此觀點而言, P 值越小似乎比較好。而 Fisher 派的缺點之一,即是在於未對拒絕與否設定客觀的 Cut Value ,僅流於主觀判斷。

另一方面 Alpha 越小,將造成 Beta 越大,兩者是相依關係,若 P 值等於 Alpha 設定太低,犯 TypeII 錯誤的機會就會大幅增加。

因此光以 P 值來判斷模型中係數的好壞並不恰當,要看某變數對模型的影響力,仍然應該從標準化迴歸係數( Standardized Regression Coefficient )著手較無爭議。

統計觀念上的誤解對於解釋模型而言有時相當危險,它們可能會改變一個分析的最終結論,而很多分析結果都忽略了它們的重要性,或者只就某些對分析者有利的角度做解釋,因而讓結果變得不太可靠。

正如 Mark Twain 的名言:「 There are three kinds of lies:lies, damned lies, and statistics 」。

小心,「數大」可是會把人唬得團團轉。

好文章,不再多看幾篇嗎?

* 迴廣義線性模型觀點:統計迴歸分析(REGRESSION)的基本原理與結構

* DATA TRANSFORMATION的一些探討

* 一場關於猜的魔術:統計估計的形成

* CROSS TABLE:卡方分配與卡方檢定

* 卡方檢定 ON THE CROSS:PEARSON, YATES, FISHER 與精確檢定

* 卡方檢定 BEYOND THE CROSS :三維列聯表分析( THREE-WAY TABLE )與辛普森悖論( SIMPSON’S PARADOX )

* 隨機性、大數法則與中央極限定理

(Visited 9,735 times, 39 visits today)

Wendell.Huang

科技公司嫌棄太活潑,消費品牌挑剔太沉悶..., 經常必須解釋自己在學什麼, 不小心就摔破對方眼鏡的跨領域玩家。

2 Comments

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *