卡方檢定 On The Cross:Pearson, Yates, Fisher 與精確檢定

這篇文章的內容與《卡方分配與卡方檢定》《卡方檢定 BEYOND THE CROSS :三維列聯表分析( THREE-WAY TABLE )與辛普森悖論( SIMPSON’S PARADOX )》互為補充,標題借用了宗教典故,不過這裡我們要講的不是十字架,而是統計分析中相當重要的二維列聯表/交叉表( Contingency Table )。

「 Contingency 」一詞是著名的皮爾森 Karl Pearson 於 1904 年首用的術語,用以表示獨立機率下各分類「偶然性變異」總和的程度(不妨想想卡方獨立性檢定),是比較傳統的表格名稱,現在談交叉表或者二維列聯表時不少都直接改用 Cross Table 的名稱,又特別流行於矩陣維度為 R x C 的情況。

在《卡方分配與卡方檢定》中,已經描述過 Pearson 的卡方檢定方法,雖然文中沒有明確指定,但從範例中不難看出卡方檢定不只能用在 2 x 2 表格,還能進一步推展到 R x C 的表格,但受限於統計量的分配近似性,卡方檢定在中大樣本的表現比較良好。

既然卡方檢定在小樣本存在不適宜性,勢必有統計學家提出一些對應修正方法…,它們包括了 Yates 著名的葉氏連續校正( Yates Continuity Correction ),以及 Fisher 學派提倡的費雪精確檢定( Exact Test )

一面介紹這些內容,一面跟著它們回味20世紀初的統計歷史故事。

認識統計權威 Karl Pearson 與他的卡方統計量

Karl Pearson 的卡方統計量是在 1900 年左右提出的,當時他 43 歲。

Pearson 正式成為 University College London (UCL)教授是遠早於那之前的 1883 年,但直到 1890 年為止, Pearson 甚至還未正式開始讓他留名青史的統計研究, Pearson 早期的天才表現在各個領域的著作與教學上:包括遺傳學與演化、兩性學、德國文學、數學、物理學等等。

1890 年之後的時期, Pearson 開始與年紀相仿、同時是皇家學會成員之一的傑出生物學家 Weldon 成為研究夥伴, Pearson 本人也在 1896 年入選英國皇家學會( Royal Society ),兩人合作打開了近代「生物統計學」的大門,並於 1901 年合創了《 Biometrika 》用來發表他們的研究成果。

由於據稱個性激烈又主觀的 Pearson 主導了《 Biometrika 》長達數十年之久,這本期刊又被後人謔稱為「 Pearson 期刊」,但即使經過多年歲月洗鍊,今日的《 Biometrika 》仍然是聲望卓著的 SCI 統計類優秀期刊之一,可由此窺見其歷史影響力。

不難想像,像 Pearson 這樣在生涯早期就已顯赫至此的人物,在後來的學術地位有多崇高了,統計教授 Agresti 也在其書中描述,「 20 世紀初 Pearson 在英國是難得被挑戰的統計學領導人物」。

但是 Pearson 並非那種寬宏大量的好好先生,相反地, Pearson 自視甚高,對於批評其理論的聲音,他總是給予極強烈的反擊,因此 Pearson 與其他同期的統計學家結下不少樑子,其中還包括了一些歷史統計名家例如 Yule 以及 Fisher ,這些意見不合很大程度上影響了最初統計學的走向。

Fisher 對 Pearson 卡方檢定自由度的修正

也由於 Pearson 勢力一度太過強大,導致一些今日看來較為「正確」的修正手段,在 Pearson 掌權的年代並不普及。

舉個例子,記得卡方統計量的形式:

Chi-squared-statistics

事實上在 Pearson 的版本中,自由度應該永遠是 K-1 。

今日許多人仍然誤把所有 R x C 表格的卡方統計量自由度當成 K-1 ,這個錯誤,是 Fisher 在 1922 年幫他修正的。 Pearson 對此的回應是,以( R – 1 )*( C – 1 )當成自由度的話,必然是犯下以樣本資料代替母體的錯誤。

作為對 Pearson 的一次成功反擊, 1926 年 Fisher 利用小皮爾森( Egon Pearson,即為老皮爾森 Karl Pearson 的兒子) 的研究資料加以計算之後證明,老皮爾森的自由度事實上並不恰當之後,這個爭議從此有了定論。

算一算,那是距離卡方統計量提出 26 年後的事情。

類似的,卡方統計量小樣本不適切性的問題,在老 Pearson 時代並未獲得太多關注,儘管統計量的漸近性無疑地導致卡方檢定需要稍大的樣本數。

Yates 的校正卡方統計量:葉氏連續性校正

1934 年,正好是老 Pearson 逝世的前兩年, Yates 提出了卡方檢定統計量的校正:

Chi-squared-statistics-yates

0.5 ,這是一個非常小的改變,但是帶來了意想不到的結果。

為了突顯校正的效果,取材 London Business School 助理教授 Catalina Stefanescu 《 Yates’s Continuity Correction 》中的數據為例, Stefanescu 文中設計了一個 N = 10 , P = 0.5 的二項分配機率,並列出校正前後的卡方機率,結果如下:

Yates-Continuity-Correction

Yates-Continuity-Correction-2

Binomial 代表雙尾的真實機率,明顯可以看出 Yates 的校正機率比起原版的 Pearson ,大幅貼近真實的機率,可見這個校正不僅有必要,而且效力非凡。

Yates 指出,卡方分配事實上是「連續分配(公式詳解可參見《卡方分配與卡方檢定》)」,對於「間斷( Discrete )」資料只能提供近似效果,這是卡方小樣本表現不佳的另一角度詮釋,同時也是為何 Yates 的校正公式稱為「連續校正( Continuity Correction )」的原因。

所以當小樣本情境時,別只顧著做卡方,試試 Yates 的校正公式,兩者値相差甚多時, Yates 會稍微可信一些。

應該注意的是, Yates 用來說明這套公式的範例,只提到 2 x 2 以下的表格, 2 x 1 表雖然較不被重視,校正公式仍然可用,但超過這個範圍,連續校正公式就不適當了。

因為這個巨大的限制,使得 Yates Continuity Correction 受到相當的批評。

但面對批評者的質疑, Yates 本人可能並不視為困境,甚至感到高興,認為這個困境進一步提升了他的同名連續校正公式的重要性,稍後談到「費雪精確檢定」的時候會再說明。

1934 年, Yates 的 Paper 裡除了介紹連續校正之外,還首次提到了精確檢定( Exact Test )的概念,後者在 Fisher 同年出版的專著《 Statistical Methods for Research Workers 》第五版中首次成為專書內容,這個概念即為後來發展出來的費雪精確檢定的原型。

Pearson 與 Yule 的卡方檢定之爭

如同 Yates 指出卡方分配以連續分配估計間斷資料的不正確性,後來也有統計學家( Kendall and Stuart, 1967 )質疑 Yates 的公式顯然只能視為一種為了近似二項分配與超幾何分配而修正的特例:因為它無法推展到所有可能的情況。

對於「假定資料背後隱含某種分配」的分歧意見,正是 Yule 與 Pearson 的爭執原因,Yule認為「類別變數應該是離散的」,但 Pearson 堅信在交叉表背後存在某種連續型分配,對這種分配的近似以及發展相關的描述量數也是 Pearson 在此領域的主要成果。

因此更進階的想法是,我們必須測試所有資料背後可能的假定分配型態,才有辦法找出「最正確」的統計量,實驗也許可以做到,但現實中我們如何能獲得未知的母體資料以做出「估計」與「正確」的比較?

儘管母體終究是未能探知的…,但是在各種假定下執行的計算方法仍然在其適用範圍中發揮了各自的作用。

於是在經歷多年的辯論之後,現代統計理論似乎選擇了一條折衷路線,因為各派的支持者皆有,也都有理論上的優勢與缺點,於是在形形色色的統計模型工具中,似乎都看得到各種學派的影子,因此針對同名的一個計算方法,不同統計軟體公司發展的統計軟體,很可能會產生不一樣的算式或決策標準。

甚至我們習以為常的「虛無假設」與「對立假設」,也不是絕對的,在此二度推薦經典好文,嘉義大學教育學系李茂能教授所撰之《虛無假設顯著性考驗的演進、議題與迷思》,詳讀這篇文章可以對統計虛無假設的歷史背景有一些更深入的認識。

Yates 連續校正的缺陷

除了假定分配的問題之外, Yates 的校正公式在後續研究者的檢視之下,暴露出一些技術上的缺點,大致可總歸於「過於保守」,在此並未一一檢視相關研究的細節,僅摘要一些重點簡單陳述。

關於校正公式的保守性指的是實際錯誤率( p 值)低於預定值(如顯著水準),雖然可以保證所有顯著的結果不犯型一錯誤( Type I Error ),但是無可避免地造成型二錯誤( Type II Error )上升。

普通情況下(表格的行列總和固定)也許還好,假如在表格的行列總和呈現變動的情況下,這個校正就會過於保守以致於幾乎不能拒絕假設而顯得毫無用處,詳見 Grizzle 著於 1967 年的《 Continuity Correction in the ­2 Test for 2×2 Tables 》。

統計學家也觀察到,連續校正只適合做單尾檢定,在雙尾時,這種偏向保守的狀況,或稱為過度校正( Over Correction )的情形又會浮現,詳見 Maxwell 著於 1976 的《Analysis of Contingency Tables and Further Reasons for not Using Yates Correction in 2 × 2 Tables》。

而在先前的二項機率設計中也可以發現,當 p 值遠離 0.5 時,不論校正前後的卡方機率都會越來越不精確。

繼續再來說點故事吧。

統計歷史裡的華生與福爾摩斯

前面提過 Pearson 是如何才華洋溢,然而作為統計學的另一名巨人,同時期的另名統計學家 Fisher 的光芒也是不惶多讓。

與 Pearson 相似的是,儘管 Fisher 早早就被發現有極佳的數學才能,一開始卻也非統計領域的研究者,在一次大戰後, Fisher 作為統計工作者進入了 Pearson 所在的實驗室,在短暫的共事經驗裡,年輕卻富有異才的 Fisher 與當時學界的上位者 Pearson 似乎很快就產生了敵對意識,這種立場一直延續到往後兩人對統計議題的歧異看法上。

1919 年, Fisher 轉而進入生物研究中心 Rothamsted Experimental Station ,該地長年累積的農業與生物資料提供 Fisher 極佳的研究素材,在 RES 期間 Fisher 逐漸成為統計學界的要角, 1925 年出版了他早期的代表作《 Statistical Methods for Research Workers 》第一版,也於此地開創了今日統計模型的基礎「 ANOVA 變異數分析( Analysis of Variance )」。

時序來到 1931 年,已是學界名人的 Fisher ,找了一位 29 歲的聰明年輕人擔任自己的統計助理,這個人就是 Yates , Fisher 當時可能也沒有想到, Yates 在往後的日子裡會宛如福爾摩斯身邊的華生一樣忠實可靠,後來 Yates 也對變異數分析中的集區設計( Block )做出了貢獻。

兩年後時年 43 歲的 Fisher 離開 RES 前往 University College London ( UCL ) 擔任優生學教授, Yates 便接替了 Fisher 的首席統計學家的位置,但這段合作關係並未因此中斷, 1934 年兩人接連發表了有關交叉表格小樣本精確檢定( Exact Test )的內容, 1938 年兩人則共同完成了名作《 Statistical Tables for Biological, Agricultural and Medical Research 》,這可是生物統計的一本名典。

這段合作關係從事後來看,不論對 Fisher 或是 Yates 而言都是統計研究生涯中的黃金時期。

之後於二戰期間, Fisher 不論在公私領域都遭遇打擊因而消沉了一陣子, Yates 則投入作業研究( Operations Research )的領域,兩人交集變少。戰後 Fisher 更加專注於生物學,而 Yates 仍待在 RES 繼續一貫的統計研究,並於 1949 年發表了抽樣方面的專書《 Sampling Methods for Censuses and Surveys 》。 Yates 也是採用計算機運算能力處理統計問題的先驅。

直到 Fisher 過世 4 年後的 1966 年,Yates 才離開 RES ,算一算總共待了 35 年之久。即使到了生涯晚期, Yates 對於維護他與 Fisher 早年的研究成果仍是不遺餘力, 1984 年還發表了一篇 paper 來回應其他統計學家對連續校正以及精確檢定的批評。

時至今日,當人們提到 Yates 主要的貢獻,都離不開師父 Fisher 的影子,也許是這個原因,世人總是給予 Yates 遠低於 Fisher 的評價,然而 Fisher 的理論之所以能普及於統計社群之中, Yates 長期的支持與推廣無疑是背後的重要動力。

卡方檢定歷史爭論背後的隱角:超幾何分配

從前面的卡方檢定與統計量的歷史糾結中,我們知道交叉表的背後其實是有著機率分配的假定的,從先前 Yates 校正公式的例子已經得知, Yates 與 Fisher 對於機率分配的議題,是站在 Yule 這一方,這不僅是因為 Fisher 與 Pearson 的對立關係,更是由於 Fisher 與 Yates 所提倡的「精確檢定」有著超幾何分配( Hypergeometric Distribution )的性質。

這裡說的超幾何分配,更精確地說,是二元超幾何分配,僅限於 2 x 2 表格,精確檢定的表格若超越此一範圍,分配的正確分佈會變成「多元超幾何分配( Multivariate Hypergeometric Distribution )」。

超幾何分配與另一個較為人熟知的二項分配關係非常密切,兩者對應的關係也出現在拓展的多元機率分配上,譬如三項分配以及三項超幾何分配。

不同的是,二項分配是「抽後放回」的設計,而超幾何是「抽後不放回」的設計,想當然爾,超幾何探討的是有限母體的情況,或者考慮一個沒那麼正統的聯想:比較排列公式 Permutation 與組合公式 Choice 的差別,也許會易懂一些。

在二項分配中,對抽樣結果只給予兩種可能性 A 與 B ,對應的機率則是 P 與 1-P ,抽樣次數以 N 來表示, AB 出現的次數以 NA 、 NB 表示,以出現 NA 個 A 事件的機率為例,機率公式與示意圖如下:

binominal-distribution-and-probability

binominal-distribution-and-probability-2

二元超幾何分配,抽樣可能性仍為兩種,不是 A 就是 B ,分別有 NA 個與 NB 個,總樣本數 N = NA + NB ,分別對應機率 Pa 、 Pb ,各類被抽到的數量標記為 na 、 nb ,實行的抽樣次數為 n ,且 n = na + nb 。

以抽中 na 個 A 類事件的機率為例,機率公式及示意圖:

Hypergeometric-distribution-and-probability

Hypergeometric-distribution-and-probability-2

從公式可知道,二項分配的期望值與變異數其實就等於超幾何分配…,不過這是大樣本下才有的性質。

它的一般性標準是,當母體樣本數 N 比抽樣次數 n 大於 20 倍時,可說此母體近似無限母體情境,抽後放回與抽後不放回的設計沒有太大差別。

若為有限母體,超幾何的變異數還需乘上一個校正因子:

Hypergeometric-distribution-and-probability-3

品茶實驗與費雪精確檢定( Fisher’s Exact Test )

儘管今日的「精確檢定」幾乎就與 Fisher 畫上等號,但這個方法到底是不是 Fisher 首創的其實並無直接的證據,另一位 Fisher 的同事 Joseph Oscar Irwin 也在同年發表過與精確檢定有關的研究內容,時間稍稍早於 Yates 與 Fisher 。

但從後續的推廣與影響力而言,精確檢定的方法冠上 Fisher 似乎並無不妥,甚至應該稱為 Fisher-Yates Exact Test ,原因你們都知道了。

193 5年, Fisher 用了一個範例說明精確檢定,即知名的「品茶實驗」。

Fisher 有一個女同事宣稱能分別杯中茶飲是先倒牛奶或先倒茶,為了檢驗這個宣稱, Fisher 準備了 8 杯茶讓這位女同事試喝,其中 4 杯先放茶,另外 4 杯先放牛奶。

假設檢定運用了勝算比的形式:

fisher-exact-test

既然用了勝算比,分子分母機率比的順序其實無所謂,因為結果的方向性也會跟著改變,只要注意方向的問題即可。

當勝算比為 1 ,意同虛無假設之宣稱「正確而非錯誤」的比值,與觀測到的真實機率比值一致,當勝算比大於 1 ,則代表「猜對機率大於猜錯」,反之亦然。

因此建立有方向性的對立假設,應設:

fisher-exact-test-2

如果用 Pearson 的方法來分析這個實驗,就會對應到卡方獨立性與卡方同質性檢定,但是要注意卡方檢定與精確檢定,在假設檢定與計算原理皆是不同的。

再提醒一下,這種情況就是先前介紹 Yates 校正時提過的「固定行列總和」的實驗。

2 x 2 精確檢定的 Cross Table 範本:

fisher-exact-test-3

若假定這些次數資料的分配型態是「間斷型」,例如二項、多項、卜瓦松分配,在行列總和被固定的情況下,只要知道其中一格就能得出剩下三格的次數,因此得出通式,以第一行第一列格子出現 n11 次數的機率為例,公式:

fisher-exact-test-4

符號也許不太好懂,若能注意「宣稱為真」與「實際為真」對應的行列總和位置,應該會比較清楚一些。

套入品茶者實驗的數據:

fisher-exact-test-5

這個 0.23 的 p 值,代表的意義是「在先放牛奶(茶)的 4 杯中」,「正確猜出 3 杯」的機率。

女同事猜出 4 杯(全部猜對)的機率則是:

fisher-exact-test-5

也就是說,「猜對大於猜錯」的「正確」機率總和為 P ( X > 2 ) = 0.014 + 0.23 = 0.244 。

它不是近似,而是「真正正確」的機率,正確的「顯著水準」。

今日假如女同事猜出了 3 杯,精確檢定得出 p ( 3 ) = 0.023 ,顯然是落在拒絕域中,我們自然可以說,有足夠證據顯示女同事的猜測杯數與真實杯數「不獨立」,而且從方向性可看出兩者具有「正向關聯(猜測機率大於猜錯機率)」。

這就是「精確檢定」的名稱由來,因為它所估算的是真實的間斷機率,而非用近似的方法。

然而間斷分配的假定帶來了不可避免的缺陷…,那就是計算過程的繁瑣性。

想想看,若格子 n11 不只有 0 ~ 4 杯的限制,而有 100 種可能性,計算方面會變為如何?

更進一步,介紹超幾何的開頭也曾提到,超越 2 x 2 表格的任意 R x C 表下,資料分配的正確分佈會變成「多元超幾何分配( Multivariate Hypergeometric Distribution )」,在此情形下,要「逐一計算加總」得出「正確機率」,在精確檢定發展之初的 1930 年代完全是一件不切實際的事。

當時的研究非常喜歡透過大量的範例計算來研究交叉表的性質,譬如 Pearson 發展卡方檢定統計量時,就借用了 Weldon 的擲骰子資料…,你猜猜 Weldon 人工丟了幾次骰子? 26306 次!

後來 Fisher 修正 Pearson 卡方自由度時,利用了小 Pearson 的交叉表計算資料,再猜猜算了幾次?共有 12000 個表格計算範例!

因為計算能力有限的歷史背景,讓身為皮爾森的死對頭 Fisher 也不得不承認,在任意的交叉表中,只要樣本數不至於過少,還是應該執行卡方檢定。

這也就是為何,儘管連續校正只適合 2 x 2 以下表格, Yates 卻認為連續校正反而成為可考慮的計算選項,儘管兩者的計算複雜度卻有著極大的差別,但大樣本下, Yates 的校正統計量跟精確檢定居然是非常近似的!

此一性質暗示了,即使是費雪精確檢定,在統計習慣給定的幾個顯著水準下同樣有過於保守的問題。

今日的統計二維列聯表分析

交叉表格看似簡單,卻透露出統計學作為一門「半科學」的某些極限…,左估計、右近似,這裡融合一點,那裡將就一下,同時造出許多特殊的限制,以至於後來的統計世代對於原始的統計理論總是抱有正反不一的評價。

一個證據就是,在 Yates 公式問世 78 年後的現在,已經很少被使用了。

除了校正公式本身的限制以外,電腦計算能力與統計軟體的進步,使得 R x C 表採用費雪精確檢定成為可能(不要太大的話),因此在許多情況下,似乎已經沒有理由再繼續使用過去用來近似精確檢定的 Yates 校正公式。

而當年 Pearson 與 Fisher 的許多分歧,即使經過後人多年的討論,始終沒有得到一個絕對正確的答案,他們的理論多半被調和成一般性的統計常識,不再有人特別區分這是哪個派別的主張。

所以若是讀者遇到了二維表的分析問題,在選用合適的計算方法之餘,不妨也趁機回味這段在表格數字背後交織的歷史情結,紀念一下這些天才至極卻又偏執無比的往日明星吧。

丟了 26306 次骰子?天啊!

閱讀一分鐘,台下十年功!精選文章推薦:

* DATA TRANSFORMATION的一些探討

* 維度縮減DIMENSION REDUCTION,通往線性代數的聖母峰 : 特徵值分解(EIGENVALUE DECOMPOSITION)、奇異值分解(SINGULAR VALUE DECOMPOSITION) 與主成份分析(PRINCIPAL COMPONENT ANALYSIS)

* 隨機性、大數法則與中央極限定理

* 統計R語言實作筆記系列 – 資料尺度與變數類型

* 統計R語言實作筆記系列 – 2D視覺化進階 GGPLOT()的基本架構(一)

* 數大有時不美的統計性質

(Visited 4,529 times, 69 visits today)

Wendell.Huang

科技公司嫌棄太活潑,消費品牌挑剔太沉悶…, 經常必須解釋自己在學什麼, 不小心就摔破對方眼鏡的業餘書呆子。