卡方檢定 Beyond The Cross :三維列聯表分析( Three-way Table )與辛普森悖論( Simpson’s Paradox )

一連寫了兩篇《卡方分配與卡方檢定》、《卡方檢定 On the Cross:Pearson, Yates and Fisher》,分別描述了從 2 x 2 到 R x C 的大樣本表格檢定,也陸續討論了小樣本情境的修正公式、費雪精確檢定( Fisher’s Exact Test )等等觀念。 不過除了以上的二維表之外,在表格分析的統計技巧當中尚有更為複雜的 R x C x K 三維列聯表( Three-Way Table )形式,那就是本文接下來的主題了。準備好了嗎?

卡方檢定 On The Cross:Pearson, Yates, Fisher 與精確檢定

這篇文章的內容與《卡方分配與卡方檢定》,《卡方檢定 BEYOND THE CROSS :三維列聯表分析( THREE-WAY TABLE )與辛普森悖論( SIMPSON’S PARADOX )》互為補充,標題借用了宗教典故,不過這裡我們要講的不是十字架,而是統計分析中相當重要的二維列聯表/交叉表( Contingency Table )。 「 Contingency 」一詞是著名的皮爾森 Karl Pearson 於 1904 年首用的術語,用以表示獨立機率下各分類「偶然性變異」總和的程度(不妨想想卡方獨立性檢定),是比較傳統的表格名稱,現在談交叉表或者二維列聯表時不少都直接改用 Cross Table 的名稱,又特別流行於矩陣維度為 R x C 的情況。 在《卡方分配與卡方檢定》中,已經描述過 Pearson 的卡方檢定方法,雖然文中沒有明確指定,但從範例中不難看出卡方檢定不只能用在 2 x 2 表格,還能進一步推展到 R x C 的表格,但受限於統計量的分配近似性,卡方檢定在中大樣本的表現比較良好。

Cross Table:卡方分配與卡方檢定

卡方檢定( Chi-Squared Test )這個中文譯名似乎很奇怪,既非人名,也不像在描述函數特徵,或許有人跟我一樣,學統計的時候也曾被這個詭異的名字困擾了一陣子吧。 卡方檢定是基礎統計學中經常被低估的一塊,事實上卡方檢定是最古老的統計學基礎之一,從卡方檢定身上可以延伸出許多統計學歷史中的重要進展,而卡方檢定與卡方分配又和二維列聯表(中文有時也稱為交叉表)分析息息相關,是類別資料分析最基本也最重要的前提知識。 交叉表的分析議題,可依維度分成二維表及三維表兩大類,本文與《On the Cross:Pearson, Yates and Fisher》處理二維表議題,在《Beyond The Cross :三維表( Three-Way Table )與 Simpson’s Paradox 》當中則介紹三維表的卡方分析。 「卡方」名稱種類與涵義是初學者最容易感到混淆的地方,通常有三個情境會直接簡稱為「卡方」:卡方分配、卡方檢定、卡方統計量。