Cross Table:卡方分配與卡方檢定

卡方檢定( Chi-Squared Test )這個中文譯名似乎很奇怪,既非人名,也不像在描述函數特徵,或許有人跟我一樣,學統計的時候也曾被這個詭異的名字困擾了一陣子吧。 卡方檢定是基礎統計學中經常被低估的一塊,事實上卡方檢定是最古老的統計學基礎之一,從卡方檢定身上可以延伸出許多統計學歷史中的重要進展,而卡方檢定與卡方分配又和二維列聯表(中文有時也稱為交叉表)分析息息相關,是類別資料分析最基本也最重要的前提知識。 交叉表的分析議題,可依維度分成二維表及三維表兩大類,本文與《On the Cross:Pearson, Yates and Fisher》處理二維表議題,在《Beyond The Cross :三維表( Three-Way Table )與 Simpson’s Paradox 》當中則介紹三維表的卡方分析。 「卡方」名稱種類與涵義是初學者最容易感到混淆的地方,通常有三個情境會直接簡稱為「卡方」:卡方分配、卡方檢定、卡方統計量。

數大有時不美的統計性質

推論統計的主要工作是根據已知的資料去做區分、估計、檢定、建立模型及預測的工作,為使結果更加精確,往往要求「數大」的樣本數。但是數大一定比較好嗎? 例如「信心水準 1 – Alpha 」並非越大越好,因為 Alpha 與 Beta 有著反方向相依的關係,而 Beta 會影響檢定力( Power ),因此才會有常用的 Alpha 值如 0.05 、 0.01 等等。 另外迴歸模型中迴歸係數也不是越大越好,乍看之下較大的迴歸係數表示自變數對依變數有很強的影響力,但不同自變數具有不同的單位,而且變異程度也不相同,因此需要透過標準化迴歸係數( Standardized Regression Coefficient )來解釋不同自變數對依變數的真正效果大小。 但除了這些常見的「數大不美」案例以外,還有幾項是經常被忽略,卻對推論而言相當重要的情形,在此列出與讀者做個分享。 誤解一:樣本越大越好嗎? 大樣本之於統計推論是一項重要的條件,如果樣本夠大,那麼中央極限定理( CLM )將使得線性統計量近似於常態分配,而常態性質是推論的四大基礎統計量 Z 、 T 、 Chi-Square 、F 所必須的前提,重要性不言可喻。 大樣本還能為統計分析帶來一些其他的優勢,例如以樣本資料執行母體平均數的區間估計( Interval Estimation ),公式為: Z 的值受到分析者設定信心水準( 1-Alpha )的影響,當信心越高 Z 值越大,預測的範圍越寬,相對地,也就比較不精確。提升精確度即是縮小預測母體平均數的可能範圍,信心水準會降低,這兩者有著反向的關係。 上面的公式表明了要在信心不變的前提下提高精確度,唯一方法就是增加樣本數。 此外最大概似估計法( MLE… Continue Reading