卡方檢定 Beyond The Cross :三維列聯表分析( Three-way Table )與辛普森悖論( Simpson’s Paradox )

一連寫了兩篇《卡方分配與卡方檢定》、《卡方檢定 On the Cross:Pearson, Yates and Fisher》,分別描述了從 2 x 2 到 R x C 的大樣本表格檢定,也陸續討論了小樣本情境的修正公式、費雪精確檢定( Fisher’s Exact Test )等等觀念。 不過除了以上的二維表之外,在表格分析的統計技巧當中尚有更為複雜的 R x C x K 三維列聯表( Three-Way Table )形式,那就是本文接下來的主題了。準備好了嗎?

卡方檢定 On The Cross:Pearson, Yates, Fisher 與精確檢定

這篇文章的內容與《卡方分配與卡方檢定》,《卡方檢定 BEYOND THE CROSS :三維列聯表分析( THREE-WAY TABLE )與辛普森悖論( SIMPSON’S PARADOX )》互為補充,標題借用了宗教典故,不過這裡我們要講的不是十字架,而是統計分析中相當重要的二維列聯表/交叉表( Contingency Table )。 「 Contingency 」一詞是著名的皮爾森 Karl Pearson 於 1904 年首用的術語,用以表示獨立機率下各分類「偶然性變異」總和的程度(不妨想想卡方獨立性檢定),是比較傳統的表格名稱,現在談交叉表或者二維列聯表時不少都直接改用 Cross Table 的名稱,又特別流行於矩陣維度為 R x C 的情況。 在《卡方分配與卡方檢定》中,已經描述過 Pearson 的卡方檢定方法,雖然文中沒有明確指定,但從範例中不難看出卡方檢定不只能用在 2 x 2 表格,還能進一步推展到 R x C 的表格,但受限於統計量的分配近似性,卡方檢定在中大樣本的表現比較良好。

Cross Table:卡方分配與卡方檢定

卡方檢定( Chi-Squared Test )這個中文譯名似乎很奇怪,既非人名,也不像在描述函數特徵,或許有人跟我一樣,學統計的時候也曾被這個詭異的名字困擾了一陣子吧。 卡方檢定是基礎統計學中經常被低估的一塊,事實上卡方檢定是最古老的統計學基礎之一,從卡方檢定身上可以延伸出許多統計學歷史中的重要進展,而卡方檢定與卡方分配又和二維列聯表(中文有時也稱為交叉表)分析息息相關,是類別資料分析最基本也最重要的前提知識。 交叉表的分析議題,可依維度分成二維表及三維表兩大類,本文與《On the Cross:Pearson, Yates and Fisher》處理二維表議題,在《Beyond The Cross :三維表( Three-Way Table )與 Simpson’s Paradox 》當中則介紹三維表的卡方分析。 「卡方」名稱種類與涵義是初學者最容易感到混淆的地方,通常有三個情境會直接簡稱為「卡方」:卡方分配、卡方檢定、卡方統計量。

一場關於猜的魔術:統計估計的形成

估計其實就是猜。 我們每天都在猜測關於下一秒鐘可能發生的情況,譬如最近豪雨成災,自家附近到底會不會淹水,有人告訴你可能會,這是猜測。歐債問題持續無解,經濟到底何時復甦,分析師估計說一年後,大老闆則說兩年內,兩個人都在猜。 猜測是有層次的,科學化的猜測就叫估計,統計學當中估計是一個重要的學問,沒有估計,就沒有後續的建模與檢定,也就是,當估計的性質被破壞,那麼模型與檢定的結果就會有問題。正因為統計估計如此重要,本文緊接著將探討各種統計估計的方法及內涵。

不只是左尾:Wilcoxon Signed-Rank Test

Wilcoxon Signed-Rank Test 是無母數統計( Nonparametric Statistics )中常用的一種檢定方法,如同其他無母數檢定,它也透過計算中位數( Median )及等級排序( Ranking )來分析顯著性。 常見翻譯為「魏克森符號等級檢定法」的這個檢定有一般兩個使用時機,第一種是單一樣本( One Sample Cases ),另一種是成對樣本或稱相依、相關樣本( Paired Sample Cases )。 中位數之於無母數檢定其實也是為了提供和平均數檢定相同的資訊,只不過要使用平均數來執行檢定必須符合常態條件,例如母體分配為常態,或者中央極限定理( CLM )下線性組合統計量在大樣本(一般經驗法則為 30 個)下其分配會近似常態。 相較之下無母數方法的好處就是不需拘泥於事前假設分配(像是萬年的常態分配),更令其具備實用性的是在小樣本條件下也能使用。當然它也是有一些限制的,以 Wilcoxon Signed-Rank Test 為例,需要在資料具有對稱性( Symmetric )時效果才會好,同時如果排序時出現「結( Ties )」,較大樣本可近似常態的性質會遭到破壞,這部份容後再述。 當資料分布為常態時,檢測平均數應用的方法為 Z 檢定,如果符合常態假設,但為小樣本,則改用 T 檢定。 但假如母體分配未知,而樣本數又不夠,那麼就是中位數檢定上場的時機了。 Wilcoxon Signed-Rank Test (WSR)的實戰應用 以下修改先前為某家節能科技廠商擔任分析顧問時遇到的真實案例: 該公司最近拿到一份報告,內容是關於新產品「汽油省油器」上市前的效能數據,公司為了比較安裝省油器前後的汽車耗能差異,於是委託廠商進行為期 2 週的路跑實測,第一週車輛不做任何調整上路,第二週才安裝省油器,報告中以「 Consumption Ltrs/100km… Continue Reading

數大有時不美的統計性質

推論統計的主要工作是根據已知的資料去做區分、估計、檢定、建立模型及預測的工作,為使結果更加精確,往往要求「數大」的樣本數。但是數大一定比較好嗎? 例如「信心水準 1 – Alpha 」並非越大越好,因為 Alpha 與 Beta 有著反方向相依的關係,而 Beta 會影響檢定力( Power ),因此才會有常用的 Alpha 值如 0.05 、 0.01 等等。 另外迴歸模型中迴歸係數也不是越大越好,乍看之下較大的迴歸係數表示自變數對依變數有很強的影響力,但不同自變數具有不同的單位,而且變異程度也不相同,因此需要透過標準化迴歸係數( Standardized Regression Coefficient )來解釋不同自變數對依變數的真正效果大小。 但除了這些常見的「數大不美」案例以外,還有幾項是經常被忽略,卻對推論而言相當重要的情形,在此列出與讀者做個分享。 誤解一:樣本越大越好嗎? 大樣本之於統計推論是一項重要的條件,如果樣本夠大,那麼中央極限定理( CLM )將使得線性統計量近似於常態分配,而常態性質是推論的四大基礎統計量 Z 、 T 、 Chi-Square 、F 所必須的前提,重要性不言可喻。 大樣本還能為統計分析帶來一些其他的優勢,例如以樣本資料執行母體平均數的區間估計( Interval Estimation ),公式為: Z 的值受到分析者設定信心水準( 1-Alpha )的影響,當信心越高 Z 值越大,預測的範圍越寬,相對地,也就比較不精確。提升精確度即是縮小預測母體平均數的可能範圍,信心水準會降低,這兩者有著反向的關係。 上面的公式表明了要在信心不變的前提下提高精確度,唯一方法就是增加樣本數。 此外最大概似估計法( MLE… Continue Reading

Data Transformation的一些探討

在進行統計分析時,最重要的元素可能不是深奧難懂的算式工具,也不是待驗證的理論結構,而是最終用來分析的那一堆資料。而資料多變的性質有時候會給分析人員帶來許多麻煩。 在任何研究當中,取得隨機、獨立、有代表性的樣本都是首要的大事,然而即使是「正確」的資料有時不見得是可以順利處理的,例如在線性迴歸( Linear Regression )當中我們經常會遇見這樣的情形:運算結果不符合研究預期、模型解釋力低下,更糟糕的是看起來雖然有某些關聯性,卻不足以在統計上證明資料確實屬於線性相關。 檢驗資料間的相關性,可以用繪圖的方式來觀察,若需要用到相關係數的檢定方法,則應考慮兩變項的尺度關係。 資料轉換與統計假設 網路流傳的一份統計補充教材裡有著整理表格可供參考: X Y 名義變項 次序變項 等距以上變項 名義變項 列聯相關 相關 Kappa一致性係數 四分相關 點二系列相關 二系列相關 多系列相關 次序變項 Spearman等級相關 Kendall等級相關 Kendall和諧係數 等距以上變項 點二系列相關 二系列相關 多系列相關 Pearson積差相關 淨相關 相關比 如果資料間不需檢定就已能看出不符合線性關係的假設,那麼我們就可以使用考慮資料轉換( Data Transformation )的方法來改善這些問題,資料轉換顧名思義,就是針對自變項 或是應變數 先行運算後再重新導入迴歸以調整模型的作法。 常見的轉換方式包括開根號、冪次轉換( Power Transformation )、取對數、遞延轉換( Lagged Transformation )等等,而非線性關係又可以再細分成「可轉換為線性」與「不可轉換為線性」兩種,聽起來是否匪夷所思? 思考一下這個模式: 請問這個式子是線性還是非線性?乍看之下,連乘的運算應該是一種非線性關係,但是透過轉換,你會看出其實它也是一種線性關係。讓我們把算式兩邊同時加上 LOG 運算,結果如下: 透過轉對數,我們可以將原本非線性的式子轉為線性模式。經驗上,右偏的資料型態可以取對數來修正,左偏的資料可以考慮2次或3次方的曲線型態。項值小於1的冪次轉換也是一種可以考慮的方法,以此法為例繪圖如下: 透過例圖可以清楚看見,將非直線關係的… Continue Reading

心理學「門檻」的奧祕

物價上漲是一個長期性的趨勢,即使台灣的 CPI 指數以全球為標準來說算是相當不錯,商品漲價還是不可避免,但許多時候卻可見與物價上漲相反的情形,例如以前到各地逛夜市的經驗,排餐一客大約都是 100 元上下,但是近年有些地方的排餐卻開始逆勢打出 80 元左右的價格。 電視購物台裡形形色色的產品,不時推出極低的折扣或誘人的方案,和市面上類似的產品比較,的確非常有競爭力,但是除了通路特性以外,你能否舉出其他原因?而琳琅滿目的規格又有多少人能分辨清楚呢? 這些生活所見,其實都與心理學的各種「門檻( Threshold )」有著或多或少的關係。 絕對門檻( Absolute Threshold )與差異門檻( Differential Threshold ) 門檻指的是一種「最低刺激量」,刺激量必須超過這個門檻才能使感官有效感受到該刺激,所以又稱為「感官門檻( Sensatory Threshold )」,感官門檻可以再分為: 1. 使感官能夠察覺到刺激所需的刺激量,稱為「絕對門檻( Absolute Threshold )」 2. 能察覺兩個刺激量之間變化所需的變化量,稱為「差異門檻( Differential Threshold )」 為什麼肉明明沒有變便宜,而價錢卻可以降低?常常就是因為肉排或配菜不知不覺中縮水了,讓變化低於絕對門檻以至於消費者根本無從查知。 或者更高竿地,換成「來源較便宜」的材料,在經過烹飪、佐醬後,雖然會讓消費者感到有所不同卻無法明顯吃出差異,還以為「物超所值」,這正是因為美味的差別還沒有跨越差異門檻的緣故。 茶飲店就是個很好的範例,眾所皆知 1000 c.c. 大包裝的產品(例如各種紅茶冰)用的是次等的中國或東南亞茶葉,然後冰塊比較多一點,但要是許多人知道不少連鎖店 750 c.c. 的茶飲,也有相當多用的是和大包裝飲料一樣來源的無味茶葉,不曉得會不會大吃一驚,因為「根本就沒有比較便宜」。 門檻是定價策略中不可或缺的一環,經濟學裡有個重要的單元就叫做差別取價( Price Discrimination ),縱軸通常放「價格」、橫軸則是「數量」,在沒有差別取價的情形下,彷彿把所有人的價格彈性都視為相同,但是了解門檻心理學後我們會發現事實卻非如此。 採用差別取價,廠商能夠根據單一(或不同分群)消費者的價格彈性,訂出「單位成本不盡相同」的價格,從而獲取消費者剩餘( Consumer Surplus ),分得更多利潤。 但是價格並非門檻的唯一種類,意思就是縱軸還有其他可能,例如把價格換成了時尚偏好、流行偏好、音樂偏好、運動偏好、娛樂偏好等等各種分類,而每換一種都會產生一個新的「差別門檻(… Continue Reading