不只是左尾:Wilcoxon Signed-Rank Test

Wilcoxon Signed-Rank Test 是無母數統計( Nonparametric Statistics )中常用的一種檢定方法,如同其他無母數檢定,它也透過計算中位數( Median )及等級排序( Ranking )來分析顯著性。

常見翻譯為「魏克森符號等級檢定法」的這個檢定有一般兩個使用時機,第一種是單一樣本( One Sample Cases ),另一種是成對樣本或稱相依、相關樣本( Paired Sample Cases )。

中位數之於無母數檢定其實也是為了提供和平均數檢定相同的資訊,只不過要使用平均數來執行檢定必須符合常態條件,例如母體分配為常態,或者中央極限定理( CLM )下線性組合統計量在大樣本(一般經驗法則為 30 個)下其分配會近似常態。

相較之下無母數方法的好處就是不需拘泥於事前假設分配(像是萬年的常態分配),更令其具備實用性的是在小樣本條件下也能使用。當然它也是有一些限制的,以 Wilcoxon Signed-Rank Test 為例,需要在資料具有對稱性( Symmetric )時效果才會好,同時如果排序時出現「結( Ties )」,較大樣本可近似常態的性質會遭到破壞,這部份容後再述。

當資料分布為常態時,檢測平均數應用的方法為 Z 檢定,如果符合常態假設,但為小樣本,則改用 T 檢定。

但假如母體分配未知,而樣本數又不夠,那麼就是中位數檢定上場的時機了。

Wilcoxon Signed-Rank Test (WSR)的實戰應用

以下修改先前為某家節能科技廠商擔任分析顧問時遇到的真實案例:

該公司最近拿到一份報告,內容是關於新產品「汽油省油器」上市前的效能數據,公司為了比較安裝省油器前後的汽車耗能差異,於是委託廠商進行為期 2 週的路跑實測,第一週車輛不做任何調整上路,第二週才安裝省油器,報告中以「 Consumption Ltrs/100km 」、「 Consumption Km/Ltr 」為指標分別紀錄了兩者耗能情況如後:

在這種樣本數不夠多,同時趨勢線也不明顯的個案中,無母數統計就顯得非常有用。由於個案是屬於成對樣本,因此接著就來執行 Wilcoxon Signed-Rank Test 。

首先分別就兩個星期的耗油量相減得到差異值 D ,接著與 Sign test 相同,依照正負號標記。

Wilcoxon Signed-Rank Test 和 Sign test 的主要差異在於 Wilcoxon Signed-Rank Test 不只考慮正負方向,還考慮了與基準點(此處為0)的距離,因此相比之下是更好的方法,我們冠上絕對值後得到數值 Z 。

Rank 標記的方法是依照與基準點的距離,由近而遠給序,以絕對値最靠近 0 者為 1 ,依次為 2 , 3 …, 7 。 R+ / R- 的分數則是正號/負號的等級加總,計算得 R+ 為 9 , R- 為 19 。

Wilcoxon Signed-Rank Test 的計算其實不難,比較容易讓人搞混的是檢定規則。

在左尾檢定中( Left-tailed Test ), Reject if R+ < W (Alpha, n),右尾檢定( Right-tailed Test )與之相對, Reject if R- < W ( Alpha, n )。

雙尾檢定( Two-tailed Test )還需要找出 Rmin ,即以 R+ / R- 兩者較小的一方為值, Reject if Rmin< W(Alpha, n)。

看似檢定的方向有點奇怪,不只拒絕域總是都在左邊,而且右尾檢定 D>0 看的是 R- ,左尾檢定 D<0 卻用 R+ 。

因為 R+ / R- 是絕對值加總,其值越大,表示與原點的距離越遠,若欲檢定 Z>0 ,在對稱下事實上會出現兩種做法,一者是直觀上的「 R+ 夠大」,其次便是「 R- 夠小」,因為 R+ / R- 總和為定值,故兩者是等價的。

換個假說方向,欲檢定 D<0 ,可以觀察直觀的「 R- 夠大」,或者「 R+ 夠小」,結果也是相同的。

由於左表的使用比較普及,因此幾乎都是以左尾方向來做檢定,此即前述的檢定規則 Reject D>0 if R-<W、Reject D<0 if R+<W 。

本例是右尾檢定,因 R- =19 >W(0.05,7) =4 ,結論為無顯著證據表示成對樣本中位數有差異。

檢定至此告一段落,不過 Wilcoxon Signed-Rank Test 還有其他有意思的地方。

Wilcoxon Signed-Rank Test 的進階觀念

首先是前面說過的「較大樣本可近似常態的性質」,當樣本大於「某數」時, Wilcoxon Signed-Rank Test 的形式可以轉換為 Z ,能讓我們用較熟悉的 Z 統計量來操作。

這時候的統計量會像這樣:

期望值與變異數:

其中 Tmin 就是 T+ / T- 兩者較小一方的値。

計算出以上形式後,可以運用與 Z 檢定相同的決策法則:

左尾檢定: Reject if Z<-Z(Alpha)
右尾檢定: Reject if Z> Z(Alpha)
雙尾檢定: Reject if Z<- Z(Alpha/2) or Z> Z(Alpha/2)

回到前面的範例,將耗油數值強行帶入(實際上不適宜)計算,得到:

結論為無顯著證據指出成對樣本中位數(就算透過近似平均數來計算,實際上的資料仍然是中位數)是有差異的。

另外當我們使用近似時,樣本「某數」應該為多少呢?這個問題有多種解答,主要有以下幾種: n=10、n=15、n=25、n=30。

統計檢定中,樣本大小的正確評估準則

哪一種才是正確的?實際上要視保守估計的程度以及資料原始的對稱程度而定。

假如資料的對稱性相當良好,而且偏向鐘型( Bell-Shaped ),也許只需要 10-15 個樣本數已經足夠。反之就需要更多的樣本數。

要注意的是, Wilcoxon 認為無論對稱性如何,樣本數至少需要 6 個以上才能利用近似常態的性質。

而無母數檢定雖然適用小樣本,但也應該了解對樣本在5個以下的資料執行檢定基本上是沒有多大意義的。

附圖為 Carine A. Bellera、Marilyse Julien 及 James A. Hanley 刊載於 Journal of Statistics Education(Volume 18, Number 2, 2010)的《 Normal Approximations to the Distributions of the Wilcoxon Statistics: Accurate to What N? Graphical Insights 》當中的範例。

這是令 E(X)=n(n+1)/4,Var(X)= n(n+1)(2n+1)/24 時, WSR 近似常態的結果。

雖然有些教科書作者認為近似所需的樣本數應該在 25 以上,但從圖例可以了解其實那不見得是鐵律。

先前曾提過,如果排序時出現「結( Ties )」, WSR 近似常態的能力會下降。所謂的結是指排序時出現「相同值」導致排序出現兩個同等級的情況。

例如資料 1 , 2 , 2 , 3 ,4 ,排序時這兩個 2 的等級必須調整為同是 2.5 的情形,並使後面的排序推移,因此資料 3 應標記為等級 4 。又例如資料 10 , 11 , 17 , 17 , 20 , 22 ,排序時兩個 17 則調整為 3.5 ,被推移的 20 則記為等級 5 。

你可能不知道…,其實 Wilcoxon Signed-Rank Test 的檢定方向不只一種

以前統計課上 Wilcoxon Signed-Rank Test 時,有個地方我一直覺得很奇怪,為什麼 WSR 檢定的拒絕域(Reject Region)總是在左尾?其實並不是這樣!

WSR 也有右尾的拒絕域!剛開始還以為是看錯了,因為手上幾本教科書所附的 WSR Critical Value Table ,全都是左尾拒絕域的値,於是便以為 WSR 的拒絕域必定在左。

然而實情並非如此, WSR 的右尾拒絕域以及信賴區間其實根據常見的左尾表,很容易就能計算出來。

但在開始之前,不妨看看以下這張圖,同樣來自 Bellera 等人的文章。

這是什麼?看不懂?我也看了很久…,不過其實有些訣竅的。圗中兩軸的部份分別是執行 WSR 時會計算到的 T+ / T- 各自的和,而 T+ / T- 兩者的總和為:

根據上圖,可得知當 n=3 ,Tsum=6 ; n=7 , Tsum=28 。列表如下:

可別小看了這張表,它對於計算右尾拒絕域是有其方便性的。繼續說明圗中斜線的數字部份,這裡牽扯到一個公式,它便是看懂此圖的關鍵:

舉例來說,座標(T+ = 8, T- =20)在 n=7 斜線上,數字為 5 。實際上就是來自於上述公式的計算:

很像巴斯卡三角形吧(Pascal Triangle)!

由於 T+ /T- 構成了二元關係,因此 n=1 時,具有 2^1=2 種可能性;同理, n=7 時將有 2^7=128 種可能性。對於斜線上任何一數值點 x ,具有 x/2^n 的機率,例如座標( T+ = 8, T- =20 )的值為 5 ,且落在 n=7 斜線上,對( 8,20 )而言發生的機率將是 5/128 。

看完該圖,馬上來看看與常見的檢定規則不同的算法。以 Tom Lewis 講義的例題試算,現有一組 n=20 的對稱資料,欲檢定:

在 Alpha=0.1 下,快速查得一般的左尾表可得到 W=60 。

前面已經提過,對等級和而言其値為 0 到( T1+T2 )( T1+T2+1 ) / 2 ,可參見剛才的列表。在對稱性的前提下,中位數可以馬上計算出來,此例之中位數為 105 ,等級範圍從 0 至 210 。

因為是雙尾檢定而且對稱的關係,當左尾拒絕域落在 0-60 之間,其實也就表示 150-210 就是右尾拒絕域!當然也可算得信賴區間範圍為60- 150 。

按照常用的方法,我們會找出等級和較小的一方,檢測其是否小於 60 做為拒絕與否的依據,但是現在我們也可以找出等級和較大的一方,觀察其是否大於 150 ,或者是否落在信賴區間內來進行檢定。

入寶山豈能空手而回?繼續挖寶:

* 統計R語言實作筆記系列 – R的字串處理:GREP套件包(GREP、GREPL、REGEXPR、GREGEXPR、REGEXEC)

* 產業百百種,哪個最熱門?哪個薪水高?最新就業分析帶你一探究竟 (一)

* DATA TRANSFORMATION的一些探討

* SEO 老兵不死的 META TAG 美學

* 常態分配Π的小秘密

 

(Visited 4,401 times, 2 visits today)

Wendell.Huang

科技公司嫌棄太活潑,消費品牌挑剔太沉悶..., 經常必須解釋自己在學什麼, 不小心就摔破對方眼鏡的跨領域玩家。

3 Comments

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *