Data Transformation的一些探討

在進行統計分析時,最重要的元素可能不是深奧難懂的算式工具,也不是待驗證的理論結構,而是最終用來分析的那一堆資料。而資料多變的性質有時候會給分析人員帶來許多麻煩。

在任何研究當中,取得隨機、獨立、有代表性的樣本都是首要的大事,然而即使是「正確」的資料有時不見得是可以順利處理的,例如在線性迴歸( Linear Regression )當中我們經常會遇見這樣的情形:運算結果不符合研究預期、模型解釋力低下,更糟糕的是看起來雖然有某些關聯性,卻不足以在統計上證明資料確實屬於線性相關。

檢驗資料間的相關性,可以用繪圖的方式來觀察,若需要用到相關係數的檢定方法,則應考慮兩變項的尺度關係。

資料轉換與統計假設

網路流傳的一份統計補充教材裡有著整理表格可供參考:

X
Y
名義變項
次序變項
等距以上變項
名義變項
列聯相關
相關
Kappa一致性係數
四分相關
點二系列相關
二系列相關
多系列相關
次序變項
Spearman等級相關
Kendall等級相關
Kendall和諧係數
等距以上變項
點二系列相關
二系列相關
多系列相關
Pearson積差相關
淨相關
相關比

如果資料間不需檢定就已能看出不符合線性關係的假設,那麼我們就可以使用考慮資料轉換( Data Transformation )的方法來改善這些問題,資料轉換顧名思義,就是針對自變項

資料轉換-data-transformation-範例-1

或是應變數

資料轉換-data-transformation-範例-2

先行運算後再重新導入迴歸以調整模型的作法。

常見的轉換方式包括開根號、冪次轉換( Power Transformation )、取對數、遞延轉換( Lagged Transformation )等等,而非線性關係又可以再細分成「可轉換為線性」與「不可轉換為線性」兩種,聽起來是否匪夷所思?

思考一下這個模式:

資料轉換-data-transformation-範例-3

請問這個式子是線性還是非線性?乍看之下,連乘的運算應該是一種非線性關係,但是透過轉換,你會看出其實它也是一種線性關係。讓我們把算式兩邊同時加上 LOG 運算,結果如下:

log-transformation-資料轉換-範例-3

透過轉對數,我們可以將原本非線性的式子轉為線性模式。經驗上,右偏的資料型態可以取對數來修正,左偏的資料可以考慮2次或3次方的曲線型態。項值小於1的冪次轉換也是一種可以考慮的方法,以此法為例繪圖如下:

資料轉換-data-transformation-範例-4

透過例圖可以清楚看見,將非直線關係的 X 取 X^(12/13) 次方後,資料明顯地較貼近線性關係,若要將本例執行線性迴歸,轉換後的資料會比轉換前更加合適。

線性關係之於迴歸除了線性假設外還有一個重要性質,那就是在* 隨機性、大數法則與中央極限定理中央極限定理( CLM )下,大樣本情境的「線性組合統計量」將近似常態分配( Normal Distribution ),理想的情況下超過 30 個樣本就能達到這一效果,但操作上樣本數在 100 以下時經常還是視為相當小的樣本。

如果案例屬於大樣本,檢驗線性關係等同於檢驗常態性假設, XY 若具有線性相關,則彼此具有水平位移關係,使得 XY 的分配相同且都應趨近於常態,這就是為什麼有些調查對資料的常態性檢驗會略過不提的理由。

了解資料轉換的基本概念後,接下來的問題是,我們究竟該對特定的變數 X 進行轉換,還是應該對整個預測模式進行調整?

事實上在第一個例子中,整個算式都做了轉換,而在第二個例子中,僅僅對 X 做轉換。為了釐清這個問題,繼續再介紹一個觀念以探討「對數轉換」的應用:加成性( Multiplicative )模型的特性。

加成性模型就是一種非線性關係。

當模型建立後,倘若每一單位( or 比例) A 將造成B乘上一個固定的常數變化( or 固定量),亦或 AB 的角色互換,資料都符合這個命題,譬如說每年經濟成長 5% ,今年的經濟成長將是:

資料轉換-data-transformation-範例-5

將式子取對數後:

資料轉換-data-transformation-範例-6

資料轉換-data-transformation-範例-7

新的應變數變成自變數加上一個常數,是一種線性組合,更適合用來執行線性迴歸。

三種 Log 對數轉換的情境

加成性有三種情況可以討論:

Case1:等比例的X造成固定量的Y改變
Case2:固定量的X造成等比例的Y改變
Case3:等比例的X造成等比例的Y改變

Case1 當中描述的是 X 上升 % 會使得 Y 絕對量增加一個固定值的情形,以所得( X )與壽命( Y )的關係為題,隨著所得增加,能夠使用的醫療、生活品質以及保健的資源理應對應地增加,可以預期這會是一個遞增的線型(未必是直線),用直線配適結果應該不會太差。

問題是,直線模型中對所有 X 的斜率評價都是相同的,這會忽略一個經濟上的基本原理:邊際效用遞減( The Law of Diminishing Marginal Utility )

即是說給予窮人的 1 萬元與給予富豪的 1 萬元其價值是大大不同的,但在線性模型當中卻一視同仁(但未必表示線性配適不良)。

很多時候我們可以聽到這種行銷上的比喻:窮的人買不起,有錢人都買過了…,那麼該賣給誰呢?

如果這裡用線性模型來預測高價區塊與低價區塊的消費者可能將產生很大的偏誤,不巧最頂尖的客群與廣大的金字塔基層商機正是近年最 hot 的客群,當然必須加以調整。若以效用來預測消費者購買行為的話, log 比起單純用直線更佳適合:

資料轉換-data-transformation-範例-8

不過,這個近似其實還是差強人意的,更好的函數形式有沒有?當然有,不過超出本文的範圍,改天再談。

Log 轉換在迴歸模型的應用,可將具有效用遞增或遞減性質的 X 進行對數轉換,使得整個迴歸的線性方程式改為:

資料轉換-data-transformation-範例-9

與此類似,在 Case2 當中會把具有效用遞增或遞減性質的 Y 進行對數轉換,方程式變為:

資料轉換-data-transformation-範例-10

這種方法還有一種好處,有時候模型在極端值 Y (由極端的 X 算出)的範圍很可能是不太合理的,就連模型係數都可能出現奇怪的值。但 log 由於有遞減的性質(參閱上圖),因此應變數不會隨著 X 的不合理而無限增加。

在前面兩個 Case 中只對特定的 X 或 Y 進行轉換,而在 Case3 中則是將整個式子都進行對數轉換。當資料具有 X 上升 1% 對應Y改變 5% 的這種關係,或稱為經濟學的「彈性」,那麼全式轉對數似乎是一個廣為接受的形式。先前我們曾對式子轉換:

資料轉換-data-transformation-範例-11

log-transformation-2

實際上它就是經濟學房價特徵函數( Hedonic Function )的其中一種型態。

Case3 的形態還與另一種非線性轉線性的統計學模型- Logistic Model 相似,尤其是在各 Case 經過轉換後的 Log 變項之參數意義的解釋上。

Logistic 迴歸是當應變數 Y 為只有 0 、 1 兩種結果的類別變項時,利用 E ( Y = 1 ) 就等於發生事件的預測機率來分析的模型,其自變數既可以是類別變數,也可以是連續變數。

進行資料轉換有時不光是為了執行迴歸分析,而是方便比較兩組樣本間的加成效果。假如研究生的起薪比大學生高出 50% ,此後兩組人馬每年各加薪 10% ,則資料取對數前後的圖表如下:

資料轉換-data-transformation-範例-12

資料轉換後的詮釋原則

圖中可以看到未轉換的薪資線有差距變大的趨勢,但是實際上兩者的加薪幅度是一模一樣的,在對數轉換後的薪資線清楚的表明了薪資成長斜率相等的事實,對此例而言,取對數的好處在於消除最初的 50% 比例關係的差距,可以讓分析者聚焦在大學生與研究生進入職場後的薪資發展情形。

許多商用統計學課本的前幾章都會談到圖表誤解的觀念,只要稍稍改變座標軸單位間隔,整個圖表看起來非常可能會得到完全相反的結論,就像股市節目經常拿出來的各種年月日線圖一樣,上升還是下降?往往各說各話。

在資料轉換的方面也是如此,有時候看起來是直線,其實可能不是這樣,實務上,只要模型準確度高,什麼形狀大概都無關緊要,但是只能依靠有限資訊進行判斷時,就必須小心翼翼了。

資料轉換雖然有助於改善迴歸模型,但它也是有一些缺點的,例如 Case1 中對於自變項X做轉換後導入迴歸可以提高解釋力和符合基本假設,但是這樣一來迴歸係數也就無法直接使用了,諸如 3.5log (價格),每一單位 log (價格)可以增加一單位的 Y ,但是 log(X) 到底是多大的值很難直觀判斷,而且轉換後的意義也不明確, log (價格)..那是什麼玩意兒?

顯然無法再以解釋線性的回歸係數的方式看待它。

在 Logistic Regression 中則有一套以勝算比( Odds )形式推導出反求機率和解釋係數的方法,即使如此也不是完全直觀的。

雖然資料轉換會使迴歸係數變得無法解釋或者不易使用,但是本文的轉換用在迴歸上,整體的判定係數( Coefficient of Determination )- R^2 仍然具有相同意義,可以據此判斷轉換前後預測模式解釋力的好壞。

精選文章,繼續閱讀:

* 一場關於猜的魔術:統計估計的形成

* 統計迴歸分析(REGRESSION)的基本原理與結構

* CROSS TABLE:卡方分配與卡方檢定

* 透視金融煉金術:從貨幣乘數說起

* 數大有時不美的統計性質

* 統計R語言實作筆記系列 – 資料尺度與變數類型

(Visited 3,652 times, 5 visits today)

Wendell.Huang

科技公司嫌棄太活潑,消費品牌挑剔太沉悶..., 經常必須解釋自己在學什麼, 不小心就摔破對方眼鏡的跨領域玩家。

3 Comments

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *