Data Transformation的一些探討

在進行統計分析時,最重要的元素可能不是深奧難懂的算式工具,也不是待驗證的理論結構,而是最終用來分析的那一堆資料。而資料多變的性質有時候會給分析人員帶來許多麻煩。 在任何研究當中,取得隨機、獨立、有代表性的樣本都是首要的大事,然而即使是「正確」的資料有時不見得是可以順利處理的,例如在線性迴歸( Linear Regression )當中我們經常會遇見這樣的情形:運算結果不符合研究預期、模型解釋力低下,更糟糕的是看起來雖然有某些關聯性,卻不足以在統計上證明資料確實屬於線性相關。 檢驗資料間的相關性,可以用繪圖的方式來觀察,若需要用到相關係數的檢定方法,則應考慮兩變項的尺度關係。 資料轉換與統計假設 網路流傳的一份統計補充教材裡有著整理表格可供參考: X Y 名義變項 次序變項 等距以上變項 名義變項 列聯相關 相關 Kappa一致性係數 四分相關 點二系列相關 二系列相關 多系列相關 次序變項 Spearman等級相關 Kendall等級相關 Kendall和諧係數 等距以上變項 點二系列相關 二系列相關 多系列相關 Pearson積差相關 淨相關 相關比 如果資料間不需檢定就已能看出不符合線性關係的假設,那麼我們就可以使用考慮資料轉換( Data Transformation )的方法來改善這些問題,資料轉換顧名思義,就是針對自變項 或是應變數 先行運算後再重新導入迴歸以調整模型的作法。 常見的轉換方式包括開根號、冪次轉換( Power Transformation )、取對數、遞延轉換( Lagged Transformation )等等,而非線性關係又可以再細分成「可轉換為線性」與「不可轉換為線性」兩種,聽起來是否匪夷所思? 思考一下這個模式: 請問這個式子是線性還是非線性?乍看之下,連乘的運算應該是一種非線性關係,但是透過轉換,你會看出其實它也是一種線性關係。讓我們把算式兩邊同時加上 LOG 運算,結果如下: 透過轉對數,我們可以將原本非線性的式子轉為線性模式。經驗上,右偏的資料型態可以取對數來修正,左偏的資料可以考慮2次或3次方的曲線型態。項值小於1的冪次轉換也是一種可以考慮的方法,以此法為例繪圖如下: 透過例圖可以清楚看見,將非直線關係的… Continue Reading