數大有時不美的統計性質

推論統計的主要工作是根據已知的資料去做區分、估計、檢定、建立模型及預測的工作,為使結果更加精確,往往要求「數大」的樣本數。但是數大一定比較好嗎? 例如「信心水準 1 – Alpha 」並非越大越好,因為 Alpha 與 Beta 有著反方向相依的關係,而 Beta 會影響檢定力( Power ),因此才會有常用的 Alpha 值如 0.05 、 0.01 等等。 另外迴歸模型中迴歸係數也不是越大越好,乍看之下較大的迴歸係數表示自變數對依變數有很強的影響力,但不同自變數具有不同的單位,而且變異程度也不相同,因此需要透過標準化迴歸係數( Standardized Regression Coefficient )來解釋不同自變數對依變數的真正效果大小。 但除了這些常見的「數大不美」案例以外,還有幾項是經常被忽略,卻對推論而言相當重要的情形,在此列出與讀者做個分享。 誤解一:樣本越大越好嗎? 大樣本之於統計推論是一項重要的條件,如果樣本夠大,那麼中央極限定理( CLM )將使得線性統計量近似於常態分配,而常態性質是推論的四大基礎統計量 Z 、 T 、 Chi-Square 、F 所必須的前提,重要性不言可喻。 大樣本還能為統計分析帶來一些其他的優勢,例如以樣本資料執行母體平均數的區間估計( Interval Estimation ),公式為: Z 的值受到分析者設定信心水準( 1-Alpha )的影響,當信心越高 Z 值越大,預測的範圍越寬,相對地,也就比較不精確。提升精確度即是縮小預測母體平均數的可能範圍,信心水準會降低,這兩者有著反向的關係。 上面的公式表明了要在信心不變的前提下提高精確度,唯一方法就是增加樣本數。 此外最大概似估計法( MLE… Continue Reading