統計R語言實作筆記系列 – 資料尺度與變數類型
收集原始資料是統計的必要步驟,前一篇介紹過把資料輸入到 R 的方法,但是在收齊資料到執行統計分析之前,還有一些基本的要件必須定義清楚,例如資料的統計尺度為何,一般常見分為四種: 比例(ratio)、區間(interval)、順序(order)、類別(nominal),依據尺度不同,適用的統計模型也有所調整。 如果只用統計尺度對資料做定義,那麼計算程式經常會出現衝突,因為程式無法像人一樣辨別不同尺度的意義,因此需要按照機器能讀懂的方式給予變數一些規定,另一方面為了不使程式設計過於複雜,這些格式也要盡量能夠符合多變量數學運算的邏輯需求。 這些考量構成了 R 裡頭常見的變數類型: 1. 向量 vector() 2. 因素向量 factor() 3. 陣列 array() 4. 矩陣 matrix() 5. 資料框架 data.frame() 變數的基本單位: 向量Vector 所謂向量是一組觀察值的集合,僅有一個資料點可以視為向量的特例。大多時候,一個變數在程式中代表的意義就是一個向量。 向量的指定可以透過「 c() 」函數操作,例如: x