統計R語言實作筆記系列 – 資料尺度與變數類型

收集原始資料是統計的必要步驟,前一篇介紹過把資料輸入到 R 的方法,但是在收齊資料到執行統計分析之前,還有一些基本的要件必須定義清楚,例如資料的統計尺度為何,一般常見分為四種: 比例(ratio)、區間(interval)、順序(order)、類別(nominal),依據尺度不同,適用的統計模型也有所調整。 如果只用統計尺度對資料做定義,那麼計算程式經常會出現衝突,因為程式無法像人一樣辨別不同尺度的意義,因此需要按照機器能讀懂的方式給予變數一些規定,另一方面為了不使程式設計過於複雜,這些格式也要盡量能夠符合多變量數學運算的邏輯需求。 這些考量構成了 R 裡頭常見的變數類型: 1. 向量 vector() 2. 因素向量 factor() 3. 陣列 array() 4. 矩陣 matrix() 5. 資料框架 data.frame() 變數的基本單位: 向量Vector 所謂向量是一組觀察值的集合,僅有一個資料點可以視為向量的特例。大多時候,一個變數在程式中代表的意義就是一個向量。 向量的指定可以透過「 c() 」函數操作,例如: x

統計R語言實作筆記系列 – R簡介與資料輸入教學

R 的實作筆記是去年在 Soumya 的「應用商業分析」就想過要整理了,不過一直抽不出時間,新學期上 Rich 的「行動雲端服務系統設計」,其中一項作業正好也跟 R 有關,趁這個機會複習複習。 現在 R 普及流行的程度比起四、五年前第一次聽說的時候又提升了不少, Big Data 、數據繪圖及學術社群討論得尤其熱烈,甚至還看到新創公司的資料分析職缺直接要求能操作 R 。 R 程式可以直接到 R-project 網站下載。 大名鼎鼎的 R ,是兩位姓氏為 R 開頭的學者基於統計的需求開發的開源軟體,光是免費這一點就使它受到廣大的注意,近年在許多熱心使用者的開發補足下,現在 R 已經具備相當豐富的程式庫,而且實用性與運行速度都不亞於市面上昂貴的套裝軟體,對進階的程式使用者來說, R 與其他語言的高相容性也是一大賣點。 R 的介面不像 SPSS 之類的 GUI 產品,而是靠輸入簡單的程式碼來操作(如 SAS ),雖然聽起來嚇人,不過實際上並沒有想像中困難,因為分析功能大多已經有現成的套件( packages )可供使用。軟體主程式可以下載簡易的 R GUI 或者具備開發環境的 R Studio ,僅就統計而言兩者差不多,就看各位的使用需求了。 作為一套統計工具,首先的問題是怎麼把資料輸入到 R 中。這篇文章就先介紹幾種初學者必學的函數吧。 R 讀取資料的常用函數… Continue Reading

服務科學課程回顧: 應用商業分析(Applied Business Analytics)

Soumya 的 Syllabus 把這堂資料分析與視覺化的專門課程分成四個部分:「 Understanding the data 」、「 Statistical testing 」、「 Causal modeling 」、「 Structural equation modeling 」。 自學多變量的過程遇到很多難點,譬如很難把數學輕易抽象化成為直觀意義,所以這堂「顛覆傳統」的分析課最後幾週談的東西對我來說很有啟發性。