初心者也會用的 R 語言讀取 XML 資料分析實戰教學!(三)

前兩篇文章已經介紹過處理 XML 資料的前備知識以及 R 語言 XML 套件的常用功能,是時候磨刀上陣了!本文將採用政府開放資料中的台鐵、高鐵以及微軟 XML 教學檔案進行範例演練,內文中使用到相關的套件及語法將不在一一細述,請參考前兩篇文章的說明。 XML 資料來源: 1. 台… Continue Reading

初心者也會用的 R 語言讀取 XML 資料分析實戰教學!(二)

在前一篇教學當中,我們已經看過 XML 的樹狀節點結構、 XML Schema 以及 R 語言 XML 套件的常用功能,在接下來的內容當中,我們將繼續研究 Xpath 語法,並介紹好用的視覺化工具 XML Viewer ,讀者可以搭配閱讀第一篇文章所列出 XML 包的功能作為補充… Continue Reading

初心者也會用的 R 語言讀取 XML 資料分析實戰教學!(一)

隨著 API 經濟遍地開花,應用程式與資料源之間的互動實作成為現代軟體工程師必備的基本能力,其中最常見的中前端資料交換格式有 XML 及 JSON 等等,其中 XML 由於傳統商用等級的服務高度支援,且各程式語言都具備完整成熟的套件體系,讀取 XML 對於資料工程師或資料科學家的… Continue Reading

Excel 交互參照必學神器, 用 lookup 系列函數一鍵搞定資料比對 : hlookup篇

延續上一篇的 vlookup 教學文章,藉由先給定參照值,再於指定範圍內尋找符合條件的資料並傳回指定「欄位」的對應數值,藉著介紹的 hlookup 也大同小異,但找到符合條件的資料後卻是傳回指定「列」的對應數值。 由於大部分資料庫匯出的格式,欄位代表的是變數,列資料代表的是樣本(… Continue Reading

Excel 交互參照必學神器, 用 lookup 系列函數一鍵搞定資料比對 : vlookup篇

有一陣子沒有寫部落格了,最近遇見很多年輕的朋友,發現許多人等到進入職場以後,才發現原來職務說明中所謂「具備運用 Excel 的能力」,並不是指能夠打打加減乘除而已,只有學會了運用 Excel 的函數,才能在資料分析時達到事倍功半的效果,也才算是真正會用 Excel。 正因如此,就… Continue Reading

數大有時不美的統計性質

推論統計的主要工作是根據已知的資料去做區分、估計、檢定、建立模型及預測的工作,為使結果更加精確,往往要求「數大」的樣本數。但是數大一定比較好嗎? 例如「信心水準 1 – Alpha 」並非越大越好,因為 Alpha 與 Beta 有著反方向相依的關係,而 Beta 會… Continue Reading

Data Transformation的一些探討

在進行統計分析時,最重要的元素可能不是深奧難懂的算式工具,也不是待驗證的理論結構,而是最終用來分析的那一堆資料。而資料多變的性質有時候會給分析人員帶來許多麻煩。 在任何研究當中,取得隨機、獨立、有代表性的樣本都是首要的大事,然而即使是「正確」的資料有時不見得是可以順利處理的,例如… Continue Reading