Liz's Blog

Data Science #2:gretl初探

| Comments

學Data Science中,有一個無法避免的重要環節,就是統計。雖然大學有碰過統計,但已經是好久以前的事情啦!剛好趁這個課程複習一下。

跟前篇〈Data Science #1:Tableau初探〉同系列課程,第二段就在講解建立模型,這篇不講統計細節,使用的工具是gretl。雖然統計軟體大宗是spss或sas,但不是大家都有這兩套軟體,gretl是很不錯學習的開源統計軟體,現在也有支援中文化

撇除落落長的統計,軟體操作很簡單,課程帶幾個統計方法,包含:

  1. 簡單線性迴歸(如下圖):檔案匯入後,選取模型->一般最小平方法->設定自變數及應變數->按確定即可獲得分析結果。若想跑繪圖,可選實際值及預測值繪圖->實際值v.s.配適值。

  2. 複迴歸:與上述操作相同,只是加上虛擬變數。操作方法:選擇新增變數->以所選變數產生虛擬變數->所有值都編碼。選取虛擬變數->編輯變數屬性->變數名稱改成實際名稱。這小節講師有帶要如何挑選合適的變數。

  3. 邏輯迴歸:模型->限制應變數模型->logit->二元。設定應變數及自變數,選取p值,即可得到結果。

在各種模型當中,講師比較多的時候是在講想法,講要如何挑變數,如何檢查模型有沒有問題,Cumulative Accuracy Profile要怎麼做,要怎麼測數據準確度等,是個痛苦又糾結的章節:P

Comments

comments powered by Disqus