Liz's Blog

就是要學R #6:Import & Export 匯入匯出篇(SQL & web scraping)

| Comments

爬蟲功能應該蠻實用的,SQL則要有實際資料才能玩。

Udemy
課程名稱:Data Science and Machine Learning Bootcamp with R
講師:Jose Portilla

根據這個小節的說明,與不同資料庫連接時,大多只要安裝對的套件,並且拿到可以提取資料庫的帳密資料,應該即可。常用的有DBI,安裝相當簡單。

install.packages("DBI")
library(DBI)

如果是連結MySQL,可使用RMySQL,但一樣要先安裝並載入DBI才行。

install.packages("RMySQL")
library(RMySQL)

因為我沒有可進入的資料庫,所以就只跑安裝看有沒有問題而已。

另外一個抓資料則是網路爬蟲(Web Scraping Data),講師建議先了解PIPE OPERATOR是什麼。根據stackoverflow裡面說明%>%的最基本運用如下:

1.PIPE OPERATOR(%>%)是將某個argument引入函式中。
2.不是語言中的基本功能,必須加裝特定套件後才能使用。
3.要把左邊的內容套入右邊的函式中。

舉例來說:

library(magrittr)

1:10 %>% mean
# [1] 5.5

# is equivalent to
mean(1:10)
# [1] 5.5

課程中教的是使用套件rvest來做網路爬蟲,但網路上這篇中文教學更適合參考。如果不熟html & css,也可以使用import.io就是了,有七天免費試用期。

install.packages('rvest')
library(xml2)
library(rvest)             
lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")
lego_movie

lego_movie %>% 
  html_node("strong span") %>%
  html_text() %>%
  as.numeric()
  
lego_movie %>%
  html_nodes("#titleCast .itemprop span") %>%
  html_text()

【延伸閱讀】
1.就是要學R #1:Basic 基礎篇
2.就是要學R #2:Matrix 矩陣篇
3.就是要學R #3:Data Frame 資料框架篇
4.就是要學R #4:List 列表篇
5.就是要學R #5:Import & Export 匯入匯出篇(csv & excel)
6.就是要學R #6:Import & Export 匯入匯出篇(SQL & web scraping)
7.就是要學R #7:R programming 基礎篇
8.就是要學R #8:R Programming 進階篇
9.就是要學R #9:資料前處理篇(dplyr、tidyr)
10.就是要學R #10:ggplot2幫你搞定資料視覺化
11.就是要學R #11:資料視覺化應用篇(ggplot2、Plotly)
12.就是要學R #12:機器學習之線性迴歸實作篇
13.就是要學R #13:機器學習之邏輯迴歸實作篇
14.就是要學R #14:機器學習之K Nearest Neighbor(KNN)實作篇
15.就是要學R #15:機器學習之決策樹、隨機森林實作篇
16.就是要學R #16:機器學習之Support Vector Machine(SVM)實作篇
17.就是要學R #17:機器學習之K Means Clustering實作篇
18.就是要學R #18:機器學習之自然語言處理(NLP)實作篇
19.就是要學R #19:機器學習之類神經網路(Neural Net)實作篇

Comments

comments powered by Disqus