Liz's Blog

就是要學R #6:Import & Export 匯入匯出篇(SQL & web scraping)

| Comments

爬蟲功能應該蠻實用的,SQL則要有實際資料才能玩。

Udemy
課程名稱:Data Science and Machine Learning Bootcamp with R
講師:Jose Portilla

根據這個小節的說明,與不同資料庫連接時,大多只要安裝對的套件,並且拿到可以提取資料庫的帳密資料,應該即可。常用的有DBI,安裝相當簡單。

install.packages("DBI")
library(DBI)

如果是連結MySQL,可使用RMySQL,但一樣要先安裝並載入DBI才行。

install.packages("RMySQL")
library(RMySQL)

因為我沒有可進入的資料庫,所以就只跑安裝看有沒有問題而已。

另外一個抓資料則是網路爬蟲(Web Scraping Data),講師建議先了解PIPE OPERATOR是什麼。根據stackoverflow裡面說明%>%的最基本運用如下:

1.PIPE OPERATOR(%>%)是將某個argument引入函式中。
2.不是語言中的基本功能,必須加裝特定套件後才能使用。
3.要把左邊的內容套入右邊的函式中。

舉例來說:

library(magrittr)

1:10 %>% mean
# [1] 5.5

# is equivalent to
mean(1:10)
# [1] 5.5

課程中教的是使用套件rvest來做網路爬蟲,但網路上這篇中文教學更適合參考。如果不熟html & css,也可以使用import.io就是了,有七天免費試用期。

install.packages('rvest')
library(xml2)
library(rvest)             
lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")
lego_movie

lego_movie %>% 
  html_node("strong span") %>%
  html_text() %>%
  as.numeric()
  
lego_movie %>%
  html_nodes("#titleCast .itemprop span") %>%
  html_text()

Comments

comments powered by Disqus