網頁自動化流程使用R來完成。
有些動態網站無法直接使用rvest 或是 httr 的方式爬取資料。是需要透過點選一些項目之後,才有辦法在網站上呈現內容的情況下,就需要使用 RSelenium 的package
在Windows和ubuntu server的環境下架設方式有些許不同
在Windows下 使用chrome 有個好處是,做了什麼操作可以直接看到網頁上有什麼結果。
如果使用程式開啟chrome。上面會顯示一個 chrome 目前受到自動測試軟體控制。
即可使用程式語法做網頁上的一些操作。
Windows 環境設定:
主要需要確認chrome的版本。像目前本機的版本為 chromever = “77.0.3865.40” 即需要在開啟driver的同時設定好版本。避免會有錯誤訊息
其實在windows看起來設定相對容易。基本上安裝好 RSelenium
install.packages(“RSelenium”)
確認chrome版本為可支援版本,並設定好即可正常操作。
Ubuntu 環境設定:
更新系統軟體
sudo apt-get update
sudo apt-get install build-essential chrpath libssl-dev libxft-dev
安裝 PhantomJS 相依的套件
sudo apt-get install libfreetype6 libfreetype6-dev
sudo apt-get install libfontconfig1 libfontconfig1-dev
安裝FantomJS -今年版本為2.1.1
wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
tar xvjf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /usr/local/share/
設定系統連結
sudo ln -sf /usr/local/share/phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/local/bin
測試版本資訊
phantomjs –version 2.1.1
安裝Java
sudo apt-get update
sudo apt-get install default-jre
sudo apt-get install default-jdk
測試java版本
java -version
參考資料:
https://rstudio-pubs-static.s3.amazonaws.com/201793_6a7aa6d908d74f7f9d42f0a4fbf9d36c.html 2016年的資料 有些部份已經不太能使用
主要使用aws+r+RSelenium
但是有些function ex:checkForServer()
、startServer()
已經無法使用
https://lmyint.github.io/post/dnd-scraping-rvest-rselenium/
一個比較完整的使用教學
How to Install PhantomJS on Ubuntu & Debian
https://phantomjs.org/download.html
下載 phantomjs.org
https://cran.r-project.org/web/packages/wdman/vignettes/basics.html#verbosity
Views: 57