網頁自動化流程使用R來完成。

有些動態網站無法直接使用rvest 或是  httr 的方式爬取資料。是需要透過點選一些項目之後,才有辦法在網站上呈現內容的情況下,就需要使用 RSelenium 的package

在Windows和ubuntu server的環境下架設方式有些許不同

在Windows下 使用chrome 有個好處是,做了什麼操作可以直接看到網頁上有什麼結果。

如果使用程式開啟chrome。上面會顯示一個  chrome 目前受到自動測試軟體控制。

即可使用程式語法做網頁上的一些操作。

Windows 環境設定:

主要需要確認chrome的版本。像目前本機的版本為  chromever = “77.0.3865.40” 即需要在開啟driver的同時設定好版本。避免會有錯誤訊息

Copy to Clipboard

其實在windows看起來設定相對容易。基本上安裝好 RSelenium

install.packages(“RSelenium”)

確認chrome版本為可支援版本,並設定好即可正常操作。

Ubuntu 環境設定:

更新系統軟體

sudo apt-get update
sudo apt-get install build-essential chrpath libssl-dev libxft-dev

安裝 PhantomJS 相依的套件

sudo apt-get install libfreetype6 libfreetype6-dev
sudo apt-get install libfontconfig1 libfontconfig1-dev

安裝FantomJS -今年版本為2.1.1

wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
tar xvjf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /usr/local/share/

設定系統連結

sudo ln -sf /usr/local/share/phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/local/bin

測試版本資訊

phantomjs –version 2.1.1

安裝Java

sudo apt-get update
sudo apt-get install default-jre
sudo apt-get install default-jdk 測試java版本
java -version

參考資料:

https://rstudio-pubs-static.s3.amazonaws.com/201793_6a7aa6d908d74f7f9d42f0a4fbf9d36c.html 2016年的資料 有些部份已經不太能使用

主要使用aws+r+RSelenium

但是有些function ex:checkForServer()startServer() 已經無法使用

https://lmyint.github.io/post/dnd-scraping-rvest-rselenium/

一個比較完整的使用教學

How to Install PhantomJS on Ubuntu & Debian

https://phantomjs.org/download.html

下載 phantomjs.org

https://cran.r-project.org/web/packages/wdman/vignettes/basics.html#verbosity