用javascript做爬蟲的正確姿勢
之前寫過用PHP做爬蟲的正確姿勢 和用python做爬蟲的正確姿勢 。但是從上一篇文章php非同步程式設計我們知道,在有大量的網路請求等待的情況下,非同步是提高系統併發能力的手段。爬蟲由於有大量的網路請求,nodejs 天然的非同步成為了做爬蟲的最佳選擇。這篇文章介紹相應的庫。
第一個是請求庫,我選擇的是request 。
第二個是dom解析庫cheerio 。這個基本就是 jQuery 的翻版。由於 jQuery 本身也是 javascript 實現的,所以 cheerio 比之前的 PHP 和 python 版本實現的更好。
篇外廢話:現在的後端架構基本上是一個比較簡單的語言來實現應用層,加一個速度快的語言來實現資料層。javascript 因為跟 php 差不多簡單,再加上本身就是非同步,實現了高效的io,是比 php 更好的應用層選擇。