上天的Node.js之爬蟲篇 15行原生程式碼搞定京東資源 【0基礎深入淺出】
難道爬蟲只能用python
做? 不,我們上天的Node.js
也可以做!
-
需要準備的包
-
Node.js
的最新版本 下載地址Node.js官網 -
npm
包管理器下載下載最新的官網版本Node.js
會自帶npm
-
npm
的第三方包puppeteer
在對應的js檔案內執行命令列工具npm i puppeteer -D
即可
-
爬蟲在獲取某些有保護機制的網頁時可能會失效
-
基礎版程式碼複製過去 使用
node 檔名
就可以執行獲取爬蟲資料了
const puppeteer = require('puppeteer'); //引入依賴 (async () => {//使用async函式完美非同步 const browser = await puppeteer.launch();//開啟新的瀏覽器 const page = await browser.newPage();// 開啟新的網頁 await page.goto('https://www.jd.com/');//前往裡面 'url' 的網頁 const result = await page.evaluate(() => {//這個result陣列包含所有的圖片src地址 let arr = []; //這個箭頭函式內部寫處理的邏輯 const imgs = document.querySelectorAll('img'); imgs.forEach(function (item) { arr.push(item.src) }) return arr }); await browser.close() })()
這個puppeteer
的包 ,替我們開啟了另一個瀏覽器,重新去開啟網頁,獲取它們的資料。