上天的Node.js之爬蟲篇 15行原生程式碼搞定京東資源【0基礎深入淺出】

Node.js · 發表 2019-03-22 18:49:17

摘要：難道爬蟲只能用python 做？不，我們上天的Node.js 也可以做！需要準備的包 Node.js 的最新版本下載地址Node.js官網 ...

難道爬蟲只能用python 做？不，我們上天的Node.js 也可以做！

需要準備的包
- Node.js 的最新版本下載地址Node.js官網
- npm 包管理器下載下載最新的官網版本Node.js 會自帶npm
- npm 的第三方包puppeteer 在對應的js檔案內執行命令列工具npm i puppeteer -D 即可

爬蟲在獲取某些有保護機制的網頁時可能會失效

基礎版程式碼複製過去使用node 檔名 就可以執行獲取爬蟲資料了

const puppeteer = require('puppeteer'); //引入依賴
(async () => {//使用async函式完美非同步 
const browser = await puppeteer.launch();//開啟新的瀏覽器
const page = await browser.newPage();// 開啟新的網頁 
await page.goto('https://www.jd.com/');//前往裡面 'url' 的網頁
const result = await page.evaluate(() => {//這個result陣列包含所有的圖片src地址
let arr = []; //這個箭頭函式內部寫處理的邏輯
const imgs = document.querySelectorAll('img');
imgs.forEach(function (item) {
arr.push(item.src)
})
return arr 
});
await browser.close()
})()

這個puppeteer 的包，替我們開啟了另一個瀏覽器，重新去開啟網頁，獲取它們的資料。

上天的Node.js之爬蟲篇 15行原生程式碼搞定京東資源 【0基礎深入淺出】

您可能也會喜歡…

上天的Node.js之爬蟲篇 15行原生程式碼搞定京東資源【0基礎深入淺出】