前嗅ForeSpider教程:採集美團網
今天,小編為大家演示一下,如何採集美團網資料,具體操作如下:
第一步:新建任務
①點選左上角“加號”新建任務,如圖1:
②在彈窗裡填寫採集地址,任務名稱,如圖2:
③點選下一步,選擇進行資料抽取還是連結抽取,首先當前檢索結果列表連結,所以點選抽取連結,選擇連結抽取,如圖3:
④完成後模板抽取配置列表有兩個個模板,預設模板和新建模板,模板一的預設連結抽取已與模板二關聯,如圖4:
第二步:通過地址過濾,得到所需的連結。
①點選採集預覽,在採集預覽中有於目標連結相似的其他連結,可通過地址過濾得到列表連結。找到所需要的列表連結,右擊複製連結,“ https://www.meituan.com/meish... ”如圖5所示。
②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用過濾串“d”得到列表連結,如圖6所示。
過濾串規則說明:d 表示一串(個)數字
③點選採集預覽確認連結是否過濾完全,如圖7
第三步:填寫模板二示例地址並新建資料抽取
①將模板一過濾得到的任意一條連結,作為模板二的示例地址。如: https://www.meituan.com/meish... , 見圖8:
②新建資料抽取
方法一:通過點選“下一步”後勾選抽取資料,再次點選“下一步”得到資料抽取。
方法二:直接點選模板二,點選上面“新建資料抽取”按鈕,得到資料抽取,如圖9:
第四步:建立/選擇表單
在ForeSpider爬蟲中,表單是可以複用的,所以可以在資料表單出直接選擇之前建過的表單,也可以通過表單ID來進行查詢並關聯資料表單。此處使用的方法三。
方法一:通過下拉選單或表單ID選擇已有表單
方法二:點選建立表單進入快速建表頁面,新建表單。
方法三:點選“採集配置”-“資料建表”,點選採“採集表單”後面的如圖10:
第五步:配置表單
根據所需內容,配置表單欄位(即表頭),此處配置了網頁主鍵、標題、聯絡方式、聯絡地址共4個欄位,表單如圖11:
第六步:欄位取值
① 先關聯表單,如圖12所示。
② 欄位取值是在資料模板位置寫指令碼,來給對應欄位賦值,如圖13所示。
程式碼如下:
var str=DOM.GetSource().ToStr().Middle("\"detailInfo\":",",\"photos\""); //獲取網頁原始碼包含資料部分內容 jScript js; var obj=js.RunJson(str); //生成json物件 record re; re.id=MD5(URL.urlname);//給主鍵欄位生成唯一標識 re.tit=obj.name; //標題名稱 re.addr=obj.address; //店鋪地址 re.tel=obj.phone; //店鋪電話 RESULT.AddRec(re,TMPL.fstdoc.schemaid); //將所有的欄位放入結果集
第七步:模板預覽
①滑鼠右鍵點選“資料抽取”,然後點選“模板預覽”,如圖14所示。
②預覽結果,如圖15所示。
第八步:採集預覽
①點選右上角採集預覽,如圖16所示。
②雙擊任意一條連結,看看是否可以得到和網頁對應的規整的資料,如圖17、18所示。