前嗅ForeSpider教程:欄位的取值與清洗
今天小編為大家帶來的教程是:如何在前嗅ForeSpider中進行,欄位的取值與清洗。主要內容包括:自動取值欄位,取值的兩個方法,和欄位清洗方式。具體內容如下:
一,自動取值的欄位包括哪些
當欄位設定為下列採集內容時,系統會自動為欄位賦值。
1.網頁地址:自動採集網頁的URL地址。
2.網頁標題:採集網頁的標題。即網頁<title>中的內容。
3.網頁內文字文字:採集整個頁面中所有可見的文字文字。
- 網頁內容:採集網頁全部文字,包含html標籤等,即整個頁面的原始碼。
5.網頁建立時間:文件建立或網頁釋出的時間。
6.網頁更新時間:文件或網頁更新的時間。
7.網頁獲取時間:ForeSpider採集該網頁的時間。
8.當前系統時間:資料採集入庫的時間。
9.文件資料大小:採集物件的質量大小[單位:位元組]。
10.文件名稱:採集物件的檔名,如 .html, .doc。
11.文件字尾:文件的檔名字尾,如html、pdf等。
12.文件視寬:文件的寬[如果是圖片資料則為圖片的寬]。
13.文件視高:文件的高[如果是圖片資料則為圖片的高]。
14.文件層級:自動獲取從入口頁噹噹前資料頁的跳轉層級數目。
15.頻道ID:採集當前頻道的ID。
16.頻道名稱:採集當前頻道的名稱。
二,取值方法
1.標準定位
(1)標準定位含義
通過在內建瀏覽器上,定位有所需資料的區域,為欄位取值。大多數情況都選擇“標準定位”。
(2)定位方法
①選擇:按Ctrl點選頁面上相應資料的區域。
②擴大選區:按Shift再次點選頁面相應區域。
③確認選區:點選“確認選區”按鈕,選區生效。
標準定位
2.特徵定位
(1)特徵定位含義
當所需資料在不同網頁的位置不固定,且資料前後具有特徵性文字時,用標準定位容易錯位,需要使用特徵定位。
舉例:對於字串“作者: * ”,採集作者名稱時,可用“作者:”作為特徵來定位。
(2)特徵定位的操作方法
① 選擇:按Ctrl點選頁面上所需資料的區域。
② 識別特徵:點選“識別特徵”,出現紅框,再次點選,紅框移動到特徵字串時確認。
③ 點選“確認選區”按鈕,選區生效。
(3)特徵定位的型別
特徵定位分為四種方式:
① 區域性關鍵詞
當頁面的資料前有特定的關鍵詞,而各個頁面的表格內容、各行次序、行數又各不相同時,採用標準定位的方式就會錯亂。可以根據表頭特徵,採集表格後的資料。與全文關鍵詞的區別是,區域性關鍵詞只在選定區域的附近採集。
② 全文關鍵詞
根據選定的特徵關鍵詞,在全頁面採集該特徵關鍵詞前後對應的資料,如果出現多個特徵關鍵詞,以第一個為主。如果想採集多個的話,可以設定多值。>>檢視多值的配置方式
③ 大文字
選定大文字區域後,自動識別各頁面的大文字,相比標準定位更加精確。
④ 特殊標籤
採集頁面中只出現一次的特殊標籤,如標題的<h1>標籤等。
三,欄位清洗方式
在採集資料之前,通過使用欄位處理,軟體可以自動以某種過濾方式,清洗該欄位的字串資料。通過系統自帶的或指令碼的方式,可以預先清洗不需要的字串。
欄位處理
欄位清洗的方式如下:
欄位處理指令碼是欄位處理中選擇“指令碼處理”後,通過指令碼進一步把需要的資料清洗乾淨。具體配置方法需要參考指令碼文件。