前嗅ForeSpider教程：欄位的取值與清洗

HTML · 發表 2019-02-28 16:43:29

摘要：今天小編為大家帶來的教程是：如何在前嗅ForeSpider中進行，欄位的取值與清洗。主要內容包括：自動取值欄位，取值的兩個方法，和欄位清洗方式。具體內容如下：一，自動取值的欄位包括哪些當欄位設定為下列採集內容時，系統會自動為欄位賦值。 1.網頁地址：自動採集網頁的URL地址。 ...

今天小編為大家帶來的教程是：如何在前嗅ForeSpider中進行，欄位的取值與清洗。主要內容包括：自動取值欄位，取值的兩個方法，和欄位清洗方式。具體內容如下：

一，自動取值的欄位包括哪些

當欄位設定為下列採集內容時，系統會自動為欄位賦值。

1.網頁地址：自動採集網頁的URL地址。

2.網頁標題：採集網頁的標題。即網頁<title>中的內容。

3.網頁內文字文字：採集整個頁面中所有可見的文字文字。

網頁內容：採集網頁全部文字，包含html標籤等，即整個頁面的原始碼。

5.網頁建立時間：文件建立或網頁釋出的時間。

6.網頁更新時間：文件或網頁更新的時間。

7.網頁獲取時間：ForeSpider採集該網頁的時間。

8.當前系統時間：資料採集入庫的時間。

9.文件資料大小：採集物件的質量大小[單位:位元組]。

10.文件名稱：採集物件的檔名，如 .html， .doc。

11.文件字尾：文件的檔名字尾，如html、pdf等。

12.文件視寬：文件的寬[如果是圖片資料則為圖片的寬]。

13.文件視高：文件的高[如果是圖片資料則為圖片的高]。

14.文件層級：自動獲取從入口頁噹噹前資料頁的跳轉層級數目。

15.頻道ID：採集當前頻道的ID。

16.頻道名稱：採集當前頻道的名稱。

二，取值方法

1.標準定位

（1）標準定位含義

通過在內建瀏覽器上，定位有所需資料的區域，為欄位取值。大多數情況都選擇“標準定位”。

（2）定位方法

①選擇：按Ctrl點選頁面上相應資料的區域。

②擴大選區：按Shift再次點選頁面相應區域。

③確認選區：點選“確認選區”按鈕，選區生效。

標準定位

2.特徵定位

（1）特徵定位含義

當所需資料在不同網頁的位置不固定，且資料前後具有特徵性文字時，用標準定位容易錯位，需要使用特徵定位。

舉例：對於字串“作者： * ”，採集作者名稱時，可用“作者：”作為特徵來定位。

（2）特徵定位的操作方法

① 選擇：按Ctrl點選頁面上所需資料的區域。

② 識別特徵：點選“識別特徵”，出現紅框，再次點選，紅框移動到特徵字串時確認。

③ 點選“確認選區”按鈕，選區生效。

（3）特徵定位的型別

特徵定位分為四種方式：

① 區域性關鍵詞

當頁面的資料前有特定的關鍵詞，而各個頁面的表格內容、各行次序、行數又各不相同時，採用標準定位的方式就會錯亂。可以根據表頭特徵，採集表格後的資料。與全文關鍵詞的區別是，區域性關鍵詞只在選定區域的附近採集。

② 全文關鍵詞

根據選定的特徵關鍵詞，在全頁面採集該特徵關鍵詞前後對應的資料，如果出現多個特徵關鍵詞，以第一個為主。如果想採集多個的話，可以設定多值。>>檢視多值的配置方式

③ 大文字

選定大文字區域後，自動識別各頁面的大文字，相比標準定位更加精確。

④ 特殊標籤

採集頁面中只出現一次的特殊標籤，如標題的<h1>標籤等。

三，欄位清洗方式

在採集資料之前，通過使用欄位處理，軟體可以自動以某種過濾方式，清洗該欄位的字串資料。通過系統自帶的或指令碼的方式，可以預先清洗不需要的字串。

欄位處理

欄位清洗的方式如下：

欄位處理指令碼是欄位處理中選擇“指令碼處理”後，通過指令碼進一步把需要的資料清洗乾淨。具體配置方法需要參考指令碼文件。

前嗅ForeSpider教程：欄位的取值與清洗

標準定位

欄位處理

您可能也會喜歡…