語義分割概念及應用介紹

資料探勘計算機視覺 · 發表 2018-10-05 10:41:16

摘要：近年來，以深度學習為中心的機器學習技術引起了人們的關注。比如自動駕駛汽車已經逐漸成為可能，但在整個深度學習過程，需要演算法識別和學習作為原始資料提供的影象，在這一過程中，應用到了語義分割技術。下面讓我們來看看語義分割的需求是如何演變的。早期，計算機視覺的初始應用需求只是識別基本元素，例如...

近年來，以深度學習為中心的機器學習技術引起了人們的關注。比如自動駕駛汽車已經逐漸成為可能，但在整個深度學習過程，需要演算法識別和學習作為原始資料提供的影象，在這一過程中，應用到了語義分割技術。下面讓我們來看看語義分割的需求是如何演變的。

早期，計算機視覺的初始應用需求只是識別基本元素，例如邊緣（線和曲線）或漸變。然而，僅僅通過全畫素語義分割的創造來理解畫素級的影象，它將屬於同一目標的影象部分聚集在一起，從而擴充套件了語義分割的應用場景。

識別每個畫素或分組畫素一起分配類別的過程可以通過以下過程：

影象分類（image classification） ——識別影象中存在的內容;
物體識別和檢測（object recognition and detection） ——識別影象中存在的內容和位置（通過邊界框）；
語義分割（semantic segmentation） ——識別影象中存在的內容以及位置（通過查詢屬於它的所有畫素）

下面進入本文的主要內容：

什麼是語義分割？

語義分割是一種典型的計算機視覺問題，其涉及將一些原始資料（例如，平面圖像）作為輸入並將它們轉換為具有突出顯示的感興趣區域的掩模。許多人使用術語全畫素語義分割（full-pixel semantic segmentation），其中影象中的每個畫素根據其所屬的感興趣物件被分配類別ID。

早期的計算機視覺問題只發現邊緣（線條和曲線）或漸變等元素，但它們從未完全按照人類感知的方式提供畫素級別的影象理解。語義分割將屬於同一目標的影象部分聚集在一起來解決這個問題，從而擴充套件了其應用領域。

注意，與其他基於影象的任務相比，語義分割是完全不同的且先進的，例如，

影象分類：識別影象中存在的內容。
物體識別和檢測：識別影象中的內容和位置（通過邊界框）。
語義分割：識別影象中存在的內容以及位置（通過查詢屬於它的所有畫素）。

你設計的機器學習模型是否需要識別輸入原始平面圖像中的每個畫素？在這種情況下，全畫素語義分割標註是機器學習模型的關鍵。全畫素語義分割根據其所屬的感興趣物件分配影象中的每個畫素具有的類別ID。

下面定義語義分割的型別，以便更好地理解其相關概念。

語義分割的型別

標準語義分割（standard semantic segmentation） 也稱為全畫素語義分割，它是將每個畫素分類為屬於物件類的過程；
例項感知語義分割（instance aware semantic segmentation）是標準語義分割或全畫素語義分割的子型別，它將每個畫素分類為屬於物件類以及該類的實體ID。

下面探索語義分割的一些應用領域，以便更好地理解這種過程的需要。

語義分割的特徵

為了理解影象分割的特徵，我們還要與其他常見的影象分類技術相比較。

這一次將介紹以下三類技術領域，包括影象分割：

1）影象分類：識別影象是什麼；
2）影象檢測和識別：識別影象中的位置；
3）影象分割：理解影象的意義；
1.影象分類

這類技術主要是識別影象。例如，例如分類數字手寫體，例如“手寫一個數字，這個數字是0~9中的哪一個數字”。最初從亞馬遜釋出的 ofollow,noindex" target="_blank">Amazon Rekognition 也屬於此影象分類，需要反區分“杯子、智慧手機和瓶子”等，但現在，亞馬遜Rekognition已經將杯子和咖啡杯作為整個影象的標籤，這樣處理後，它將不能用於分類影象中有多個物體的場景。在這種情況下，應該將使用“影象檢測”技術。

2.影象檢測

這類技術主要是識別影象中“有什麼”和“它在哪裡”。

3.影象分割

這類技術主要是識別影象區域。稱為語義分割的影象分割標記由每個畫素的畫素指示的含義，而不是檢測整個影象或影象的一部分。

下面，讓我們看看語義分割具體的使用例子：

語義分割的應用

1.地質檢測——土地使用
1.地質檢測——土地使用

語義分割問題也可以被認為是分類問題，其中每個畫素被分類為來自一系列物件類中的某一個。因此一個使用案例是利用土地的衛星影像製圖。土地覆蓋資訊是重要的各種應用，如監測地區的森林砍伐和城市化等。

為了識別衛星影象上每個畫素的土地覆蓋型別（例如，城市、農業、水等區域），土地覆蓋分類可以被視為多級語義分割任務。道路和建築物檢測也是交通管理，城市規劃和道路監測的重要研究課題。

目前，幾乎沒有大規模公開可用的資料集（例如：SpaceNet），資料標記始終是分割任務的瓶頸。

2.用於自動駕駛

自動駕駛是一項複雜的機器人任務，需要在不斷變化的環境中進行感知、規劃和執行。由於其安全性至關重要，因此還需要以最高精度執行此任務。語義分割提供有關道路上自由空間的資訊，以及檢測車道標記和交通標誌等資訊。

3.用於面部分割

面部的語義分割通常涉及諸如面板、頭髮、眼睛、鼻子、嘴巴和背景等的分類。面部分割在計算機視覺的許多面部應用中是有用的，例如性別、表情、年齡和種族的估計。影響人臉分割資料集和模型開發的顯著因素是光照條件、面部表情、面部朝向、遮擋和影象解析度的變化等。

4.時尚——分類服裝

由於服裝數量眾多，服裝解析與其他服務相比是一項非常複雜的任務。這與一般的物體或場景分割問題不同，因為細粒度的衣物分類需要基於衣服的語義、人體姿勢的可變性和潛在的大量類別的更高級別判斷。服裝解析在視覺領域中得到了積極的研究，因為它在現實世界的應用程式即電子商務中具有巨大的價值。Fashionista和CFPD資料集等一些公開的資料集促進了服裝領域的語義分割研究。

5.精準農業

精確農業機器人可以減少需要在田間噴灑的除草劑的數量，作物和雜草的語義分割可以幫助他們實時觸發除草行為，這種先進的農業影象視覺技術可以減少對農業的人工監測，提高農業效率和降低生產成本。

作者資訊

Prerak Mody，計算機視覺研究人員

本文由阿里云云棲社群組織翻譯。

文章原標題《Semantic Segmentation: Wiki, Applications and Resources》，譯者：海棠，審校：Uncle_LLD。

文章為簡譯，更為詳細的內容，請檢視原文。