【影象分割模型】多感受野的金字塔結構—PSPNet

技術 · 發表 2019-05-09 12:02:04

摘要：這是專欄《影象分割模型》的第6篇文章。在這裡，我們將共同探索解決分割問題的主流網路結構和設計思想。在分割問題中，上下文資訊與多尺度融合對於提高分割精度是十分有效的，今天我們就來談談用於實現這個目標的金字塔池化結構。作者 | 孫叔橋編輯 | 言有三本期論文《 Py...

這是專欄《影象分割模型》的第6篇文章。在這裡，我們將共同探索解決分割問題的主流網路結構和設計思想。

在分割問題中，上下文資訊與多尺度融合對於提高分割精度是十分有效的，今天我們就來談談用於實現這個目標的金字塔池化結構。

作者 | 孫叔橋

編輯 | 言有三

本期論文

《 Pyramid Scene Parsing Network 》

從本系列前面的文章我們已經瞭解到，對於分割任務而言，上下文資訊的利用情況對於分割的效果是有明顯影響的。這裡我們就具體談談這個影響的原因。

通常來講，我們判斷一個東西的類別時，除了直接觀察其外觀，有時候還會輔助其出現的環境。比如汽車通常出現在道路上、船通常在水面、飛機通常在天上等。忽略了這些直接做判斷，有時候就會造成歧義。比如下圖中，在水面上的船由於其外觀，就被FCN演算法判斷成汽車了。

從左到右分別為：影象、真值、FCN結果和PSPNet結果。

除此之外，由於金字塔結構並行考慮了多個感受野下的目標特徵，從而對於尺寸較大或尺寸過小的目標有更好的識別效果。

從左到右分別為：影象、真值、FCN結果和PSPNet結果。

可見，同時考慮不同感受野下的上下文資訊是十分必要的。下面我們就一起來具體看一下金字塔池化模型。

儘管ResNet的感受野在理論上已經可以達到大於輸入影象尺寸，但是Zhou等人也證明了CNN的經驗感受野實際上比理論值小很多。因此，需要一個更有效的全域性先驗的描述方式。

下圖是論文中提出的基於金字塔池化模型的網路結構。其中，虛線框出來的部分屬於金字塔池化模型。

實驗中分別用了1x1、2x2、3x3和6x6四個尺寸，最後用1x1的卷積層計算每個金字塔層的權重，再通過雙線性恢復成原始尺寸。

最終得到的特徵尺寸是原始影象的1/8。最後在通過卷積將池化得到的所有上下文資訊整合，生成最終的分割結果。

此外，文中還應用了兩個損失函式，分別用於約束主幹分割網路和校正網路。以ResNet101為例，損失所處位置如下圖所示。

為了驗證金字塔結構的有效性，PSPNet的作者對其進行了一系列的剝離實驗。具體結果如下表所示：

ADE20K資料庫下的分割結果：

下圖是PASCAL VOC 2012資料庫下的實驗結果：

本文我們瞭解了上下文資訊整合的多尺度估計網路PSPNet和其中的金字塔池化模型。除了同種特徵的堆疊，我們還可以利用多特徵融合提升分割的效果。下期我們就一起來看一下ParseNet。

今日看圖猜技術

有三AI生態

更多精彩內容請關注知乎專欄《有三AI學院》

轉載文章請後臺聯絡

侵權必究