【影象分割模型】多感受野的金字塔結構—PSPNet
這是專欄《影象分割模型》的第6篇文章。在這裡,我們將共同探索解決分割問題的主流網路結構和設計思想。
在分割問題中,上下文資訊與多尺度融合對於提高分割精度是十分有效的,今天我們就來談談用於實現這個目標的金字塔池化結構。
作者 | 孫叔橋
編輯 | 言有三
本期論文
《 Pyramid Scene Parsing Network 》
1 為什麼要用金字塔結構提取特徵
從本系列前面的文章我們已經瞭解到,對於分割任務而言,上下文資訊的利用情況對於分割的效果是有明顯影響的。這裡我們就具體談談這個影響的原因。
通常來講,我們判斷一個東西的類別時,除了直接觀察其外觀,有時候還會輔助其出現的環境。比如汽車通常出現在道路上、船通常在水面、飛機通常在天上等。忽略了這些直接做判斷,有時候就會造成歧義。比如下圖中,在水面上的船由於其外觀,就被FCN演算法判斷成汽車了。
從左到右分別為:影象、真值、FCN結果和PSPNet結果。
除此之外,由於金字塔結構並行考慮了多個感受野下的目標特徵,從而對於尺寸較大或尺寸過小的目標有更好的識別效果。
從左到右分別為:影象、真值、FCN結果和PSPNet結果。
可見,同時考慮不同感受野下的上下文資訊是十分必要的。下面我們就一起來具體看一下金字塔池化模型。
2 金字塔池化模型
儘管ResNet的感受野在理論上已經可以達到大於輸入影象尺寸,但是Zhou等人也證明了CNN的經驗感受野實際上比理論值小很多。因此,需要一個更有效的全域性先驗的描述方式。
下圖是論文中提出的基於金字塔池化模型的網路結構。其中,虛線框出來的部分屬於金字塔池化模型。
實驗中分別用了1x1、2x2、3x3和6x6四個尺寸,最後用1x1的卷積層計算每個金字塔層的權重,再通過雙線性恢復成原始尺寸。
最終得到的特徵尺寸是原始影象的1/8。最後在通過卷積將池化得到的所有上下文資訊整合,生成最終的分割結果。
此外,文中還應用了兩個損失函式,分別用於約束主幹分割網路和校正網路。以ResNet101為例,損失所處位置如下圖所示。
3 實驗結果
為了驗證金字塔結構的有效性,PSPNet的作者對其進行了一系列的剝離實驗。具體結果如下表所示:
ADE20K資料庫下的分割結果:
下圖是PASCAL VOC 2012資料庫下的實驗結果:
總結
本文我們瞭解了上下文資訊整合的多尺度估計網路PSPNet和其中的金字塔池化模型。除了同種特徵的堆疊,我們還可以利用多特徵融合提升分割的效果。下期我們就一起來看一下ParseNet。
專欄作者招募
直播預告(點選圖片跳轉)
今日看圖猜技術
有三AI生態
更多精彩內容請關注知乎專欄《有三AI學院》
轉載文章請後臺聯絡
侵權必究