南郵提出實時語義分割的輕量級網路:LEDNET,可達 71 FPS!70.6% class mIoU!即將開源
加入極市 專業CV交流群,與6000+來自騰訊,華為,百度,北大,清華,中科院 等名企名校視覺開發者互動交流!更有機會與 李開復老師 等大牛群內互動!
同時提供每月大咖直播分享、真實專案需求對接、乾貨資訊彙總,行業技術交流。 點選文末“ 閱讀原文 ”立刻申請入群~
作者 | Amusi
本文轉載自公眾號CVer
本文要介紹的 LEDNet(Light Encoder-Decoder Network) 是由南京郵電大學和天普大學聯合提出的用於實時語義分割的輕量級網路。
LEDNet 能夠在單個GTX 1080Ti GPU中以超過71 FPS的速度執行。實驗表明,該演算法在 CityScapes 資料集的速度和準確性權衡方面取得了SOTA。
目前 LEDNet 論文已被 ICIP 2019 錄用,官方已經提供該演算法的 github 連結,但並沒有上傳測試/訓練原始碼,估計還在準備中。
《LEDNet: A Lightweight Encoder-Decoder Network for Real-Time Semantic Segmentation》
arXiv: https://arxiv.org/abs/1905.02423
github: https://github.com/xiaoyufenfei/LEDNet
作者團隊:南京郵電大學和天普大學
注:2019年05月08日剛出爐的paper
Abstract:算力負擔限制了移動裝置中CNN在密集估計任務中的使用。在本文中,我們提出了一個輕量級網路來解決這個問題,即 LEDNet,它採用非對稱(asymmetric)編碼器 - 解碼器架構來進行實時語義分割。更具體地說,編碼器採用 ResNet 作為骨幹網路,其中有兩個新操作:channel split and shuffle,被應用在每個殘餘塊中,以大大降低計算成本,同時保持更高的分割精度。 另一方面,在解碼器中採用注意力金字塔網路(APN,attention pyramid network)以進一步減輕整個網路的複雜性。我們的模型引數不到1M,並且能夠在單個GTX 1080Ti GPU中以超過71 FPS的速度執行。全面的實驗表明,我們的方法在 CityScapes 資料集的速度和準確性權衡方面取得了SOTA。
本文演算法(LEDNet)流程圖:不對稱結構
本文三個創新點:
(1)LEDNet的不對稱結構(asymmetrical architecture) ,如上圖所示,使得網路引數大大減少,加速了推理過程;
(2)殘差網路中的 Channel split and shuffle 有強大的特徵表示。此外, Channel shuffle 是differentiable,可以嵌入網路結構中進行端到端訓練。
(3)在 decoder 端,採用特徵金字塔的注意力機制來設計APN ,進一步降低了整個網路的複雜性。
帶有 Split and Shuffle Operations的殘差模組
由下圖可知,LEDNet引入:split-shuffle-bottleneck(SS-bt),其中可以看到整體結構還是ResNet,但額外引入 Channel Split、Concat層和 Channel Shuffle。
Channle Split 將輸入分離成兩個 lower-dimensional 分支(即各自一半channel),通過設計的3x1 和 1x3卷積,在將兩個分支 Concat一起,並最後利用 ShuffleNet中的 Channel Shuffle操作。
APN Decoder
來直觀看看 LEDNet 的引數設計:
實驗結果
表 2 和表 3 直觀的說明了對比結果,LEDNet 在準確性和效率方面實現了最佳可行的 trade-off,如 LEDNet 達到 70.6% class mIoU 和 87.1% category mIoU,並且 71 FPS,不到 1M引數。(測試GPU:單個GTX 1080ti)
官方已經給出LEDNet的github連結,期待早點將原始碼放出來~
arXiv: https://arxiv.org/abs/1905.02423
github: https://github.com/xiaoyufenfei/LEDNet
*延伸閱讀
點選左下角 “ 閱讀原文 ”, 即可申請加入極市 目標跟蹤、目標檢測、工業檢測、人臉方向、視覺競賽等技術交流群, 更有每月大咖直播分享、真實專案需求對接、乾貨資訊彙總,行業技術交流, 一起來讓思想之光照的更遠吧~
覺得有用麻煩給個好看啦~