南郵提出實時語義分割的輕量級網路：LEDNET，可達 71 FPS！70.6% class mIoU！即將開源

開源 · 發表 2019-05-10 23:27:14

摘要：加入極市專業CV交流群，與6000+來自騰訊，華為，百度，北大，清華，中科院等名企名校視覺開發者互動交流！更有機會與李開復老師等大牛群內互動！...

加入極市專業CV交流群，與6000+來自騰訊，華為，百度，北大，清華，中科院 等名企名校視覺開發者互動交流！更有機會與 李開復老師 等大牛群內互動！

同時提供每月大咖直播分享、真實專案需求對接、乾貨資訊彙總，行業技術交流。點選文末“ 閱讀原文 ”立刻申請入群~

作者 | Amusi

本文轉載自公眾號CVer

本文要介紹的 LEDNet（Light Encoder-Decoder Network） 是由南京郵電大學和天普大學聯合提出的用於實時語義分割的輕量級網路。

LEDNet 能夠在單個GTX 1080Ti GPU中以超過71 FPS的速度執行。實驗表明，該演算法在 CityScapes 資料集的速度和準確性權衡方面取得了SOTA。

目前 LEDNet 論文已被 ICIP 2019 錄用，官方已經提供該演算法的 github 連結，但並沒有上傳測試/訓練原始碼，估計還在準備中。

《LEDNet: A Lightweight Encoder-Decoder Network for Real-Time Semantic Segmentation》

arXiv: https://arxiv.org/abs/1905.02423

github: https://github.com/xiaoyufenfei/LEDNet

作者團隊：南京郵電大學和天普大學

注：2019年05月08日剛出爐的paper

Abstract：算力負擔限制了移動裝置中CNN在密集估計任務中的使用。在本文中，我們提出了一個輕量級網路來解決這個問題，即 LEDNet，它採用非對稱（asymmetric）編碼器 - 解碼器架構來進行實時語義分割。更具體地說，編碼器採用 ResNet 作為骨幹網路，其中有兩個新操作：channel split and shuffle，被應用在每個殘餘塊中，以大大降低計算成本，同時保持更高的分割精度。另一方面，在解碼器中採用注意力金字塔網路（APN，attention pyramid network）以進一步減輕整個網路的複雜性。我們的模型引數不到1M，並且能夠在單個GTX 1080Ti GPU中以超過71 FPS的速度執行。全面的實驗表明，我們的方法在 CityScapes 資料集的速度和準確性權衡方面取得了SOTA。