基於手機系統的實時目標檢測
簡單概要
在具有有限計算能力和儲存器資源的移動裝置上運行卷積神經網路(CNN)模型的日益增長的需求促進了對有效模型設計的研究。近年來已經提出了許多有效的架構,例如: MobileNet , ShuffleNet 和 NASNet-A 。
然而,所有這些模型都嚴重依賴於深度可分的卷積,這在大多數深度學習框架中缺乏有效的實現。在這項研究中,提出了一個 “ PeleeNet” 的高效架構,採用傳統的卷積方式架構。在ImageNet ILSVRC 2012資料集上,提出的 PeleeNet 比最先進的高效架構 MobileNet 的精度提高了0.6%(71.3%對70.7%),計算成本降低了11%。
同時, PeleeNet 僅佔 MobileNet 模型大小的66%。 然後,提出了一種實時物體檢測系統,它將 PeleeNet 與 Single Shot MultiBox Detector (SSD)方法相結合,並優化架構以實現快速速度。
提出的檢測系統名為 Pelee ,在PASCAL VOC2007上達到76.4%mAP(平均精度),在MSCOCO資料集上達到22.4% mAP, iPhone 6s 上的速度為17.1 FPS, iPhone 8 上的速度為23.6 FPS,COCO的結果優於YOLOv2,考慮更高的精度,13.6倍的計算成本和11.3倍的模型尺寸。
PeleeNet 關鍵特徵
-
Two-Way Dense Layer:
受GoogLeNet (Szegedy et al. (2015))的兩路Dense Layer的激發,研究者使用了一個兩路 Dense Layer 來得到不同尺度的感受野。
其中一路使用一個3×3 的卷積核,它能夠較好地捕捉小尺度目標;另一路使用兩個3×3的卷積核來學習大尺度目標特徵。該結構如下圖所示:
-
Dynamic Number of Channels in Bottleneck Layer
另一個亮點就是Bottleneck Layer通道數目會隨著輸入維度的變化而變化,保證輸出通道的數目不會超過輸出通道。
與原始的 DenseNet 結構相比,實驗表明這種方法在節省 28.5% 的計算資源的同時僅僅會對準確率有很小的影響。
-
Transition Layer without Compression
實驗表明,DenseNet 提出的壓縮因子會損壞特徵表達,PeleeNet在轉換層中也維持了與輸入通道相同的輸出通道數目。
-
Composite Function
為提升實際的速度,採用conventional wisdom of post-activation(Convolution-Batch Normalization (Ioffe & Szegedy (2015))- Relu))作為我們的複合函式,而不是DenseNet中所用的預啟用。對於 post-activation 而言,所有的批正則化層可以在推理階段與卷積層相結合,這可以很好的加快速度。
為了補償這種變化給準確率帶來的不良影響,研究者使用一個淺層的、較寬的網路結構。在最後一個密集塊之後還增加了一個1×1的卷積層,以得到更強的表徵能力。
主要增強&改進
優化了Single Shot MultiBox Detector (SSD) 的網路結構,以加速並將其與 PeleeNet相結合。
在PASCAL VOC(Everingham et al. (2010))2007資料集上達到了 76.4%的準確率,在COCO資料集上達到了22.4%的準確率。
在準確率、速度和模型大小方面,Pelee系統都優於YOLOv2(Redmon & Farhadi (2016))。主要措施如下:
-
Feature Map Selection
以不同於原始SSD的方式構建目標檢測網路,為了減少計算成本,沒使用38×38 的特徵圖。
-
Residual Prediction Block
Lee 等人提出的設計思想(2017),即:使特徵沿著特徵提取網路傳遞。對於每一個用於檢測的特徵圖,在實施預測之前構建了一個殘差(He et al. 2016)塊,ResBlock 的結構如下圖所示:
PeleeNet 架構
整個網路由一個stem block 和四個特徵提取器組成。 除了最後一個階段,每個階段的最後一層是具有步幅為2的平均池化層。四階段結構是大型模型設計中常用的結構。 ShuffleNet (Zhang et al (2017)) 使用三階段結構,並在每個階段開始時縮小特徵圖大小。
雖然這可以有效降低計算成本, 但 我認為早期特徵對於視覺任務非常重要 ,並且過早降低特徵圖大小會損害表示能力 。 因此要仍然保持四階段結構。 前兩個階段中的層數被特定的控制到可接受的範圍。
PeleeNet 實驗
表1 PeleeNet 整體架構
表2 不同設計選擇和部件對效能的影響
表3 在 Stanford Dogs資料集上的結果
表4 在 ImageNet ILSVRC 2012 資料集上的結果
表5 不同設計選擇對效能的影響
表6 在VOC 2007資料集上的結果
表7 在不同硬體上的結果
PeleeNet 在手機上實驗效果圖
視訊正在稽核,等通過了,分享給大家!
PeleeNet 出處
-
文章: Pelee: A Real-Time Object Detection System on Mobile Devices ICLR 2018 workshop track
-
下載地址: https://arxiv.org/abs/1804.06882
-
程式碼: https://github.com/GZQ0723/PeleeNet
如果想加入我們“ 計算機視覺戰隊 ”,請掃二維碼加入學習群,我們一起學習進步,探索領域中更深奧更有趣的知識!