基於手機系統的實時目標檢測

SSD · 發表 2018-12-18 11:59:42

摘要：簡單概要在具有有限計算能力和儲存器資源的移動裝置上運行卷積神經網路（CNN）模型的日益增長的需求促進了對有效模型設計的研究。近年來已經提出了許多有效的架構，例如： MobileNet ， ShuffleNet 和 NASNet-A 。然而，所有這些模型都嚴重依賴於...

簡單概要

在具有有限計算能力和儲存器資源的移動裝置上運行卷積神經網路（CNN）模型的日益增長的需求促進了對有效模型設計的研究。近年來已經提出了許多有效的架構，例如： MobileNet ， ShuffleNet 和 NASNet-A 。

然而，所有這些模型都嚴重依賴於深度可分的卷積，這在大多數深度學習框架中缺乏有效的實現。在這項研究中，提出了一個 “ PeleeNet” 的高效架構，採用傳統的卷積方式架構。在ImageNet ILSVRC 2012資料集上，提出的 PeleeNet 比最先進的高效架構 MobileNet 的精度提高了0.6％（71.3％對70.7％），計算成本降低了11％。

同時， PeleeNet 僅佔 MobileNet 模型大小的66％。然後，提出了一種實時物體檢測系統，它將 PeleeNet 與 Single Shot MultiBox Detector （SSD）方法相結合，並優化架構以實現快速速度。

提出的檢測系統名為 Pelee ，在PASCAL VOC2007上達到76.4％mAP（平均精度），在MSCOCO資料集上達到22.4% mAP， iPhone 6s 上的速度為17.1 FPS， iPhone 8 上的速度為23.6 FPS，COCO的結果優於YOLOv2，考慮更高的精度，13.6倍的計算成本和11.3倍的模型尺寸。

PeleeNet 關鍵特徵

Two-Way Dense Layer：

受GoogLeNet (Szegedy et al. (2015))的兩路Dense Layer的激發，研究者使用了一個兩路 Dense Layer 來得到不同尺度的感受野。

其中一路使用一個3×3 的卷積核，它能夠較好地捕捉小尺度目標；另一路使用兩個3×3的卷積核來學習大尺度目標特徵。該結構如下圖所示：

Dynamic Number of Channels in Bottleneck Layer

另一個亮點就是Bottleneck Layer通道數目會隨著輸入維度的變化而變化，保證輸出通道的數目不會超過輸出通道。

與原始的 DenseNet 結構相比，實驗表明這種方法在節省 28.5% 的計算資源的同時僅僅會對準確率有很小的影響。

Transition Layer without Compression

實驗表明，DenseNet 提出的壓縮因子會損壞特徵表達，PeleeNet在轉換層中也維持了與輸入通道相同的輸出通道數目。

Composite Function

為提升實際的速度，採用conventional wisdom of post-activation（Convolution-Batch Normalization (Ioffe & Szegedy (2015))- Relu)）作為我們的複合函式，而不是DenseNet中所用的預啟用。對於 post-activation 而言，所有的批正則化層可以在推理階段與卷積層相結合，這可以很好的加快速度。

為了補償這種變化給準確率帶來的不良影響，研究者使用一個淺層的、較寬的網路結構。在最後一個密集塊之後還增加了一個1×1的卷積層，以得到更強的表徵能力。

主要增強&改進

優化了Single Shot MultiBox Detector (SSD) 的網路結構，以加速並將其與 PeleeNet相結合。

在PASCAL VOC(Everingham et al. (2010))2007資料集上達到了 76.4%的準確率，在COCO資料集上達到了22.4%的準確率。

在準確率、速度和模型大小方面，Pelee系統都優於YOLOv2(Redmon & Farhadi (2016))。主要措施如下：

Feature Map Selection

以不同於原始SSD的方式構建目標檢測網路，為了減少計算成本，沒使用38×38 的特徵圖。

Residual Prediction Block

Lee 等人提出的設計思想（2017），即：使特徵沿著特徵提取網路傳遞。對於每一個用於檢測的特徵圖，在實施預測之前構建了一個殘差(He et al. 2016)塊,ResBlock 的結構如下圖所示：

PeleeNet 架構

整個網路由一個stem block 和四個特徵提取器組成。除了最後一個階段，每個階段的最後一層是具有步幅為2的平均池化層。四階段結構是大型模型設計中常用的結構。 ShuffleNet (Zhang et al (2017)) 使用三階段結構，並在每個階段開始時縮小特徵圖大小。

雖然這可以有效降低計算成本，但我認為早期特徵對於視覺任務非常重要，並且過早降低特徵圖大小會損害表示能力。因此要仍然保持四階段結構。前兩個階段中的層數被特定的控制到可接受的範圍。

PeleeNet 實驗

表1 PeleeNet 整體架構

表2 不同設計選擇和部件對效能的影響

表3 在 Stanford Dogs資料集上的結果

表4 在 ImageNet ILSVRC 2012 資料集上的結果

表5 不同設計選擇對效能的影響

表6 在VOC 2007資料集上的結果

表7 在不同硬體上的結果

PeleeNet 在手機上實驗效果圖

視訊正在稽核，等通過了，分享給大家！

PeleeNet 出處

文章： Pelee: A Real-Time Object Detection System on Mobile Devices ICLR 2018 workshop track
下載地址： https://arxiv.org/abs/1804.06882
程式碼： https://github.com/GZQ0723/PeleeNet

如果想加入我們“ 計算機視覺戰隊 ”，請掃二維碼加入學習群，我們一起學習進步，探索領域中更深奧更有趣的知識！

基於手機系統的實時目標檢測

您可能也會喜歡…