Google 又發大招：高效實時實現視訊目標檢測

機器學習 · 發表 2019-04-03 12:16:49

摘要：加入極市專業CV交流群，與 6000+來自騰訊，華為，百度，北大，清華，中科院等名企名校視覺開發者互動交流！更有機會與李開復老師等大牛群內互動！同時提供每月大咖直播分享、真實專案需求對接、乾貨資訊彙總，行業技術交流。點選文末“閱讀原文”立刻申請入群~...

加入極市專業CV交流群，與 6000+來自騰訊，華為，百度，北大，清華，中科院 等名企名校視覺開發者互動交流！更有機會與 李開復老師 等大牛群內互動！

同時提供每月大咖直播分享、真實專案需求對接、乾貨資訊彙總，行業技術交流。點選文末“ 閱讀原文 ”立刻申請入群~

作者簡介

陳泰紅：演算法工程師，研究方向為機器學習、影象處理

影象目標檢測是影象處理領域的基礎。自從2012年CNN的崛起，深度學習在Detection的持續發力，為這個領域帶來了變革式的發展：一個是基於RPN的two-stage，RCNN/Fast RCNN/Faster RCNN、RetinaNet、Mask RCNN等，致力於檢測精度的提高。一類是基於SSD和YOLOv1/v2/3的one-stage，致力於提高檢測速度。

視訊目標檢測要解決的問題是對於視訊中每一幀目標的正確識別和定位。相對於影象目標檢測，視訊是高度冗餘的，包含了大量時間區域性性（temporal locality，即在不同的時間是相似的）和空間區域性性（spatial locality，即在不同場景中看起來是相似的），既Temporal Context（時間上下文）的資訊。充分利用好時序上下文關係，可以解決視訊中連續幀之間的大量冗餘的情況，提高檢測速度；還可以提高檢測質量，解決視訊相對於影象存在的運動模糊、視訊失焦、部分遮擋以及形變等問題。

視訊目標檢測和視訊跟蹤不同。兩個領域解決相同點在於都需要對每幀影象中的目標精準定位，不同點在於視訊目標檢測不考慮目標的識別問題，而跟蹤需要對初始幀的目標精確定位和識別。

圖1 高德地圖車載AR導航可識別前方車輛並提醒

視訊目標檢測應用廣泛，如自動駕駛，無人值守監控，安防等領域。如圖1所示，高德地圖車載AR導航利用視訊目標檢測，能夠對過往車輛、行人、車道線、紅綠燈位置以及顏色、限速牌等周邊環境，進行智慧的影象識別，從而為駕駛員提供跟車距離預警、壓線預警、紅綠燈監測與提醒、前車啟動提醒、提前變道提醒等一系列駕駛安全輔助。

視訊目標檢測演算法一般包括單幀目標檢測、多幀影象處理、光流演算法、自適應關鍵幀選擇。 Google提出基於Slownetwork 和Fast network分別提取不同特徵，基於ConvLSTM特徵融合後生成檢測框，實現實時性的state-of-art。

論文地址：https://arxiv.org/abs/1903.10172

1 Motivation

物體在快速運動時，當人眼所看到的影像消失後，人眼仍能繼續保留其影像，約0.1-0.4秒左右的影象，這種現象被稱為視覺暫留現象。人類在觀看視訊時，利用視覺暫留機制和記憶能力，可以快速處理視訊流。藉助於儲存功能，CNN同樣可以實現減少視訊目標檢測的計算量。

視訊幀具有較高的時序冗餘。如圖2所示，模型[1]提出使用兩個特徵提取子網路：Slow network 和Fast network。Slow network負責提取視訊幀的精確特徵，速度較慢，Fast network負責快速提取視訊幀的特徵提取，準確率較差，兩者交替處理視訊幀影象。Fast network和Slow network特徵經過ConvLSTM層融合並儲存特徵。檢測器在當前幀特徵和上下文特徵融合基礎上生成檢測框。論文提取基於強化學習策略的特徵提取排程機制和需要儲存特徵的更新機制。

論文提出的演算法模型在Pixel 3達到72.3 FPS，在VID 2015資料集state-of-art效能。

論文創新點：

1、提出基於儲存引導的交替模型框架，使用兩個特徵提取網路分別提取不同幀特徵，減少計算冗餘。

2、提出基於Q-learning學習自適應交替策略，取得速度和準確率的平衡。

3、在手機裝置實現迄今為止已知視訊目標檢測的最高速度。

圖2 儲存引導的交錯模型

2 網路架構

2.1交錯模型

圖3 交錯模型

如圖3所示論文提出的交錯模型（τ = 2），Slow network（Large featureextractor）和Fastnetwork(Small feature extractor)均由MobileNetV2構成(兩個模型的depth multiplier不同，前者為1.4，後者為0.35)，anchors比率限制為{1.0,0.5,2.0}。

2.2儲存模型

LSTM可以高效處理時序資訊，但是卷積運算量較大，並且需要處理所有視訊幀特徵。論文提出改進的ConvLSTM模型加速視訊幀序列的特徵處理。

ConvLSTM是一種將CNN與LSTM在模型底層結合，專門為時空序列設計的深度學習模組。ConvLSTM核心本質還是和LSTM一樣，將上一層的輸出作下一層的輸入。不同的地方在於加上卷積操作之後，為不僅能夠得到時序關係，還能夠像卷積層一樣提取特徵，提取空間特徵。這樣就能夠得到時空特徵。並且將狀態與狀態之間的切換也換成了卷積計算。

圖4 儲存模型LSTM單元

如所示，論文的ConvLSTM有一下改進：

1、增加Bottleneck Gate和output跳躍連線。

2、LSTM單元分組卷積。特徵圖HxWxN分為G組，每個LSTM僅處理HxWxN/G的特徵，加速ConvLSTM計算。論文中G = 4。

3、LSTM有一固有弱點，sigmoid啟用輸入和忘記門很少完全飽和，導致緩慢的狀態衰減，長期依賴逐漸喪失，更新中無法保留完整的前期狀態。導致Fast network執行中，Slownetwork特徵緩慢消失。論文使用簡單的跳躍連線，既第一個Fast network輸出特徵重複使用。

2.3推斷優化

論文提出基於非同步模式和量化模型，提高系統的計算效率。

1、非同步模式。交錯模型的短板來自於Slow network。論文采用Fastnetwork提取每幀影象特徵，τ = 2幀採用Slow network計算特徵和更新儲存特徵。Slownetwork和Fast network非同步進行，提高計算效率。

2、在有限資源的硬體裝置上佈置效能良好的網路，就需要對網路模型進行壓縮和加速，其中量化模型是一種高效手段。基於[2]演算法，論文的ConvLSTM單元在數學運算（addition,multiplication, sigmoid and ReLU6）後插入量化計算，確保拼接操作的輸入範圍相同，消除重新縮放的需求。

3 實驗

模型在Imagenet DET 和COCO訓練，在Imagenet VID 2015測試結果如圖5所示。

從測試結果看，系統只有Slow network模組時準確率最高，只有Fast network模組時準確率最低，但是速度沒有交錯模型快，比較詫異。另外基於強化學習的adaptive對精度和速度幾乎沒有影響，而非同步模式和模型量化提高系統的實時性。

圖5 Imagenet VID 2015測試結果

4 優缺點分析

視訊處理策略

1、基於強化學習的交錯模型排程是偽命題。論文的Slow network提取強特徵，Fastnetwork提取弱特徵，交錯模型的τ越大，模型效能越差。理論上τ=2時模型的準確率越高。綜合考慮準確率和實時性，論文中τ=9。

2、視訊具有很強的上下文相關性。視訊理解領域的目標檢測、分割、識別，跟蹤，等領域，都需要提取前後幀的運動資訊，而傳統採用光流方式，無法保證實時性。本文提出的分組ConvLSTM，可加速計算，量化模型保持準確率，具有借鑑意義。

以上僅為個人閱讀論文後的理解、總結和思考。觀點難免偏差，望讀者以懷疑批判態度閱讀，歡迎交流指正。

5 參考文獻

[1] MasonLiu, Menglong Zhu, Marie White, Yinxiao Li, Dmitry Kalenichenko.Looking Fastand Slow: Memory-Guided Mobile Video Object Detection. arXivpreprint arXiv:1903.10172,2019.

[2] B.Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard,H. Adam, and D.Kalenichenko. Quantization and training of neural networks for efficientinteger-arithmetic-only inference. In CVPR, 2018.

*延伸閱讀

點選左下角 “ 閱讀原文 ”， 即可申請加入極市目標跟蹤、目標檢測、工業檢測、人臉方向、視覺競賽等技術交流群，更有每月大咖直播分享、真實專案需求對接、乾貨資訊彙總，行業技術交流，一起來讓思想之光照的更遠吧~

覺得有用麻煩給個好看啦~