亞馬遜提出目標檢測訓練祕籍（程式碼已開源）

開源 · 發表 2019-02-17 09:02:49

摘要：點選上方“CVer”，選擇"星標"和“置頂” 重磅乾貨，第一時間送達前戲最近目標檢測方向，出了很多paper，CVer也立即跟進報道（點選可訪問）： TridentNet 處理目標檢測中尺度變化新思路 ...

點選上方“ CVer ”，選擇"星標"和“置頂”

重磅乾貨，第一時間送達

前戲

最近目標檢測方向，出了很多paper，CVer也立即跟進報道（點選可訪問）：

本文介紹一篇很棒的目標檢測訓練技巧論文。該論文是由Amazon Web Services 提出，其中作者團隊中就有李沐等大神。之前Amazon還提出影象分類的Tricks論文，詳見亞馬遜：用CNN進行影象分類的Tricks

簡介

《Bag of Freebies for Training Object Detection Neural Networks》

arXiv: https://arxiv.org/abs/1902.04103

github: https://github.com/dmlc/gluon-cv

作者團隊： Amazon Web Services

注：2019年02月11日剛出爐的paper

Abstract：目標檢測訓練與影象分類模型的研究相比，相對缺少普遍性。由於網路結構和優化目標明顯更加複雜，因此針對某些檢測演算法而不是其他檢測演算法專門設計了各種訓練策略和 pipelines。在這項工作中，我們探索了有助於將最先進的目標檢測模型的效能提升到一個新水平而不犧牲推理（inference）速度的通用調整。我們的實驗表明，這些訓練祕籍（freebies）可以在精度上增加5％，因此每個人都應該考慮在一定程度上將這些訓練祕籍應用於目標檢測訓練中。

正文

主要貢獻

1）我們是第一個系統地評估各種目標檢測 pipelines 中應用的各種訓練啟發式方法，為未來的研究提供了有價值的實踐指導。

2）我們提出了一種用於訓練目標檢測網路的 visually coherent image mixup 方法，該方法被證明在提高模型通用能力方面非常有效。

3）在不改變網路結構和損失函式的情況下，基於現有模型，我們 achieved up to 5% out of 30% absolute average precision。

4）我們擴充套件了目標檢測資料增廣領域的研究深度，顯著增強了模型泛化能力，有助於減少過度擬合問題。實驗還揭示了可以在不同網路結構中一致地提高目標檢測效能的良好技術。

所有相關程式碼都是開源的，模型的預訓練權重可在GluonCV工具包中獲得。

GluonCV : https://github.com/dmlc/gluon-cv

具體創新點

1. Visually Coherent Image Mixup for Object Detection

這個創新點是受前段時間很出名的用於影象分類的資料增廣論文：《mixup: Beyond empirical risk minimization》(ICLR 2018) 啟發。用於影象分類的mixup方法如下：

用於目標檢測的方法如下：

注意mixup中最重要的超引數就是 α 和 β ，不同的值對結果(mAP)會有很大影響，結果如下所示：

Effect of various mix-up approaches

2. Classification Head Label Smoothing

這個創新點是受《Rethinking the inception architecture for computer vision》論文啟發。

3. Data Pre-processing

隨機幾何變換。包括隨機裁剪（帶約束），隨機擴充套件，隨機水平翻轉和隨機縮放（隨機插值）。
隨機顏色抖動（jittering），包括亮度，色調，飽和度和對比度。

4. Training Scheduler Revamping

the step schedule
cosine learning rate adjustment
Warm up learning rate

Visualization of learning rate scheduling with warm-up

enabled for YOLOv3 training on Pascal VOC

5. Synchronized Batch Normalization

做了大量實驗，調研 Synchronized Batch Normalization 對 YOLOv3的實驗影響

注：有卡任性，哈哈

6. Random shapes training for single-stage object detection networks

為了適應記憶體限制並允許更簡單的批處理，許多 single-stage 目標檢測網路採用固定形狀進行訓練。本論文中，將一小批N個訓練影象的大小調整為Nx3xHxW，其中H和W是D = randint（1; k）的multipliers。例如，使用H = W ∈ {320; 352; 384; 416; 448; 480; 512; 544; 576; 608} 用於YOLOv3訓練。

實驗結果

論文中使用 YOLOv3 和 Faster R-CNN 作為實驗的目標檢測框架。

YOLOv3 改進實驗結果(在VOC資料集上)

Training Refinements on YOLOv3, evaluated at 416×416

on Pascal VOC 2007 test set

Faster R-CNN 改進實驗結果(在VOC資料集上)

Training Refinements on Faster-RCNN, evaluated at 600 × 1000 on Pascal VOC 2007 test set

注： 從實驗結果來看，漲點很明顯 ，將這些tricks用在你當前的研究專案中，應該會有很大幫助。

想要了解 最新最快最好 的論文速遞、開源專案和乾貨資料，歡迎加入CVer學術交流群。涉及影象分類、目標檢測、影象分割、人臉檢測&識別、目標跟蹤、GANs、學術競賽交流、Re-ID、風格遷移、醫學影像分析、姿態估計、OCR、SLAM、場景文字檢測&識別和超解析度等方向。

掃碼進群

這麼硬的 論文速遞 ，麻煩給我一個好看

▲長按關注我們

麻煩給我一個好看！