最高比Mask-RCNN快3倍！上交大實時姿態估計AlphaPose升級

PyTorch 開源計算機視覺 · 發表 2018-09-14 16:52:55

摘要： AlphaPose是一個實時多人姿態估計系統。今年2月，上海交通大學盧策吾團隊MVIG實驗室AlphaPose 系統上線，是首個在 COCO 資料集上可達到 70+ mAP 的開源姿態估計系統。本次更新，在精度不下降情況下，實時性是一大提升亮點。新系統採用 PyTorch 框架，...

AlphaPose是一個實時多人姿態估計系統。

今年2月，上海交通大學盧策吾團隊MVIG實驗室AlphaPose 系統上線，是首個在 COCO 資料集上可達到 70+ mAP 的開源姿態估計系統。本次更新，在精度不下降情況下，實時性是一大提升亮點。

新系統採用 PyTorch 框架，在姿態估計（Pose Estimation）標準測試集COCO validation set上，達到 71mAP的精度（比 OpenPose 相對提升17%，Mask-RCNN相對提升8%），同時，速度達到了20FPS（比 OpenPose 相對提高66%，Mask-RCNN相對提高300%）。

再次感受一下升級後AlphaPose的速度

檢測精度不變，平均速度比Mask-RCNN快3倍

人體關鍵點檢測對於描述人體姿態，預測人體行為至關重要。因此，人體關鍵點檢測是諸多計算機視覺任務的基礎。其在動作分類，異常行為檢測，以及人機互動等領域有著很廣闊的應用前景，是計算機視覺領域中一個既具有研究價值、同時又極具挑戰性的熱門課題。

AlphaPose系統，是基於上海交大MVIG組提出的 RMPE 二步法框架（ICCV 2017論文）構建的，相比其他開源系統在準確率有很大提高，比OpenPose相對提高17%，Mask-RCNN相對提高8.2%。

升級後，各個開源框架在COCO-Validation上效能，時間在單卡1080ti GPU測出指標如下：

開源系統	準確率	平均速度
Openpose（CMU）	60 mAP	12 FPS
Mask-RCNN（Facebook）	67 mAP	5 FPS
Alphapose（SJTU）	71 mAP	20 FPS

基於PyTorch框架，在人體姿態估計模型中引入Attention模組

新版 AlphaPose 系統，架設在 PyTorch 框架上，得益於Python的靈活性，新系統對使用者更加友好，安裝使用過程更加簡易，同時支援Linux與Windows系統使用，方便進行二次開發。此外，系統支援圖片、視訊、攝像頭輸入，實時線上計算出多人的姿態結果。

為了在兼顧速度的同時保持精度， 新版AlphaPose提出了一個新的姿態估計模型 。模型的骨架網路使用 ResNet101，同時在其下采樣部分新增 SE-block 作為 attention 模組——已經有很多實驗證明，在 Pose Estimation 模型中引入 attention 模組能提升模型的效能，而僅在下采樣部分新增 SE-block 能使 attention 以更少的計算量發揮更好的效果。

除此之外，使用 PixelShuffle + Conv 進行3次上取樣，輸出關鍵點的熱度圖。傳統的上取樣方法會使用反捲積或雙線性插值。而使用 PixelShuffle 的好處在於，在提高解析度的同時，保持特徵資訊不丟失。對比雙線性插值，運算量低；對比反捲積，則不會出現網格效應。

在系統架構方面，新版 AlphaPose 採用 多級流水 的工作方式，使用多執行緒協作，將速度發揮到極致。

AlphaPose 系統目前在COCO的 Validation 集上的執行速度是 20FPS（平均每張圖片4.6人），精度達到71mAP。在擁擠場景下（平均每張圖片15人），AlphaPose系統速度仍能保持 10FPS 以上。

原文釋出時間為：2018-09-14

本文來自雲棲社群合作伙伴“ ofollow,noindex">磐創AI ”，瞭解相關資訊可以關注“ 磐創AI ”。

最高比Mask-RCNN快3倍！上交大實時姿態估計AlphaPose升級

您可能也會喜歡…