最高比Mask-RCNN快3倍!上交大實時姿態估計AlphaPose升級
AlphaPose是一個實時多人姿態估計系統。
今年2月,上海交通大學盧策吾團隊MVIG實驗室AlphaPose 系統上線,是首個在 COCO 資料集上可達到 70+ mAP 的開源姿態估計系統。本次更新,在精度不下降情況下,實時性是一大提升亮點。
新系統採用 PyTorch 框架,在姿態估計(Pose Estimation)標準測試集COCO validation set上,達到 71mAP的精度(比 OpenPose 相對提升17%,Mask-RCNN相對提升8%),同時, 速度達到了20FPS(比 OpenPose 相對提高66%,Mask-RCNN相對提高300%) 。
再次感受一下升級後AlphaPose的速度
檢測精度不變,平均速度比Mask-RCNN快3倍
人體關鍵點檢測對於描述人體姿態,預測人體行為至關重要。因此,人體關鍵點檢測是諸多計算機視覺任務的基礎。其在動作分類,異常行為檢測,以及人機互動等領域有著很廣闊的應用前景,是計算機視覺領域中一個既具有研究價值、同時又極具挑戰性的熱門課題。
AlphaPose系統,是基於上海交大MVIG組提出的 RMPE 二步法框架(ICCV 2017論文)構建的,相比其他開源系統在準確率有很大提高,比OpenPose相對提高17%,Mask-RCNN相對提高8.2%。
升級後,各個開源框架在COCO-Validation上效能,時間在單卡1080ti GPU測出指標如下:
開源系統 |
準確率 |
平均速度 |
Openpose(CMU) |
60 mAP |
12 FPS |
Mask-RCNN(Facebook) |
67 mAP |
5 FPS |
Alphapose(SJTU) |
71 mAP |
20 FPS |
基於PyTorch框架,在人體姿態估計模型中引入Attention模組
新版 AlphaPose 系統,架設在 PyTorch 框架上,得益於Python的靈活性,新系統對使用者更加友好,安裝使用過程更加簡易,同時支援Linux與Windows系統使用,方便進行二次開發。此外,系統支援圖片、視訊、攝像頭輸入,實時線上計算出多人的姿態結果。
為了在兼顧速度的同時保持精度, 新版AlphaPose提出了一個新的姿態估計模型 。模型的骨架網路使用 ResNet101,同時在其下采樣部分新增 SE-block 作為 attention 模組——已經有很多實驗證明,在 Pose Estimation 模型中引入 attention 模組能提升模型的效能,而僅在下采樣部分新增 SE-block 能使 attention 以更少的計算量發揮更好的效果。
除此之外,使用 PixelShuffle + Conv 進行3次上取樣,輸出關鍵點的熱度圖。傳統的上取樣方法會使用反捲積或雙線性插值。而使用 PixelShuffle 的好處在於,在提高解析度的同時,保持特徵資訊不丟失。對比雙線性插值,運算量低;對比反捲積,則不會出現網格效應。
在系統架構方面,新版 AlphaPose 採用 多級流水 的工作方式,使用多執行緒協作,將速度發揮到極致。
AlphaPose 系統目前在COCO的 Validation 集上的執行速度是 20FPS(平均每張圖片4.6人),精度達到71mAP。 在擁擠場景下(平均每張圖片15人),AlphaPose系統速度仍能保持 10FPS 以上。
原文釋出時間為:2018-09-14