研究人員利用GPU在4K/8K視訊中進行物體檢測
卡內基梅隆大學的研究人員開發出一種新系統,該系統使用GPU快速準確地檢測4K和8K視訊中的物體。研究人員表示,雖然大量資料來源以高解析度記錄,但目前最先進的物體檢測模型,如YOLO,Faster RCNN,SSD等,只能處理具有相對較低解析度的視訊,約為608 x 608畫素。
目前大多數模型使用這些影象有三個原因:它們足以完成任務;處理低解析度影象更具時間效率;許多用於訓練模型的公開資料集由低解析度影象組成。當然,低解析度的問題在於 ofollow,noindex">視訊 沒有獲得很多細節。隨著4K甚至8K相機的數量不斷增加,需要一種新的模型來分析它們。
卡內基梅隆大學的研究人員 開發 出的這種新系統,將物體檢測的任務分為兩個階段,兩個階段都涉及通過將原始影象與規則網格重疊來細分原始影象,然後將模型YOLO v2應用於快速物件檢測。開發者創造了許多小型矩形作物,可以通過YOLO v2在幾個 伺服器 工作者上以並行方式處理。第一階段將影象縮小為較低解析度並執行快速物體檢測以獲得粗糙的邊界框。第二階段使用這些邊界框作為注意圖來決定在高解析度下檢查影象的位置。因此當影象的某些區域不包含任何感興趣的物件時,開發者可以節省處理它們的資源。
研究人員在程式碼中實現了他們的模型,該程式碼將工作分佈在GPU上,在設法保持高精度的同時,在4K視訊和8K視訊上分別達到3-6fps和2fps的效能,與將影象縮小到低解析度的YOLO v2方法相比,該方法將平均精度得分從33.6 AP50提高到74.3 AP50。與在高解析度下處理原始影象的每個部分相比,這種方法將處理高解析度影象所需的時間縮短了大約20%。 這實際意味著近乎實時的4K視訊處理是可行的。