百度、MIT等提出StNet:區域性+全域性的視訊時空聯合建模
第 33 屆 AAAI 大會已於當地時間 1 月 27 在美國夏威夷正式開幕,昨日機器之心報道了 AAAI 2019 的獲獎資訊 。在大會期間,我們將持續為讀者們推送有關本次大會的優質論文解讀、精彩演講等。
AAAI 是人工智慧領域的國際頂級會議,早期由電腦科學和人工智慧創始人 Allen Newell, Marvin Minsky 和 John McCarthy 等人首創,被中國計算機學會(CCF)推薦為 A 類會議。
據機器之心瞭解,國內科技巨頭百度共有 15 篇論文被 AAAI 2019 收錄。本文介紹了百度聯合 MIT 、南京大學等機構共同完成的一篇 spotlight 論文《StNet: Local and Global Spatial-Temporal Modeling for Action Recognition》。論文中提出的StNet架構將在2019年Q1隨百度PaddlePaddle深度學習平臺視訊識別演算法庫一起對外開源。
論文地址:https://arxiv.org/pdf/1811.01549.pdf
摘要:深度學習在靜態影象理解上取得了巨大成功,然而高效的視訊時序及空域建模的網路模型尚無定論。不同於已有的基於 CNN+RNN 或者 3D 卷積網路的方法,本文提出了兼顧區域性時空聯絡以及全域性時空聯絡的視訊時空聯合建模網路框架 StNet. 具體而言,StNet 將視訊中連續 N 幀影象級聯成一個 3N 通道的「超圖」,然後用 2D 卷積對超圖進行區域性時空聯絡的建模。為了建立全域性時空關聯,StNet 中引入了對多個區域性時空特徵圖進行時域卷積的模組。特別地,我們提出了時序 Xception 模組對視訊特徵序列進一步建模時序依賴。在 Kinetics 動作識別資料集的大量實驗結果表明,StNet 能夠取得 State-of-the-art 的識別效能,同時 StNet 在計算量與準確率的權衡方面表現優異。此外實驗結果驗證了 StNet 學習到的視訊表徵能夠在 UCF101 上有很好的遷移泛化能力。
以下是對 StNet 的技術概述:
1. StNet 的輸入為均勻取樣的 T 個區域性連續 N 幀的視訊幀。區域性的連續 N 幀組合成一個超圖,使得超圖保留原始視訊各個區域性的時空資訊。均勻取樣 T 個超圖則保留了原始視訊的全域性時空資訊。
2. 採用 2D 卷積對超圖進行區域性時空關係的建模,可以避免 3D 卷積網路引數量和計算量大的問題。
3. 通過堆疊3D 卷積/2D 卷積模組,對 T 個區域性時空特徵圖進行全域性時空資訊的建模。3D 卷積空間維度的 kernel size 設定成 1 以節省模型引數量與計算量。
4. 對 pooling 出來的 T 個特徵向量,不同於簡單的取平均操作,本文提出了時序 Xception 模組,進行進一步的時序關係捕獲來獲取最終的視訊特徵向量。時序 Xception 模組的設計主要基於時序 1 維卷積,類似 2D 卷積的 Xception 設計,這裡採用了 channel-wise 和 temporal-wise 分離的策略以進一步減少計算量與模型引數量。
圖 3:時間 Xception 塊(TXB)。我們提出的時間 Xception 塊的詳細配置如(a)所示。括號中的引數表示 1D 卷積的(#kernel,kernel size,padding,#groupss)配置。綠色的塊表示 channel-wise 的 1D 卷積,藍色的塊表示 temporal-wise 的 1D 卷積。(b)描繪了 channel-wise 和 temporal-wise 的 1D 卷積。TXB 的輸入是視訊的特徵序列,表示為 T×C_in張量。通道 1D 卷積的每個卷積核僅在一個通道內沿時間維度應用。Temporal-wise 的 1D 卷積核在每個時間步驟中跨所有通道進行卷積。
表 3:StNet 和幾種最先進的基於 2D / 3D 卷積的解決方案的比較。該結果通過在 Kinetics400 和 Kinetics600 的驗證集上得到,其僅具有 RGB 模態。
表 4:通過不同模型遷移學習實驗實現的平均類別準確率。UCF101 的 RGB 幀用於訓練和測試。表中報告了在 UCF101 的三個訓練/驗證分離上平均的平均類別準確率。