EmotiW2018國際大賽奪冠解析思圖場景情感識別演算法

演算法 · 發表 2018-11-01 17:09:01

摘要：當地時間2018年10月20日,由國際計算機協會ACM ICMI 2018舉辦的第六屆EmotiW2018 視訊情感識別大賽在美國科羅拉多進行了獎項授予。思圖場景AI團隊在百餘支世界頂尖研究機構與院校成績比拼中脫穎而出，獲得了音視訊短片情緒分類挑戰賽冠軍獎盃。本次大賽，思圖場景在Emo...

當地時間2018年10月20日,由國際計算機協會ACM ICMI 2018舉辦的第六屆EmotiW2018 視訊情感識別大賽在美國科羅拉多進行了獎項授予。

思圖場景AI團隊在百餘支世界頂尖研究機構與院校成績比拼中脫穎而出，獲得了音視訊短片情緒分類挑戰賽冠軍獎盃。本次大賽，思圖場景在EmotiW2018的視訊情緒分類挑戰賽中獲得第一名，情緒識別分類準確率比2017年冠軍IntelLab高1.53%。

EmotiW2018 音視訊組競賽前10名

在此次國際大賽中，思圖場景充分用成績證明了“以應用場景為基礎的研發模式”在人工智慧技術發展方面的創新性及有效性,為人工智慧技術在應用領域的發展提供了思路。

思圖場景AI團隊獲獎

經過與思圖場景AI團隊溝通與允許後，下面對其情感識別演算法進行一下重要解析與公佈：

思圖場景情感識別演算法採用多種特徵融合的方式對視訊進行了分類，顯著提升了情緒識別的準確率，其整體結構如下：

其演算法主要涉及到4個模組，分別是卷及神經網路（CNN）、長短期記憶網路（LSTM）、人臉關鍵點幾何特徵和聲音特徵。這四個不同的特徵模組，保證了演算法可以學習到視訊的多方資訊。

CNN和LSTM是兩個比較流行的處理視訊情緒的方法，他們需要依靠大量的資料支撐，思圖場景憑藉在情感計算中積累的資料庫進行訓練深度學習模型預訓練。在不同深度學習網路中，視訊單幀人臉情緒識別準確率為：

Network	Inception-V3	DenseNet-121	360995850622405%"> DenseNet-161	DenseNet-201
預測準確率	82.79	83.86	83.27	79.75

運用人臉圖片預訓練的深度學習模型，進行時視訊情緒分類的結構如下，其中具體用到了兩種方式對提取的CNN特徵進行歸一化：

除此之外，思圖場景還運用了工程上經過驗證的方法：關鍵點歐式距離，該方法提取了一些人臉的高階特徵，運用關鍵點的幾何變化來預測情緒變化。該方法證實可靠高效，並且不需額外資料集訓練，對結果有很大影響。其程式為：人臉3D關鍵點檢測，3D特徵提取，取平均值，標準差和最大值，SVM分類器的訓練。具體流程如下：

在音訊方面，思圖場景首次運用SoundNet的結構來對聲音進行預測：

通過上述多種演算法模組融合，思圖場景在EmotiW2018上最終的準確率為61.87%。

其對應的多種情緒混淆矩陣如下表：

這表明，思圖場景自身的演算法及海量資料集對視訊情感分類的效果提升明顯，尤其是在判斷開心、生氣和中性非常明顯，其可靠類別的分類情況已經達到商用落地的水平，可在一定應用環境下更真實的“體會”使用者的意圖，進而促進視覺理解、人機互動技術在場景應用層面的發展。

EmotiW2018國際大賽奪冠 解析思圖場景情感識別演算法