金山雲金睛:網際網路視訊內容需要AI彰顯“品格”
2月27日,網路直播行業標杆性盛會——第二屆中國網路表演(直播)行業高峰論壇暨網路直播年度盛典在京召開。金山雲憑藉在AI內容服務領域的豐富經驗和行業影響力受邀出席大會,公司金睛AI首席演算法架構師蘇馳博士在大會上發表主題演講。
“AI直播內容服務”是金山雲“金睛”產品服務中的重要部分,早在直播行業方興未艾之際就已進入技術研發階段,後續又緊隨《網際網路直播服務管理規定》同步上線。經過多年的市場打磨,“金睛”在短視訊、直播內容安全服務領域已成為業界翹楚。直播行業日新月異的發展,“金睛”AI內容服務也在革新,實現了從網路淨化到內容挖掘,從安全的守護者到內容的引路人的“角色”轉化。
金山雲金睛AI首席演算法架構師蘇馳博士發表主題演講
行業的成熟和AI的進階
短視訊、直播行業在“野蠻生長”中經歷了監管重拳的“當頭棒喝”,也走過了行業“百團大戰”的激烈角逐。當下,行業進入健康平穩的發展狀態,規範化增強,馬太效應顯現,行業格局逐漸明晰,追求更為優質的內容成為了各平臺的共同目標。“目前,金山雲金睛為內容運營方提供圖片稽核、語義稽核、智慧OCR、智慧語音、視訊理解、智慧標籤六大類全方位的稽核服務。隨著直播行業呈現多元化佈局、出海擴充套件、精耕細作、短播融合的趨勢,金山雲金睛從服務型別、服務模式到AI演算法模型都發生了巨大的改變。行業每往前走的一小步,都是內容服務產品的一跨步,也是AI技術的一次技術突破性飛躍。”蘇博士在現場說道。
隨著行業生態、格局和發展階段的不斷變化,金山雲守住內容安全紅線,催化全新的業態,實現內容產業的價值轉化。正式推出面向短視訊、直播平臺的“秀場直播理解解決方案”、“遊戲直播理解解決方案”、“短視訊內容理解解決方案”,依靠AI內容服務能力,金山雲幫助平臺方將精細化運營覆蓋到從生產到分發的全環節,為平臺優質內容產出、打通作者和使用者間壁壘,實現平臺差異化佈局夯實了技術基礎。
如何賦予AI一雙欣賞美的眼睛
“內容理解”顧名思義,是讓AI具備理解人、事、物內容表象以外的深層含義、邏輯關係的能力。直播、短視訊內容理解解決方案,依託金山雲擁有專利的時序演算法,通過構建動態視訊處理模型,實現高精準度的視訊類別、主播風格、場景及物體的識別。
以秀場主播為例,金山雲的AI內容理解服務除了要識別他(她)的外貌特徵和主播個人身份之外,還要理解她的個人風格,例如蘿莉、可愛、鮮肉、御姐等;以及懂得她目前的每一個行為和所在的環境場景。通過精細的標籤分類,為直播平臺差異化、精細化運營,挖掘潛在價值內容提供服務。
金山雲內容理解模型目前已經支援100多種視訊類別,比如,遛狗、跳舞、美容、美食、健身、音樂、遊戲、運動、風景等。模型支援細粒度的標籤,可以精確到遊戲名稱、舞蹈型別、歌曲風格等。賦予AI“發現美好生活”能力的背後,是金山雲金睛AI演算法團隊科研攻堅的成果——通過訓練超千萬個高質量的短視訊,得到的具有很強的泛化能力的內容理解模型和金山雲金睛專利時序演算法。
蘇博士介紹,內容理解不是一般的影象識別,必須全面捕捉視訊內容中的時序資訊。金山雲內容理解模型通過三維時空卷積(3D conv)和三維時空卷積長短時注意力迴圈神經網路(LSTM and Attention)來精細捕捉視訊單幀圖片的區域性與整體時空資訊。金山雲AI演算法團隊受人腦注意力機制的啟發,引入“時空注意力機制”,使得模型可以聚焦關鍵幀、關鍵位置的資訊,降低無關幀對模型效能的影響。整個模型不需要任何人工干預,輸入原始視訊,就可以得到最終的預測結果,整個模型精度高、速度快。目前,金山雲金睛內容理解模型處理單個視訊只需要30毫秒的時間,精準度超過80%。