快手結合知識圖譜進行多模態內容理解
隨著媒體傳播形式轉向多媒體為主流,在多模態內容理解AI技術開始顯示出重要的作用。然而,目前AI展示的諸多能力,還停留在影象、語音等感知層面,多媒體內容理解卻是多方面的疊加,相對於單一影象、語音的理解來說更加困難。在多媒體內容理解方面,快手在技術和應用層面,有不少經驗值得借鑑。
快手多媒體理解部門
短視訊平臺快手將自己的定位為一家以人工智慧為核心的公司,在快手APP中採用諸多AI技術對音視訊進行處理,如智慧視訊編碼、智慧暗光增強、影象質量檢測等AI。
在快手,進行人工智慧研究的主要有兩個部門,一個是“Y-Lab”,負責平臺的機器學習、計算機視覺和計算機圖形學等研究,偏重移動端如何更好地拍攝視訊,如AR增強現實相關的技術戰略研究;而“兄弟”部門多媒體內容理解部(Multimedia Understanding) MMU則更加聚焦在對整個視訊內部的理解。
該部門負責人李巖介紹道,MMU目前團隊接近100人,分為多個研究team,分別聚焦在影象、人臉、音樂、多模態、應用(內容安全、推薦、搜尋等)方面,整個團隊由演算法工程師和應用工程師兩部分組成。
結合知識圖譜進行多媒體內容理解
所謂多模態,簡單來說是相對於單一的語音、影象等,將多個形態的資訊結合起來,如視訊,就是由視覺畫面和聽覺語音兩部分組成的資訊載體。
隨著媒體傳播形式轉向多媒體為主流,AI在多模態內容理解上顯示出越來越重要的作用。
相對於AI目前所展示出在影象和語音領域的單一感知能力,視訊理解更加複雜,也更加困難,這體現在理解視訊是二者的疊加,而AI在這個領域才剛剛開始起步。
在多模態的解決思路方面,從大方向上可分為感知和推理兩個階段。在感知階段,快手目前主要從人臉、影象、語音,和音樂四個維度分析理解視訊內容,完成對視訊低階語義資訊的感知。在完成上述任務後,機器才進入到推理階段,與知識圖譜相結合。這是目前快手的主要做法,通過融合感知內容和知識圖譜 ,使得理解視訊高層語義及情感成為可能。
(快手多媒體內容理解演算法及平臺,2018年9月)
(快手多媒體內容理解演算法及平臺,2018年4月)
對比快手今年4月份對外公佈的資訊可以看到,如今,快手多媒體內容理解預演算法平臺增加了知識圖譜,使用知識圖譜進行實體提取、關係挖掘和推理運算。
快手構建了一個自己的知識圖譜的體系,李巖表示這個數千個節點級別的知識圖譜基本上可以滿足快手大部分的任務需求。
“單模態做不好,多模態也好不到哪兒去”
以NLP為例,它是多模態其中一個重要模態——文字在計算機與人類語言之間轉換的研究領域。目前來說這一技術偏成熟,但仍距離完美解決現實需求較遠。MMU部門負責人李巖告訴AI前線,快手未來會對文字的需求越來越大,其中的邏輯很簡單,因為快手有大量的視訊資料上傳,而MMU的重要工作之一,就是把視訊轉換成文字。處理、理解、運用文字是一個NLP、NLU技術路徑的場景,MMU在積極尋找這兩個方向的專家來解決視訊轉換文字的工作。
但是,包括Reddit等很多論壇,都有人發出這樣的聲音:近年來,NLP在技術和應用上實質上少有突破性成果出現,讓人失望。在李巖看來,NLP和NLU是AI領域的重要和核心組成部分,之所以大家感覺最近這段時間NLP、NLU相對的進展不是特別大,是因為它沒有達到大家的預期,不像影象、語音,可能是從原來的太過落後,突然之間有了巨大的發展,實現了很大的跨越。“
實際上,NLP領域還是有所突破的,之所以人們覺得其發展緩慢,原因之一是原來NLP相關的工作就已經偏成熟,有一些問題已經得到不錯的解決,所以相對來說沒有重大進展;
第二,NLP的發展還是要依賴新的產品形態,因為原來對文字的需求,比如以百度為首的網頁時代的搜尋對文字的要求很高,促進了NLP技術的進步。後來大家就發現,整個世界都在多媒體化,都在智慧化。
什麼叫智慧?就是語音、影象都成為自然的人機互動方式,而人的語言其實還是人發明的,就是人造的,影象、語音,感知的是上帝創造的訊號。它依賴於更自然的人機互動的產品的出現。比如快手,雖然看上去沒有文字,但是本質上它還是一個文字的問題,能夠讓新的產品、新的應用驅動文字技術的發展。李巖相信,一個技術的發展是需要產品去驅動的。”
MMU團隊發力的研究方向多而複雜,在每一個方向都面臨很多的問題。李巖認為,研究多模態首先得把單模態研究好,單模態做不好去研究多模態,多模態的研究效果也不會好到哪兒去。所以,單模態要做好,多模態問題也要解決好,這是一個很難的問題。”
從本質上來說,從感知到認知的研究,最終都會彙集到NLP和NLU上,學術界和產業界都在尋找突破的機會,渴望在高層次語義理解或推理上獲得進展,但或者苦於研究投入不足,或者因為人才等問題難以推進相關工作,導致產學研整體上均未有重大突破性成果出現。
李巖認為,學術界通常在NLU研究上目的性不強,缺乏實際的需求去推動;而工業界則有著比較強的一線需求,但又礙於技術成熟度達不到,無法推出相關功能,僅靠自己的力量難以解決這個問題,這對於兩個圈子來說都是痛點。所以,他認為,未來學術界和工業界之間的聯絡會越來越緊密,大家會越來越多地看到教授去工業界去任職,也會越來越多地看到工業界跟學校建立實驗室、研究院。“我覺得未來工業界和學術界會深度融合,把這兩個業界的力量都用好,對我們解決難題是有幫助的。”