視覺AI領域已巨頭林立,NLP 的春天為何遲遲不來?
圖片來源:視覺中國
在被稱為AI 落地元年的2018年,以“AI+視覺”為主的CV(Computer Vision)領域大放異彩。不論是通過影象、人臉識別向安防、自動駕駛、零售等領域的廣泛拓張,還是商湯、雲從、曠視、依圖“CV四小巨頭”的興起,計算機視覺已成為人工智慧發展程序中實現領先的一條賽道。
然而,與視覺識別相對的語言、語義識別領域,即NLP(Natural Language Processing 自然語言處理),雖然起源時間更早,但發展程度與落地表現卻稍遜於前者。
早在“人工智慧”概念在1956年達特茅斯會議提出後,科學家們開始寄希望於用計算機模擬大腦理解語言學的過程。1962年,“機器翻譯與計算語言學學會”(後更名為國際計算機語言學委員會,簡稱“ACL”)在美國成立,標誌著學界對機器翻譯、語義理解等AI技術深入研究的開端。
不過,按照中科院研究院博士生導師宗成慶的說法,“機器翻譯遇到了很多難以克服的語義障礙,甚至一度進入低迷狀態。”
2013年,宗成慶成為國內至今唯一一位加入 ACL 的華人科學家。在他看來,在語音語義理解的機器翻譯操作中,需要面臨諸如“口音、標點識別不準導致語句翻譯出錯”、“政治經濟等專業術語機器無法勝任”等諸多挑戰。
然而,隨著底層技術的持續突破,與商用場景的進一步擴充套件,包含語音互動、TTS(文字轉換)等內容的NLP也即將迎來新的“春天”。
“接下來這兩年,NLP領域一定有更多機會。” 微軟亞洲研究院自然語言計算組資深研究員韋福如在近期對鈦媒體表示。
從武漢大學計算機學院獲得博士學位,到2010年加入微軟亞洲研究院自然語言計算組工作至今,韋福如已在NLP領域從事十年有餘。今年春節期間,微軟平臺聯合央視新聞推出H5互動產品《你的生活,AI為你唱作》,就融入了韋福如所在團隊深耕多年的NLP技術。
鈦媒體也試用了這則H5應用:
在上傳照片後,系統會對照片內容如環境、人物、顏色、表情等進行分析;然後基於對照片的理解,歌詞創作系統會自動譜寫符合該照片內容的歌詞;最後,由語音合成技術模擬的央視主持人康輝或微軟智慧女聲曉曉,則可以根據歌詞內容結合配樂伴奏進行演唱,使用者就得到了一首專屬定製的MP3歌曲。
春節期間,微軟平臺聯合央視新聞推出H5互動產品《你的生活,AI為你唱作》
“圖片-歌詞轉化”是韋福如團隊負責攻克的重點環節。當中的難點,首先在於對使用者輸入圖片的理解,比如年紀相仿的男女是否可以對應愛情,或者是大笑的表情可以對應相關的歌詞內容等;
再一個難點是對歌詞基調的把握——由於該產品推出時機是豬年春節,微軟團隊希望“這一H5產品表達出的感情基調是更積極的”——這就需要技術人員在後端演算法上進行除錯。
事實上,除了韋福如團隊所代表的自然語言處理,《你的生活,AI為你唱作》中還包含了微軟在去年釋出的深度神經網路語音合成服務、以及在後端支援資料高併發的微軟Azure雲服務等,可以說,以這則H5為代表的微軟跨部門方案協作背後,是由整個微軟NLP、語音合成、雲服務等完整方案的商用縮影。
技術突破
關於NLP 的發展阻力,目前擔任微軟亞洲研究院副院長的周明曾談到技術“閾值”的理論。
周明拿影象識別中的安防場景舉例,由於該領域“人證比對”的需求極度旺盛,一旦深度學習將計算機視覺的水平提高至一定的閾值,該場景的巨大需求就會立刻啟用。
然而,由於NLP的技術難度實在太大,機器翻譯水平始終沒能達到該場景的閾值,再加上自然語言處理的場景並不像安防那樣有著迫切需求,NLP始終在落地到商業化的路徑上面臨挑戰。
為了提升NLP的技術閾值,韋福如也帶領團隊始終專注在機器閱讀理解上的深入研究和系統開發。
2018年1月,在斯坦福大學發起的SQuAD文字理解挑戰賽中,韋福如所帶領的團隊所開發的端到端的深度神經網路模型r-net在EM值上以82.650的最高分佔據榜首,首次超越人類成績82.304。
此後,韋福如團隊再次獲得突破,升級後的nlnet模型在EM值和F1值兩個維度上,以85.954和91.677的分數首次全面超越人類在SQuAD資料集上的表現。2019年1月,他們基於BERT開發的最新系統又在SQuAD 2.0和互動式、多輪閱讀理解資料集CoQA上名列榜首。
這樣的技術折射到實際案例中,韋福如希望能借助通用的自然語言模型,讓機器學會“無監督”式的自我學習。就拿剛才提到的《AI 唱作》H5來說,在韋福如的規劃下,當前期積累一定資料後,機器可以根據使用者輸入的照片,自行具備較強的文字理解與組織能力,而不是依靠人為的標註資料。
不過,對於NLP目前力所能及的技術範圍,韋福如也對鈦媒體表示,“機器閱讀理解超越人類”仍需一段時日。
“在SQuAD超越人類成績只能說明模型可以擬合這樣的結果,在特定的資料集和評測標準下,演算法可以做到普通人類(更具體來說是標註人員)的水平,而不是說現在機器理解自然語言比人類強。”韋福如在此前接受採訪時表示。
商用逐步落地
為了加快技術落地的效率,微軟內部除了在底層技術研發取得突破外,也頗為注重技術產品化的輸出形式。
去年9月,微軟釋出了企業級定製語音合成的平臺,讓企業可以根據他們想要的音色定製聲音。去年12月,微軟在語音產品上再次取得重大技術突破——推出深度神經網路語音合成技術。
這項看起來晦澀的技術名詞,實際上就是我們使用高德、百度地圖時郭德綱、林志玲等明星聲音的由來。通過深度神經網路語音合成技術,明星只需要錄製有限的關鍵語句,即可讓機器合成、並學習擴充套件至更多的語料。
“很多過去做不到的事情,現在可以做到了。”微軟亞洲網際網路工程院語音組產品經理劉越穎對鈦媒體表示, 她舉例道,諸如語氣、情感方面機器擬人的自然度、模型的穩定度都得到了明顯的提升;同時,平臺也整合了定製化的能力,可以根據企業需求將不同的聲音風格賦予不同的場景。
另外,語音合成技術對資料量的減少,也成為這項技術愈發受到企業青睞的原因之一。
以此次《AI 唱作》H5為例,為了獲得央視主持人康輝的語音合成聲音,微軟只需要康輝錄製不到十首歌,就可以用相似的風格演繹成千上萬首歌,“比友商減少了十倍”。而這種對語音訓練資料的減少,直接刺激了企業定製語音的需求。
目前,微軟已經利用深度神經網路語音合成技術拿下多個客戶,比如教育領域的Roobo 機器人;智慧硬體中的小米,其最新發布的小米9手機中,來自歌手王源的聲音助理,就是由微軟通過語音合成製作而成。
“這種定製化語音的需求正愈加明顯,從早期定製地圖的語音,到現在的呼叫中心,AI線上老師等。每個公司都希望有一個自己的形象,這個形象不僅僅是基於影象層面的,同時也是三維的。”劉越穎告訴鈦媒體。 (本文首發鈦媒體,作者/蘇建勳)
更多精彩內容,關注鈦媒體微訊號(ID:taimeiti),或者下載鈦媒體App