AI 不會同傳,但終究會訊飛
人工智慧不是模仿人腦的工作原理,而是要用機器的方式實現人腦能夠實現的價值或者作用。
紙包不住火。
很顯然,在人工智慧領域摸爬滾打19年的ofollow,noindex">科大訊飛 是熟知這一點的。
在被指 AI 同傳造假的時候,科大訊飛的迴應顯得很鎮定:從未說過 AI 同傳,沒有侵犯智慧財產權,人機耦合才是未來發展之道。
“否認三連”之後,不管人機耦合的說法是否被大眾所接受,科大訊飛至少摘掉了“造假”的帽子,討論的焦點轉向 AI 同傳的相關技術。
在本次“造假”風波中,主要涉及到三種技術:語音識別、機器翻譯和 AI 同傳,第一個是科大訊飛這些年行走江湖的法寶,第二個是百度、谷歌、有道等機器翻譯相關公司的戰場,最後則是整個業界的終極目標。
但問題是,語音識別 ≠ AI 同傳 ≠ AI 語音翻譯 ,脫掉“造假”帽子的科大訊飛再也不能掩去語音識別與 AI 同傳之間的鴻溝。
傳說中的AI同傳
每個少年都有一個武俠夢,練成一身武藝,行走江湖,去追求武學的最高境界。
在翻譯界,同傳被公認為從事翻譯的最高境界。
同傳,指的是譯員在不打斷講話者演講的情況下,不停的將演講內容傳達給聽眾。一般來說,同傳譯員要在演講者開始講話兩到三秒鐘後開口翻譯,在演講者講話結束兩到三秒鐘後結束翻譯,翻譯的準確率要求在80%以上,超時也會被判定為嚴重工作失誤。
正因為如此,AI 同傳一向被認為是人工智慧領域最具有挑戰性的課題之一 ,要實現高質量的同傳,需要兩種技術同時線上:語音識別和機器翻譯。
語音識別是科大訊飛最喜歡講的故事。
1999年,在中科大的人機語音實驗室幹了8年後,26歲的劉慶峰帶著實驗室的師兄弟共同成立了科大訊飛的前身——矽谷天音,手裡揣著的只有共同籌集的300萬元和8年間積攢的語音合成技術。
後來,矽谷天音獲得了由美菱集團和安徽省信託投資公司共同投資的3000萬人民幣,“矽谷天音”更名為“科大訊飛”。
劉慶峰拿著這筆錢開始進行資源整合,與擅長其它語音處理技術的研究機構共同成立聯合實驗室——各研究機構不需要改變原有研究領域,由科大訊飛負責產業整合,將語音技術實體落地,並以股權的形式共享利益。
從此,語音處理成為科大訊飛的核心技術,語音識別也成為外界認知科大訊飛的標籤之一。
語音識別,簡單來說就是將聲音轉換成波形檔案,對聲音進行分幀,再從每一幀中提取包含內容資訊的聲學特徵。提取特徵後將特徵組成因素(類似於音標),再結合各種語音資料、語音模型,形成一個有足夠多節點的網路。識別語音的時候,只需要找到與聲音最匹配的路徑就好。
現在,安靜環境、發音標準情況下的語音識別已經完全可以實用,效果並不比輸入法自動聯想差。但嘈雜環境、帶口音、不連貫、重複等情況下的語音依舊是個老大難的問題,各研究院在研究,科大訊飛也在探索。
但問題是,語音識別的結果直接決定了機器翻譯的準確度。
評價機器翻譯內容的好壞,國際上通常會有一些方法,除了人工評測,還有多種自動評測的方法。但不論具體評測方式如何,有一點需要知道:機器翻譯的正確率並沒有一個絕對值。
不管是谷歌、微軟,還是百度、金山,目前國際上通行的做法是以“翻譯錯誤降低率”來衡量自身技術的成熟度,而不是以具體準確率。
避談具體的準確率,何談追求信達雅。
“目前,科大訊飛的機器翻譯已經達到大學六級水平,2019年將達到英語專業八級水平,可以滿足日常交流,但還無法代替同傳。”
科大訊飛在迴應“造假”的宣告中承認,在現階段還無法實現 AI 同傳,機器翻譯只能達到簡單交流的水平,人機耦合才是未來發展之道。
什麼是人機耦合?
“人機耦合”這個詞一出,瞬間吸引了不少火力,大眾開始關注人機耦合是什麼,被指“造假”的那場會議中,究竟是以人機耦合的方式,還是人類譯員單獨完成了同聲傳譯。
科大訊飛表示,人機耦合指的是機器幫助同傳人員提示專業詞彙,記錄說話人的關鍵字句,減輕同傳的速記負擔 ,當時會議上採用的訊飛聽見就是一款人機耦合的產品。
人機耦合的方式有兩種。
一種是人和機器共同完成一項任務,比如通過機器轉寫和同傳翻譯實現大螢幕的展示,通過語音合成將同傳譯員的文字合成為多語種聲音。
另一種是機器作為助手,輔助人來完成某一項任務,比如幫助同傳譯員提供轉寫和翻譯結果,作為參考幫助交傳譯員,減輕筆記壓力。
但兩種方式都被同傳譯員拒絕了。
原因很簡單,同傳是一個需要精神高度集中的過程,譯員顧不上機器提供的輔助。
一般來說,譯員需要按照聽到的原文順序不斷將句子切割成意群和資訊單位,一般聽到一到兩個意群就會開始翻譯,在調整邏輯說出話語的同時,耳朵要聽下面第三第四個意群。這一過程僅僅發生在幾秒鐘時間內,機器只會帶來干擾,而不是幫助。
北外高翻學院的副院長李長拴、其它高校的口譯老師以及多位譯員在接受果殼採訪時表示,“有文字也不看,甚至是閉著眼翻譯”,“帶稿翻譯經常會降低效率”,“科大訊飛根本不瞭解譯員的工作狀態,才會認為機器能輔助譯員”。
不過,訊飛聽見雖然還達不到 AI 同傳的標準,但已經接近 AI 交傳的水平。
交傳,也就是互動式傳譯,指的是說話者說完一段話後譯員再翻譯,準確度較高,好的翻譯準確率能達到90%以上。
訊飛聽見的實時翻譯功能與交傳類似。
對著手機說話,說出的內容會實時出現在螢幕下半部分,螢幕上半部分則是實時翻譯的內容,先出現的翻譯內容還會隨著後文內容進行調整。
經簡單測試發現,在語音識別內容誤差不大的情況下,翻譯內容基本準確無誤,訊飛聽見已經能實現日常交流。
AI 同傳的未來
那麼,等到語音識別技術進一步精進,機器翻譯的正確率維持在一個相對穩定的範圍內時,是否就能實現 AI 同傳呢?
答案是否定的。
人類語言之美,非機器所能企及。
語言是門藝術,有起伏、有感情、有語境,即便是同一句話,放在不同的語境下表達會有不同的感情色彩,對應的翻譯內容也會不一樣。要讓機器表達出這些情感,最基礎的前提是提高 AI 理解語境的能力,但機器翻譯並非基於理解,而是基於統計學和資料庫。機器翻譯要想達到人類譯員一般的準確率,還有很長一段路要走。
但如果我們理解的人工智慧並不是真正的人工智慧呢?
8月23日,百度董事長李彥巨集在發表主題演講時指出,人們對人工智慧存在誤區,人工智慧不是模仿人腦的工作原理,而是要用機器的方式實現人腦能夠實現的價值或者作用。
讓機器用機器的方式實現人腦能實現的價值,應用在翻譯領域裡,可能是這樣一幅景象:
機器接收到演講者傳遞的資訊,然後通過機器的方式整合、處理、傳達給觀眾,方式可能是換一種語言去轉達,類似於人類翻譯的方式,也可能是總結、轉述,還有可能是用一些圖表、動作、聲音來描述它所接收到的資訊。
只要傳達的意義準確無誤、沒有產生偏差,機器就算是用機器的方式實現了人腦能實現的價值。
畢竟,沒有任何人規定翻譯一定是要用一種語言去描述另一種語言。
與同傳相比,交傳的難度更低,人工智慧實現起來也更容易,但訊飛聽見近似於 AI 交傳的水平至少給了這樣一個提示:我們在通往 AI 同傳的路上一路狂奔。