AI 不會同傳，但終究會訊飛

科大訊飛機器翻譯 · 發表 2018-09-28 21:09:12

摘要：人工智慧不是模仿人腦的工作原理，而是要用機器的方式實現人腦能夠實現的價值或者作用。紙包不住火。很顯然，在人工智慧領域摸爬滾打19年的科大訊飛是熟知這一點的。在被指 AI 同傳造假的時候，科大訊飛的迴應顯得很鎮定：從未說過 AI 同傳，沒有侵犯智慧財產權，人機耦...

人工智慧不是模仿人腦的工作原理，而是要用機器的方式實現人腦能夠實現的價值或者作用。

紙包不住火。

很顯然，在人工智慧領域摸爬滾打19年的ofollow,noindex">科大訊飛是熟知這一點的。

在被指 AI 同傳造假的時候，科大訊飛的迴應顯得很鎮定：從未說過 AI 同傳，沒有侵犯智慧財產權，人機耦合才是未來發展之道。

“否認三連”之後，不管人機耦合的說法是否被大眾所接受，科大訊飛至少摘掉了“造假”的帽子，討論的焦點轉向 AI 同傳的相關技術。

在本次“造假”風波中，主要涉及到三種技術：語音識別、機器翻譯和 AI 同傳，第一個是科大訊飛這些年行走江湖的法寶，第二個是百度、谷歌、有道等機器翻譯相關公司的戰場，最後則是整個業界的終極目標。

但問題是，語音識別 ≠ AI 同傳 ≠ AI 語音翻譯 ，脫掉“造假”帽子的科大訊飛再也不能掩去語音識別與 AI 同傳之間的鴻溝。

傳說中的AI同傳

每個少年都有一個武俠夢，練成一身武藝，行走江湖，去追求武學的最高境界。

在翻譯界，同傳被公認為從事翻譯的最高境界。

同傳，指的是譯員在不打斷講話者演講的情況下，不停的將演講內容傳達給聽眾。一般來說，同傳譯員要在演講者開始講話兩到三秒鐘後開口翻譯，在演講者講話結束兩到三秒鐘後結束翻譯，翻譯的準確率要求在80%以上，超時也會被判定為嚴重工作失誤。

正因為如此，AI 同傳一向被認為是人工智慧領域最具有挑戰性的課題之一，要實現高質量的同傳，需要兩種技術同時線上：語音識別和機器翻譯。

語音識別是科大訊飛最喜歡講的故事。

1999年，在中科大的人機語音實驗室幹了8年後，26歲的劉慶峰帶著實驗室的師兄弟共同成立了科大訊飛的前身——矽谷天音，手裡揣著的只有共同籌集的300萬元和8年間積攢的語音合成技術。

後來，矽谷天音獲得了由美菱集團和安徽省信託投資公司共同投資的3000萬人民幣，“矽谷天音”更名為“科大訊飛”。

劉慶峰拿著這筆錢開始進行資源整合，與擅長其它語音處理技術的研究機構共同成立聯合實驗室——各研究機構不需要改變原有研究領域，由科大訊飛負責產業整合，將語音技術實體落地，並以股權的形式共享利益。

從此，語音處理成為科大訊飛的核心技術，語音識別也成為外界認知科大訊飛的標籤之一。

語音識別，簡單來說就是將聲音轉換成波形檔案，對聲音進行分幀，再從每一幀中提取包含內容資訊的聲學特徵。提取特徵後將特徵組成因素（類似於音標），再結合各種語音資料、語音模型，形成一個有足夠多節點的網路。識別語音的時候，只需要找到與聲音最匹配的路徑就好。

現在，安靜環境、發音標準情況下的語音識別已經完全可以實用，效果並不比輸入法自動聯想差。但嘈雜環境、帶口音、不連貫、重複等情況下的語音依舊是個老大難的問題，各研究院在研究，科大訊飛也在探索。

但問題是，語音識別的結果直接決定了機器翻譯的準確度。

評價機器翻譯內容的好壞，國際上通常會有一些方法，除了人工評測，還有多種自動評測的方法。但不論具體評測方式如何，有一點需要知道：機器翻譯的正確率並沒有一個絕對值。

不管是谷歌、微軟，還是百度、金山，目前國際上通行的做法是以“翻譯錯誤降低率”來衡量自身技術的成熟度，而不是以具體準確率。

避談具體的準確率，何談追求信達雅。

“目前，科大訊飛的機器翻譯已經達到大學六級水平，2019年將達到英語專業八級水平，可以滿足日常交流，但還無法代替同傳。”

科大訊飛在迴應“造假”的宣告中承認，在現階段還無法實現 AI 同傳，機器翻譯只能達到簡單交流的水平，人機耦合才是未來發展之道。

什麼是人機耦合？

“人機耦合”這個詞一出，瞬間吸引了不少火力，大眾開始關注人機耦合是什麼，被指“造假”的那場會議中，究竟是以人機耦合的方式，還是人類譯員單獨完成了同聲傳譯。

科大訊飛表示，人機耦合指的是機器幫助同傳人員提示專業詞彙，記錄說話人的關鍵字句，減輕同傳的速記負擔，當時會議上採用的訊飛聽見就是一款人機耦合的產品。

人機耦合的方式有兩種。

一種是人和機器共同完成一項任務，比如通過機器轉寫和同傳翻譯實現大螢幕的展示，通過語音合成將同傳譯員的文字合成為多語種聲音。

另一種是機器作為助手，輔助人來完成某一項任務，比如幫助同傳譯員提供轉寫和翻譯結果，作為參考幫助交傳譯員，減輕筆記壓力。

但兩種方式都被同傳譯員拒絕了。

原因很簡單，同傳是一個需要精神高度集中的過程，譯員顧不上機器提供的輔助。

一般來說，譯員需要按照聽到的原文順序不斷將句子切割成意群和資訊單位，一般聽到一到兩個意群就會開始翻譯，在調整邏輯說出話語的同時，耳朵要聽下面第三第四個意群。這一過程僅僅發生在幾秒鐘時間內，機器只會帶來干擾，而不是幫助。

北外高翻學院的副院長李長拴、其它高校的口譯老師以及多位譯員在接受果殼採訪時表示，“有文字也不看，甚至是閉著眼翻譯”，“帶稿翻譯經常會降低效率”，“科大訊飛根本不瞭解譯員的工作狀態，才會認為機器能輔助譯員”。

不過，訊飛聽見雖然還達不到 AI 同傳的標準，但已經接近 AI 交傳的水平。

交傳，也就是互動式傳譯，指的是說話者說完一段話後譯員再翻譯，準確度較高，好的翻譯準確率能達到90%以上。

訊飛聽見的實時翻譯功能與交傳類似。

對著手機說話，說出的內容會實時出現在螢幕下半部分，螢幕上半部分則是實時翻譯的內容，先出現的翻譯內容還會隨著後文內容進行調整。

經簡單測試發現，在語音識別內容誤差不大的情況下，翻譯內容基本準確無誤，訊飛聽見已經能實現日常交流。

AI 同傳的未來

那麼，等到語音識別技術進一步精進，機器翻譯的正確率維持在一個相對穩定的範圍內時，是否就能實現 AI 同傳呢？

答案是否定的。

人類語言之美，非機器所能企及。

語言是門藝術，有起伏、有感情、有語境，即便是同一句話，放在不同的語境下表達會有不同的感情色彩，對應的翻譯內容也會不一樣。要讓機器表達出這些情感，最基礎的前提是提高 AI 理解語境的能力，但機器翻譯並非基於理解，而是基於統計學和資料庫。機器翻譯要想達到人類譯員一般的準確率，還有很長一段路要走。

但如果我們理解的人工智慧並不是真正的人工智慧呢？

8月23日，百度董事長李彥巨集在發表主題演講時指出，人們對人工智慧存在誤區，人工智慧不是模仿人腦的工作原理，而是要用機器的方式實現人腦能夠實現的價值或者作用。

讓機器用機器的方式實現人腦能實現的價值，應用在翻譯領域裡，可能是這樣一幅景象：

機器接收到演講者傳遞的資訊，然後通過機器的方式整合、處理、傳達給觀眾，方式可能是換一種語言去轉達，類似於人類翻譯的方式，也可能是總結、轉述，還有可能是用一些圖表、動作、聲音來描述它所接收到的資訊。

只要傳達的意義準確無誤、沒有產生偏差，機器就算是用機器的方式實現了人腦能實現的價值。

畢竟，沒有任何人規定翻譯一定是要用一種語言去描述另一種語言。

與同傳相比，交傳的難度更低，人工智慧實現起來也更容易，但訊飛聽見近似於 AI 交傳的水平至少給了這樣一個提示：我們在通往 AI 同傳的路上一路狂奔。