搜狗擊敗訊飛阿里,獲IWSLT大賽冠軍:專訪獲勝團隊
這是搜狗繼 WMT 2017機器翻譯頂級比賽奪冠之後,再次在翻譯領域中獲得了全球頂級比賽的冠軍。在比賽結束後不久,我們找到了搜狗語音互動技術中心首席科學家,語音技術負責人陳偉,以及帶隊參賽的搜狗語音機器翻譯負責人王宇光,他們向我們介紹了參賽團隊在比賽中奪冠的技術,以及搜狗近年來在機器翻譯、語音識別方面的發展。
圖中左側:王宇光;右側:陳偉。
貼近現實的賽制
作為機器翻譯領域的重要比賽,IWSLT 於 2004 年首次舉辦,今年已是第 15 屆了。每年 IWSLT 競賽的翻譯語言都有所不同,2018 年的評測方向是英語-德語的語音翻譯能力,其中分為 Baseline Model 和 End-to-End(端到端模型)兩個賽道,Baseline Model 賽道主要評測語音翻譯的流水線方案,輸入語音先通過語音識別系統得到語音識別結果,隨後通過機器翻譯系統生成譯文。流水線方案是業內效果最好的語音翻譯解決方案,目前市場上的商用機器同傳、翻譯機等語音翻譯類產品幾乎都採用了類似的方法。
在本次評測中,在訓練集、測試集相同的情況下,搜狗在 Baseline Model 的系統上取得了 28.09 的 BLEU(數值越大質量越好),超越第二名達 1.6 分。
在賽會的官方網站上,搜狗與清華大學組成的團隊(TIIC)獲得了 Baseline 方向的最高分。
此外,這次比賽採用的資料集可謂非常貼近實際:其用於訓練的資料集包括部分 TED 演講的英語+德語翻譯內容,以及從 WMT 比賽中出現的英語-德語資料,和一些雙語字幕電影的資料,共構成了 6000-7000 萬句對。而測試集中則包括來自英國、歐洲、印度等各個國家的英語演講者,存在噪聲、口音、自由表達等複雜語音現象,同時語言中存在大量領域專有名詞和口語化的表達(如:大量語氣詞、錯誤語法表達等),具有極強的現實程度和挑戰性。
參賽歷程
據搜狗的研究人員介紹,這次比賽從今年 6 月底開始釋放訓練資料集,9 月份提交結果,隨後又在 10 月提交相關技術的論文,共經歷了四個月的時間。本次參與比賽的團隊成員均來自公司的語音技術部門,共有 17 人分別負責語音識別、機器翻譯和資料處理等工作。
而在用於訓練資料集的硬體上,搜狗也投入了不少資源。「機器翻譯任務中,我們使用了更多的工作量。」王宇光介紹道,「在模型訓練時,我們使用 10 到 15 臺 8GPU 的機器,每一輪都需要四到五天。實際上,我們進行了好幾輪的模型迭代-更新-訓練。」
在語音識別一側,搜狗在這次比賽中用到了三個不同的模型,包括 TDNN、BiLSTM和 Deep-CNN 融合輸出結果。其中除了 BiLSTM只用了 5 層,其他的 CNN 和 TDNN 都有二十層以上的深度。
搜狗的文字翻譯一直處於國內領先的位置,在去年 7 月谷歌 Transformer 論文推出後不久,這家公司的開發人員很快就將這一技術復現,並在兩個月後將其推至線上,應用於產品中。隨後這家公司又花了兩個月左右的時間,把最新的離線 Transformer 技術推到了翻譯機裝置上。
在本屆 IWSLT 比賽中,搜狗的團隊在 Baseline Model 賽道上獲得了第一名的成績,訊飛則在端到端的比賽中成為頭名。
對於為何參加常規 Pipeline 比賽,而沒有參與端到端比賽的問題,陳偉表示搜狗更加註重面向應用的產品,這樣的成績也更有意義:「(從語音直接翻譯成文字的)端到端方法在未來或許是一個有希望的方向,但是我個人覺得短期內還是先做好語音、機翻的端到端更可行、更可靠一些。我們現在正在研究的端到端語音識別,中文的語音到中文文字之間在還有很多問題沒有解決。如果現在試圖開發中文語音進,英文文字出的產品,其實又會把問題推向新的難度。現在到底應該怎麼做,大家都不知道。」
面向應用的技術
在 NLP 領域裡,「AI 同傳技術」是最近人們熱議的話題。其實,搜狗在今年 1 月份就推了英譯中的機器同傳產品。目前這款產品已經達到了商用標準,最近也在中國網球公開賽、游泳世界盃總決賽等活動中得到了應用。搜狗表示,目前的 AI 同傳翻譯技術主要可以進行英譯中翻譯任務,是完全由機器完成的。
搜狗的語音同傳技術,甚至出現在了 10 月 25 日在武夷山開幕的全國機器翻譯研討會上。
儘管目前的機器翻譯和語音識別已經達到了不錯的效果,搜狗的研究人員認為,目前的行業內還面臨著一些挑戰。「專業領域的適配是一個很大的問題,」陳偉表示,「另外中英文混雜是另一個很嚴重的問題。特別是在科技會議中,演講人中英文夾雜的情況非常嚴重,這對於機器同傳是很大的考驗。在這個問題上我們一直在優化,但是架不住他們『說得太狠了』,所以目前為止仍然無法搞定。」
在交流的過程中,搜狗的研究人員表示,對於本次比賽的成績,他們在結果出爐之前是沒有預料到的。在未來,搜狗還將把自己的能力投放到更多新產品中,並將自己的語音翻譯置入 vivo、oppo 等合作伙伴的手機裡。在年底,搜狗還將推出自己的全新產品。
「搜狗是一家強技術驅動的公司,適合工程師發揮自己的能力。」陳偉介紹道,「我們在技術研發的過程中,很早就會就在考慮新研究的落地。所以我們的產品上線週期非常短。很多自有產品,如同傳系統,基本上有一些新的結果馬上就會上線。」