出海記｜依圖突襲語音識別聯手微軟將技術開放予第三方

科技 · 發表 2018-12-13 00:18:14

摘要：原標題：出海記｜依圖突襲語音識別聯手微軟將技術開放予第三方　　參考訊息網12月13日報道港媒稱，人工智慧公司依圖科技宣佈與微軟合作推出語音開放平臺，將語音識別技術開放予第三方應用開發者。並且，依圖科技開發的中文語音識別技術取得新突破，最新準確度達96.29%，重新整理紀錄。準確度重新整理紀錄...

　　參考訊息網12月13日報道港媒稱，人工智慧公司依圖科技宣佈與微軟合作推出語音開放平臺，將語音識別技術開放予第三方應用開發者。並且，依圖科技開發的中文語音識別技術取得新突破，最新準確度達96.29%，重新整理紀錄。

準確度重新整理紀錄

據《香港經濟日報》網站12月12日報道，漢語時常出現同音不同義的情況，這對電腦語音識別提出了更高的要求。

依圖在全球最大型的中文開源資料庫AISHELL-2，通過遠近、安靜聊天、語音節目、電話等多項測試，得出96.29%的準確率，字錯率僅3.71%，超越第二名約20%。

報道稱，由於語音識別技術取得突破，依圖宣佈在微軟“天青雲”推出語音開放平臺，將技術開放予第三方應用開發者，有助開發語音導航、室內裝置控制、語音檔案檢索、資料輸入等涉及智慧語音技術的產業。依圖預計未來半年至一年，語音識別技術的演算方法將會再升級，屆時更多複雜場景可被解鎖，為行業應用帶來更大價值。

依圖：進入語音是必然

依圖公司向參考訊息網-出海記記者表示，對於AI公司來說，要實現真正全面的智慧，進入智慧語音領域，是一個必然。

視覺技術企業深化業務落地就會發現，視覺+語音這種複合型的AI技術需求，會大於單一型AI技術需求。所以，有些視覺企業選擇了與語音企業合作，依圖則選擇了自主研發這條道路。

此次依圖取得的突破，除了準確率之外，其更大的價值在於在多場景的測試中均有不錯的效能表現。在語音的演算法模型方面拿出了位於行業前列的泛化能力。

早有佈局

此次成果的公佈也說明依圖在語音識別領域早有佈局。依圖認識到，想實現真正意義上的語音互動，語音和語義兩者需要緊密結合。NLP技術的發展，可以驅動語音識別技術的發展。

據依圖科技首席創新官呂昊博士介紹，依圖一直是語音、語義兩條線並行發展，將自然語言處理技術（NLP）應用到語音識別之後，會帶來更自然的應用體驗。

相關人士表示，這種技術層面的結合，還可以驅動應用場景的創新。例如，在NLP輔助下，依圖的很多醫療產品可以直接接入語音技術，實現語音問診。

此次依圖首次公佈語音識別領域的背後成果，或許會掀起更多視覺企業對語音識別的關注。

語音識別演算法遠未超越人類

2010年，微軟公司的鄧力和其團隊與多倫多大學的Hinton教授合作，首次將深度學習引入語音識別，率先取得突破，驅動了語音識別技術的高速成長。到今天短短8年時間，便取得了遠超過去半個世紀的成就。今天，語音識別技術已大量落地，中文語音市場更是玩家眾多，不少行業巨頭都表示準確率進化到98%，似乎在技術層面，語音識別已經趨於完美。但是，事實是否真的如此呢？

公開測試顯示，中文語音識別演算法良莠不齊，演算法能力遠未超越人類。

目前，行業都在宣傳語音識別的字錯率或詞錯率距離100%只差2-3個百分點，但是否意味著已經達到真正好用的程度，以及當前到底發展到了什麼樣的地步，很多人並沒有一個清晰的認知。

2017年，李開復在參加“投資界百人論壇”時曾表示，語音識別是所有技術裡面最不成熟的。無論是博鰲亞洲論壇AI同傳詞彙翻譯不準確、重複等錯誤，還是平昌奧運會挪威隊主廚使用谷歌翻譯訂雞蛋事故等等，語音識別成為大家的笑談。可以看到，語音識別這個最容易考試的技術，距完美還相差甚遠。

技術壁壘難突破

有一個事實可以說明問題，最近幾年，計算機視覺領域的人工智慧新創公司不斷湧現。但是，語音識別領域的估值超10億的初創企業卻少之又少。其中的原因有多個方面。從表層來看，語音識別的資料成本高、投入大，相關研究人員稀少。而更核心的是來自技術層面，包括語音模型對多應用場景的泛化能力不足，以及結合上下文語義的推理能力不足等等。

這些尚未突破的技術壁壘，或許可以解讀為上述案例所體現出來的問題。當前理想的語音識別，幾乎都是在近場、安靜等受限場景下實現的，但真實的語音交流的複雜度遠不止於此。受限的應用場景，會顯著影響更大規模的落地應用。這導致語音識別商業變現的速度遠遠不及視覺領域。

還有很長一段路

事實上，即便是大公司，也面臨過類似的問題。IBM曾放棄了研究多年的ViaVoice語音系統，就是因為難以找到好的盈利模式。當前語音行業的巨頭，也大多無法單純依靠“賣技術”來構建自己的商業模式。

技術需要突破，但推動行業的進步，更需要統一公認的衡量標準。當前業內對於中文語音，目前並沒有一個公認的測試基準，各家各執一詞，甚至不公佈測試基準，導致行業亂象。可以說，中文語音識別，仍有很長一段路要走。

出海記｜依圖突襲語音識別 聯手微軟將技術開放予第三方

您可能也會喜歡…

出海記｜依圖突襲語音識別聯手微軟將技術開放予第三方