出海記|依圖突襲語音識別 聯手微軟將技術開放予第三方
參考訊息網12月13日報道港媒稱,人工智慧公司依圖科技宣佈與微軟合作推出語音開放平臺,將語音識別技術開放予第三方應用開發者。並且,依圖科技開發的中文語音識別技術取得新突破,最新準確度達96.29%,重新整理紀錄。
準確度重新整理紀錄
據《香港經濟日報》網站12月12日報道,漢語時常出現同音不同義的情況,這對電腦語音識別提出了更高的要求。
依圖在全球最大型的中文開源資料庫AISHELL-2,通過遠近、安靜聊天、語音節目、電話等多項測試,得出96.29%的準確率,字錯率僅3.71%,超越第二名約20%。
報道稱,由於語音識別技術取得突破,依圖宣佈在微軟“天青雲”推出語音開放平臺,將技術開放予第三方應用開發者,有助開發語音導航、室內裝置控制、語音檔案檢索、資料輸入等涉及智慧語音技術的產業。依圖預計未來半年至一年,語音識別技術的演算方法將會再升級,屆時更多複雜場景可被解鎖,為行業應用帶來更大價值。
依圖:進入語音是必然
依圖公司向參考訊息網-出海記記者表示,對於AI公司來說,要實現真正全面的智慧,進入智慧語音領域,是一個必然。
視覺技術企業深化業務落地就會發現,視覺+語音這種複合型的AI技術需求,會大於單一型AI技術需求。所以,有些視覺企業選擇了與語音企業合作,依圖則選擇了自主研發這條道路。
此次依圖取得的突破,除了準確率之外,其更大的價值在於在多場景的測試中均有不錯的效能表現。在語音的演算法模型方面拿出了位於行業前列的泛化能力。
早有佈局
此次成果的公佈也說明依圖在語音識別領域早有佈局。依圖認識到,想實現真正意義上的語音互動,語音和語義兩者需要緊密結合。NLP技術的發展,可以驅動語音識別技術的發展。
據依圖科技首席創新官呂昊博士介紹,依圖一直是語音、語義兩條線並行發展,將自然語言處理技術(NLP)應用到語音識別之後,會帶來更自然的應用體驗。
相關人士表示,這種技術層面的結合,還可以驅動應用場景的創新。例如,在NLP輔助下,依圖的很多醫療產品可以直接接入語音技術,實現語音問診。
此次依圖首次公佈語音識別領域的背後成果,或許會掀起更多視覺企業對語音識別的關注。
語音識別演算法遠未超越人類
2010年,微軟公司的鄧力和其團隊與多倫多大學的Hinton教授合作,首次將深度學習引入語音識別,率先取得突破,驅動了語音識別技術的高速成長。到今天短短8年時間,便取得了遠超過去半個世紀的成就。今天,語音識別技術已大量落地,中文語音市場更是玩家眾多,不少行業巨頭都表示準確率進化到98%,似乎在技術層面,語音識別已經趨於完美。但是,事實是否真的如此呢?
公開測試顯示,中文語音識別演算法良莠不齊,演算法能力遠未超越人類。
目前,行業都在宣傳語音識別的字錯率或詞錯率距離100%只差2-3個百分點,但是否意味著已經達到真正好用的程度,以及當前到底發展到了什麼樣的地步,很多人並沒有一個清晰的認知。
2017年,李開復在參加“投資界百人論壇”時曾表示,語音識別是所有技術裡面最不成熟的。無論是博鰲亞洲論壇AI同傳詞彙翻譯不準確、重複等錯誤,還是平昌奧運會挪威隊主廚使用谷歌翻譯訂雞蛋事故等等,語音識別成為大家的笑談。可以看到,語音識別這個最容易考試的技術,距完美還相差甚遠。
技術壁壘難突破
有一個事實可以說明問題,最近幾年,計算機視覺領域的人工智慧新創公司不斷湧現。但是,語音識別領域的估值超10億的初創企業卻少之又少。其中的原因有多個方面。從表層來看,語音識別的資料成本高、投入大,相關研究人員稀少。而更核心的是來自技術層面,包括語音模型對多應用場景的泛化能力不足,以及結合上下文語義的推理能力不足等等。
這些尚未突破的技術壁壘,或許可以解讀為上述案例所體現出來的問題。當前理想的語音識別,幾乎都是在近場、安靜等受限場景下實現的,但真實的語音交流的複雜度遠不止於此。受限的應用場景,會顯著影響更大規模的落地應用。這導致語音識別商業變現的速度遠遠不及視覺領域。
還有很長一段路
事實上,即便是大公司,也面臨過類似的問題。IBM曾放棄了研究多年的ViaVoice語音系統,就是因為難以找到好的盈利模式。當前語音行業的巨頭,也大多無法單純依靠“賣技術”來構建自己的商業模式。
技術需要突破,但推動行業的進步,更需要統一公認的衡量標準。當前業內對於中文語音,目前並沒有一個公認的測試基準,各家各執一詞,甚至不公佈測試基準,導致行業亂象。可以說,中文語音識別,仍有很長一段路要走。