依圖進軍語音識別，一個「後來者」如何重新整理行業認知？

語音識別創業 · 發表 2018-12-12 20:49:44

摘要：從新零售到物聯網，從智慧音箱到倉儲機器人，人工智慧賽道早已呈現出一片生機勃勃的景象，成為了一片承載著創業夢想，引領投資風向的「科技高地。」國內國外都有眾多業者搶先佈局，並陸續取得了資本的青睞與客戶的認可，並且在積極的拓寬自己的邊界。以機器人視覺見長的人工智慧企業依圖科技就是其中的一員。 ...

從新零售到物聯網，從智慧音箱到倉儲機器人，人工智慧賽道早已呈現出一片生機勃勃的景象，成為了一片承載著創業夢想，引領投資風向的「科技高地。」

國內國外都有眾多業者搶先佈局，並陸續取得了資本的青睞與客戶的認可，並且在積極的拓寬自己的邊界。以機器人視覺見長的人工智慧企業依圖科技就是其中的一員。

從 2012 年創立之初，依圖就全面投入到人工智慧技術的行業應用的研究之中，先後在安防、醫療、金融等多個領域，打造了一整套基於人工智慧技術的行業解決方案，進一步向全行業宣傳普及人工智慧理念的同時，為數字中國的建設注入了智慧與活力。

憑藉著前瞻性的行業判斷，以及貼近人性，實用高效的產品矩陣，依圖科技相繼獲得了真格基金、紅杉基本、高榕資本、高瓴資本等知名機構的資金扶持，公司的估值預計超過了 150 億人民幣。與此同時，公司還在今年在新加坡設立了首個海外辦事處，企圖搶佔東南亞的廣闊市場，推進品牌的國際化運營。可以說依圖已經成長為推動國內 AI 領域增長的重要一極，其一舉一動都被認為可能左右 AI 發展格局。

12 月 11 日，依圖科技在北京時間博物館舉辦了「一場有聲音的釋出會」釋出了依圖語音產品，正式宣佈在自身成熟強大的影象識別技術的基礎上，將技術的邊界延展到了語音識別領域。

在釋出會上，依圖科技首席創新官呂昊博士強調，當下雖然市面上搭載了語音識別技術的產品屢見不鮮，但實際上在消費者端的真實體驗依舊參差不齊，這也導致了體現語音技術的實際效能依舊不透明，難以讓語音的技術力高效無損的轉變為產品力，這也成為了制約語音技術商業前景拓展的一大桎梏。

針對目前行業內尚未形成系統性的測試集與測試標準，同時缺乏體驗與比較的工具，呂昊博士強調依圖科技要致力於語音識別技術的商業落地與具體應用，公司層面樹立了全面公開演算法 API 介面、公開多樣的測試資料集、以及公開可重複的評測結果等三大戰略。

為了進一步彰顯依圖踐行以上三大語音發展戰略的誠意與決心，依圖科學家吳雙博士首次對外公佈了依圖內部的語音測試資料。據瞭解，其中測試物件包括了依圖語音、訊飛聽見、雲知聲開放平臺、阿里一句話等眾多語音技術業者，在混響、近遠場、電話、普通話口音等多元場景下，針對公開與非公開的資料集，實施了從 10 月 20 日至 30 日為期 10 天的技術測試。

字錯率是業界用於衡量一款語音產品效能優劣的關鍵指標，業界普遍認為字錯率低於 3% 時，語音體驗不會影響可讀性，而一旦字錯率高於 15% 時，由於大量出現的錯字、缺字、漏字等情況，會直接導致語音產品呈現基本無可讀性的狀態。

據呂昊博士介紹，在上述測試中，在近場同時安靜的理想環境下，依圖語音產品的字錯率維持在 3% 左右，其中在全球最大的中文開源資料庫 AISHELL-2 中，字錯率更是隻有 3.71%，識別準確率高達 96.29%，領先其他業者約 17%，而即使是在遠場演講並伴有混響的環境下，面對測試難度較高的諸如清華大學研發的資料集時，依圖語音產品的字錯率也能維持在 15% 以下，保持基本可用的狀態，綜合下來，在多元場景下依圖語音的平均字錯率僅有 6.39%，在全行業處於遙遙領先的地位，不僅表明依圖語音技術擁有良好的識別準確率，同時也彰顯了依圖語音的技術普適性。

呂昊博士表示，擁有了效能如此優異的語音普適技術積累的依圖科技，希望繼續延續先前在人臉識別領域的發展戰略，打造技術開放平臺，繼續切實為廣大應用開發者，以及各行各業的效率提升，輸出解決方案。據進一步瞭解，依圖語音為應用開發者打造了可以實現短語音聽寫、長語音轉寫、實時語音轉寫等三項 API 介面，憑藉業界領先的聲學和語言模型，依圖語音識別為開發者提供了準確高效的語音轉文字功能。

與此同時，在現場依圖宣佈與微軟聯合釋出基於 Azure 的語音開放平臺，與華為共同研發智慧語音聯合解決方案，在先前在語音識別一體機、智慧政務、智慧園區等層面的合作基礎上，依圖旨在進一步深化與合作伙伴的互信賦能關係，更加切實的依託依圖的語音技術實力與開放多元戰略，構建一個技術普惠平臺，探索語音技術行業落地更加廣闊的前景。

據瞭解，目前短語音聽寫 API 已經上線，開發者可以通過官方開發的小程式進行體驗。官方資料顯示，現階段依圖語音的識別準確率高達 96.36%，處於業界頂尖水平。

依圖切入語音識別賽道的動機和初衷是什麼？在這樣一個熱門賽道下，依圖準備如何利用之前的技術積累，講好自己的賦能故事？接下來，依圖又是否會把這種橫向延展的思路延續下去，針對更加多元的應用場景與客戶需求，繪製一副更具想象空間的技術藍圖？

帶著這些問題，極客公園創始人兼總裁張鵬同呂昊博士與吳雙博士進行了一場行業交流。以下是交流的現場紀實：

多元場景下打磨出來的普適性

張鵬：從技術的專業角度來看，為什麼未來演算法會在不同場景裡面起作用？兩位會優先選擇哪些場景來打磨優化演算法？其中需要考量的關鍵變數是什麼？

吳雙：從技術角度來說，我覺得歸根結底，很多指標在開始的時候是對我們的演算法提升很有幫助的，因為它給你非常直接的訊號。慢慢的當演算法到極限的時候，指標的意義就會有所減弱。雖然語音技術已經發展到了相對成熟的程度，還是無法保證每套演算法都能被指標所校正。至於是不是要在不同的場景下用不同的演算法，首先其實我們這裡只是測試了一個演算法。這個大家在我們的平臺上也看到，調動一個 API，後面對應的就是一個單獨的演算法。如果能夠在多元場景下都能保持可應用的狀態，這也是證明了一個演算法具有普適性。其次在不同場景下涉及到的許多工作，比如說在資料的收集上，不同的演算法顯然會得到不同的結果，比如明明是標準的普通話，如果用專門對付口音的演算法，最後得到的結果肯定是不準確的。我覺得更多的時候我們的演算法用在一個場景之下後，算一下場景的及時性做調整，把這些優化放到演算法裡面，讓這些演算法得到更好的應用，這件事本身是很有價值與意義的，在這個方面，我覺得還是有很多事情要做的。

張鵬：我們看到普適性是一個一直被強調的概念，要想具備理想的普適性，需要收集大量的資料，同時需要機器學習等各方面的能力不斷優化。今天語音技術已經在一些場景裡面得到應用，兩位認為未來語音技術還可以向哪些行業或場景延展？技術測試的各項指標會不會幫助發現更為明確的落地場景？

呂昊：我們今天分享的一部分是在彙報依圖演算法在多元場景下的效能，這些資料可以說集中體現了我們目前的技術水平，從中我們也能夠看到正是因為依圖擁有強大的技術實力，所以能夠比較容易的在短時間內去開發並適應新的場景。如果出現了不同於以往的場景的新的場景，（我們）會去有針對性的訓練更多模型，希望能夠儘快在新場景下做得更好。我相信長此以往通過這麼多的場景下對於資料集的摸索與把握，最終訓練出來的演算法可以體現出來（比較好的效果），據我們的觀察雖然現在沒有這些證據（證明這件事會發生），但是這個願景肯定是符合未來發展的趨勢的（如果這件事真的會發生）。

技術強者在眺望的遠方

張鵬：我很好奇，為什麼語音識別，這個其他公司研究了很長時間都沒取得非常實質性突破的領域，依圖在短期之內就能做到在某些場景下的優良準確率？

吳雙：實際上做語音產品的過程，依圖自身也是在不斷的嘗試，我們的技術實力還沒有強大到讓我們可以非常有計劃，有目的的在新賽道彎道超車的程度。依圖是一家研究人工智慧或是一家研究機器學習的公司，我們想要搞清楚的是人的各種各樣的能力是怎麼來的，以及我們可以怎麼樣學習這種能力，並把這種能力做成演算法。正是這些對於未知事物的好奇，推動著我們從人臉識別擴充套件到語音技術這樣一個新的領域。

呂昊：坦白來講，這一切背後的動力源其實來自我們對於技術的美好願景的堅定的信仰，我覺得圍繞著語音做研究，做開發的路還很長，究竟語音技術的行業現狀是什麼樣的，依圖有多大的能耐推動整個行業往前都多元，這些都是未知的，只有實際做了才知道，這種實用主義的理念可以看作依圖成功背後的重要的軟實力之一。

另外我剛才在演講中也提到了，依圖做語音產品的一個核心邏輯是一個公開的資料集，公開的演算法 API 和公開的測試，我認為這也是支撐依圖語音能夠走得更多的關鍵變數。通過構建這樣一個開放的生態，比如通過論文公開，資料共享等途徑，可以讓這個行業以非常快的速度實現迭代，所以在語音產品的研發規劃上，依圖的成功經驗總結起來無外乎就是開放二字。

張鵬：所以說這次開發佈會，不僅僅是向外界彙報語音技術的進展那麼簡單吧？

吳雙：可以這麼說，這次釋出會的重點還是希望能夠希望通過公開權威的資料，讓全行業對於語音技術的發展現狀有一個更加清晰的認識與瞭解，激勵全體業者共同進步。

給「皇帝」設計一套真正的「新衣」

張鵬：目前，智慧音箱可以算是語音技術落地場景中比較成熟的，已經走在了教育市場的階段，天貓智慧音箱的目標定在了 1000 萬臺，包括依圖在內很多優秀的公司都陸續入局了，企圖通過持續的投入把準確率再往上推幾個小數點，這樣做會不會導致出現一個無限邊際場景上升，進而邊際成本不斷上升的局面？

呂昊：我覺得理論上有可能，從人工智慧很多其他的落地場景來看，一定程度上我們可以認為這種局面的出現是必然的，因為這是語音獨特的效能所決定的，它天然的物理屬性使得不同公司所提供的技術本質上的邏輯是相差無幾的，唯一存在區別的只是準確率是否高，不僅語音如此，視覺其實更是這樣，所以我覺得這不是太大的問題。

吳雙：我覺得在語音裡面，您提到的邊際成本上升的情況應該會好一點。

張鵬：您的意思是邊際成本的上升還沒有達到不合理，不可持續的程度？

吳雙：您可以這麼理解，語音技術雖然已經發展了很長時間了，這並不代表在這個領域不會產生新的價值了，就像之前說的，制約語音技術發展的核心要素就是識別準確率，雖然現在的技術成熟度想要達到百分之百的準確還不太現實，但是事實上只要字錯率能夠控制在 3% 以下，一款語音產品就能夠適應日常應用，獲得市場認可的，也就是說只要達到 3% 這個門檻的話，技術相對來說就可以稱得上是成熟普適了，接下來就可以在多元場景下輸入複製了，比如語音技術在智慧音箱上可以實現語音識別、語義理解、多輪對話、智慧糾偏等多種功能，畢竟語音只是語言智慧的一個敲門磚，所以我們如果這樣這樣來看的話，在技術研發的初期出現邊際成本上升是難以避免，但是這個問題在技術穩定到具備了大規模複製性之後，我覺得會自然而然的得到解決，同時坦白來說，要走到這一步面臨的挑戰還是很多的。

張鵬：其實剛才資料中我們能看到很多一直以來知名度很高的語音識別從業者，在一些場景下的表現也不是很理想，這些還存在於語音識別技術上的缺陷，就像是皇帝的新衣一樣，被依圖很任性的給指出來了，這件事挺獨特的。既然已經入局了，未來依圖想要提升準確率，從 90% 多一步步走上來，這個提升的過程的週期是怎樣的？這一點上依圖有什麼預判嗎？

呂昊：取樣的話（這次）是第一個點，所以很難知道曲線的頻率是多少，可能多兩年（以後）我們可以更好的回答這個問題。

張鵬：那推進這件事的關鍵變數其實在於資料，對吧？

呂昊：其實我們有很多的地方還想嘗試，但礙於種種原因沒能實現，不然的話，我們可以一邊試錯，一邊探索一些不同的方法。當然您說的資料也是一方面，更多維度的資料肯定是可以推動我們再做更多的探索。

張鵬：眼光獨到也好，戰略前瞻也好，有獨門祕籍加持也好，要想取得成功最終還是離不開在智慧領域的技術積累。

吳雙：對，不否認有一部分的成功其實是之前的技術積累帶來的，實際上不光如此，為了打磨優化語音技術，我們今年花了很大力氣收集了眾多自然語言的資料集，同時為了實施大型的資料測試進行了非常多的溝通協調，之所以前期做這麼多的準備工作，還是希望可以儘量無損高效的把依圖在人工智慧領域的技術積累，遷移到更加廣闊的維度，我們相信一家做事風格更加嚴謹的公司在這方面會更加有優勢一些。

商場風雲帶不走的科學底色

張鵬：從學術界踏入商界，在身份標籤從科學家向從業者轉變的過程中，兩位有沒有感受到哪些東西是和自己的想象不一樣的？有沒有一些感悟可以分享給我們？

呂昊：個人來說，科學依舊是我關心的問題，平時我還是習慣優先從科學角度看待問題。

張鵬：所以說你的人格底色還是科學精神？

呂昊：應該說身處商界，我的核心思考是如何更好的追求並挖掘每一個場景下所蘊含的價值，確實商場上有很多風口，但我們並不會因為一個行業火熱而盲目投入其中，有沒有挑戰性才是我在商業決策中唯一不變的考量指標。

我覺得語音識別技術離我們的生活實際其實很近，智慧音箱也好，語音翻譯機也好，這些產品一定程度上可以看作是搭載了語音功能的「玩具」，消費者購買這些產品擺在家裡，其實就是想讓自己的家居生活更加智慧的同時，讓自己的生活方式更加充滿情調與趣味。要想做好多元場景下的語音互動，必須先了解消費者的這層心理才行，之後才談得上價值實現。只要對著有價值的東西認真做，我覺得不需要太多思考商業的東西，目前語音識別行業的問題還沒到太考慮商業的階段。

吳雙：關於學術界與商界之間的差異，我覺得可以這麼來看：學術界的研究就是一個創業公司，它（學術研究）是非常小的創業公司，它要拿資金，需要僱學生，並且這些僱員還是每過五年就會離開的。回頭來說，商業這種反饋是更直接，更殘酷的，你成就成了，不成就不成。資本會直接告訴你，市場會告訴你你做的事有沒有意義，有沒有價值，這個反饋會更快。所以說我覺得（商業反饋會告訴你）你做的事情是不是在做真正（有價值的）事情。

依圖進軍語音識別，一個「後來者」如何重新整理行業認知？

多元場景下打磨出來的普適性

技術強者在眺望的遠方

商場風雲帶不走的科學底色

您可能也會喜歡…