從“無人問津”到“最熱風口”，智慧語音的考驗剛開始 | 資料科學50人•

科技 · 發表 2018-12-21 16:37:55

摘要：原標題：從“無人問津”到“最熱風口”，智慧語音的考驗剛開始 | 資料科學50人•作者 | 顏安琪題圖 | 站酷海洛從“冷板凳”到“最熱風口”，俞凱博士（思必馳聯合創始人、首席科學家）一直相信人機互動，將帶給人類一個更美好的未來。並且，他還有一個更遠大的目標，藉助科技，溝通萬事、打理萬物，從而...

作者 | 顏安琪

題圖 | 站酷海洛

從“冷板凳”到“最熱風口”，俞凱博士（思必馳聯合創始人、首席科學家）一直相信人機互動，將帶給人類一個更美好的未來。並且，他還有一個更遠大的目標，藉助科技，溝通萬事、打理萬物，從而改變世界。

資料科學是從0到1的過程

2014年，奧斯卡最佳原創劇本獎頒給了一部人工智慧影片——《Her》，影片講述的是孤獨的作家Theodore，與語音助理Samantha的愛情故事。

（圖片說明：電影《Her》中，渴望親密關係的男主角，愛上了善解人意的語音助理；來源：豆瓣電影）

影片中的Samantha不僅擁有語音識別技術，能將聲音轉化成文字；還擁有語義理解技術，精準處理、解讀文字含義；最後還能語音合成，將資訊轉化成聲音，準確輸出。

聯想起不久前小米釋出會上，雷軍與小愛同學的“智障對話”，Samantha 恐怕是所有語音從業者的“夢中情人”了吧。

（圖片說明：雷軍與智慧音箱對話）

“確實，能聽、會說、能糾錯，才是真智慧語音。”在思必馳的會議室裡，俞凱調整了一個舒服的坐姿，和我們闡述起他的語音互動觀點。“以前語音識別只追求‘聽清’，語義理解也只追求一句話層面的‘聽懂’，現在更追求的是通過大資料深度學習後，能夠‘聽話’、且具有進化和適應能力的‘語音機器人’。”

（圖片說明：俞凱在思必馳上海辦公室接受DT資料俠的專訪）

俞凱留著時下最考驗顏值的“板寸”，語速略快地說著這些。對答中，他的思路縝密，學識廣博，對於繁複問題會自覺拆解，逐一回答。對於語音識別中存在的錯誤率和發展瓶頸等尖銳問題，也能層層分解。

先告訴你語音互動系統發展的歷史——1952年，貝爾實驗室開發了第一個能夠識別阿拉伯數字的系統Audrey，能夠識別10個英文數字，擁有98%的正確率。1950年代末，倫敦學院的Denes又將語法概率加入語音識別中；1962年發明了第一臺可以用語音進行簡單數學計算的機器Shoebox……

隨後點明語音互動系統的進步基礎——一方面是技術，包括隱馬爾可夫模型、機器學習和各種訊號處理方法，另一方面是龐大的計算資源和訓練資料。

總之，在語音識別中，訓練資料的多樣化和豐富性是系統性提升的最關鍵因素之一，但是語料的標註和分析需要長期的積累、總結，這就需要大資料的輔助。

“資料積累是從0到1的過程。現在得益於網際網路，我們能獲得大量日常資訊，包含各種材料和環境，但資料是沒有盡頭的。”

“那麼您如何界定資料科學？”我們好奇。

“資料科學本身就沒有特別明確的定義，但是從研究領域來講，只要和研究資料相關，都可以叫做資料科學。這點來說，我們都是資料科學的相關研究從業者。”語畢，俞凱爽朗一笑。

想要改變世界的科學思維工程師

俞凱的資料科學和語音故事要從2002年的劍橋說起，一切也就像思必馳的淵源一樣：“思於劍橋，馳於中國”。

（圖片說明：俞凱博士在英國；來源：清華校友總會）

2002年進入劍橋大學攻讀博士時，美國國防部和劍橋恰好合作展開了當時全球規模最大的“大詞彙連續語音識別專案”；並且，該專案還為博士生提供獎學金資助。

儘管俞凱將進入語音識別領域的機緣，歸結於“時代的機遇”，是集合所有最優條件後的選擇，但他對科研的進取心和改變世界的使命感，卻並非一蹴而就。

在來到劍橋之前，俞凱在清華大學攻讀工程自動化的本科和碩士。1997年，在網際網路還未得到應用的年歲裡，他就曾為了“考察國情民生”，從北京騎行1500公里到達西安，甚至在騎行之前寫下遺書。

“這是一個很有意思的過程，你需要像推導公式一樣全面判斷會有哪些危險，分別該怎樣應對等等，雖然很苦，但很鍛鍊人。”這樣的經歷讓俞凱意識到，完成任何一件事，不僅要有正確的方法，還需要意志和理想的支撐。這也才有了後來他從語音識別到對話系統研究方向的轉變

（圖片說明：俞凱博士（右三）在清華；來源：清華校友總會）

2002年至2007年，俞凱所在的劍橋語音識別專案組，多次在國際研究機構組織的對話系統挑戰賽等國際評測和競賽中獲得冠軍。儘管成績斐然，俞凱更關注的卻是那20%仍未解決的錯誤率。

“我從來都不是一個單純的科學研究者，我更想要通過科學的技術、能力，去改變世界。或者，你可以把我當作是一個有科學思維的工程師。”他如是解讀自己對錯誤率的“零容忍”，以及個人的科學願景。

因此，從2007年開始到往後5年，俞凱將自己在劍橋的研究領域從語音識別擴充套件到更大的對話系統，並在2007年和劍橋校友高始興一起創立了智慧語音公司AI SPEECH，中文名“思必馳”借用了德國詩人海涅名言：“思想走在行動之前，就像閃電走在雷鳴之前一樣”，這也是俞凱學術、創業之路的寫照。

儘管2007年，全球語音發展尚處低谷期，許多同學甚至紛紛轉行投身金融業，俞凱仍然堅信，語音互動將是未來科技發展的核心方向。“做不可預測事情的人，永遠都是少數，因此需要強大的內在驅動力。儘管投入的時候，並沒有完全預計到往後的困難。但總有些熱血，想要改變世界。”俞凱如是解讀這段“年少輕狂”。

2008年思必馳回國發展，落戶蘇州。很多人不理解俞凱為什麼會放棄國外的優渥條件，他卻不願把“創業”和“當時國內相對滯後的發展條件”相提並論。“二者沒有太大關係，因為你才是需要把這件事做起來的人，如果別人已經成功了，就不需要你了對吧？”他笑著反問。

或許，科研和創業對於俞凱而言，不是簡單意義上的知識獲取，更像是一條可以通過自己的努力，逐步改變世界的自由征途。

即便過程中，在公司發展最困難的時候，他和合夥人高始興都抵押過房產；創業之後，時間不再為個人所支配，“我和太太的蜜月是在南極度的，現在基本沒時間休假”，甚至連乒乓球的運動愛好都改成了一個人游泳；即便他也一再強調，“現在不是總結回憶的時候”……

但俞凱很明確，每個階段都有必須要做的事，由此帶來部分犧牲必將隨著事業的發展，逐步達到新的平衡，“這總是一個迴圈上升的過程，就像‘從產業化到公司化’，是最大的挑戰，但同時，成功克服他們也是最大的收穫。”

或許，所謂創業之難，不在於它是一座垂直的陡峰，或是波峰波谷大起大落的驚險，而更像是一條莫比烏斯帶——將一根紙條扭轉180°後，兩頭粘接起來做成的紙帶圈，如果不在開始旋轉時認清起點和終點，就會在不斷地迴圈裡迷失自我。

（圖片說明：莫比烏斯帶；來源：視覺中國）

2011年蘋果公司釋出了Siri——一款智慧語音助手，並助力了iPhone等產品的成功。人機互動的邊界突然得到了拓展，那些原本在科幻電影和實驗室中的資訊互動場景走進生活，掀起智慧語音發展的第一波高潮。

隨後，微軟Cortana、谷歌Assistant、亞馬遜Alexa等智慧語音助手紛紛面世，並順勢誕生了微軟Invoke、Google Home、亞馬遜Echo、蘋果HomePod等智慧硬體。

在國內，阿里、騰訊、百度、科大訊飛等網際網路企業的AI實驗室都將語音互動作為重要佈局，通過開放平臺戰略尋求軟硬體及內容合作，營造智慧語音行業生態。

2013年至2018年，人類經歷了從PC網際網路、移動網際網路到智慧裝置互聯的發展，互動方式也經歷著從文字搜尋、語音/文字對話、自然口語對話的變遷。

移動終端的普及應用，也為語音識別中的語言模型和聲學模型的訓練提供了豐富的資料資源，使得構建通用大規模語言模型和聲學模型成為可能。

如今當智慧時代的浪潮洶湧而來，俞凱當年的判斷也得到了印證，語音互動正在成為數以百億級智慧物聯網裝置最核心、最豐富的入口之一。

（圖片說明：Canalys預計2018年全球智慧音箱銷量將達1億臺；來源Canalys）

如果說，演算法是人工智慧的武器，那麼，作為人工智慧核心底層硬體的AI晶片則是“機器學習”的靈魂。

2018年，“AI晶片熱潮”來勢洶洶。前有中興加大核心晶片研發投入，後有阿里官宣收購中天微佈局AI晶片行業，併成立“平頭哥”晶片公司……專業AI語音企業緊隨其後，開始“熱”啟動，紛紛推出AI語音專用晶片。

（圖片說明：AI晶片發展歷程；來源AMiner《2018人工智慧晶片研究報告》）

思必馳也是其中的參與者，並即將召開“打通AI產品服務‘最後一公里’的釋出會”。對於當下的“晶片熱”，俞凱有著自己獨到的見解，他先是認真定義晶片的價值，“它應該是企業整體規劃中錦上添花的助力，和其他產品配合，實現整體生態佈局的完整閉環。”

對於市場的盲從和由此帶來的投資泡沫，他呼籲“理性”，“目前業內最大的泡沫應該是大家的期望和現在AI技術所能實現的能力範圍不相符。許多企業估值很高，但實質性的創新、落地不夠。中國科技企業在國際上的‘人才軍備戰’也是一個道理。”

如今思必馳已經完成了5 億元的D輪融資、公司規擴至500餘人，計劃近兩年上市，但俞凱對於公司的定位仍然是創業型企業，若以爬山為參照，還處在剛剛出發的爬坡階段，“應該說，我們的山頂比較‘高’，目標比較遠。”

他對企業有著最直接又最簡單的堅持，“希望思必馳能成為人工智慧時代，人機互動的入口介面，就像現在百度的搜尋入口。我們希望能夠賦能萬物、打理萬事，讓人和機器的溝通更自然、更人性。

未來，屬於人機共融

從圖靈的論文《計算機器與智慧》和圖靈測試，到最初級的神經元模擬單元——感知機，再到現在多達上百層的深度神經網路，人類對人工智慧的探索從未停止。不僅安防、醫療、出行、教育、製造業等傳統行業正因為人工智慧的嵌入而煥發出更多維度的商業機會，文娛影視作品也利用人工智慧對未來嵌入了更多想象。

斯皮爾伯格在2002年的科幻電影《少數派報告》中就“預見”：未來警察不僅和機器共存，還可以預測犯罪細節，並提前制止犯罪。

其中一個場景就是，由湯姆·克魯斯扮演的未來警察用虹膜識別裝置掃描了“預謀犯罪”的男子的眼睛，並以“即將謀殺罪”逮捕他。

“我的一貫觀點，也是人機共融、共存、共進化。”在提及人工智慧未來的發展趨勢，俞凱如是闡述，“比較理想的狀態是，人類和機器各自擁有一個世界，但兩個世界能通過智慧技術，相互溝通、彼此幫助。”

一如美國卡耐基梅隆大學終身教授Martial Hebert所言：“人和機器人應該是互動的，不僅是人在操控機器人，機器人也會提供一些指令幫助人更好地調整工作，這是一個雙向的協同，不再是傳統的單向協同。”

至於如今層出不窮的“取代論”，俞凱更贊同的是：在一定時間內，機器會擁有和人類感知智慧相匹配的能力，繼而是複雜的認知能力，最後能夠自我進化，“這是一個漸進的過程，估計再過20年左右，機器可能具備自我進化的能力。”

在俞凱看來，未來人們討論的不是機器如何取代人類，而是“什麼是機器，什麼是人”：“在共存形態中，確實要考慮人、機的各自佔比，以及二者智慧的相互協調，但二者總是不斷有對立的融合。”或許，當機器在科學的幫助下成為地球的和諧公民甚至星球公民，這才是最值得想象的未來。

在“人機共融”的願景下，一切的討論也必須要回歸到“安全”的本質——機器人能否提供的安全服務，以及資料安全如何保障。

結合Google Home的資料安全洩露事件，和思必馳正在展開的《中國人工智慧產業智慧財產權和資料白皮書》工作，俞凱認為，“首先要完善資料監管，同時做好資料安全問題的界定；其次法律、法規的完善和鼓勵創新之間也需要達成平衡，否則規定死了，創新就難以實現。”

聯絡11月份，美國商務部工業安全署出臺的《針對關鍵技術和相關產品的出口管制框架》或將限制AI、腦機介面等14類新技術出口。俞凱認為這對中國來說或許是個機會，“往好的地方看，這是鼓勵我們自主創新、實現產權結合，而不是簡單地套用外國人的開原始碼。”就像人們常說的，“麵包總是會有的”，他相信，“知識和技術總會有的。”

（圖片說明：美國商務部工業安全署）

如今，俞凱依舊會在每天早上九點前到達辦公室或研究院，晚上十點左右結束一天的工作。2019年，他希望可以像在劍橋合作專案的導師、劍橋大學皇家工程院院士Steve Young教授一樣，更好地平衡工作和生活。

“Steve是最早開始做語音識別基礎技術研究、語音識別開源軟體的人，並把它們產業化出售給微軟、谷歌、蘋果，非常受人尊敬。更難得是他非常有活力，不僅能平衡好各項職務，當時60歲了，還在和我們一起程式設計、查我的程式碼。”俞凱追憶起學生時代。

“如果以10分製為生活和工作打分，你會給幾分？”

“7分吧，都還要進步。”語畢，俞凱的臉上又露出了標誌性的微笑，有總結，有憧憬。

資料俠門派

俞凱，思必馳聯合創始人/首席科學家，上海交通大學蘇州人工智慧研究院執行院長，劍橋大學語音博士，上海交大教授，劍橋大學工程系博士，IEEE高階會員，國家“青年千人計劃”、NSFC優秀青年科學基金獲得者，上海市“東方學者”特聘教授，國家自然科學基金委優秀青年科學基金獲得者，中國語音產業聯盟技術工作組副組長。

資料科學50人

“資料科學50人”專案是DT財經旗下資料俠計劃重點內容產品，與資料科學領域KOL挖掘資料內容的價值。我們從商業資料科學領域選出最具代表性的50位先鋒進行深度專訪，50人由DT財經獨立評審併發布，第一財經資料科技及合作伙伴傾力支援。

加入資料俠

資料俠計劃是由第一財經旗下DT財經發起的資料社群，包含資料俠專欄、資料俠實驗室系列活動和資料俠聯盟，旨在聚集大資料領域精英，共同挖掘資料價值。