語音互動很“雞肋”？未來某天它可能成為第一互動方式

語音互動移動應用谷歌 · 發表 2018-11-28 16:29:26

摘要：近日，Google Assistant（谷歌助理）釋出更新，使用者可以在Siri中加入快捷設定，比如錄下一個“Ok Google”的短語，這樣谷歌應用程式就會開啟等待使用者的指令。 Google Assistant集語音識別、人工智慧、自然語音理解為一體，能夠應用在手機、手錶等各...

近日，Google Assistant（谷歌助理）釋出更新，使用者可以在Siri中加入快捷設定，比如錄下一個“Ok Google”的短語，這樣谷歌應用程式就會開啟等待使用者的指令。

Google Assistant集語音識別、人工智慧、自然語音理解為一體，能夠應用在手機、手錶等各種智慧裝置當中。當然研究語音互動技術的巨頭不只谷歌一家，蘋果的Siri、亞馬遜的Alexa、微軟的“小娜”都為人們所熟知。而在中國，華為、小米、阿里的語音技術和產品也越來越普及，騰訊則推出了智慧語音助手“騰訊叮噹”，甚至連中移動也推出了語音助手“咪咕靈犀”。

然而語音互動技術在發展的同時也不可避免地顯現出缺陷，甚至有觀點認為這個技術很“雞肋”，但是如此多的巨頭都看好語音互動，並且在這一領域各展所長，還有一些應用已經落地，很大程度上推動了語音互動技術的發展。那麼巨頭們在一個“雞肋”的領域努力值得嗎？人們真的需要語音互動這種方式嗎？語音互動領域又是否有更廣闊的前景呢？

一、谷歌領跑，科技巨頭加快佈局語音互動技術

要說在語音互動領域哪家公司走得最遠，谷歌絕對當之無愧。

在去年的釋出會中，除了釋出Pixel手機之外，谷歌的另一個重磅產品就是Google Assistant。相比於此前的6.X時代，7.X中的語音助手不只囿於簡單的問答形式，而是更加註重對資訊的整合能力，可以憑著呼叫系統中更多的許可權實現更為智慧化的資訊展示。

在釋出會中，谷歌展示了Google Assistant全新的資訊整合能力，通過讀取使用者的社交網路資訊給使用者提供導航與社交網路評價等內容資訊，讓所有的內容更為立體，並貼近真實的使用者體驗。此後Google Assistant就成為了谷歌硬體產品的基礎應用，谷歌的手機和所有的家庭裝置都成了第一批支援這一功能的硬體產品。

此外谷歌還希望將語音助手變成人類與智慧硬體互動的重要方式，使用者可以通過語音來預訂餐廳、播放音樂、檢視照片等等，而不必再去螢幕中點選或掃描。當然這並不是很新的技術，因為此前蘋果的Siri、微軟的“小娜”等許多語音助手已經能夠實現這些，但谷歌的願景是將它變得更好，好到使用者會頻繁地使用這項技術。

這樣的話從谷歌這裡說出來並不存在違和感。支撐語音互動的主要技術就是AI，當AI愈發被重視，如何連結所有的AI服務，並讓這些服務自然地出現在使用者有需求的場景中，同時蒐集反饋資料也就隨之成為一個重要的問題，因而語音助手成為了許多科技公司青睞的方式。

想讓AI好到極度實用的程度，通過大量資料來訓練機器的學習演算法是必不可少的步驟，而大資料恰好是谷歌的專長。Google Assistant結合了谷歌積累多年的大資料、機器學習、語音識別以及自然語義分析等技術，甚至超越了谷歌10年的技術積累。

使用者真正想要的語音互動方式是怎樣的？此前Siri和“小娜”的嘗試其實都非常典型，即基於已有資料庫與搜尋結果的簡單問答模式，以及基於使用者以往的搜尋習慣的預測模式。但是看看大家這些年對語音互動方式的吐槽不難發現，對於真正滲透進人們的生活之中這件事，此前的嘗試還不算成功。不過之後亞馬遜Alexa“後來居上”的事例卻透露出了一個重要資訊：使用者希望語音互動技術更傾向於“輔助”功能，而非與它們做“朋友”，這意味著任務導向型的語音互動模式是較為合理的。

Google Assistant的負責人Gummi Hafsteinsson認為，Google Assistant的定位就是時刻陪伴使用者，並且不刻意地出現在使用者的生活之中。例如家裡需要購買某件物品之時就可以用語音命令Gummi Hafsteinsson在網路中購物，而無需放下手頭的事情，所以Google Assistant存在的意義是輔助使用者，而非讓使用者專程去“調戲”它。實際上現在有一些智慧手機上的語音助手和智慧音箱產品就走入了讓使用者‘調戲’的狀態，雖然這樣的人機互動也不乏樂趣，但這不應該是語音互動追求的終極目的。

可以看到，谷歌深耕語音互動領域的優勢在於技術，憑藉這一優勢谷歌很可能成為語音互動技術方面的推動者甚至領跑者。不過在行業中生存的巨頭都是各有招數，其他的公司或許沒有谷歌這樣強大的技術優勢，但憑藉其他的本領也能在語音互動領域佔據一席之地。

例如蘋果、華為、小米這些公司也在語音互動領域發力，它們主要憑藉的是智慧手機出貨量的優勢。蘋果自不必說，其江湖地位早已奠定，Siri助手也隨iPhone普及。雖然Siri助手停留在語音互動的初級模式，但蘋果強悍的出貨量依然讓Siri成為了最受歡迎的語音助手。華為手機在近年來的表現也是愈加優秀，出貨量一度超過蘋果，其語音助手甚至已經開始進軍海外市場。小米的生態鏈產品本就豐富，語音助手更是一個極佳的入口，小米的語音助手“小愛”已經和超過1億臺的IOT智慧裝置聯動，累計喚醒次數超過50億次並且還在不斷上漲。

可以看到，科技網際網路巨頭們對語音互動領域興致盎然，並且在努力地進行技術的研究與產品的生產，在生活中也可以看到越來越多的人傾向於使用語音互動技術。但現在還有觀點認為語音互動會成為“雞肋”，而且這種聲音還不在少數，那麼巨頭們在一個可能淪為“雞肋”的領域下這麼大的功夫真的值得嗎？

二、語音互動技術競爭背後是新技術的全面較量

在深耕語音互動領域之前，巨頭們一定是經過深思熟慮的。

無論是PC時代的鍵鼠互動模式，還是移動網際網路時代以觸屏為主的人機互動模式，都偏向於傳統的輸入輸出模式。而語音互動的方式則顛覆了這一傳統，其中還涵蓋了AI、大資料、深度學習等諸多技術，所以從表面上來看巨頭們是在搶佔語音互動市場，其背後卻是AI等新技術的較量，這些技術對於科技公司的意義無疑是巨大的。

其實做AI語音互動最為重要的就是讓它“像人”，這是深度學習的能力層面的問題，體現在表現形式方面就是要注重“話術”。為此，許多公司專門組建了“性格團隊”，賦予語音助手獨特的性格，再將其通過聲音體現出來，這也就是語音互動的“人格化”。例如谷歌內部就有一個專門負責開發語音助手會話與人格設計的部門，他們的目的就是讓語音助手擁有近似人類的表達方式，而亞馬遜也表示其語音助手Alexa在聲音上能反應出企業“聰明、謙卑、時而搞笑”的價值觀。

語音互動的“人格化”應該算是一個標誌性的轉變，讓語音互動模式有了一個質的飛躍，也讓本就存在的使用者需求變得更為強烈。

語音互動的人格化是很符合現代人需求的。在高速運轉的現代社會，人類愈發孤獨，缺乏戀愛和社交的精力和勇氣。但人在本質上需要交流，而如今的社會形態和發展速度讓忙碌的人們很難實現這一點，這就讓人們越來越傾向於在虛擬的世界中找到精神寄託。所以人格化的語音助手對於人類而言不僅能夠成為精神寄託，也能夠讓人類與生俱來的惰性更好地得到滿足。並且在下一階段，語音助手能夠實現與人類的情感互動，這就更加滿足了人類在心理和情感層面的需求。即使目前還沒有到達這種程度，語音助手的輔助功能也能夠幫助忙碌的人類節省出許多時間，滿足人們對於效率的需求。

另外，人口老齡化的問題在不少國家和地區都已相當嚴峻。對於老人而言，想要熟練使用智慧硬體是十分困難的，在我們看來簡單無比的操作對他們而言卻是很難邁過的一道門檻，甚至前段時間還有人以漫畫的形式教父母和爺爺奶奶上網。而語音互動方式對於老人來說絕對是最好的手段，在對Siri的一項調查中就發現語音助手使用量最高的是55歲以上的老齡組，對於視覺障礙人群而言也同樣如此。一旦這些群體得以開發，帶來的利潤也將十分可觀。由此可見，語音互動技術未來的前景還是相當可觀的。

三、語音互動有望成為第一互動方式

儘管現在的主流互動方式還是鍵鼠和觸屏，已經出現語音互動方式取代傳統互動方式的趨勢了。事實上在生活中，我們已經越來越多地在使用語音互動方式。在開車的時候，我們越來越習慣通過語音給智慧手機或系統下達各項指令，語音助手對我們的命令也有一個良好的完成度。在日常生活中逐漸普及的智慧音箱也為越來越多的人所喜愛。隨著技術的發展，語音互動的方式還會滲透到更多的裝置中。

我們已經在被語音互動的方式所影響並且在不知不覺中加入，只是我們還不自知而已，因為不是所有的變化都能很容易地被察覺。可以確定的是，未來人類會在更加豐富的場景中運用到語音互動技術，語音互動會有更廣闊的市場。這樣看來，語音互動不僅不會成為“雞肋”，相反還可能會成為未來的第一互動方式。

語音互動很“雞肋”？未來某天它可能成為第一互動方式

一、谷歌領跑，科技巨頭加快佈局語音互動技術

二、語音互動技術競爭背後是新技術的全面較量

三、語音互動有望成為第一互動方式

您可能也會喜歡…