一文讀懂最全語音互動設計流程

語音互動互動設計 · 發表 2019-04-02 10:54:58

摘要：一、VUI的現狀隨著智慧音箱的迅速發展，谷歌（Google Home）、亞馬遜（echo）天貓精靈、小愛音箱......智慧產品的井噴式增長，人們對智慧語音產品的需求也越來越多，也越來越高，智慧音箱對人們的生活的影響也越來越深，自然孕育而生一些新的職業需求，比如VUI（語音互動設計師Vo...

一、VUI的現狀

隨著智慧音箱的迅速發展，谷歌（Google Home）、亞馬遜（echo）天貓精靈、小愛音箱......智慧產品的井噴式增長，人們對智慧語音產品的需求也越來越多，也越來越高，智慧音箱對人們的生活的影響也越來越深，自然孕育而生一些新的職業需求，比如VUI（語音互動設計師Voice User Interfaces Designer），語音體驗設計師VUE（Voice User Experience Designer），但其實VUI和VUE的分界線是很模糊的，這裡不做多敘述。國際的一些大公司已經做了很好的示範了，比如亞馬遜，谷歌等等，都會有設立專門的職位，做一些專門的研究，當然近期國內的相關招聘也會看到有相關的職位，且薪資不低。那麼接下來會個大家詳細的分享VUI（語音互動設計師Voice User Interfaces）

二、VUI起源/歷史

1.VUI的第一個時期

20世紀50年代，貝爾實驗室建立了一個單人語音數字系統

20世紀90年代，誕生了第一個可行的非特定人的語音識別系統

互動式語音應答IVR系統的出現，代表了VUI的以一個重要時期

2.VUI的第二個時期

也就是我們現在所處的的時期

我們的現狀，我們正處於下一階段的初期階段，我們手機已經可以用語音處理很多事情了，但是還有很多事情是無法處通過語音完成的

3.VUI的一些優勢和侷限性

優勢

1.速度

顯而易見的是速度變快了，國內的語音，語音轉文字的技術已經很大程度上提高了人們效率

2.釋放雙手

比如你在開車的時候，你可以直接對著你的手機語音助手說，嘿XX，麻煩你幫我做XXX

3.直覺性

說話是每個人的天性（當然排除特出情況）

4.同理心

語音包含了語氣、音量、音調、語速，這些特徵包含了大量的感知資訊，能夠讓你感知到對方在表達些什麼。

侷限性

1.環境

對環境的要求比較高，在公共場合，人多的地方不利於語音的接受和錄入

2.不適應

還是有很多使用者不喜歡，不適應對著語音裝置說話的

3.喜歡打字

就是喜歡打字的一些使用者，打字從某個方面能夠帶給他一些愉悅

4.隱私

這個就很容易理解了，每個人都不希望自己的隱私被別人知道。

三、VUI設計師是什麼（是做什麼的）？

1.需要思考，在系統和終端使用者間，從開始到結束的整個個對話過程

2.使用者研究是不可少的

3.負責設計，產品原型和產品描述

4.需要瞭解底層技術的優缺點

5. 分析資料的能力

從專案的釋出階段到釋出階段都扮演著非常重要的角色。

當然很多人看到上面5條可能會有點怵，其實也並不是需要全部都需要會，也可以專門負責其中的一個鏈條，節點。比如使用者研究，資料分析....

四、VUI的基本設計原則

1.對話式設計

定義：簡單來說就是我問你答

目前我們使用的智慧裝置基本只能支援單輪對話，但這樣並不是人們習慣的對話方式

一輪以上的對話，才是符合使用者心理預期的。

請大家回憶下自己使用智慧音箱的一些場景體驗，

舉個例子（天貓精靈）

使用者:天貓精靈，明天我有鬧鐘麼？

天貓：您明天沒有鬧鐘呢

使用者：那可以幫我設定一個麼？

天貓：.....

你會發現，智慧音箱這個時候像是失憶了一般，毫無反應，顯然這並不是我們想要的一個互動，從使用者社交屬性來說，人們溝通的方式一直都是一輪以上對話式的，並不是單輪式的，一般來說，我們要做到讓使用者決定對話要持續多久，很顯然，你有親身體驗過的話，能做到多輪對話的比較少。

插一個題外話，最近天貓精靈更新了遊戲語音的玩法，算是踏進一步了吧，雖然不是很棒的體驗，但起碼跨進了多一步，相信未來會越來越棒的。那對話式是如何設計出來呢？大致是怎麼樣的一個流程呢？

2.設計工具、

這裡說的設計工具並不是說是一個具體的工具，更多是指一個方法論

示例對話

定義：示例對話字面意思就是演示舉例對話，它看起來像一個電影指令碼，像兩個人一起在對話

特點：是整個設計對話過程的關鍵方法。成本較低，簡單易操作

用法：把要做成一件事情的場景用文字寫出來，然後大聲讀出來，你會發現書寫和口語化的還是有很多區別的，甚至是有些奇怪的，這時候你會發現有很多可以改進的地方，所以你會看到一些招聘都會有這一項對應的要求，甚至是要求一些事有話劇功底，有劇本寫作相關經驗優先。

作用：它能夠讓你在投入開始研發之前，知道你的設計效果是如何。

3.視覺原型

雖然是語音互動，但是還是離不開GUI的，它可以結合示例對話，將使用者體驗視覺化。示例對話和原型組成了我們產品的故事板，GUI+VUI是使用者一套完整的體驗，所以，VUI和GUI在早期階段就開始合作，這樣對使用者體驗會更加流暢。

4.流程圖

也叫做呼叫流程圖，一般來說我們的流程圖需要包括使用者使用中所有可能存在的分支，但這樣下來會有千萬條複雜的情況，流程圖就會很亂，也很難梳理，所以我們採用分組的方法，

具體的分類的方法可以根據分成多組（日曆功能、搜尋功能，電話..），也可以根據不同的目的進行分組。

流程圖的使用到的工具就非常多了，這裡就不一一列舉了。

那大概我們設計完成了一組示例對話之後，我們就要對一些細節進行細緻的研究，比如；確認

五、如何進行確認

1.使用者語音的確認

2.非語言式確認

3.通用確認

4.視覺的確認

1.使用者語音的確認

最重要的是使用者語音的確認，分為顯性確認和隱形確認

顯性確認即：比較重要，強制使用者確認資訊。比如：天貓精靈你能幫我一份奶茶麼？查到附近XXX奶茶，使用優惠後的價格是XX元，你要來一份麼？

隱形確認：即不需要使用者確認訊息，比如：使用者：XX你能幫我設定明天10點的鬧鐘麼？好的，已經幫你設定好明天早上10點的鬧鐘。

1.1那麼如何去判定什麼時候用隱性確認和顯性確認呢？

那麼下面就要介紹一下三級置信度。

系統將在一定的閥值內作出明確的形式確認資訊。而這個閥值我們設定為三個等級

1.2置信度？

就是智慧音箱能識別到聲音的清晰度。

用易懂的話說就是人與人之間溝通的語言接受的清晰度，當然聽不清對方說什麼話的時候時候一般會發起詢問，或者直接說，對不起，我沒有聽清，你可以再說一遍嗎？

1.3三級置信度

比如幫我再買一份外賣

1.當置信度大於80%，使用隱性確認

好了已經幫你在訂了一份外賣。

2.當置信度為45~79%，使用顯性確認

您是想再多訂一份外賣是嗎？

3.當置信度小於45%

對不起，我沒有聽清您的講話，您想買些什麼？

2.只用隱形確認.

智慧語音音箱能夠非常清晰的識別到你說的內容的時候，可以直接用隱形確認，這樣帶來的體驗流暢感舒服很多

3.非語言式

比如說，燈光花幾秒才能，那麼只是讓系統先恢復好了或者知道的來讓使用者知道後面發生什麼。還有加一些特定的音效，來代表特定某一個意思。

4.有趣的通用確認。

就是說智慧語音音箱不會單獨的回答你是和否，會主動會詢問您一些的問候，通過這樣情感化的一些設計，將能夠讓使用者感到更加的溫暖和舒服。

那我們前面講到了那麼多的一些確認策略，那我們接下來再說一下對話式的標識。因為是讓使用者瞭解交談進展以及進展情況的重要方式

5.對話式的標識

它包括了以下三個方面。

1時間線，開始，進行中，結束。

2接收回執，謝謝，知道了，好的。瞭解了。

3積極反饋。哇，你這個訊息真的很棒。

那對話式對話作用是什麼呢？是讓使用者瞭解交談進展以及進展情況的重要方式。能夠更好的追蹤到使用者的使用過程中的一種路徑方法。

大家會發現我們很多時候智慧語音裝置並不是每次都能夠快速，精準接受識別我們的資訊的。出錯率相對來說是比較高的，下面大概說下語音識別的出現錯誤異常的幾種情況

六、語音出現錯誤異常和解決方法

錯誤異常的幾種情況

1.未檢測到語音

2.檢測到語音，但沒有識別

3.檢測到語音，但沒有識別

4.部分語音識別錯誤

1.未檢測到語音

未檢測到語音有大概兩種情況，一是使用者說了，系統沒有接收到。二是使用者沒說。

主要說下使用者說了，系統沒有接收到的情況，建議採取兩種解決方式，

第一種前面我們說到的三級置信度，我們採取直接詢問，“對不起，我沒有聽清你說的話，你能再說一遍麼？”

第二種是採取什麼也不做

1.1那什麼情況下使用詢問呢？

使用者必須回覆後，系統才能繼續進行任務

你的系統只是支援語音

沒有其他回覆方式了

1.2什麼情況下更適合使用什麼也不做呢？

使用者還有其他選擇（比如手機介面課、通過一個按鍵操作）

什麼也不做，不會中斷對話

有視覺資訊可以提示使用者做出明確的選擇

2.檢測到語音，但沒有識別

處理方式和未檢測到語音基本是一直的，這裡就帶過了

3.檢測到語音，但沒有識別

出現這種情況的原因一般是兩點

1.系統程式沒有針對這種情況的回覆

2.程式中寫了錯誤的回覆

解決方法，這裡我們就要通過測試來發現具體是哪個環節出了問題了，通過資料的收集分析能夠找到具體的答案

4.部分識別錯誤

大概就是這樣的場景，天貓精靈，嗯...我想..。嗯，好的，為您帶來一首XXX的歌曲。

解決方法：這個還是需要技術的介入，可以通過使用N-Best列表（可以通過這個列表規避二次錯誤）和鎮適用韌體後相應的資料分析來構建此問題的解決方法

說完了錯誤異常處理以及解決方式，我們接下來說下延遲和消除歧義

5.延遲

在互動一般使用者等待的時間是7秒（現在可能是5秒），當你詢問等待回答的時間超過這個閾值，使用者就會懷疑是不是系統出問題了，甚至煩躁。

解決方法：一是通過“請稍等”讓使用者知道你在運作和查詢。2.非語言提示，比如音效，等等。

6.消除歧義

很多時候使用者提供的資訊只有一部分，再加上中文的多層含義的特殊性，消除歧義對使用者體驗的的提升有重要作用。

比如：問地名的天氣，中國很多鎮區的地名都是一樣的。

鼓樓河南省_開封市_鼓樓區, 福建省_福州市_鼓樓區, 江蘇省_南京市_鼓樓區, 江蘇省_徐州市_鼓樓區

解決方法：還是可以採用置信度的方式去判別，如果很確定就直接回答，要麼就多輪詢問確定

7.幫助功能

最後的模組說下幫助功能。也是至關重要的，能夠在一定程度上消除使用者的“恐慌”，所以，在我們VUI中設計對應的幫助是非常有必要的，比如：詢問智慧語音裝置你能幹什麼呢？它會告訴你他能做些什麼？比如：我的裝置怎麼樣連結你的藍芽。APP：好的，長按......

七、語音互動的幾點原則

1.應該是省時、高效的

2.簡短的

3.能夠被隨時打斷

4.能夠連結上下文語境

1.應該是省時、高效的

和視覺介面互動其實是差不多的，使用者是非常不願意花很多時間達到他想要完成的任務的。越高效，越短時間，使用者的體驗會更加愉悅。

2.簡短的

只需要告訴使用者主要關鍵資訊即可，不要過於冗餘。舉個簡單的例子購物APP的商品表現形式，一般都是把名稱和價格放在主要的位置，把詳情放進下一級頁面。採用儘可能簡短的表現形式，讓使用者直接獲取到他想要的，當然這對使用者的瞭解和洞察都要需要經驗的積累和感知的

3..能夠被隨時打斷

舉個例子，使用者：明天的天氣怎麼樣？APP：明天XXX地方的天氣19℃，小雨，適合穿.......，使用者可能只是想知道天氣而已，這時候我們是需要做到可以被使用者打斷，而不是“執拗”的把話說完，如果一直說下去，不允許使用者打斷，使用者的請求沒有被迴應，這時候使用者會產生反感心理，

4.能夠連結上下文語境

這是目前很多智慧語音裝置體驗上沒有那麼好的地方，也就是前面說的，可以進行多輪對話，當然如果要設定多輪對話，中間的互動情況將會比現在更佳龐大，需要考慮的可能性也會更佳複雜。

語音互動設計的前半部分設計流程基本已經概述完了，主要說了VUI的起源，一些VUI中用到的一些方法論，設計工具，一些異常情況的處理，和VUI設計的幾點原則。下面將會和大家聊下使用者測試和預釋出、確認釋出......

八、使用者測試

語音使用者介面的測試其實和視覺介面測試的方法有一些相同的地方，但也有一些差異。

一般來說，在開始測試之前呢，還是需要做使用者調研的。大概分為以下幾個步驟。

1.瞭解需求（使用者用例背景研究。）

1.做使用者研究和訪談之前，我們要先搞清楚，這個利益方的需求是什麼，業務需求，使用者訴求是什麼，我們的產品能夠給使用者帶來什麼？能夠給他們解決什麼問題？最後我們要確定我們的目標使用者，然後進行訪談和調研（大體的方法，詳細可以去看一下阿里提出的五導家加方法論）

2.制定設計研究方案。

2.1給目標使用者制定，任務流程。

就是給每一個受訪的使用者，一個特定的任務流程，但很多時候我們並不是只是測試一個任務，會有很多工，那就會涉及到任務排序的問題。還有最好的方法是採用拉丁方陣設計,這樣的話不必通過出現所有可能的排斥方式來試驗。

那麼設定好這次任務之後呢，我們就要進行招募受試人員了

2.2.招募受試人員

需要注意以下幾點。

1.要在目標使用者裡抽取測試使用者

2.人數大概控制在5~12人，可用性專家Jakob Nielseb提出效果一般控制在5-8人左右為最佳

對於小公司招募測試使用者可能會相對比較困難，成本相對來說會比較高，當然是可以招募你身邊的朋友和公司的同事來協助你的，但最好避開專案的直接核心人員。

那麼在目前人員完成之後呢，我們大概會進行一些進行中的一些測試，比如說我們做一些提問。

請問這裡會涉及到一個方法，我們在互動設計裡面叫它為使用者體驗地圖。

3.使用者體驗地圖

我會給到使用者一些任務的體驗流程，然後根據他的一些反饋，通過語言、表情，然後繪製出使用者體驗地圖，從而判斷出，使用者在這個任務流程中，得到了一些體驗感受，找到可能存在問題的所在節點，然後進行修改。下面說下在訪談中需要注意的I點，如何進行訪談

4.訪談需要注意的點

那麼在口頭提問的過程中，我們需要注意些什麼呢？

4.1.提問不要有一些語句上的偏袒，不要出現故意引導，比如說你喜歡這個功能嗎？這樣提問是不太合理的。最好提問是，你用完這個功能之後，你是什麼樣的一個感受？或者說你覺得怎麼樣？

4.2.要注意引導使用者得出具體的結論。而不是使用者說大概，可能我覺得應該是等等之類的詞。要有具體的例子，不要一個抽象的結果。

4.3.少用為什麼開頭，會讓受訪者覺得你是在質疑他，或者說故意的，刁難他。比如說受訪者說，語音天氣詢問功能特別難用，能夠簡單說一下你的使用場景嗎？他是在什麼情況下讓你感覺到難用？描述我們需要更加具體化一些，而不是籠統的，抽象的。

5.可用性測試（使用者調研）

目的是測試工作流程和易用性。但是在語音互動過程中，識別問題往往會阻礙使用者完成任務。最好是找幾位測試使用者，嘗試找出主要的識別問題，然後修復它。

可用性測試大概分為幾類

5.1.遠端測試（電話/視訊訪談）

優點

更容易找到符合特徵的使用者

成本較低，只需要遠端即可，不需要支付其他額外的支出，比如說來到你約定地方差旅費。

會更加自然，更貼近真實情景。

使用者心理負擔沒有那麼大會比較自在。

可以沒有測試主持人

條件允許的話，最好使用視訊通話，這樣我們可以錄製影像，後期方便我們去觀察使用者的表情和反應，以得出更加正確的測試結果。

缺點

沒有辦法實時跟進參與人員的反應。

5.2.攔訪

這種測試方式是非常有難度的。意味著我們要去到公共場合去攔截受訪者，然後讓他參與到你這個測試當中，因為人與人的戒備心理，所以很多人都會拒絕你，如果你想提高成功率，最好準備一些小禮品或者其他的小獎勵，這樣有助於你提高攔訪的成功率。當然你也很有可能得到的結果，會有一些偏差，受訪者會出於某些目的而回答你的一些問題，有可能並不是出於真心的。 所以呢，這裡不是很建議大家用這種方法。

5.3測試完成

測試完之後，我們需要進行我們的結果分析和統計。

測試衡量的一些指標，我們大概分為5個關鍵指標。

準確性，響應速度，認知速度，清晰度，友好度和聲音

5.4.注意事項

這裡需要注意的點是，一定先要預先設定好，確定每項任務完成的標誌是什麼。不然後期對結果的一個標準很難去統計，會比較混亂。

我們需要總結這是使用者對問題的回答及完成任務率錯誤數量和型別等等，從中找出使用者的痛點，使用者的一些干擾點。按任務出錯時，使用者是否能夠自己解決呢？等等，具體需要得出的一些結論，要根據自己想要測試的一些目的來定。

在這樣我們就完成了整個可用性測試的流程。

6.預測試

釋出之前需要做一次與測試，可以權重沒有那麼高。但也是關鍵的一步。

7.識別測試

最重要的還是識別測試，這關係著整個產品的體驗問題，整體的測試流程需要用三級置信度和N-Best列表、以及後臺的表格相結合，找出相對應的問題節點，並且修復它。

8.負載測試

你得清楚明白你的裝置，最多的承載量，不然流量一進來，伺服器就崩潰了，這樣的體驗是極其差的。

9.效果的評估

你還得去做效果的評估。在試執行開始之前，你需要制定目標，然後看是否達到這個目標，這個效果大概是什麼樣的？是否達到預期？任務的完成率也是非常關鍵的一個成功指標。

10.試執行

最後到達釋出階段。為了產品的穩妥起見，我們還是會進行一次試執行，

11.釋出

12.迭代

條件允許的話，重複上面一次的使用者調研的方法，然後得出一些現階段的一些問題。我們需要實時跟蹤系統的故障並快速的改進，這是我們非常需要要做到的。

大概全部的語音互動流程就說到這裡了，我們簡單的回顧下下

1.語音互動設計的起源

2.語音互動設計的設計原則-示例對話

3.確認原則/糾錯方法-三級置信度

4.可用性測試

5.釋出

那語音互動設計的未來點在那裡？設計師我們的機會在哪裡

戰略選擇

世界一直都是存在不確定性的，如何能夠應對呢？眼界和選擇。

這裡延伸下樑寧在《產品思維30講》裡面說到的點線面的戰略選擇的問題，她大概說了這樣的例子：比如有一對雙胞胎，2010年一起大學畢業，一個進入了騰訊，一個進入了報社。7年之後呢，騰訊的那位如果不出意外應該是年薪百萬，而且滿街都是獵頭在挖，投資人在挖，只要出來創業就給錢，而去了報社的那位呢，報社的情況我們今天肯定了解整個產業都沉淪了，曾經他寄託理想的整個產業都沒有了，其實一切都需要重來，在這個時候並不是說雙胞胎他們的個人的素質有問題，或者是他們的能力點有問題，點是沒有問題的，也不是他們分別跟隨的領導，比如說我們就跟老大，他們的老大的能力點和個人操守也都是沒有問題的，但是問題在哪裡？問題是說這兩個單位所附著的經濟體，一個是在快速崛起，一個是在快速崩潰。你努力工作的公司收益，遠遠不如你在2010年以前或者2013年以前，比如說買騰訊的股票，或者是說你買一套北上廣的房子，

我們本身是一個點，我們這個點需要附著在整個整個快速崛起的“線”上，戰略的選擇，眼界的層面顯得尤為重要，和努力一樣重要，甚至往往有時候選擇比努力更重要，但選擇也是努力累計的結果。我們設計師如何做出順應這個迅速崛起的經濟體的選擇，也是我們當下的機會，我們能看到什麼機會，我們要附著到什麼樣的線上，在當下職業邊界愈發模糊的時代，我們能力和眼界的提升，可以做到從容的應對未來的種種變故。

那麼同樣，隨之AI的發展，5G的到來，我們的很多工作方式都有可能被顛覆，語音互動設計的將會是一片藍海，雖然現在有諸多的桎梏，但這是趨勢，是快速崛起的趨勢。設計師工作你能想象未來沒有顯示器麼？沒有臃腫的主機麼？等等，未來都有可能會發生。而這一切也正在發生.....

無論世界如何變幻，未來可期，我們在路上.....

參考文獻

《Designing Voice User Interfaces》（語音使用者介面設計）

《U一點料1/2》

《產品思維30講》-樑寧