一句話下達三個指令也行,AliOS語音識別支援多工處理
“我要在去麴院風荷的路上開著天窗聽周杰倫的老歌。”
如果你說這句話的物件是人,他一定能夠很輕易地理解你的三個意圖:一、去麴院風荷;二、開啟天窗;三、聽周杰倫的老歌。
但如果把人換成機器,例如車,車又是否能夠理解並作出相應的操作反饋呢?
眾所周知,因為操控便利、安全,語音天然是最適合車內互動的方式之一,也幾乎已經成為行業內車載方案的標配,儘管目前各家做出的語音方案差距較大。例如開篇說到的語義理解多工處理,目前在行業內還屬於比較新的技術應用,還沒有幾家能夠實現,大多數廠商主要聚焦在提升語音識別及自然語言理解準確率的問題上。AliOS資料智慧負責人陳華良透露,目前他們正在對語音做技術升級,重點提升場景智慧語義理解(SSLU:Scene-based Spoken Language Understanding)的體驗,是在自然語言理解的基礎上基於場景進行語言理解的智慧升級,其中就包含了對多領域任務處理能力的提升。
常見的對話系統一般由自動語音識別(ASR,Automatic Speech Recognition)、自然語音理解(NLU,Natural Language Processing)、對話管理(DM,Dialog Management)、自然語言生成(NLG,Natural Language Generation)和語音合成(TTS,Text To Speech)幾個模組構成。
據介紹,目前AliOS已經實現了創新的self-play對話訓練資料生成和眾包方案,結合人、車、場景的綜合理解,將語言學、語義的先驗知識、知識圖譜知識遷移到對話系統中,訓練端到端的深度學習對話系統模型,提升場景覆蓋率和對話流暢度,使系統能夠基於場景更好地理解語音指令。
以開篇提到的指令為例,AliOS首先會準確地識別“我要在去麴院風荷的路上開著天窗聽周杰倫的老歌”這句話的每個字,然後結合使用者當前的使用場景,理解這句話的意思,並呼叫相關的服務,執行導航到麴院風荷、開啟天窗,以及播放周杰倫老歌的複雜操作。
陳華良表示:“口語通常表義是模糊,表義是不完整,僅憑藉海量的語料資料,實現口語表達理解是不夠。我們認為基於人、車、場景等更多資訊,才能實現場景智慧的自然語言理解能力,為使用者獲得更好的語音體驗。”他介紹道,目前AliOS重點針對導航、音樂、有聲讀物、電臺等幾個車載高頻應用場景下的語音技術做了重點優化升級,實現多條件搜尋、導航多工、導航中更改偏好、多槽位查詢等。
舉幾個形象的例子, 例如“從這裡到中山公園還有多遠?”, AliOS能準確理解為是詢問從當前位置到中山公園的距離;“把之前的途經點刪除了”,AliOS能準確刪除上一次的途徑點;“給我放幾首應景的歌”,AliOS能基於當前天氣、時間資訊播放合適的歌曲。
此外,目前AliOS已經從系統底層實現語音與視覺、手勢等互動方式的多模態融合,力求為使用者提供沉浸式的體驗,將被廣泛應用於車載音樂、新聞廣播、有聲讀物、車載導航等多種場景。