[圖]谷歌AI新突破：實時聊天中識別“誰說了什麼”正確率高達92%

谷歌資料探勘 · 發表 2018-11-13 10:04:16

摘要：分割聚類（Diarization）是指根據“誰說了什麼”將多人語言樣本分割成相應的碎片段，再對所有碎片段進行聚類，把屬於同一個說話人的片段都聚在一起，標註出這些碎片段屬於誰。對於機器來說整個處理過程並不能像人類那樣得心應手，而且機器學習演算法的培訓也要比想象中的更難。一個強大的分割聚類系統還...

分割聚類（Diarization）是指根據“誰說了什麼”將多人語言樣本分割成相應的碎片段，再對所有碎片段進行聚類，把屬於同一個說話人的片段都聚在一起，標註出這些碎片段屬於誰。對於機器來說整個處理過程並不能像人類那樣得心應手，而且機器學習演算法的培訓也要比想象中的更難。一個強大的分割聚類系統還要識別出此前並未關聯的新語音碎片段。

不過朝著高效能模式發展的道路上，谷歌的人工智慧研究部門已經取得了令人鼓舞的突破性進展。在最新發表的論文“Fully Supervised Speaker Diarization”[ ofollow,noindex">PDF ]以及官方博文中，谷歌研究人員描述了一種全新的人工智慧系統，能夠讓系統以更又有效的方式來使用聲音樣本標籤。

這篇論文的核心演算法在 NIST SRE 2000 CALLHOME的跑分中，能夠在實時語音聊天應用中將線上分割聚類錯誤率（EDR）降低至7.6%。而谷歌此前在GitHub上開源的方式EDR為8.8%。谷歌研究人員的新方法就是通過遞迴神經網路（RNN）模擬說話者的輸入（例如用數字方法表示說話者的單詞和短語），這種機器學習模型型別能夠使用內部狀態來處理輸入序列。

[圖]谷歌AI新突破：實時聊天中識別“誰說了什麼”正確率高達92%

您可能也會喜歡…