[圖]谷歌AI新突破:實時聊天中識別“誰說了什麼”正確率高達92%
分割聚類(Diarization)是指根據“誰說了什麼”將多人語言樣本分割成相應的碎片段,再對所有碎片段進行聚類,把屬於同一個說話人的片段都聚在一起,標註出這些碎片段屬於誰。對於機器來說整個處理過程並不能像人類那樣得心應手,而且機器學習演算法的培訓也要比想象中的更難。一個強大的分割聚類系統還要識別出此前並未關聯的新語音碎片段。
不過朝著高效能模式發展的道路上,谷歌的人工智慧研究部門已經取得了令人鼓舞的突破性進展。在最新發表的論文“Fully Supervised Speaker Diarization”[ ofollow,noindex">PDF ]以及 官方博文 中,谷歌研究人員描述了一種全新的人工智慧系統,能夠讓系統以更又有效的方式來使用聲音樣本標籤。
這篇論文的核心演算法在 NIST SRE 2000 CALLHOME的跑分中,能夠在實時語音聊天應用中將線上分割聚類錯誤率(EDR)降低至7.6%。而谷歌此前在GitHub上開源的方式EDR為8.8%。谷歌研究人員的新方法就是通過遞迴神經網路(RNN)模擬說話者的輸入(例如用數字方法表示說話者的單詞和短語),這種機器學習模型型別能夠使用內部狀態來處理輸入序列。