AI最前線:語音識別世界紀錄再次被重新整理
10月 29日,雲從科技宣佈在語音識別技術上取得重大突破,在全球最大的開源語音識別資料集Librispeech上重新整理了世界紀錄,錯詞率(Worderrorrate,WER)降到了2.97%,將Librispeech的WER指標提升了25%,超過阿里、百度、約翰霍普金斯大學等企業及高校,大幅重新整理原先記錄。
此次突破標誌著雲從科技在今年4月重新整理跨鏡追蹤技術(ReID)三項世界紀錄後在新領域再次取得重大成果,正全力夯實核心技術閉環。
雲從科技此次推出的語音識別模型Pyramidal-FSMN融合影象識別與語音識別的優勢,將殘差卷積網路和金字塔記憶模組的序列記憶網路相結合, 能夠同時有效的提取空間和時間上不同粒度的資訊,對比目前業界使用最為廣泛的LSTM模型,訓練速度更快、識別準確率更高。
Librispeech是當前衡量語音識別技術的最權威主流的開源資料集,錯詞率(Worderrorrate,WER)是衡量語音識別技術水平的核心指標。
宣告:本文來自億歐,版權歸作者所有。文章內容僅代表作者獨立觀點,不代表安全內參立場,轉載目的在於傳遞更多資訊。如需轉載,請聯絡原作者獲取授權。