語音識別訓練時間由7天降至11.5小時,IBM提出分散式深度學習技術
可靠、穩健、可泛化的 語音識別 是機器學習領域一個持續的挑戰。通常,訓練自然語言理解模型需要包含數千小時語音和數百萬(甚至數十億)單詞文字的語料庫,以及能夠在合理時間內處理這些資料的強大硬體。
為了減輕計算負擔,IBM在其新發布的論文《Distributed Deep Learning Strategies for Automatic Speech Recognition》中提出了一種分散式處理架構,該架構在流行的開源基準Switchboard 上實現了以往 15 倍的訓練速度,而沒有損失準確率。論文作者表示,在包含多個顯示卡的系統上部署該架構,它能夠將總的訓練時間從幾周縮短為幾天。
該論文計劃在下個月的 IEEE 國際聲學、語音與訊號處理會議(ICASSP)上發表。
論文作者 Wei Zhang、Xiaodong Cui 和 Brian Kingsbury 在即將發表的部落格中解釋稱:訓練類似蘋果的 Siri、谷歌助手、亞馬遜的 Alexa 這樣的自動語音識別系統需要複雜的編碼系統來將語音轉化為深度學習系統能夠理解的特徵,以及相應的解碼系統來將輸出轉化為人類可讀的文字。而模型也往往更大,導致大規模訓練變得更加困難。
該團隊的並行解決方案需要增加批量或可以一次性處理的樣本數量,但需要加以區分,這將會對準確率產生負面影響。相反,他們使用「原則性方法」將批量增加至 2560,同時應用了稱為非同步分散並行隨機梯度下降(ADPSGD)的分散式深度學習技術。
據研究人員解釋,大多數深度學習模型要麼採用同步方法(受慢系統影響較大),要麼採用基於引數伺服器(PS)的非同步方法(往往生成不太準確的模型)進行優化。相比之下,IBM在去年一篇論文中首次詳細說明的 ADPSGD 是非同步和分散的,保證模型準確率處於基線水平,併為某些型別的模型優化提供加速。
在測試中,論文作者稱 ADPSGD 將 ASR 工作執行時間從單個 V100 GPU 上的一週縮短至 32-GPU 系統上的 11.5 小時。他們希望未來的工作演算法和系統可以處理更大的批量以及優化更強大的硬體。
Zhang、Cui 和 Kingsbury 寫道:「在半天內完成一項訓練是比較理想的,因為這樣能讓研究人員快速迭代開發新的演算法。同時還使得開發人員可以快速週轉時間,讓現有模型適應他們的應用程式,尤其適用於那些需要大量語音來實現魯棒性和可用性所需的高準確率的定製用例。」
原文連結: https: //venturebeat.com/2019/04/10/new-ibm-technique-cuts-ai-speech-recognition-training-time-from-a-week-to-11-hours/