谷歌開源分散式機器學習庫GPipe，用於擴充套件深度神經網路培訓

神經網路分散式系統開源 · 發表 2019-03-06 11:02:02

摘要：谷歌人工智慧研究團隊昨天宣佈開源GPipe，這是一個分散式機器學習庫，用於在Lingvo框架下有效地訓練大規模深度神經網路模型。 GPipe利用同步隨機梯度下降和管道並行性進行訓練。它將網路層劃分為加速器和流水線執行，以實現高硬體利用率。 GPipe還允許研究人員輕鬆部署加速器以訓練更大的...

谷歌人工智慧研究團隊昨天宣佈開源GPipe，這是一個分散式機器學習庫，用於在Lingvo框架下有效地訓練大規模深度神經網路模型。

GPipe利用同步隨機梯度下降和管道並行性進行訓練。它將網路層劃分為加速器和流水線執行，以實現高硬體利用率。 GPipe還允許研究人員輕鬆部署加速器以訓練更大的模型並在不調整超引數的情況下擴充套件效能。

去年12月，谷歌人工智慧研究人員還發表了一篇題為“ GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism ”的論文。在本文中，研究人員展示了使用管道並行性來擴充套件深度神經網路以克服當前加速器的記憶體限制。讓我們來看看GPipe的主要亮點。

GPipe有助於最大限度地提高記憶體和效率

GPipe有助於最大化模型引數的記憶體分配。研究人員對雲TPUv2進行了實驗。這些雲TPUv2中的每一個都包含8個加速器核心和64 GB記憶體（每個加速器8 GB）。通常，沒有GPipe，由於記憶體限制，單個加速器能夠訓練多達8200萬個模型引數，但是，GPipe能夠在單個加速器上將立即啟用記憶體從6.26 GB降低到3.46GB。

研究人員還測量了GPipe對AmoebaNet-D模型吞吐量的影響，以測試其效率。研究人員發現，訓練中幾乎有線性加速。 GPipe還使用11x的加速速度在1024個令牌句子上啟用了80億個引數Transformer語言模型。

研究人員使用GPipe驗證了擴大現有神經網路的假設可以幫助實現更好的模型質量。對於該實驗，在ImageNet ILSVRC-2012資料集上訓練具有5.57百萬個模型引數和輸入影象尺寸為480×480的AmoebaNet-B。研究人員觀察到該模型能夠在不使用任何外部資料的情況下達到84.3％的前1/97％前5種單作物驗證準確度。

研究人員還在CIFAR10和CIFAR100資料集上進行了轉移學習實驗，他們觀察到巨型模型將最佳公佈的CIFAR-10精度提高到99％，將CIFAR-100精度提高到91.3％。

研究人員說：“我們很高興為更廣泛的研究界提供GPipe，並希望它是有效培訓大規模DNN的有用基礎設施”。

有關更多資訊，請檢視官方 GPipe部落格文章。

論文PDF可以到Linux公社資源站下載：

------------------------------------------分割線------------------------------------------

免費下載地址在 http://linux.linuxidc.com/

使用者名稱與密碼都是 www.linuxidc.com

具體下載目錄在/2019年資料/3月/6日/谷歌開源分散式機器學習庫GPipe，用於擴充套件深度神經網路培訓/

下載方法見 http://www.linuxidc.com/Linux/2013-07/87684.htm

------------------------------------------分割線------------------------------------------

Linux公社的RSS地址： https://www.linuxidc.com/rssFeed.aspx

本文永久更新連結地址： https://www.linuxidc.com/Linux/2019-03/157312.htm

谷歌開源分散式機器學習庫GPipe，用於擴充套件深度神經網路培訓

GPipe有助於最大限度地提高記憶體和效率

論文PDF可以到Linux公社資源站下載：

您可能也會喜歡…