Power 9帶來的高維度打擊:浪潮揭祕「全球最強 AI 伺服器」
今年 6 月,美國橡樹嶺國家實驗室的「Summit」超級計算機成為全球超算 500 強第一名。在這臺強大的計算機內部,是來自 IBM 全新的 Power 9 CPU、英偉達 Volta GPU 以及 NVLink 高速互聯技術。今年 9 月 14 日,浪潮商用機器推出的全新 OpenPOWER 伺服器中,這些技術走出了實驗室,將為各家科技公司帶來人工智慧計算的強大動力。
號稱「為 AI 運算設計」的 Power 9 會對伺服器市場帶來多大的衝擊?近日,機器之心來到了浪潮商用機器公司,與浪潮的工程師們聊了聊,深入瞭解了全新晶片架構,以及新伺服器的強大效能。
浪潮表示,這款被稱為「全球最強 AI 伺服器」的新產品,其強大之處在於:
-
採用了「最卓越 CPU+最強悍 GPU」Power 9 與 Tesla V100 的組合
-
首發支援 PCIe 4.0 傳輸技術
-
最簡潔,最有特色的 AI/HPC 專用架構
-
帶來 PowerAI 深度學習框架,已為企業應用部署做好準備
架構帶來的高維度優勢
與市面上大部分 x86 計算機不同,Power9 架構採用了特有的硬體架構。2013 年,IBM 發起了 OpenPOWER 計劃,致力於推動高度可擴充套件性和計算加速效能。去年 12 月,IBM 推出了新一代 Power9 處理器,其強大的效能引起了業內的廣泛關注。目前,谷歌、阿里巴巴、騰訊和大華等科技公司都成為了 Power 9 伺服器的合作伙伴,正在測試和應用搭載 Power 9 的系統。
IBM 的 Power 與 Intel Xeon、AMD EPYC 是目前伺服器市場上的三種主要處理器型別。
「OpenPOWER 一方面包含處理器,它開放了授權,允許合作伙伴共同開發處理器效能。」OpenPOWER 伺服器產品經理張峰介紹道,「Power 架構面向很多新興應用負載進行了大量轉型。同時,它也採用了最先進的技術,率先提供了原生 PCIe4.0 的支援。」
作為新伺服器帶來的重要優勢,PCIe 4.0 相對於上一個版本(PCIe 3.0),延遲可降低 30%,頻寬則多了一倍。而對於目前被大量使用的 x86 架構來說,我們可能要等到 2020 年才能看到對於 PCIe 4 的支援。
在 CPU 方面,Power 9 目前提供三種型號的處理器:其中 Sforza 對標 x86 平臺的英特爾 Skylake 處理器,面向雲端計算和大資料中心;Lagrange 則面向企業級商業計算;最後是 Monza,面向高效能運算、人工智慧計算,其中也包含了對於 NVlink2.0 的支援。
浪潮商用機器最近推出的 AI 伺服器 FP5295G2 採用了 Monza 處理器,幷包含了 4 塊 由 NVlink 2.0 連線的 英偉達 Tesla V100 計算卡。它被認為是「企業級 AI 計算的最佳平臺」,浪潮稱,其採用了最卓越 CPU 和最強悍的 GPU 的組合。
技術人員表示,在全新伺服器的 Power9 架構中,系統提供了 4 條 xBus 互聯 CPU,可實現 64GB/s 的傳輸速度、兩倍於 x86 平臺的執行緒數量和 NVLink 2.0 原生連線。FP5295G2 也是首個開放記憶體地址空間的產品:這意味著 CPU 和 GPU 的記憶體空間可以相互訪問,可以讓開發階段的程式設計更加迅捷。
體系結構是 FP5295G2 超越 x86 伺服器的最大優勢。在浪潮的實驗室中,開發人員用新伺服器和英偉達 DGX-1 做了對比,由於拓撲結構更加簡潔,浪潮 FP5295 的 Power 架構相對於 x86 架構僅在 NVLink 速度上就有 4 倍的頻寬提升。
浪潮認為,FP5295G2 相對於目前市場上的 x86 伺服器,具有體系結構維度上的優勢。
對於 Power9 架構而言,Summit 就是目前最大的應用案例,它應用了 4600 多 個伺服器節點(其形式和 FP5295G2 相同),可實現每秒 20 億億的計算。
深度學習框架
在強大的計算效能之上,Power 架構對於企業級 AI 應用的開發和部署提供了完整的支援,其整合深度學習框架被稱為 PowerAI。
針對所有 Power 架構伺服器,浪潮和 IBM 都會提供免費的 PowerAI Base 工具包,其中包括對於 TensorFlow、Caffe、PyTorch、Chariner 等最流行的深度學習框架支援。其中,DDL 部分免費,而 Large Model Support(LMS)則完全免費。浪潮稱,今年晚些時候,這些工具都將完全開源,以供更多使用者使用。
針對企業客戶資源分配、監管等需求,浪潮還提供了 PowerAI Enterprise,這是一種面向企業級使用者的完整解決方案。其可對任務執行狀態進行視覺化監控,並有效進行排程。其中的深度學習工具包可支援使用者對深度學習業務的全流程上進行部署:從資料準備到訓練,最後到推斷和模型上線。
此外還有 PowerAI Vision,這是一種面向計算機視覺的解決方案。支援快速標籤、模型訓練到部署這一計算機視覺完整流程。
在 Power 9 架構上,Large Model Support 可以有效提高模型部署效率的功能。它能夠讓顯示卡有效利用視訊記憶體之外的計算機記憶體,以適應超大深度學習模型,節省訓練時間。結合 GPU 上的 NVLink,Power 伺服器在模型訓練時相比 x86 架構可節省一半時間以上。在已有案例中,這種架構已經顯著提升了醫療影像、3D 建模等任務中的處理速度。
浪潮的新伺服器在並行化方面也佔優勢。在高頻寬架構的幫助下,新伺服器的並行加速比可達 95%,這意味著多個節點並聯時,其計算效率幾乎保持線性提升,這一數字超過了 facebook 此前達成的 89.6%,成為了世界上最快的並行架構。
對比基於至強 E5-2640 的伺服器,浪潮伺服器在 Chainer 模型上的執行速度快 3.7 倍,Caffe 模型上速度快 3.8 倍(利用了 Large Model Support),TensorFlow 模型的執行速度則提升了 2.3 倍。
「針對目前業內出現的一機 8 GPU 的 x86 伺服器,我們也進行了效能對比,發現 4GPU 的 Power 伺服器比 8GPU 的 x86 伺服器還要快。這體現了 Power 架構在並行化方面的巨大優勢。」浪潮商用機器技術工程師孫建介紹道。
Power 架構的未來
儘管 IBM 在高效能運算領域有著很多成就,但目前其主推的 Power 架構仍不是伺服器市場上的主流。近幾年來由深度學習引發的 AI 潮流或許能為這一架構帶來新的機會。
「五年前隨著雲端計算、大資料和人工智慧的崛起,人們發現計算不再是為資料庫進行單一服務的工具了。除了傳統應用場景以外,人們還需要更多的計算資源,和更多的專有優化。」張峰表示。
面向大資料,人們需要更大的儲存和資料吞吐量,應用場景的遷移變革了體系結構及支撐平臺。Power 架構也針對這些需求做出了自己的轉型,Power 9 就是 IBM 努力的最新結果。
浪潮商用機器正面向 AI 科技公司提供個性化的產品。9 月 10 日,這家公司與第四正規化聯合釋出了 AI 軟硬體一體機產品「Prophet AIO」,這是首個針對超大規模資料探勘與機器學習計算問題所推出的 AI 一體機產品。第四正規化稱,在同等成本的情況下,基於 Power 架構的 Prophet AIO 整體效能較普通伺服器可提升 10 倍以上。
浪潮商用機器由浪潮和 IBM 於今年 5 月聯合成立,目前已有近 200 人的研發團隊規模。據悉,浪潮商用機器正在參與下一代 Power10 架構的設計(預計會於 2020 年推出),並在 2019 年推出採用 power9+ CPU 的伺服器。在未來,浪潮商用機器的設計將為全球提供服務。
相信在未來的伺服器市場中,浪潮的 Power 架構伺服器必將佔據一席之地。
ofollow,noindex" target="_blank">產業 浪潮 IBM 英偉達