SC2018大會:中國揭祕下一代超算,清華摘得競賽總冠軍
全球超級計算大會(Supercomputing Conference,簡稱 SC)是國際超算領域的頂級會議,國際影響力巨大。在這次大會上,清華大學的團隊還獲得了國際大學生超級計算機競賽(SC18)的總冠軍。
揭祕中國未來超算系統
中國建設超級計算機的核心是,依賴自主技術——從處理器和加速器到互連和軟體,而不是求助於國外的供應商。這也是我國領導人的努力和決心,他們旨在將中國的重要產業(包括技術)發展到可以與全球其它國家匹敵的程度。
神威·太湖之光超級計算機就是這種努力之下的成果。該計算機是一個龐大的系統,在全球使用 Linpack基準的 500 強系統中名列前茅。神威·太湖之光超級計算機安裝了 40960 箇中國自主研發的「申威 26010」眾核處理器,該眾核處理器採用 64 位自主申威指令系統,峰值效能為 12.5 億億次/秒,持續效能為 9.3 億億次/秒。
但隨著國家向超級計算機系統邁進,研究這項技術的工程師們不得不權衡以下因素:系統將被如何使用,開發各種元件的預算是多少。而其對自主技術的依賴給自身帶來了挑戰,包括開發一個生態系統來支援研發,錢德沛在本週達拉斯 SC18 超級計算機大會上表示。
關於美國和中國在超級計算機和 HPC 領域持續競爭的這種討論,在國際超級計算大會和全球超級計算大會上屢見不鮮。即使在最新版的 500 強名單中,不僅有人關注 Lawrence Livermore 國家實驗室的 IBM 超級計算機擠入第二名,而太湖之光掉到第三名;還有很多人關注的是中國超級計算機數量在 500 強系統中的份額增長到了 277,佔 45%,而美國下降到 109,佔 22%。然而,美國的系統平均水平更加強大,因此其效能佔總效能的 38%,而中國佔 31%。
這種競爭不僅僅關乎民族驕傲。在超級計算機、HPC,尤其是超級計算(執行越來越複雜的 HPC 工作負載——包括大資料分析和人工智慧都需要這種計算)中佔領導地位的國家,將在科學研究、軍事、醫療保健和經濟等領域都佔有絕對優勢。雖然歐盟和日本都在積極推行其擴充套件計劃,但眾所周知,美國和中國正在爭奪第一。
演講時,錢教授告訴與會者,自 2002 年以來,中國一直將高效能運算作為一個重點,現在已經開始努力構建超算系統。
錢教授說:「自 20 世紀 90 年代初以來,HPC 就被確定為中國發展的優先領域之一,在過去的 15 年中,我們就已經實現了三個關鍵專案。這對於一個國家而言是非同尋常的,因為要在國家高效能計劃下連續支援一個領域的關鍵專案非常難。這也反映了高效能計劃的重要性,該專案的結果是催生了一些千兆級的計算機器。」
其中最著名的就是太湖之光和天河 2 號,其中天河 2 號在 2013 年上線,並且在兩年前被太湖之光打敗,之前一直處於 Top500 的第一。作為掛架超算的基礎設施,中國國家電網現在提供超過 200 PFLOP 的共享計算力和 160PB 的共享儲存,它為 400 多個應用和服務提供計算支援,服務於 1900 多個使用者團體。目前中國國家電網包含兩個主站、6 個超算中心、10 個一般站點和一個運營中心。
現在我國正在建立一個百萬兆級的系統,它基於構建的三種原型系統:曙光、天河和神威。曙光將使用傳統技術,例如 x86 處理器和中國晶片製造商 Hygon 製造的加速器,它會使用多級互聯的設計和沉浸式的散熱方案,這可以去除對風扇的需求。天河原型將使用新型 16 奈米的 MT-2000+多核處理器(from Matrix),這是一個 3D 蝶形網路,整個系統最多有 4 個 Hop。
神威原型機將使用 SW26010 晶片,這是一種由自研網路晶片驅動的高頻寬和高吞吐量網路,它還會使用帶有增強型銅質冷卻板的水冷系統。一個節點將包含 2 個處理器和四路 DDR4 記憶體,而一個超節點將包含 256 個節點和全部 256-x-256 的連線。
錢教授表示,需要面對的挑戰包括能耗、應用效能、程式設計能力及恢復力。
「能效是該專案最具挑戰性的部分,」他說,「如果沒有這個限制,建立超大規模系統就會簡單得多。那麼我們該如何平衡能耗、效能和程式設計能力?如何在保持高應用能力的同時支援大範圍應用程式?如何提高長期、不間斷的應用恢復力呢?」
工程師們正在權衡一些問題,如究竟要建立一個多樣的加速系統還是一個可以利用多核結構的系統。他們著眼於一種包含 DRAM 和不易變記憶體(NVM)的混合記憶體,將記憶體放在更靠近處理器的地方。他們還考慮了一種光學互連,通過縮小它的尺寸將其置於更加靠近晶片的位置。就計算機而言,問題是使用專用處理器還是通用處理器。
「超算的應用非常少,所以我們有必要使用一個非常高效的專用架構來支援這些應用嗎?」他提出了這樣一個問題。「另一方面,中國的機器將安裝在通用計算中心,因此不可能只支援少量應用。我們的解決方案是通用與專用相結合。」
中國在系統本身之外也做了一些工作,如升級國家電網,為使用者建立一個包含入口網站的服務環境,將站點增加到 19 個並提高頻寬。中國正在建立一個應用開發平臺和另一個平臺,用來促進 HPC 教育、增加人才儲備及為其超算系統建立一個應用生態系統。
「由於未來的超算系統將與我國自主研發的處理器一同部署,該生態系統已經成為一個非常關鍵的問題,」錢教授表示。「我們需要庫、編譯器、作業系統、支援新處理器的執行時,還需要一些二進位制動態轉換來執行商業軟體。我們需要這些工具來提高效能和能源效率,此外,我們還需要應用開發支援。這是個長期工作。我們需要與業界和終端使用者通力合作。」
清華學生超算競賽團隊實現「大滿貫」
SC2018 上另一個引人注目的話題是競賽,11 月 15 日,2018 國際大學生超級計算機競賽在大會中落下帷幕,來自清華大學計算機系超算團隊摘得了總冠軍。
至此,在 2018 年三大國際大學生超算競賽 ASC、ISC 和 SC 中,清華大學超算團隊包攬了全部三項競賽的冠軍,實現了繼 2015 年後的又一次「大滿貫」,這也是清華超算隊伍在三大國際超算競賽中累計獲得的第 11 項冠軍。
頒獎現場
據清華大學官方微信號介紹,參加本次競賽的超算團隊成員主要由計算機繫於紀平、餘欣健、何家傲、鄭立言、趙成鋼和交叉資訊院婁晨耀 6 名本科生組成,由清華高效能運算所研究生曹煥琦、馮冠宇和王邈擔任技術支援。指導教師為計算機系副教授翟季冬和博士後韓文弢。
作為 SC2018 大會的重要組成部分,本次比賽也是超級計算機領域的頂級賽事,每年都能吸引到全球各個國家和地區的眾多高校參與。本次競賽共有來自全球 15 所高校的本科大學生組隊參賽,清華大學作為唯一一所內地高校參賽。
本次比賽要求參賽隊伍在總功率 3000 瓦的限制條件下,自行搭建計算叢集並在集群系統上進行 6 個應用程式的效能對比。在 48 小時的競賽中完成超算叢集的效能基本測試 HPL 和 HPCG、大規模機器學習、核裂變鏈式反應的穩態求解與模擬、論文復現——特大地震模擬等內容。
另外,參賽隊伍還需在比賽中向評委介紹自己優化的應用和正在進行的軟體優化設計,並在 48 小時內完成一篇在國際權威雜誌具有發表能力的英文論文。
最終,清華團隊在 6 個應用上取得領先,得分 88.398 分,領先第二名新加坡南洋理工大學 11.518 分。以大比分優勢成為了今年 SC18 的總冠軍。比賽的另外一個獎項——最高 LINPACK 獎由新加坡南洋理工大學獲得。
參考內容:
https://www.nextplatform.com/2018/11/15/china-navigating-the-homegrown-waters-for-exascale/
https://mp.weixin.qq.com/s/iW_AEAE%E2%80%94pn1iuYAjltvNA