英特爾超異構計算願景,實現新“超越”
本文轉載自愛集微
正如約翰·齊曼(J.Ziman)所言:“不同規模、不同層次的各種技術形成相互共生、寄生與競爭的生態關係,使得任何技術的生存與發展不是孤立的事件”。晶片架構的革命也隨著IC業浪潮的演進“合成”向前,從32位到64位,從單核到多核,從同構到異構,每一次架構革命都讓晶片產生質的飛躍。而在智慧互聯的AIoT時代,異構計算晶片成為當仁不讓的主角。
畢竟,在經歷了“數字化、網際網路化、移動網際網路化”的洗禮之後,“人工智慧化”時代的海量計算需求、演算法迭代讓傳統的通用CPU“難堪重任”,應運而生的異構計算晶片“晉級”成為支撐先進和更復雜AIoT應用的必然選擇。作為一種將不同指令集和架構的計算單元(如傳統的CPU、GPU、DSP還有創新的TPU、DLA等)融合在一起、實現高效協同執行的計算技術,業界有人認為,將傳統架構的晶片比作汽油引擎的話,那麼異構計算晶片就是混合動力甚至新能源引擎。
整裝待發
不論是什麼樣的技術路線圖,都必須在關鍵時間節點上更新。而這一“引擎”的橫空出世”其實是市場與技術相互碰撞的結果。
異構計算的顯著優勢在於實現了效能、成本和功耗均衡的技術,同時也是讓最適合的專用硬體去做最適合的事如密集計算或外設管理等,從而達到效能和成本的最優化。這樣“各成其就”的異構晶片,理所當然自帶光芒。
英特爾中國研究院院長宋繼強在上週的英特爾媒體分享會上表示,異構計算不是一個新詞,其實上世紀80年代就有了,即超過一種以上的硬體架構設計組合。而這種組合有兩種形式,比如將CPU、GPU、FPGA等組成一個一體化設計的SoC,將達到最高的能效比,但需要量大面廣,才值得投入;另一種是這些獨立的晶片通過板級連線實現異構計算,其優勢在於靈活,但板與板之間連線的功耗、頻寬都大打折扣。
與之相呼應的是,近幾年來不僅眾多IP廠商在加強異構晶片IP研發,主流晶片廠商也均加大新一代異構晶片的出新頻率,異構晶片開始大行其道,或將迎來新的爆發期。有預計說,在高效能運算、人工智慧等應用領域,異構計算晶片市場規模將突破千億美元。
這一風向標對產業帶來的影響或是全方位的,一方面眾多晶片廠商加強橫向擴充套件,運用資本力量大肆整合全面出擊,構築異構晶片領域的護城河;另一方面,異構陣營涇渭分明,各大廠商合縱連橫,同時一些新生力量亦角逐其中,有望改寫產業未來格局。
軟硬體挑戰
異構計算雖不是全新的概念,但最早的異構融合還基於CPU和GPU,而真正崛起要從2001年用GPU實現通用矩陣計算開始。而且,其“外延”已延伸至CPU、DSP、GPU、ASIC、FPGA等各種計算單元、使用不同型別指令集、不同體系架構的“整合”,讓各種核心有效地協同合作。
顯然,這激起了“連鎖”反應,由於設計難度大、生態系統需重構等挑戰,在過去很長一段時間仍處在不斷演進當中。畢竟從程式設計方式、軟硬體架構到生態系統,異構計算仍面臨著諸多挑戰。
其硬體實現就不簡單。首先,不同晶片之間的互聯佈線,要求效能高、速度快,同時功耗要低。其次,要通過混搭方式,將不同種類的、不同技術的晶片封裝在一起,支援互聯,保持高頻寬和高頻率,分外複雜。最後,選擇大批量生產的工藝,快速驗證等等,決定了在硬體上從選擇用什麼樣的基底,到用什麼材料實現互聯,都需通盤和全面考量。
為了讓異構計算髮揮最大效能優勢,還需要對硬體設計特定的演算法以及軟體優化,才能夠最大化硬體能力,即軟硬結合。做到真正的軟硬結合,軟體環境的優化亦是重中之重,如何打造完善的軟硬體體系,讓“眾選手”各展所長、協同合作,並進而提供良好的生態體系,來支撐異構計算體系的全面應用亦是一大挑戰。
可以說,無論是匯流排及介面、程式設計工具、儲存管理、應用軟體技術等,在諸如異構多核架構指令集、微架構、工具鏈設計等環節仍需投入大量資金和時間。
三大陣營的心機
顯然作為新AI時代的“利器”,異構計算將重塑產業格局,各方勢力各藏心機,激烈角逐。
目前,全球異構計算領域呈現三足鼎立的態勢,分別是以AMD、高通、ARM、三星、北京華夏芯等為主體的全球異構計算系統HSA聯盟,以IBM、Google、英偉達為主體的OpenPOWER聯盟和英特爾最新提出的超異構計算願景。
這三大體系均在全力推進:HSA聯盟強調生態共建,資源共享,主推OpenCL的異構程式設計框架。自從2012年成立以來,圍繞異構計算髮展中最迫切需要解決的程式語言、技術標準、智慧財產權等問題已經做了大量卓有成效的工作,包括髮布了新一代異構計算技術規範、搭建開放的異構計算平臺、推出了一系列專用工具和較為完善的面向人工智慧的開發環境等等。
而AMD 3A平臺、ARM Coretex處理器和Mali圖形核心、Imagination PowerVR圖形核心、德州儀器OMAP處理器平臺等都將成為HSA基金會的基石。
而OpenPower聯盟利用Power8等晶片在高效能運算領域的技術優勢和IBM產品的應用生態基礎,在高效能運算領域佔有優勢。自2013年IBM在聯合Google、NVIDIA、TYAN、Mellanox成立以來,目前已有數百位成員,中國成員除了浪潮、新雲東方等硬體供應商外,也有騰訊、阿里、網易這樣的網際網路巨頭。據悉在OpenPower研發平臺上,已有10萬+應用,以及10萬+經過行業認證的產品,包括軟體、服務管理和解決方案。特別是其基於CAPI匯流排的全新加速器解決方案,使Power伺服器完全支援CAPI+FPGA,開啟了第二代異構計算。
雖然英特爾在以一已之力對抗,但在英特爾轉型制定了“以資料為中心”的發展戰略之後,一切創新與變革都以此為軸心。而在AI時代風起雲湧之際,“全武行”的英特爾也祭出了“超異構計算”的旗幟,在異構計算技術路徑發展方面已然自成一派。
超異構計算的“超”
超異構計算的橫空出世,緣於英特爾對資料洪流引發的變革,有了更加“系統”的思考,認為在智慧聯所帶來的資料洪流推動下,為應對未來資料的多樣化、資料量的爆發式增長以及處理方式的多樣性,單純發展先進工藝或封裝或架構改善已不足以滿足未來多元化的計算需求。
以AI為例,產業應用對AI計算需求躍升至“無所不能”,涉及多種計算加速、可擴充套件性、訓練速度快、能效比高、開發難度小、可加快上市等,在這一發展態勢下,傳統的異構計算將失去“用武之地”。宋繼強解釋說,一體化的SoC雖然體積小、能效比高,但擴充套件性差,增加功能則需重新設計,再走一整套流片流程,上市時間較慢;而分體式板卡雖然比較靈活,時間也快,但整體價格偏高,能效比也不高。
正所謂不破不立,超異構計算成為解決“左右為難”的利器。宋繼強解讀超異構計算的三大要素時認為,一是有多種架構、多功能晶片,無論是CPU/GPU,還是FPGA、ASIC、Modem記憶體等;二是需要多節點+先進封裝技術的整合,不論是10nm的高階晶片還是40nm、65nm的晶片都能通過2.5D或3D封裝“成全”;在“硬”功能實現之後,三是統一的異構計算軟體,英特爾開發了通用的one API,一套API就可讓使用者方便地開發並承接超異構整合帶來的利好。
超異構計算將以製程與封裝、架構、記憶體與儲存、互連、安全、軟體為六大支柱,互相關聯,緊密耦合。
具體來看,在製程和封裝層面,一方面英特爾10納米工藝仍繼續推動著發展,另一方面先進封裝2.5D、3D成為推手。兩年前英特爾開發的“嵌入式多晶片互連橋接(EMIB)”2.5D封裝技術,成為其異構計算策略的一大關鍵技術。而英特爾不斷精進,在去年年底架構日活動上展示了名為“Foveros”的3D封裝技術,開闢了新的先河。2.5D和3D封裝解決了傳統封裝面積大、頻寬不足等問題,並可讓連線的晶片不只是邏輯晶片和記憶體,還能把邏輯晶片和邏輯晶片相連,同時實現立體堆疊,讓體積減少、功耗降低、頻寬提升。
而隨著海量的資料推動計算架構快速演進並呈指數級擴充套件,未來十年架構創新將是創新的主要驅動力。英特爾可提供多樣化的計算架構包括標量(Scalar)、向量(Vector)、矩陣(Matrix)和空間(Spatial),分別應用於CPU、GPU、AI和FPGA。
而英特爾的矩陣戰略實現了“端到端”。英特爾有通用CPU整合AI加速,可將深度學習效能提升十倍以上。在專用AI晶片方面,有面向訓練的高效能GPU和專門做神經網路加速學習的NNP-L;推理側也是兩路併發,面向邊緣端的推理晶片要求功耗更低、效能更強,英特爾有VPU、EYEQ以及嵌入式EYEQ、FPGA等;而資料中心推理的晶片則有GPU、FPGA。如此通過將製程封裝和架構設計組合在一起,來有效提升“積木式組合”的穩定度,滿足定製化和靈活化的需求。
而在記憶體與儲存、互連、安全、軟體層面,英特爾也齊頭並進。通過重塑記憶體層級結構,來破解記憶體和儲存方面的頻寬“瓶頸”,提升資料管道的執行速度和系統性能;全面的互連產品包括在祼片間實現互連,從而助力實現大規模的異構計算;在安全至上的資料層面,英特爾著力從端到端全面提升安全性。同時英特爾也深諳“硬體+軟體”配合才能給出最好的加速功能,在軟體方面建立了統一的OneAPI軟體架構,以進一步簡化並延伸整個堆疊中的應用開發。
這六大支柱也相當於“六大護法”:以先進製程技術進行設計,顛覆性記憶體層次結構提供支援,通進先進封裝整合到系統中,使高速的互連技術進行超大規模部署,提供統一的軟體開發介面以及安全功能。
有了“六大護法”加持,一路狂飆的英特爾釋放了超異構計算的最大優勢,既可靈活地運用各節點晶片的功能,又解決了記憶體、連線、功耗以及安全、開發等問題,這些創舉遠遠跳出了以往單純異構計算的“窠臼”,將為異構計算的下一步發展全面“加速”,亦讓“自成體系”英特爾站在了異構計算的“超”起點。
未來對決
萬物智聯時代作為解決計算能力和功耗瓶頸的有效途徑之一,異構計算如今可謂正逢其時。
就異構計算的發展過程來看,異構計算從單純挖掘並行潛力、到具有加速器的異構計算、再到針對特定應用定製的計算平臺、到多種平臺的高效融合,在這一過程中,異構計算的演進也伴隨著起伏。
而無論誰是異構晶片的“軸心”,首要的仍是封裝的“不破不立”。不得不說,英特爾超異構計算的概念,配合製程與封裝、架構、記憶體、互連、安全、軟體“六脈神劍”,在伴隨著異構計算的“新陳代謝”和發展模式的過程中,破解了總是如影隨形的關聯制約性,可謂意義重大,使得晶片設計從2D平鋪轉向3D堆疊,為高效能、高密度和低功耗異構晶片製程奠定了堅實的基礎,亦為IC業的發展和突破打開了一扇新的大門,提供了更廣泛的靈活性和可塑性。
毫無疑問,在傳統晶片架構向異構計算演進、軟硬體生態面臨顛覆性變革之際,各大陣營的開放、眾創、共贏的異構生態體系,將成為異構計算晶片對決的重要衡量。異構計算已走到臺前,未來是百家爭鳴還是一家獨大?讓我們等待好戲開場。
本文僅代表媒體觀點