華為詳解昇騰AI晶片:自研達芬奇架構 算力和能效比大幅提升
10月10日,華為在全聯接大會2018上,首次宣佈了華為的AI戰略以及全棧解決方案。 與此同時,華為釋出了自研雲端AI晶片“昇騰(Ascend )”系列,基於達芬奇架構,首批推出7nm的昇騰910以及12nm的昇騰310。
其中,昇騰910是目前單晶片計算密度最大的晶片,計算力遠超谷歌和英偉達。昇騰910半精度(FP16)運算能力為256TFLOPS,比NVIDIA的Tesla V100要高一倍,整數精度(INT8)512TOPS,支援128通道全高清視訊解碼(H.264/265),最大功耗350W。
昇騰310晶片的最大功耗僅為8W,主打極致高效計算低功耗AI晶片。半精度(FP16)運算能力8TFLOPS,整數精度(INT8)16TOPS,支援16通道全高清視訊解碼(H.264/265)。這兩款AI晶片和大規模分散式訓練系統都將在明年第二季度推出。
日前,華為終端手機產品線總裁何剛釋出長圖,詳細介紹了昇騰310的用途以及設計細節。
何剛表示,昇騰310作為華為全棧全場景AI解決方案的關鍵部分, 是華為全面AI戰略的重要支撐。 在設計方面,突破了人工智慧晶片設計的功耗、算力等約束,實現了能效比的大幅提升。未來將為平安城市、自動駕駛、雲業務和IT智慧、智慧製造、機器人、便攜機、智慧手機、智慧手錶等應用場景提供全新的解決方案。
昇騰310採用華為自研達芬奇架構,使用了華為自研的高效靈活CISC指令集, 每個AI核心可以在1個週期內完成4096次MAC計算,集成了張量、向量、標量等多種運算單元,支援多種混合精度計算,支援訓練及推理兩種場景的資料精度運算。
統一架構可以適配多種場景, 功耗範圍從幾十毫瓦到幾百瓦,彈性多核堆疊,可在多種場景下提供最優能耗比 。
-
ofollow,noindex" target="_blank">文章糾錯