英偉達宣佈Tesla T4 GPU新品:基於圖靈架構 加速AI運算
英偉達剛剛釋出了一款專為 AI 推理工作而設計的顯示卡,它就是可以加速語音、視訊、搜尋引擎、影象神經網路的 Tesla T4 。在這之前,英偉達曾推出過類似的 Tesla P4 。但新品可在相同的功耗下,提供高達 12 倍的效能,設立了推理負載效能的新標準。Tesla T4 擁有 320 個圖靈張量(TURring Tensor)核心 + 2560 個 CUDA 核心。
它在 TU104 晶片的基礎上,啟用了 40 組著色器(SM),功率優化到了 75W(從而無需 PCIe 外接供電)。視訊記憶體為 16GB GDDR6,頻寬 320GB/s 。
GPU 支援混合精度,例如 FP32、FP16、已 INT8 。此外 Tesla T4 還支援 INT4 和實驗性的 INT1 精度模式,較其前身有顯著的進步。
與前代產品一樣,Tesla T4 的功耗相當低調, 伺服器 PCIe 插槽的標準供電(75W)已經足夠,無需外接 6-pin 。散熱方面,它也無需加裝主動式的風扇(伺服器典型的內風道設計已經足夠)。
英偉達透露,與桌面型號一樣,Tesla T4 也配備了 RT 核心,很適合光線追蹤或 VDI(虛擬桌面基礎架構)。但這也意味著,該卡並不會用於大多數的推理工作負載。
Tesla 還擁有針對 AI 視訊 應用的優化特性,由硬體轉碼引擎提供動力,提供兩倍於 Tesla P4 的效能。Nvidia 表示,這些計算卡可以同時解碼多達 38 路全高清視訊流。
此外,英偉達提供了圍繞 T4 的一系列技術,比如 TensorRT Hyperscale 平臺擴充套件。該卡支援所有主要的深度學習框架,比如 PyTorch、TensorFlow、MXNet、以及 Caffee2 。
另外,Nvidia 提供了 TensorFlow RT5,這是該公司深度學習推理優化器和執行時(Runtime)引擎的新版本,支援圖靈張量核心與多精度工作負載。
Nvidia 還宣佈了針對圖靈做出優化的 CUDA 10,其中包含了優化的庫、程式設計模型、以及圖形 API 的互操作性;以及基於 Xavier 的產品系列新名稱(AGX 陣容),其專為從機器人、到自動駕駛汽車的自動機器系統而設計。
產品陣容包括 Drive Xavier 和新推出的 Drive Pegasus,首批為兩款 Xavier Win10G_na" target="_blank" rel="nofollow,noindex">處理器 、以及兩款 Tesla V100 GPU 。Nvidia 現已將 GPU 更新為基於圖靈架構的型號,另外還提供了類似的、面向醫療應用的 Clara 設計平臺(採用了單一的 Xavier 處理器 + 圖靈 GPU 的組合)。
Nvidia 專注於提升推理工作負載的效能,這也是該公司的一項戰略舉措。該公司預計,市場會在未來五年增長至 200 億美元。同時, 英特爾 聲稱世界上大多數的推理工作負載,仍執行在基於至強處理器的平臺上。
鑑於英特爾在全球伺服器市場擁有決定壟斷的地位(約 96%),這種說法是相當可信的。
在最近以資料為中心的創新峰會上,該公司宣佈在 2017 年為 AI 工作負載銷售了 10 億美元的處理器。預計未來幾年,該數字還會迅速增長。
顯然,推理工作負載將成為英偉達、英特爾、AMD 多家爭奪的熱門市場。英特爾憑藉的,是其在伺服器市場的先發優勢。而低成本、低功耗的推理加速器(比如 Tesla T4),將對其發起每瓦特效能的巨大挑戰。
據悉,AMD 即將推出用於深度學習的 7nm Radeon Instinct GPU,谷歌也在積極 開發 自研的定製晶片(比如 TPU)。未來幾年,我們或許能見證該領域的最終獲勝者。
[編譯自: Tom's Hardware ]