華為芮祥麟:讓麒麟980成為未來移動AI的發動機
8月底,華為釋出最新全球首款商用7nmAI晶片:麒麟980,在六個方面達到了世界第一。在9月20日的世界人工智慧峰會上,華為麒麟AI首席科學家芮祥麟發表演講,詳細介紹了麒麟980的架構設計和效能提升,指出對運算元的支援和開放是移動AI架構開發的關鍵。華為的HiAI平臺可以將硬體複雜度對使用者遮蔽,讓不懂機器學習的人也實現自己的應用。
華為於8月底重磅釋出的AI晶片麒麟980在幾個方面做到了全球第一:全球首款商用7nm手機SoC晶片;全球首款Cortex-A76 Based CPU;全球首款雙核NPU;全球首款Mali-G76 GPU;全球首款1.4Gbps Cat.21 Modem;全球首款支援2133MHz LPDDR4X的手機SoC晶片。
9月20日,在北京國家會議中心舉辦的AI World 2018 世界人工智慧峰會上,華為麒麟AI首席科學家芮祥麟博士發表了題為《麒麟980:移動AI的發動機》的演講。
芮祥麟博士詳細介紹了麒麟980晶片的設計和效能提升,以及麒麟980的融合能力開放架構中非常重要的HiAI Foundation。HiAI Foundation能力向搭載麒麟970,麒麟980的華為手機全部開放,具有強大的計算能力、多框架支援、更加豐富的運算元和更加方便快捷的整合等優勢。
在目前資料隱私保護情況下,很多事情實際上無法單獨由雲上的計算力完成,必須要在端側完成。
這是非常複雜的多目標的優化問題,存在能耗、記憶體上的限制,而且在各種場景下有不同的需求。華為的一個主要目的就是能夠在端側開發出很好的晶片,能夠將盡量多的處理能力在端側完成,在最大程度上提升使用者體驗。
以下是芮祥麟博士的演講內容:
芮祥麟:大家好,我是華為麒麟AI的首席科學家芮祥麟,很榮幸參加AI World 2018大會,跟大家一起分享一些成果。
從晶片的角度出發,我選擇的題目是《Mobile AI發動機:麒麟980》。
在現在這個時刻講這個題目,挑戰很大。一年前,華為麒麟970 AI晶片是第一個開發出來,也是第一個產品化的。過去一段時間內,各大企業在AI晶片上的投入風起雲湧,但我們相信,新一代麒麟980晶片仍然是領先群雄的。
我想先回顧一下去年推出麒麟970之後整個市場的反應,確實有質疑聲,但絕大部分都是相當正面的評價,也有一些客戶提出了比較好的建議。我們根據市場和合作夥伴的反饋,進一步對晶片進行改良和升級,就是今天給大家介紹的麒麟980。
麒麟980:六項世界第一,不同CPU配置滿足動態需求
前一段時間已經有很多媒體報道,麒麟980在幾個方面做到了世界第一:全球首款7奈米SoC晶片,全球首款基於Cortex A76 CPU定製開發,全球首款雙核NPU,全球首款商用Mali G76 GPU,全球率先支援LTE Cat.21,峰值下載速率達到1.4Gbps,全球首款可以支援LPDDR4X顆粒,最高主頻達到2133Mhz。
CPU是8核,不同大小的核適合各個不同的需求,NPU是雙核的。其他包括Modem、DDR,還有ISP,整個設計工程相當複雜,這是大批一流專家共同努力的成果。
從麒麟920開始,到950、970、980,這是一個不斷成長的過程,麒麟980集成了69億電晶體,芯片面積持續縮小,電晶體密度持續提升。這樣做是為了能夠在非常有限的面積內降低能耗,提高計算力。
在晶片方面,CPU是由兩個高效能的超大核,兩個高能效的大核,加上四個高能效的小核一起協作。在應用方面,播放音樂只需開啟CPU的小核,在社交應用場景用高能效的大核加上三個小核。進入重負載的遊戲場景,就需要八個核都要用上。
針對不同的場景,比如音樂、導航、通話或拍照,我們動員了各個不同的核,這是一個基於能耗、響應速度、記憶體應用的複雜考量,是我們的工程師優化的結果。
可以看到,全球首款7奈米SoC晶片上,在各方面都有了很大提升,相比麒麟920,電晶體密度提高了6.8倍,效能方面提高了2.5倍,能效方面提高了4倍。
以影象識別速度為例,我們比友商1、友商2提高很多,基本上可以說快了3倍。在AI效能方面,跟友商的晶片比起來,用Resnet4或Inception V3測試參考,無論能效還是效能方面都有很大的提升。計算力方面,我們用三個場景來進行比較,物體識別、實時影象處理,實時分割。
麒麟970可以做輪廓、圖片以及一些粗略的分割,但是在麒麟980可以做得更細緻,對整個姿態、形狀、細節能夠做到很好的視訊處理,在分割方面也更精準。
圖中最底層是整個SoC佈局,如何基於SoC佈局提供更好的能力?在ISP方面,我們能夠提供低延遲的視訊處理流水線和高質量圖象處理流水線,這些流水線可以執行一些基本的AI任務,在視訊方面,可以進行人體關節檢測識別,還有姿態識別。
圖片方面的任務更多,文字識別、影象超分、影象降噪、RGB還原等。在視訊方面,可以執行主體識別、區域分割、主體摳圖,這些提供了一些基礎的能力模組,能夠高效支撐AR SLAM,做到視訊流姿態提取、地圖重建等。這些功能不只是我們自己用,也通過API開放給第三方。可以支援第三方的AR APP、視訊APP和圖片APP。
開放架構支援自定義運算元,提升晶片整合調動能力
這張圖上,最底層是SoC結構,有很好的感測器處理,DDK是我們的庫,還有API,配合攝像頭,可以提供Camera DDK,做到前光、暗光、高動態、高解析度,在AR DDK方面提供 SLAM運算元加速、人臉建模、跟蹤能力等1000多個能力。我們有33個API,147個運算元支援。
運算元支援非常關鍵,各個框架的運算元都很多,我們支援147個運算元,而且支援更開放的能力,支援自定義運算元,並將這些運算元和硬體特性實現很好地適配。同樣都叫運算元,比如LSTM,當對映到晶片層面上時,如何能夠最大化地發揮晶片的計算力,做到最大化地降低能耗、響應迅速,這些都是要仔細思考的問題。我們在運算元層面的開放更快、更有彈性,適配性更強。
整個軟體棧的最底層是我們的SoC,上面是驅動器,這裡面有排程系統,可以發揮整合排程能力,以及CPU、GPU、DSP、NPU的綜合能力。這有點像機器學習中所謂“整合學習”,也就是執行各種架構的晶片的整合排程能力。它支援谷歌的線上推理,也支援離線推理。
這兩個模型各有優缺點。根據使用場景以及模型的複雜度的不同,我們做到二者都能夠支援。當然,也會支援一些通用框架,比如Caffe、TensorFlow各個應用,提供端到端的開發工具鏈,即整合開發環境,同時支援很方便的編譯器和顯示工具。
每個不同結構的處理器都能夠發揮作用,NPU專門針對張量計算。我們的核可以快速處理特殊指令集、特殊結構,能夠很快地處理高維度的張量運算。如果把一個演算法拆開,事實上到了晶片層面,就只剩下張量運算、向量運算、標量運算。向量運算多半用於圖象處理以及大規模的並行處理,標量運算通常是處理一些控制指令集,邏輯控制,和一些通用的運算。
比如要估算模型的生命週期,實現從模型產生到模型格式的自動轉換,就可以生成一個離線模型,它的執行效率會更高,運算速度更快,可以載入到NPU上面做各種運算。
跟CPU相比,以NPU為驅動的處理架構的整個效能提升了25倍,整個能效提高了50倍,甚至在整個NPU和CPU混合排程情況下,也能有非常好的收益。在運算元的支援方面,我們至少在AI晶片的級別上還保持領先,經過一年的積累,整個運算元的豐富度、複雜度,每顆運算元的效能都提升了很多。
HiAI Foundation:讓不懂機器學習的使用者實現自己的應用
我們的HiAI開放架構已經走了一年,去年這個時候是麒麟970配合Mate10釋出,經過一年的努力,我們對於整個生態,對於端側AI框架需求有了更深的體驗,我們會繼續走下去。
我們的目標是:第一,希望能夠設計出更好的晶片,增加算力。第二,希望能夠對使用者遮蔽設計方案的硬體複雜度,也就是說,使用很簡單的介面,讓不太懂機器學習的客戶也能呼叫介面,實現他們自己的應用。
如果客戶對機器學習有一定接觸,可以利用我們的介面很快搭建出一個模型及其訓練優化方案,這些都是我們希望能夠通過HiAI平臺實現的目標。
整個計算在手機上面可以做到姿態識別、物件跟蹤,這些都不是在雲上計算的,而是將整個模型搬到端側來實現,模型大小適中,處理速度很快,我們為此也感到非常驕傲,我個人也參與過一些模型的構建。
最後說一說我們為什麼如此專注開發AI晶片。在目前資料隱私保護形勢下,很多事情無法單獨由雲上的計算力完成,必須要在端側去完成。這是非常複雜的多目標的優化問題。
這往往要面對能耗和記憶體的雙重限制,面對各種場景下的不同需求。比如在車載應用中要求響應速度很快,對各種圖片和視訊的處理精確度要求比較高,在聲音方面,降噪的要求就非常高,如何能夠利用GAN的方式去把聲紋和內容分開,這中間往往牽扯到個人隱私。
我們的主要目的是要在端側方面開發出高效能的晶片,將盡量多的處理過程在端側完成,爭取提供最好的使用者體驗。
謝謝大家!
近年來,粵港澳大灣區在打造創新驅動新引擎,科技創新帶動資源集聚等方面著力頗多,創新機制、產業升級、人才引流、協同發展等帶來了多方面的機遇。相應的,人工智慧、人才賦能正深刻地影響著商業步伐。
2018年10月18-19日,億歐將在深圳舉辦 ofollow,noindex">“引擎·引領” 2018大灣區國際科創峰會(BATi) ,集合智慧製造、智慧產品、智慧城市、智慧安防、智慧交通等一眾熱點問題展開探討,分析科技創新未來趨勢,盤點技術革命下的發展契機。
報名連結:
https://www.iyiou.com/post/ad/id/664?herkunft=6648