達摩院晶片團隊是 1/2 個平頭哥公司, 負責人驕暘稱創業才剛剛開始 | 對話
一個「平頭哥」,不一定能讓阿里做出晶片;但這家將完全獨立運營的公司,卻幾乎集達摩院全院之力。
如果說驕暘帶領的達摩院 AI 晶片團隊位於「食物鏈最頂端」,那麼達摩院旗下的 AI Labs(人工智慧實驗室)、城市大腦實驗室、智慧交通實驗室等產業向研發團隊,也正在為這塊「平頭哥晶片」貢獻更加多樣化的測試環境。
譬如驕暘博士已經向之能證實,晶片團隊與王剛博士帶領的自動駕駛團隊已經在計算機視覺演算法訓練方面展開合作。
儘管從 2014 年阿里投資中天微開始,再到近年來涉及到多家晶片明星創業公司的投資與收購專案,都能看出阿里對於半導體產業的覬覦。但達摩院晶片團隊在今年年初的正式成立,在一定程度上顯示出阿里終於下定了的某種決心:
「我們相當於阿里第一個以自研晶片開發為主要目的的專業晶片團隊,專攻 AI 晶片。現在平頭哥公司成立,我們也將逐漸融入到平頭哥公司的常規運營中。」驕暘在採訪中表示。
成立 4 個月,這個團隊就公開宣佈正在研發一款名為 Ali-NPU 的神經網路晶片,主要用於影象視訊分析、機器學習等 AI 推理計算,其團隊對外宣稱「效能功耗比將是同類產品的 40 倍」。
但就目前來看,團隊的主要任務還集中在晶片架構的設計上,晶片的用途也是以「優化自有業務的需求」為主,譬如阿里雲的資料中心,可能有計劃做一些替換 GPU 的部署,當然,包括解決城市大腦以及自動駕駛軟硬體的算力問題,也在目前這個晶片團隊的工作規劃範疇內。
作為從華為出來的「半導體老人」,驕暘目前隸屬於達摩院計算技術實驗室,負責組建晶片開發工程團隊。他認為晶片製造不太可能做到「彎道超車」,而是應該去思考「換道超車」:
「如果我們重複大晶片企業的路徑,像 CPU、GPU 上的比較成熟的 IP,要去追趕的話,實際上挑戰非常大。但因為 AI 而出現的新需求會驅動產業『造』一個全新的硬體和全新的架構。」
但是,目前市場上的很多相關創業公司,都被驕暘稱為「PPT 公司」,沒有經過市場的考驗,「畫個架構圖就出去拿融資了」。
因此,他認為經過一兩年的「淘沙」,真正做事的公司會脫穎而出,但用心做也不意味著就能做出好的劃時代的產品,至少一兩年肯定是做不出量產晶片來的。
「所以你不能光看一代、兩代,比如說像華為,做自主 IP,經過十多年的打磨,才有今天的成就。晶片不可能一兩年做出來。
在阿里達摩院之下,我們有很大決心的投入全部力量。晶片很大程度上一方面需要有比較長期的技術積累,另一方面需要比較持續穩定的投入。」
「說白了,我們就是集團下面的一家創業公司,做的是從 0 到 1 的事情。」
以下是根據雲棲大會採訪精選的內容:
公司為什麼要叫「平頭哥」?
驕暘:這個「平頭哥」是這樣的,我們也是最近這一兩週,我們團隊大概提了一些建議,其中有一個名字就是「平頭哥」,當時我們想這個名字的時候,可能覺得這個名字挺好玩的。
另外也覺得它代表了動物的性格,不怕失敗,無所畏懼,小而偉大,這種性格我覺得挺符合我們做晶片這件事的,包括我們這些願景。
從這個角度。這個名字報上去之後,最後應該是馬總決定的。
「平頭哥」這家公司,阿里成立這家公司的初衷或者說對這家公司的計劃是什麼?會不會有獨立融資的計劃?
驕暘:我們這個團隊是今年年初的時候成立的,這個團隊目前在阿里是相當於第一個以自研晶片開發為主要目的的專業的晶片團隊。目前 AI 晶片是我們一個主要的突破點。
關於成立半導體這個公司這件事,是我們集團不久前做的一個新的決定,一個重大決定。我想這件事,確認了阿里在晶片領域的戰略佈局並不是僅僅做一些自研的晶片,而是要去涉及更多單獨的業務,這個會比較長遠。
「平頭哥」這個公司以後是否會統籌阿里巴巴集團所有關於晶片的業務?你們跟中天微將會是什麼關係,組織架構是怎麼樣的?
驕暘:關於成立晶片公司這件事,是剛剛做出的決定,具體我們的組織結構是什麼樣,還在醞釀和討論中,沒有最後定。
但至少目前,我們會把自研的 NPU 團隊和中天微團隊都放進「平頭哥」半導體公司,這是我們現在所瞭解的情況。
這個新的公司是指 IC 設計公司,不會涉及生產環節對嗎?
驕暘:這個公司的名字字尾叫半導體,其實有點大。就目前來說我們主要關注的還是做 IC 設計這一端,基本上是從架構到前端設計,是我們這個階段的重點。
NPU 這部分我們打算怎麼做?
驕暘:我們選擇 AI 晶片作為入手點,是考慮到阿里有非常廣泛的人工智慧方面的應用,所以之前行癲也提到 ABCDE,是演算法、大資料、計算力、領域還有生態。
我想阿里是少有的幾家公司是能夠同時具備 ABCDE 的公司。因為很多公司無論是創業公司還是成熟的半導體公司,還是其他的軟體公司,很難同時具備從演算法到計算能力到生態的五個領域。
我們是不是通過去獲得架構的授權去研發的?是怎麼獲得架構的?選擇這個架構的原因是不是因為它是開源的?然後考慮到了成本上的因素?
驕暘:我想這個問題是關於中天微這部分。集團幾個月前宣佈收購中天微,中天微目前國內在 CPU 領域有自主智慧財產權的 IP 公司,它目前已經產業化,大概有 8 億多的成功的流片,用他們的 IP 累計有 8 億的晶片。
這部分他們主要是在嵌入式方面,有自主的 CPU 的 IP;而我這邊主要是代表 NPU 這邊,在公司集團內部做了一些自主研發。
將來我們兩個部分會融合在一起(在新成立的半導體公司內),相當於互補。因為我們在 AI 加速、AI 晶片領域,包括雲端計算、資料中心這方面,跟中天微在嵌入式領域的優勢,其實兩邊是很好的互補與合作關係。
因為 AI 晶片現在有很多,現在市場有很多創業公司也在做,無論是晶片企業還是其他網際網路公司也在嘗試做 AI 晶片,不同的公司的做法不太一樣,那我們的做法就是跟我們的 ABCDE 整合起來。
阿里在平頭哥公司身上會有多大的投入?
驕暘:關於投入計劃,晶片絕對是一個非常大的投入的產業,阿里巴巴也一直在這方面做持續的投入。關於具體的數字也不能說。
總之要一步一步來,我們先把第一塊晶片的流片搞出來,有了成功的經驗我們這個團隊才可以做更多的事情。
你們在人力投入,特別是選拔人才這方面,有什麼樣的標準?您會看中哪方面工程師哪部分能力?
驕暘:目前來說我們團隊還是比較小的,是一個小而精的團隊,我們現在招聘的工程師都是有很多年,甚至十多年、二十多年在晶片領域的,在架構設計上很厲害的專家,這也是當時的招聘標準。
我們在集團裡面,相當於是一個創業公司。
所以我們其實就是從 0 到 1 做這件事情,從這個意義上講,我們跟一些創業公司很類似。所以我們需要非常有經驗的工程師進入團隊,就我們現在取得的成績來說,也是跟我們團隊的專業素養非常有關係的。
當然,我們跟創業公司不同的是我們背後有強大的支撐,這是其他創業公司不具備的。我們從做這件事情來說,絕對是從 0 到 1。
既然晶片製造做起來很重,時間時間耗費很長,那這對阿里巴巴的股價會不會有一定的影響?因為這個投入可能是天文數字。
驕暘:我們到底做什麼樣的晶片,針對什麼樣的業務,這實際上是要經過仔細調研之後做出的決定。
我們不會說簡單重複別人做過的東西,我們有句話叫重新造輪子,重新造輪子對我們來說是沒有任何優勢的。
所以我們切入的點,一定是我們看到公司裡的業務對新晶片有了很強的需求,針對這些業務再去做創新。
此外整個達摩院就是一個有非常強大的演算法團隊,這方面的優勢我們要充分利用。再結合這個去選對題目,我覺得選對題目是成功的一半,如果選錯了題目,你再努力走的方向也錯了。
這點我們一定非常小心,因為公司內部在評審我們專案的時候,也是做過非常仔細的討論的。
NPU 晶片是按多少奈米的工藝來設計的,未來準備找哪家公司代工?關於 2019 年推出的第一款晶片,要達到一個什麼量級?
驕暘:關於具體的在哪裡流片,還不能具體講,到流片的時候我們還會有釋出會,那時候會把更細的技術細節給大家公佈,包括架構方面的細節,目前還不方便去講這些細節。
關於這個量的問題,我們也不期望我們一下子達到像華為手機那樣的量級。一開始的話一定是針對我們的一些業務,像我們剛才講的是我們本身阿里雲的業務,這實際上是給自己內部用的,我們可能在自己的伺服器上把 CPU 和 GPU 換掉,這個完全是對內的業務量。
這個自有業務主要指的是我們的資料中心,大家都知道阿里雲現在在張北和千島湖都有兩個非常大的資料中心,這裡面對於 AI 晶片的用量是非常大的,所以其實我們跟華為所說的手機晶片可能還不太一樣,第一批我們晶片的場景更多的是在資料中心裡面。
還有一部分是針對我們的城市大腦,這是我們的主要業務。至少目前不是賣晶片。我們主要的目的是產生比較大的價效比優勢來幫助自己的業務進行優化升級。
我們在推廣城市大腦的時候,看到目前的一個比較挑戰的地方是我們的硬體成本如何能降低下來。
因為我們要用通用的 GPU,大家知道現在是非常昂貴的。那我們的城市大腦產品推廣到市場上的時候,就會有比較大的硬體成本問題。
晶片的量達到多少,您覺得這個價格會相對於 GPU 更低?
驕暘:我們內部有做過可行性評估,但具體的數字我不好講。
評估了什麼呢?我們採訪所謂集團內部的幾條業務線,根據他們現在的用量,以及未來大概三年左右的業務量,做一個 GPU 替換可能性的評估。包括我們的生產成本,流片成本,我們都是經過財務核算的。
谷歌說它的 TPU 會通過雲服務來提供,阿里的晶片也是通過阿里雲的雲服務來提供嗎?
驕暘:第一,我們主要還是用於自己內部的業務,一個很主要的方面就是阿里雲的雲端計算,我們阿里雲也要跟國際的雲服務商對接,降低我們的雲服務成本。
大資料也好,雲端計算也好,降低我們雲端計算的最低成本,我們的雲服務才有競爭力。所以 NPU 一個很大的目標是要降低我們的成本,提高我們的算力,這確實是我們很重要的目標。
您剛才說晶片可以用在阿里的很多場景裡,我想知道晶片跟現在阿里做的自動駕駛方面,怎樣用到現在的晶片產品?
驕暘:因為自動駕駛也是很重要的應用,首先它是一個 AI 推理的應用,也是基於視訊圖象處理這方面,所以實際上跟我們第一款 NPU 的設計非常契合。
所以我們也把它作為一個比較主要的業務方來看待,跟王剛的團隊也一直保持交流合作,包括他們現在做的一些演算法的研究。我們也在 NPU 設計上,保證它的演算法可以在關於自動駕駛各類硬體上比較好地執行,有做過這方面的優化。
晶片屬於精密製造,如果要實現「彎道超車」,那麼路徑應該是什麼樣的?
驕暘:前段時間馬老師提到一個很重要的概念,就是說普惠,我們做晶片,實際上是要達到普惠天下的願景,這個實際上我覺得當初聽到這個的時候,我覺得這是很特別的,也是比較感動我的地方。
我想四年前開始,從馬老師最開始投第一步向中天微的投資也好,很多年前開始有了,這個佈局是一個長期的佈局。從網際網路公司涉足半導體,這是一個非常大的決定,因為大家都知道晶片產業是需要很多積累的,無論技術上、投入上、人才上,這不是一個小的決定。
所以在這個過程裡,我們想先通過投資的方式,先在這個領域試水,先了解這個產業的情況是什麼樣的,然後通過我們投資中天微積累一些經驗,包括中天微他們設計的晶片 IP,怎麼跟阿里的業務先結合。
等這個過程醞釀到一定階段的時候,我們就開始嘗試做自主的 AI 晶片的設計,這實際上是一個逐步的發展過程。
所謂晶片彎道超車,阿里其實一直提倡的是「換道超車」,不是簡簡單單是為超越而超越。因為如果我們重複大晶片企業的路徑,像 CPU、GPU 上的比較成熟的 IP,要去追趕的話,實際上是挑戰非常大的事情。
AI 近年來大熱,給我們切入晶片領域提供了很好的機會。因為 AI 的應用是一個全新的應用,我們大家知道中國在人工智慧的應用領域上,實際上還是世界領先的,包括一些研究的應用場景跟演算法上,是不輸其他發達國家的。
所以這實際上給我們在晶片提供了很好的切入點。這個切入點就好比當初 PC 時代造就了英特爾,移動網際網路的時候造就了高通和蘋果,我想這個機會是一個時期甚至更長時間都難遇的歷史機遇點,AI 是個新的大潮,這時候肯定會造一個全新的硬體和全新的架構。
我們下一個偉大的公司,可能就在這個時代會應運而生。如果我們做了我們的定製晶片做得非常好,我們可能會成為下個時代我們的弄潮兒,這是整個大的背景。
國內的公司可能在這方面起步晚,現在無論是彎道超車還是換道超車,您認為多久才能夠超越國外的這些老牌的技術公司?
驕暘:我本身有十多年做晶片的經驗,對 GPU 架構的缺陷我非常瞭解,所以我覺得這是可能做到的。
尤其在阿里達摩院之下,我們有很大決心的投入全部力量。晶片很大一個程度是需要有比較長期的技術積累,也需要比較持續穩定的投入。
所以你不能光看一代、兩代,比如說像華為,做自主 IP,經過十多年的打磨,才有今天的成就。
所以我想我們做,一定是有這樣的計劃的。我覺得這是阿里具備其他創業公司所不具備的東西,因為我們有自己的願景驅動。
包括以前阿里雲的故事,大家也很熟悉,那麼多年,前面三年五年,投入太多太多,頂住了很大壓力,最終成功了。我想有這個意識,大家要相信阿里做晶片也是非常有可能的。
您研究 GPU 研究了很多年,會不會讓你在做晶片的時候陷入一種經驗的陷阱裡面去?
驕暘:我們很多時候也會考慮這個問題,所以我們做的事「顛覆」,要把它做成跟 GPU 完全不同的設計。
我們那個團隊雖然都是在 GPU 和 CPU 領域設計有多年經驗的工程師,但是我們做的完全是基於 AI 演算法優化的架構,是跟 GPU 有很大不同的架構。
從移動網際網路時代到 AI 時代,晶片這個產業因為新公司角色的加入,在產業鏈關係上會發生什麼樣的變化?
驕暘:以前傳統的 PC 時代,晶片和跟系統廠家還有軟體,實際上是完全分層的。你看我們的 PC 時代英特爾,主要是提供核心的 CPU 技術,像戴爾那些是提供 PC 整機系統的,微軟是提供軟體。
到移動網際網路,我們看到一個特點是整個系統機做整合,做的最好的是蘋果。蘋果、三星都是走系統垂直整合的道路,它從整機的設計到 SOC 再到裡面的關鍵 IP,是垂直整合的。
我想到 AI 的時代,這個趨勢會再往前進一步,這個進一步是指這個垂直整合已經到了網際網路的級別,因為以前還是個硬體的垂直整合,我覺得現在和將來是從軟硬體一起對話,從生態到應用,一直整合到最終的硬體產品甚至於晶片,一個高度垂直整合的產品,這是我個人的看法。
此前中科院的一個專家質疑說現在所謂的 AI 晶片是偽概念,不存在所謂的 AI 晶片,您是否贊成?
驕暘:關於什麼是 AI 晶片,以及為什麼會出現這麼一個造芯潮,實際上跟我們產業遇到一個很大的問題有關。
為什麼不是多年前有很多公司去做晶片,比如 PC 上的 CPU 或者是 GPU,因為人工智慧的確推動和發現了現有硬體架構很難支撐大家對 AI 的演算法和應用的需求。
像谷歌這樣的網際網路公司,為什麼要切入 AI 的晶片領域?因為他們看到了一個很大的機遇,你在 GPU 上還能再提供幾倍甚至十倍以上的算力。
那你說 AI 晶片是不是偽命題?很多公司的確是在趕熱潮,它也是做 AI 的,但是到底怎麼樣大家不知道。因為很多都沒有真正經過市場的考驗,很多公司都是 PPT 的狀態,畫個架構圖出來就去拿融資了。
實際上我覺得這是一個短期的現象,就像大浪淘沙一樣,經過一兩年的篩檢肯定會有真正的金子出現。但是這個趨勢告訴我們,市場的確需要一個新的架構。