智慧化的資料中心如何建設?
隨著AI、大資料時代的到來,資料中心的業務也不斷在演變,新的技術不斷的融入到資料中心。這其中,智慧化的資料中心包含兩方面含義,一方面是資料中心如何基於海量資料,利用人工智慧的技術,進一步去優化資料中心的運營;另個方面是資料中心會越來越多地去承載大資料的業務,去承載人工智慧訓練的場景以及人工智慧應用的場景,在這個場景下資料中心自身需要去適應新的智慧化業務的需求。
智慧化資料中心發展的三部曲
在中國電信北京研究院副總工程師楊明川看來,智慧化的資料中心的發展可以被歸納為三個階段。
在當前階段,除了傳統的以CPU為核心的資料中心外,還要考慮人工智慧的需求,比如:建設CPU和GPU聯合的資源池以及建設開展面向邊緣計算場景的FPGA等計算的資源池。在這一過程中,AI驅動的資料中心節能、AI驅動的計算、儲存和網路的自動化優化和智慧運營以及AI驅動的巡檢機器人等等,特別是在面向運營商特有的NFV場景中的一些故障的監測、排除等,這些都是當前的智慧化資料中心正在面臨的新需求、新挑戰。
到了下一個階段,則會提出更高的統一和融合化的需求,包括邊緣和核心的統一以及AI和各個系統的融合、標準化和物聯網化。尤其是未來整個資料中心在邊緣,甚至在邊緣的裝置和邊緣的資料中心之間,它們進一步的統一和融合,也是未來我們需要重點考慮的地方。
而在最終階段,則是希望能夠實現完全自動化的資料中心。
四方面助力智慧化資料中心建設
對於運營商來講,現在這個階段去構建智慧化的資料中心也面臨著很多的挑戰,包括在基礎設施層面的改造、如何去適應人工智慧和大資料一些新的業務需求、怎麼提供更豐富的API介面以及更多的資料儲存。
對此,中國電信正在積極思考在未來智慧化的資料中心裡可以做一些什麼樣的探索。“我所在的中國電信北京研究院做了一些嘗試,主要包括四大方面。”楊明川講到。
首先,第一個方面是智慧化的資料中心節能技術。很多專家也都講過在物理基礎設施層面,可以開展很多節能方面的技術研發,引入很多節能相關的裝置,從而降低我們資料中心的能耗。
針對此,楊明川主要介紹了一個純軟體的方法,它的思路是對資料中心尤其是雲資料中心的伺服器資源進行排程,也就是說我們更多是考慮伺服器在承載業務時,隨著業務需求的變化,怎麼通過人工智慧的方法去預測這些伺服器資源使用的效率以及未來的負荷,進而通過智慧化的排程來使得部分的伺服器休眠得以降低其能耗。
“這裡面我們需要大量的資料採集,從資料中心裡面去採集各種各樣的包括從雲主機、物理主機、能源消耗、業務變化層面上的各種各樣的資料,然後去構建基於深度學習的預測模型,使得我們能夠通過動態負載調整去降低能耗。”楊明川說。
據悉,中國電信已經在幾個省公司做了智慧化節能的嘗試,在這個過程中中國電信也採用了一些漸進式的方案,當前已經能夠在無人值守下實現節能。平均下來大概能實現20-30%的節能,而且對於雲資料中心還能有更大的能源節省空間。
第二個方面的案例是伺服器定製,伺服器定製和智慧化資料中心的演進是一脈相承的。其中,中國電信早期定製的是整機櫃的伺服器、單機的伺服器,到2015、2016年則是超融合的定製化的伺服器,以及低功耗的定製伺服器。在2017年考慮的主要是ServerSAN領域的定製伺服器、NFV的定製化伺服器以及面向人工智慧的GPU定製化伺服器。今年,中國電信又拓展新的領域,比如說針對邊緣機房條件定製的伺服器。
楊明川表示:“隨著資料中心業務的發展,伺服器層面必須要適應相應的變化,開展新的型別的伺服器定製工作。這塊工作和ODCC的工作是相互配合、相互促進的。”
第三個方面則是在資料中心裡構建人工智慧的PaaS平臺,這塊工作目前主要是在中國電信的雲端計算實驗室做一些嘗試。面向人工智慧的PaaS平臺有兩類:一類是面向公有云的,一類是面向行業的。
目前,中國電信已經搭建了一個面向AI的能力中臺的基礎架構。這個面向人工智慧AI的PaaS平臺,在面向一些行業的智慧化解決方案裡就能夠去發揮作用,使得以AI為核心的行業解決方案成為可能。
第四個方面則是AI輔助智慧運維。當前,原有的運維方式正面臨很多挑戰,比如:虛擬化之後的IT架構,跨計算、儲存、網路的端到端運維工具,容器、微服務和虛擬化的應用,以及多廠商整合等問題。
中國電信正在嘗試去構建一個AI智慧輔助運維繫統,研究如何從資料感知層面、故障診斷層面、故障預測和故障自愈層面,如何能夠更加充分的運用大資料、人工智慧的技術,使得整個資料中心的運維工作更加智慧化、自動化。
當然,資料中心智慧化的道路剛剛開始,未來還有大量的工作,業界都需要進一步研究和進一步合作,相信未來的資料中心能夠具有更高的智慧。