阿里展示新一代計算平臺,要把支撐雙11的計算能力“讓”給企業
摘要: 眾多智慧資料應用得以普惠大眾企業。
文/ 天下網商記者 蔣菲
9月21日雲棲大會計算智慧專場,阿里展示了新一代計算引擎及一站式智慧雲研發平臺DataWorks,普通使用者在雲端上碼幾百行程式碼,就能構建獨屬於自己的資料智慧產品。
阿里巴巴集團副總裁周靖人在雲棲大會展示新一代計算平臺
新一代計算平臺
每年雙11,老百姓最關心的是有多少人在同一時刻剁手,阿里巴巴的資料大屏需要在實時展示成交額等統計資訊,而不是大促結束後第二天再公佈資料。
以2017年雙11為例,支付金額達1682 億元人民幣,支付峰值25.6萬筆/秒,是前一年的2.1倍,同時誕生的還有資料庫處理峰值,4200萬次/秒。第7分23秒,支付寶的支付筆數突破1億筆,這相當於5年前(2012年)雙11全天的支付總筆數。
媒體直播大屏處理的總資料量高達百億,且所有資料都需要做到實時、準確地對外披露……這些給資料採集、儲存和計算都帶來了極大的挑戰。
歷屆雙11海量資料的大規模平行計算背後,離不開MaxCompute、Blink(實時計算)和PAI(機器學習)。
MaxCompute是阿里巴巴自主研發的離線計算引擎、擁有多項國家專利技術。Blink(實時計算)則是阿里巴巴最重要的實時計算引擎,它提供流式資料計算能力,能夠支援百萬級吞吐量的作業,計算可達秒級延遲,關鍵指標超越開源引擎Storm效能6到8倍,計算成本遠低於開源軟體。
PAI是阿里巴巴機器學習平臺,提供了超大規模分散式機器學習訓練,線上、離線預測能力。
不僅是在阿里巴巴,各行各業對大資料時效性的計算需求在日益增加,因此,阿里巴巴需要研發世界級計算引擎,一體化的處理海量實時及離線資料,提供線上統計、資料處理、機器學習、深度學習和線上/離線預測能力,支援自身的核心電商場景,並通過阿里雲向外部中小企業提供服務,輸出涵蓋實時、離線一體化的計算能力。
通過一站式智慧雲研發平臺DataWorks,將離線計算、實時計算、機器學習能力無縫串聯,形成了新一代計算平臺。
阿里巴巴資深技術專家、數加DataWorks負責人徐晟在雲棲大會
基於新一代計算引擎的DataWorks具備了5項要素:海量資料規模下高性價比的離線及實時計算力;實時+離線任務一體化研發能力;實時+離線異構資料湖互動式查詢能力;超大規模機器學習、深度學習異構計算力;一站式端到端的雲上大資料智慧研發能力。
在阿里日均排程任務量達百萬級別
如果把阿里巴巴大資料計算引擎比作一臺PC的CPU、GPU、SSD等硬體裝置,那麼DataWorks就是這臺大資料PC的Window作業系統。
除了以視覺化的方式對使用者提供雲化的開發平臺,任務排程平臺,運維管理平臺,資料服務平臺等產品化的服務。還對租戶、賬戶、計量、計費、排程、運維、監控、安全等功能作了封裝,讓使用者幾乎通過零研發成本,完成所有大資料研發流程的閉環體驗。
特別是在大規模任務排程方面,DataWorks擁有多項國家專利技術,為大規模複雜分支依賴高併發任務的排程,提供了強有力的穩定性保障(在阿里經濟體中日均排程任務量已達數百萬)。
2009年,DataWorks專案開始啟動,DataWorks已經成為阿里集團資料開發的標準平臺,聯合大資料計算引擎MaxCompute支撐了整個阿里經濟體90%以上的資料規模,已超EB級別。支援著阿里集團、螞蟻金服、菜鳥、優酷、高德等所有事業部的資料開發任務。
2013年隨阿里雲進入公共雲市場,DataWorks系列產品在全世界16個國家和地區均已部署可用,包括新加坡、悉尼、香港、德國、馬來西亞、日本、美國等,成為國際知名的一體化資料研發平臺品牌。
隨著DataWorks在公共雲和專有云的輸出,在國內和國際上獲得了眾多獎項,2017年,以DataWorks為主體的阿里雲數加,獲得了國際軟博會金獎;2018年,DataWorks名列國家大資料博覽會十佳產品,榮獲最佳案例實踐獎;同樣在2018國際權威評測機構Forrester公佈的Cloud Data Warehouse第二季度的榜單上,代表阿里雲,攜手MaxCompute,獲得了世界排名第二的成績,與AWS,Microsoft Azure,Google Cloud一起殺入第一陣營,是唯一上榜的國內廠商,奠定了世界級大資料研發平臺的地位。
結合阿里雲機器學習PAI平臺
DataWorks基於MaxCompute、Blink作為核心計算儲存引擎,不僅為使用者提供結構化、非結構化資料的儲存、交換、管控能力,而且結合了阿里雲機器學習PAI平臺,為使用者提供從資料處理、特徵工程、演算法訓練、演算法評估到離線、線上預測的一整套機器學習解決方案。
阿里巴巴研究員、機器學習平臺負責人林偉在雲棲大會
平臺提供上百種經典機器學習演算法及典型資料處理能力、相容所有主流深度學習框架,支援線上學習、深度學習、增強學習及遷移學習等多種學習方式。
經過深度優化的機器學習引擎將阿里巴巴集團針對超大規模稀疏模型的CPU系統級優化方案,針對大規模影象、語音及文字領域的GPU系統級優化方案,針對線上推理加速需求的模型壓縮等核心能力,通過簡單易用應用平臺提供給廣大演算法開發者,大幅提升分散式模型訓練的規模,降低建模及模型服務的成本。
未來,DataWorks將攜手阿里計算引擎雙子星,致力於解決業界關注的 Data Lakes 查詢,大資料 Interactive 查詢,流批一體化查詢等難題,同時攜手阿里機器學習平臺PAI,加入智慧元素,提供雲上進行深度學習和模型演算法迭代訓練的能力,覆蓋從資料計算,模型訓練,線上資料服務,一直到應用搭建的一站式雲上大資料解決方案,並在全新架構的雲上程式設計環境Cloud IDW上,提供從Sql、python,甚至於Java開發的能力,提供全套的雲上開發解決方案。
眾多智慧資料應用得以普惠大眾企業,普通使用者在雲端上碼幾百行程式碼,就能構建獨屬於自己的資料智慧產品。