阿里雲開源“計算王牌”Blink,實時計算時代已來
1月28日,阿里雲宣佈將旗下的計算王牌Blink開源給社群,訊息一出引起了業界一陣熱議。
阿里Blink正式開源
data Artisans(Flink創始公司) CTO Stephan Ewen表示,“阿里巴巴是Flink最大的貢獻者,很高興阿里能將內部優化的Flink版本開源給社群,讓開發者享受到更先進的計算能力。”
據瞭解,Blink由當下最受歡迎的實時計算技術Flink改造而來。與此同時,阿里為Flink社群貢獻近20萬行程式碼改動,而這些改進也將計算能力推向了巔峰,計算延遲降低到人類無法感知的毫秒級,並且可以實現每秒17億次的處理能力,目前還沒有哪家企業做到這一水平。
據悉,阿里巴巴集團內部核心業務全部用上了Blink,例如ET城市大腦實時計算著杭州1300個訊號燈路口、4500路視訊,保障著交通動脈的通暢;淘寶、天貓每天為數億使用者展現實時的“專屬”頁面。
企業已邁進實時計算時代
資料是各行業企業的核心資產,如何應對指數級增長的資料一直都是學術界和工業界關注的焦點。過去十餘年,工業界經歷了多個技術的迭代。谷歌最早釋出的 GFS、BigTable、MapReduce三篇論文開啟了大資料計算的篇章,但早期諸如MapReudce之類的計算技術都是離線計算,即只能針對海量資料進行定時計算,使用場景也較為有限;2009年, 隨著Spark專案誕生於伯克利大學的AMPLab實驗室,讓資料實時處理變成可能;但誰也沒意料到,2014年誕生的Flink真正讓“實時計算”發揮到了極致,併成為最受歡迎的開源專案之一。
毫無疑問,離線計算依舊有其發揮空間,但實時計算的應用場景正在不斷擴大。例如,對時效性要求極高的金融交易場景裡,風控系統如果不能實時觀察每一個賬戶的行為動態,就可能因為1秒的延遲遺漏風險,無法阻斷危險交易,造成消費者損失。從2010年穀歌決定棄用MapRduce可以看出,實時計算已是大勢所趨。
目前,全球頂尖的科技公司都在積極佈局實時計算技術,其中Flink和Spark是兩大主流的技術方向。二者看似類似,但兩者有本質的區別,Spark更側重用批來模擬流的離線計算理念,而Flink則完全相反。
“從技術發展方向看,用批來模擬流有一定的技術侷限性,並且這個侷限性可能很難突破。而Flink基於流來模擬批,在技術上有更好的擴充套件性。”這也是阿里、Uber、Netflix等公司選擇這一技術方向的主要原因。
Flink 已經被業界公認是最好的流計算引擎,然而 Flink 的計算能力不僅僅侷限於做實時計算,其似乎走得是一條全能的技術路線。在2018年12月舉行的Flink Forward大會上,Stephan指出Flink一方面需要朝著離線方向發展,實現批流融合大資料計算能力,另一方面也需要朝著更加實時線上方向發展。
技術的完整性也讓越來越多的企業開始選擇Flink。據第三方調查報告顯示, 2018年,Flink的採用量增長了125%,是過去一年大資料和 Hadoop 生態系統中發展最快的技術。