像虛擬機器一樣虛擬資料,開源專案Alluxio要發力中國市場
ofollow,noindex">Alluxio 開源專案原名Tachyon,是一個虛擬的分散式儲存系統。
起源
Allux io 源自於 加州大學伯克利AMP實驗室(也是Apache Mesos和Apache Spark的發源地)的博士研究專案,自2013年4月開源以來,已有超過 100個 組織 機構 的近千名貢獻者參與其研究、使用以及開發中,包括阿里巴巴、Alluxio、百度、卡耐基梅隆大學(CMU)、京東、IBM、Intel、南京大學,Red Hat、騰訊、加州大學伯克利分校(UC Berkeley)和Yahoo等。
“歷史上的分散式儲存系統,基本都是間接性創新,比如更快、更便宜、更容易使用,” Alluxio創始人兼CEO李浩源博士 表示,而Alluxio是一套新邏輯上的儲存系統—— 相當於一箇中間虛擬層,介於計算框架和現有的儲存系統之間。
原理
“使用者資料依舊存放在原來的各類儲存系統中(如Amazon S3,Microsoft Azure,OpenStack Swift,Apache HDFS,Ceph,IBM Cleversafe, OSS),Alluxio提供與各個儲存對接的驅動程式,通過統一的資料訪問介面向上對接計算框架(如Apache Spark,Presto,TensorFlow)。此外相對於最初的資料儲存系統,Alluxio貼近計算,利用分散式的管理記憶體或者SSD等儲存資源構成一層計算的快取層,對計算任務起到加速的作用並減少讀寫磁碟。
對於使用者而言, Alluxio在做讓資料標準化的事情。資料消費者如大資料分析或者機器學習演算法可以不用關心資料原本在何處如何存放(雲端還是專用儲存裝置),只需要連線上Alluxio就可以打通資料通路。” 李浩源博士 告知。
就好比虛擬機器,虛擬機器的邏輯是提供虛擬化的計算資源,而Alluxio則提供虛擬化了的資料。
李浩源 表示,這樣一來,Alluxio有幾個優勢:
-
第一,應用層很容易訪問混合雲上的資料。將來企業用資料很可能有是一種混合的部署,一部分在公有云上(比如阿里雲, 騰訊雲, 華為雲等)以降低成本,部分核心資料在專用儲存裝置上(比如EMC ECS,IBM Cleversafe,NetApp NFS)。現在Alluxio提供了統一的資料訪問介面之後,可以更加簡化而高效的讀取混合雲而避免複雜的資料遷移以及計算驅動的資料ETL。
-
第二,效能提升。新一代儲存架構的一個趨勢是將儲存、計算分離的,Alluxio可以在此基礎上,通過演算法排程資料,讓熱資料離計算很近,從而提升計算效率。
-
第三,統一後,可以更有效的進行資料管理。尤其是應用在機器學習、AI等需要大量資料的場景中,Alluxio可以將效能提升幾倍到十幾倍。
應用
根據公開資料,百度採用Alluxio使他們資料分析流水線的吞吐量提升了30倍。 巴克萊銀行使用Alluxio將他們的作業分析的耗時從小時級降到秒級。李浩源補充:“很多企業客戶利用Alluxio下面跑物件儲存,上層跑AI、機器學習應用,由於Alluxio解決了此前的架構、生態系統問題,可以讓上層任何應用都能訪問物件儲存,目前有應用在反欺詐、手機導航路線規劃、電商推薦系統等場景。”
據悉, Alluxio 分開源社群版和付費企業版。企業版根據不同地區、客戶使用的節點情況收取年費,在歐美市場客單價在幾十萬到百萬美元規模,客戶多集中在金融、電信、電商等行業。
而Alluxio公司方面,團隊大部分在美國。已經於2015年獲得750萬美元A輪融資,早期投資人包括Andreessen Horowitz 等,之後會發力中國市場。( Alluxio正在發展開源社群,若對該技術感興趣,可以聯絡 [email protected])
————
我是徐寧,關注企業服務,若您正在用技術顛覆未來,歡迎微信交流xu95704331。