優步Uber向Apache軟體基金會提交了一個開源大資料庫Hudi
Hudi目前管理著超過4,000個表,在Uber儲存了數PB的資料,同時將Apache Hadoop倉庫訪問延遲從幾小時降低到30分鐘以下。Hudi還以比公司以前使用的解決方案更低的成本和更高的效率為數百個增量資料流水線提供支援。
Hudi已經發展成為一個通用的大資料儲存系統,可以:
- 攝取和查詢引擎之間的快照隔離,包括Apache Hive,Presto和Apache Spark
- 支援回滾和儲存點以恢復資料集
- 自動管理檔案大小和佈局,以優化查詢效能和目錄列表
- 近實時提取以使用新資料提供查詢
- 實時和柱狀資料的非同步壓縮
快速管理和訪問數PB資料的能力對於整個資料生態系統的可擴充套件增長至關重要。儘管如此,這種對規模和速度的綜合需求並不總是自然地適合 現有的批處理和流式系統架構。
Hudi於2016年以代號“Hoodie”開發,旨在解決攝取和ETL管道中的低效問題,這些管道需要Uber大資料生態系統中的 upsert和增量消費原語。為了與更廣泛的大資料社群分享這些好處,優步於2017年開放Hudi。
展望未來,該專案將與The Apache Software Foundation共存 。請檢視Apache Hudi專案頁面, 瞭解技術文件和社群參與指南。