MLSQL v1.2.0正式版釋出
前言
MLSQL v1.2.0釋出時間距離上個版本v1.7.1.1 已經有接近3個月了。這次我們跳過了v1.1.8/v1.1.9 是因為我們會認為v1.2.0能作為第一個穩定版本(主要是MLSQL Engine)。在後續的v1.3.0版本里,MLSQL Engine的目標以Stable為核心,同時進一步加強機器學習相關的能力。 MLSQL Cluster/MLSQL Engine則會進一步快速迭代,用於直接滿足業務的互動和管理需求,同時逼近資料中臺的目標。
文件和下載地址
Release Notes
參看:https://github.com/allwefantasy/streamingpro/blob/v1.2.0/RELEASES.md
新特性
MLSQL Console/MLSQL Cluster
在MLSQL v1.2.0 中,我們一併釋出了MLSQL Console/MLSQL Cluster 兩個周邊系統。關於他們的介紹,可檢視部落格集合MLSQL Blog,在SNAPSHOT迭代過程中,我們也完成了相應的部落格撰寫。他們的功能包括但不限於如完成了使用者互動,指令碼儲存,多租戶,許可權體系(Team/Role),部分視覺化,元件拖拽,多MLSQL Engine管理等眾多功能。這些功能目前雖然不成熟,但是我們會盡快迭代並且讓其穩定。
MLSQL 巨集的引入
這是我們第一次增加了MLSQL語法,在博文MLSQL 語法擴充套件設計中,我們詳細介紹了該功能。通過它,可以將任意一段MLSQL指令碼封裝成一個命令,使用者可以實現指令碼的深度複用,和include語法相協作。
阿里雲支援
MLSQL 已經能夠支援阿里雲ECS叢集部署,並且以OSS作為儲存。我們為此開發了PyMLSQL 專案,大家可以關注。
更加完善的許可權控制
v1.2.0版本,首先支援編譯時許可權控制,其次我們也支援執行時許可權控制(主要為了相容直接select hive表)。在該版本中,我們統一了hive表,MySQL,HDFS等各種資料來源的許可權控制,並且能夠到精細到列級別。
實時日誌回顯功能
和使用者相關的Spark日誌會實時重新整理到使用者的控制檯。
語法校驗功能
MLSQL原來只有在執行時才能發現語法錯誤,但是這個時候可能已經執行很久了。在v1.2.0版本里,使用者可以開啟執行前語法校驗,SQL語句中如果有語法類的錯誤會及時報告給使用者。在MLSQL Console中也是預設開啟的。
更好的錯誤日誌顯示
在早先版本中,當發生異常時,往往在Console裡看不到root cause,導致必須跑去看MLSQL Engine日誌,在v1.2.0裡,我們緩解了這個問題。
開發指南
隨著使用指南的完善,我們添加了兩篇開發指南的文章,將MLSQL中最重要的資料來源和ET開放出來,大家可以據此對MLSQL做任意擴充套件。
版本節奏
在v1.2.0的釋出過程中,我們嘗試了更加積極的SNAPSHOT釋出策略。一旦有bug修復或者新功能新增,我們會立刻更新到對應的SNAPSHOT發行版中,也包括docker中。在1.3.0版本中,我們會繼續沿用該策略。v1.2.0比之前的版本理論上會穩定很多,在吃之前,我們採用較為激進的版本釋出,現在看來三個月作為一個大版本是比較合理的,對於較為嚴重的bug我們會發布v1.2.x中來進行修復。
最後
期待更多的使用者能參與使用。有需要可以私信我加群。