自動機器學習計算量大!這種多保真度優化技術是走向應用的關鍵
自動機器學習能夠大幅度降低機器學習門檻,使非機器學習甚至非計算機領域能夠快速使用機器學習演算法,因而越來越受到關注。目前求解自動機器學習問題的常規方法是將機器學習過程形式化為一個黑盒優化任務,優化的目標是學習過程在學習任務上的某一評價指標。
由於自動機器學習的優化目標具有不連續、不可導等數學性質,所以一些搜尋和非梯度優化演算法被用來求解該問題。此類演算法通過取樣和對取樣的評價進行搜尋,往往需要大量對取樣的評價才能獲得比較好的結果。然而,在自動機器學習任務中評價往往通過 k 折交叉驗證獲得,在大資料集的機器學習任務上,獲得一個評價的時間代價巨大。這也影響了優化演算法在自動機器學習問題上的效果。所以一些減少評價代價的方法被提出來,其中多保真度優化就是其中的一種。
多保真優化的設定是有多種不同保真度的評價方式。低保真度評價上,獲得評價結果代價小,但是評價結果不準確;在高保真度評價上,評價結果準確,但是獲得評價的代價很大。自動機器學習天然吻合這樣的優化設定,通過隨機選取部分資料集作為評價中訓練資料集的方式可以構建不同保真度的評價。但是 PAC 理論可知,在部分資料集上的評價結果存在一定的偏差,本工作提出了一種利用修正後低保證度評價來代替高保真度評價,用於優化中,大大減少了評價的代價,提高了優化效果。
本工作利用有限的高保真度評價樣本學習一個預測器,用於預測高低保真度評價之間的殘差,在優化中使用低保真度評價和殘差預測值之和代替高保真度評價。關鍵難點在於高保真度評價有限,用於訓練預測器的樣本極少,本工作提出了一種系列化遷移擴充套件的方式,預訓練數個基預測器,然後線性組合基預測器的方式得到最終的殘差預測器。通過這種方式解決了訓練樣本較少的問題。
多保真度技術是大規模自動機器學習優化問題走向實用的關鍵技術,大幅度降低評價代價為優化演算法提供了更多探索的機會,使得優化演算法能夠發揮最大效能求解自動機器學習問題。
論文:Multi-Fidelity Automatic Hyper-Parameter Tuning via Transfer Series Expansion
論文地址:http://lamda.nju.edu.cn/huyq/papers/mfopt-19.pdf
論文提出的方法
我們提出一種通用的多保真度優化框架,此框架通過簡單的變換即可應用於任意非梯度優化(derivative-free optimization)方法中。該框架的主要思路是:基於一些高保真度的觀察結果,學習殘差預測器以糾正優化過程中低保真度評價的偏差。由於高保真度評價有限,因此訓練準確的預測器非常困難。為了解決該問題,我們提出了系列化遷移擴充套件(Transfer Series Expansion,TSE)方法,TSE 通過遷移多個基預測器的方式來訓練最終的殘差預測器。Ψ 指最終的預測器,ψ = {ψ_1, ψ_2, . . . , ψ_k} 指一系列基預測器。通過線性組合的方式將 ψ 擴充套件為 Ψ。
多保真度優化框架
我們設計了一個適用於任意非梯度優化方法的通用多保真度框架,主要研究最小化問題。非梯度優化的關鍵步驟是如何生成新樣本 x。現在令 SampleO 表示非梯度優化方法中生成取樣的步驟,其中 O 為非梯度優化方法。大多數非梯度優化方法都屬於基於模型(model-based)的方法,取樣步驟包括在(X, f)的建模過程和基於模型的取樣過程,不同的模型有不同的取樣步驟。
在多保真度優化中,它會引入低保真度評價 f_L 以減少總的評價成本。該框架還會學習一個預測器 Ψ 以估計高保真度和低保真度評價之間的殘差。隨後在修正後的評價(f_L+Ψ)上執行優化,這樣我們在修正後評價的優化結果,在真實的高保真度評價上仍有很好的表現。
系列化遷移擴充套件 (TSE)
在 Algorithm 2 中,用於訓練 Ψ 的資料集例項數量很少,因為 f_H 的評價成本高。TSE 可以在訓練資料集規模很小的情況下使 Ψ收斂。
實驗
我們基於分類優化方法,利用 TSE 實現了多保真度框架,並將其命名為 TSESRACOS。在實驗部分,我們使用 TSESRACOS 在一些真實資料集上對 LightGBM 調參。
表 1:資料集資訊。|D| 表示資料集 D 中的樣本數。驗證資料集是通過對 D^train 中的樣本以 10% 的取樣律進行隨機取樣獲得。r_L 和 r_M 是 的構建低保真度訓練樣本時的子取樣率。
表 2:多個對比方法的 AUC 效能和整體時間(wall-clock time)對比。LF-Eval 和 HF-Eval 表示最優解的低保真度和高保真度評價值、Test 表示最優解的泛化效能、加粗數字表示最好的 AUC 分數。TSETRANS 方法將 Miniboone 資料集上的基預測器遷移到其他資料集。因此 TSETRANS 在 Miniboone 上的結果為空。HF-ONLY^∗ 表示 HF-ONLY 在大型資料集上的超參優化在消耗一定的時間後提前停止。
圖 1:總體時間 AUC 曲線圖。實線表示高保真度值曲線,虛線表示低保真度值曲線,帶圓點的線表示優化的目標函式曲線。同樣顏色的實線和虛線是在同樣樣本上的高保真度和低保真度評價值。X 軸展示的時間為 LF-ONLY 所消耗的時間。
圖 2:在每一個預測器訓練中,平均迴歸預測器誤差 |f_L+Ψ−f_H| 的直方圖。僅對比 TSESRACOS(綠色)和 RFSRACOS(藍色)的預測誤差。X 軸表示殘差預測器訓練資料集中的樣本個數。