騰訊AI Lab&北大提出基於隨機路徑積分的差分估計子非凸優化方法

網路爬蟲梯度下降法 · 發表 2018-12-03 10:46:39

摘要：最近北京大學 ZERO 實驗室與騰訊 AI Lab 提出一種新的技術：基於隨機路徑積分的差分估計子（SPIDER），該技術能夠以更低的計算複雜度追蹤許多我們感興趣的量。該研究工作被接收為NeurIPS 2018 SPOTLIGHT（4.08%）論文。本文利用 SPIDER 技術求解大規...

最近北京大學 ZERO 實驗室與騰訊 AI Lab 提出一種新的技術：基於隨機路徑積分的差分估計子（SPIDER），該技術能夠以更低的計算複雜度追蹤許多我們感興趣的量。該研究工作被接收為NeurIPS 2018 SPOTLIGHT（4.08%）論文。

本文利用 SPIDER 技術求解大規模的隨機非凸優化問題，在理論上本文的演算法上取得的更快並在一定程度上最優的收斂速度！

論文：Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

論文地址：https://arxiv.org/pdf/1807.01695.pdf

具體地，我們研究如下的隨機優化問題：

其中當 n 有限時，我們把該問題稱為有限和問題，當 n 趨於無窮時，我們把該問題稱為線上問題。

由於上述問題可以是一個非凸問題，一般情況下人們很難求出該問題的全域性最優解，所以往往會考慮尋求一個鬆弛解，例如尋求一個ɛ精度的一階穩定點，即滿足：

對於傳統的隨機梯度下降法 (SGD), 理論上對於上述問題，只能獲得ɛ負 4 次冪的收斂速度。當使用方差縮減技巧 (variance reduction) [1] 之後，速度可以提升到ɛ的負 3 分之 10 次冪。而本文提出的 SPIDER 技術，可以進一步將收斂速度在理論上提升到ɛ的負 3 次冪！我們將演算法展示在下圖演算法 1 中。可以看出演算法的核心在於使用隨機梯度的差分的累和估計真實梯度，與使用了歸一化的步長。

當得到了上述演算法之後，我們進一步考慮是否存在理論上比該演算法更快的演算法。本文給出很好的回答：對於廣義的該問題，在一定情況下 (n 有限) 不存在在數量級上比 SPIDER 更快的演算法。具體地，本文擴充套件了文獻 [2] 中的反例，說明了存在某個函式理論上至少需要ɛ負 3 次冪隨機梯度訪問才可能獲得一個一階穩定點。這即證明了 SPIDER 在一定條件下的最優性！

本文還有許多的重要擴充套件，讀者可以在長文中 https://arxiv.org/pdf/1807.01695.pdf 中看到，例如：

1. 對於一個更難的收斂準則，即要求演算法能夠逃離較明顯的鞍點，找到一個二階穩定點，本文提出了 SPIDER-SFO 演算法，其收斂速度仍為ɛ的負 3 次冪。而目前所有非凸方法對於尋求二階穩定點只能達到ɛ的負 3.5 次冪的收斂速度！下圖為給演算法之間的收斂速度比較：

2. 本文提出的 SPIDER 技巧非常靈活，不僅可以用於更好的追蹤梯度，也可以幫助我們更好的追蹤許多其他感興趣的量，例如對於 0 階演算法，使用 SPIDER 技術，可以得到滿足 d 乘以ɛ負 3 次冪收斂速度的演算法（SPIDER-SZO）。而目前最快的方法收斂速度為 d 乘以ɛ負 4 次冪！

3. 本文的證明方法相對簡單且易懂。證明技巧很容易被推廣，例如很容易使用該文的證明技巧證明 SVRG [1] 在該問題的收斂速度。

[1] Johnson, Rie & Zhang, Tong (2013). Accelerating stochastic gradient descent using predictive variance reduction. In Advances in Neural Information Processing Systems (pp. 315–323).

[2] Carmon, Yair, Duchi, John C., Hinder, Oliver, & Sidford, Aaron (2017b). Lower bounds for finding stationary points i. arXiv preprint arXiv:1710.11606.

騰訊AI Lab&北大提出基於隨機路徑積分的差分估計子非凸優化方法

您可能也會喜歡…