科技

機器學習筆記之—SVM

支援向量機 · 發表 2018-11-30 19:41:32

摘要：假定有一個訓練集，它要麼屬於正例，要麼屬於負例。在分類問題當中，我們最基本的想法就是基於訓練集D在樣本空間中找到一個劃分超平面，將不同的樣本分開。這樣的劃分平面有很多，哪一個是最好的呢？ 1.png 假設其中一個劃分超平面是魯棒性、泛化能力最好...

假定有一個訓練集，它要麼屬於正例，要麼屬於負例。在分類問題當中，我們最基本的想法就是基於訓練集D在樣本空間中找到一個劃分超平面，將不同的樣本分開。這樣的劃分平面有很多，哪一個是最好的呢？

1.png

假設其中一個劃分超平面是魯棒性、泛化能力最好的，對訓練樣本區域性擾動的“容忍性”也最好，這個劃分超平面用如下方程式描述：

2.png

3.png

樣本空間到這個超平面的距離d表示為：

Line"/>

3.png

，沿用一般求點到直線的距離公示，即可得出該距離公式。

4.png

對於這個超平面，上半區域是大於0的，都為正例；下半區域是小於0的，都為負例。所以有：

5.png

6.png

因為w，b等比縮放後，方程式依然不變

7.png

所以若將w，b等比縮放的話，就可得到以下公式：

8.png

再合併一下，就得到如下公式：

9.png

回到最原始的問題，怎樣的超平面才是我們想要的超平面呢？回到樣本空間，如果我們沿著超平面，一遇到正例、負例就作它的平行超平面，這些點就是離超平面最近的點。當這幾個點離超平面距離越大，間隔越大，說明這個樣本空間就劃分的更好，對訓練樣本局本部擾動的“容忍”性就最好

8.png

那麼這個長得像街道的街寬要怎麼求呢？

9.png

由剛剛的公示，知道街邊的點滿足Yi* (w*x+b)=1。令街邊的點的向量分別為X+，X-，那麼街寬就為（X+-X-）在W法向量上的分量

10.png

11.png

於是，求最大街寬的問題，就轉化為求最大的問題。

原目標函式：

12.png

13.png

轉化一下：

14.png

現在是如何求最優的w，b來來獲得最大間隔

在數學中，求最小值可以用到拉格朗日定理

15.png

16.png

17.png

18.png

我們可以發現，原問題的對偶問題，現在是極大極小問題

19.png

對w，b分別求偏導可得：

20.png

再帶入原公式：

21.png

現在轉化為求最優α，求到了α，就求到了最優w，b，那麼超平面就求到了，分類決策函式也就求到了。

之前提到的資料集都是線性可分的，如果資料集如下圖該怎麼辦呢？

22.png

上面的資料並不是線性可分的，那麼我們就可以利用核函式，來解決這個問題。

23.gif

這個方法的核心是將樣本從原始空間對映到一個更高維的特徵空間。

該特徵空間中劃分超平面所對應的模型可表示為：

24.png

其中ϕ(x)表示對映後的特徵向量

像線性可分情況一樣，也會有一下公式：

25.png

26.png

27.png

〖ϕ(x_i )〗^T ϕ(x_j)往往很難計算，於是可以設想一個核函式

28.png

資料集形成的M*M個核矩陣要是半正定的

29.png

現在已經有很多的核函式，比如多項式核、高斯核、SigMoid核等等，在實際應用中，往往依賴鮮豔領域知識/交叉驗證等方案才能選擇有效的核函式。沒有更多先驗資訊，則使用高斯核函式。對於高斯核函式，我還沒有進入更深一層次的研究。

在現實任務中，往往很難確定合適的核函式是的訓練集在特徵空間中線性可分。樣本資料本身線性不可分；不一定分類完全正確的超平面就是最好的。

在圖中會發現幾個離群點，如果不考慮這些離群點，有可能劃分的超平面就不一樣。

考慮這些離群點有時候會出現過擬合的現象，

緩解該問題的一個辦法就是允許支援向量機在樣本上出錯，因此，引入軟間隔的概念。

30.png

增加一個鬆弛因子ξi≥0

31.png

目標函式就變為：

32.png

C越小，對錯誤越能容忍。C越大，對我們的訓練越能達到一個更好的結果。防止過擬合的話，C儘量小

帶鬆弛因子的SVM拉格朗日函式

33.png

34.png

35.png

來源：簡書

您可能也會喜歡…