教程 | 僅需六步，從零實現機器學習演算法！

演算法資料探勘 · 發表 2018-11-30 11:25:54

摘要：從頭開始寫機器學習演算法能夠獲得很多經驗。當你最終完成時，你會驚喜萬分，而且你明白這背後究竟發生了什麼。有些演算法比較複雜，我們不從簡單的演算法開始，而是要從非常簡單的演算法開始，比如單層感知器。本文以感知器為例，通過以下 6 個步驟引導你從頭開始寫演算法： ● 對...

從頭開始寫機器學習演算法能夠獲得很多經驗。當你最終完成時，你會驚喜萬分，而且你明白這背後究竟發生了什麼。

有些演算法比較複雜，我們不從簡單的演算法開始，而是要從非常簡單的演算法開始，比如單層感知器。

本文以感知器為例，通過以下 6 個步驟引導你從頭開始寫演算法：

● 對演算法有基本的瞭解

● 找到不同的學習資源

● 將演算法分解成塊

● 從簡單的例子開始

● 用可信的實現進行驗證

● 寫下你的過程

基本瞭解

不瞭解基礎知識，就無法從頭開始處理演算法。至少，你要能回答下列問題：

● 它是什麼？

● 它一般用在什麼地方？

● 什麼時候不能用它？

就感知器而言，這些問題的答案如下：

● 單層感知器是最基礎的神經網路，一般用於二分類問題（1 或 0，「是」或「否」）。

● 它可以應用在一些簡單的地方，比如情感分析（積極反應或消極反應）、貸款違約預測（「會違約」，「不會違約」）。在這兩種情況中，決策邊界都是線性的。

● 當決策邊界是非線性的時候不能使用感知器，要用不同的方法。

藉助不同的學習資源

在對模型有了基本瞭解之後，就可以開始研究了。有人用教科書學得更好，而有人用視訊學得更好。就我而言，我喜歡到處轉轉，用各種各樣的資源學習。

如果是學數學細節的話，書的效果很好（參見：https://www.dataoptimal.com/data-science-books-2018/），但對於更實際的例子，我更推薦部落格和 YouTube 視訊。

以下列舉了一些關於感知器不錯的資源：

書

● 《統計學習基礎》（The Elements of Statistical Learning），第 4.5.1 節（https://web.stanford.edu/~hastie/Papers/ESLII.pdf）

● 《深入理解機器學習：從原理到演算法》，第 21.4 節（https://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/understanding-machine-learning-theory-algorithms.pdf）

部落格

● Jason Brownlee 寫的《如何用 Python 從零開始實現感知器演算法》（https://machinelearningmastery.com/implement-perceptron-algorithm-scratch-python/）

● Sebastian Raschka 寫的《單層神經網路和梯度下降》（https://sebastianraschka.com/Articles/2015_singlelayer_neurons.html）

視訊

● 感知器訓練（https://www.youtube.com/watch?v=5g0TPrxKK6o）

● 感知器演算法的工作原理（https://www.youtube.com/watch?v=1XkjVl-j8MM）

將演算法分解成塊

現在我們已經收集好了資料，是時候開始學習了。與其從頭讀一個章節或者一篇部落格，不如先瀏覽章節標題和其他重要資訊。寫下要點，並試著概述演算法。

在看過這些資料之後，我將感知器分成下列 5 個模組：

● 初始化權重

● 將輸入和權重相乘之後再求和

● 比較上述結果和閾值，計算輸出（1 或 0）

● 更新權重

● 重複

接下來我們詳細敘述每一個模組的內容。

1. 初始化權重

首先，我們要初始化權重向量。

權重數量要和特徵數量相同。假設我們有三個特徵，權重向量如下圖所示。權重向量一般會初始化為 0，此例中將一直採用該初始化值。

2. 輸入和權重相乘再求和

接下來，我們就要將輸入和權重相乘，再對其求和。為了更易於理解，我給第一行中的權重及其對應特徵塗上了顏色。

在我們將特徵和權重相乘之後，對乘積求和。一般將其稱為點積。

最終結果是 0，此時用「f」表示這個暫時的結果。

3. 和閾值比較

計算出點積後，我們要將它和閾值進行比較。我將閾值定為 0，你可以用這個閾值，也可以試一下其他值。

由於之前計算出的點積「f」為 0，不比閾值 0 大，因此估計值也等於 0。

將估計值標記為「y hat」，y hat 的下標 0 對應的是第一行。當然你也可以用 1 表示第一行，這無關緊要，我選擇從 0 開始。

如果將這個結果和真值比較的話，可以看出我們當前的權重沒有正確地預測出真實的輸出。

由於我們的預測錯了，因此要更新權重，這就要進行下一步了。

4. 更新權重

我們要用到下面的等式：

基本思想是在迭代「n」時調整當前權重，這樣我們將在下一次迭代「n+1」時得到新權重。

為了調整權重，我們需要設定「學習率」，用希臘字母「eta（η）」標記。我將學習率設為 0.1，當然就像閾值一樣，你也可以用不同的數值。

目前本教程主要介紹了：

現在我們要繼續計算迭代 n=2 時的新權重了。

我們成功完成了感知器演算法的第一次迭代。

5. 重複

由於我們的演算法沒能計算出正確的輸出，因此還要繼續。

一般需要進行大量的迭代。遍歷資料集中的每一行，每一次迭代都要更新權重。一般將完整遍歷一次資料集稱為一個「epoch」。

我們的資料集有 3 行，因此如果要完成 1 個 epoch 需要經歷 3 次迭代。我們也可以設定迭代總數或 epoch 數來執行演算法，比如指定 30 次迭代（或 10 個 epoch）。與閾值和學習率一樣，epoch 也是可以隨意使用的引數。

在下一次迭代中，我們將使用第二行特徵。

此處不再重複計算過程，下圖給出了下一個點積的計算：

接著就可以比較該點積和閾值來計算新的估計值、更新權重，然後再繼續。如果我們的資料是線性可分的，那麼感知器最終將會收斂。

從簡單的例子開始

我們已經將演算法分解成塊了，接下來就可以開始用程式碼實現它了。

簡單起見，我一般會以非常小的「玩具資料集」開始。對這類問題而言，有一個很好的小型線性可分資料集，它就是與非門（NAND gate）。這是數位電路中一種常見的邏輯閘。

由於這個資料集很小，我們可以手動將其輸入到 Python 中。我添加了一列值為 1 的虛擬特徵（dummy feature）「x0」，這樣模型就可以計算偏置項了。你可以將偏置項視為可以促使模型正確分類的截距項。

以下是輸入資料的程式碼：

# Importing libraries

# NAND Gate

# Note: x0 is a dummy variable for the bias term

# x0 x1 x2

x = [[1., 0., 0.],

[1., 0., 1.],

[1., 1., 0.],

[1., 1., 1.]]

y =[1.,

1.,

0.]

與前面的章節一樣，我將逐步完成演算法、編寫程式碼並對其進行測試。