隨機森林演算法
你好,你在本文中,可以看到這些內容:
- 隨機森林是什麼?
- 隨機森林如何工作?
- 隨機森林的優勢
- 隨機森林的應用
隨機森林是什麼?
隨機森林是一種非引數的整合學習方法,森林裡面的每一棵 決策樹 是通過重取樣訓練資料集而生成的。與單一樹對比,隨機森林演算法表現出更好的模型效能。
隨機森林如何工作?
隨機森林如何工作?
要解答這個問題,我們首先要知道整合學習思想。它是把多個“弱學習器”組合在一起形成一個“強學習器”。弱學習器,它僅是稍好於隨機性預判的一種學習器。整合學習裡面的弱學習器可以是相同型別的演算法(比方說:決策樹,神經網路等),也可以是不同型別的演算法。
隨機森林演算法 = 整合學習思想 + 決策樹演算法
隨機森林演算法可以做分類,也可以做迴歸。 對於分類任務,基於森林裡面每一顆樹的分類結果採用投票機制確定最終分類類別;對於迴歸任務,基於森林裡面的每一顆樹的分類結果做平均。
隨機森林演算法工作原理:
- 對訓練資料集有放回地抽樣N次,生成了N份訓練資料集。這種方法叫做bootstrap。因為是採用bootstrap方法,每份訓練資料集都是原始訓練資料集的子集,通過計算分析,會發現越有63%的原始樣本會在抽樣後的訓練集中至少出現一次。抽樣後的訓練集中沒有包含的原始樣本稱為袋外樣本(OOB),OOB的錯誤率可以用來評估特徵的重要性。
- 對於每一份訓練資料集,從原始變數集中隨機選取一部分變數集,來構建決策樹,每顆決策樹最大程度生長。每顆決策樹用來做相應預測。
- 最後的預測結果由每顆決策樹的分類結果投票決定或者每顆決策樹的迴歸結果按權重計算而來。
隨機森林裡面每棵樹是弱學習器,但隨機森林是強學習器。
隨機森林的優勢
- 隨機森林保持決策樹的許多優勢。它容易構建和實施,並且也有好的結果。
- 對資料表示要求不高。
- 它較好地克服了單一決策樹的過擬合問題。
隨機森林的應用
-
Chengwei Liu, Yixiang Chan等人利用隨機森林演算法解決金融業裡面欺詐檢測問題。論文連線:https://www.researchgate.net/publication/279783850_Financial_Fraud_Detection_Model_Based_on_Random_Forest
-
Majdi Rabia 利用隨機森林演算法做期權定價。文章閱讀: https://towardsdatascience.com/example-of-random-forest-application-in-finance-option-pricing-d6ee06356c6e
等等
您有什麼想法或者見解,請留言。