歷經27年，人臉識別技術如何發展至識別精度達99.5%以上

資料探勘人臉識別 · 發表 2018-10-30 11:42:00

摘要：早在20世紀50年代，認知科學家就已著手對人臉識別展開研究。20世紀60年代，人臉識別工程化應用研究正式開啟。當時的方法主要利用了人臉的幾何結構，通過分析人臉器官特徵點及其之間的拓撲關係進行辨識。這種方法簡單直觀，但是一旦人臉姿態、表情發生變化，精度則嚴重下降。 ...

早在20世紀50年代，認知科學家就已著手對人臉識別展開研究。20世紀60年代，人臉識別工程化應用研究正式開啟。當時的方法主要利用了人臉的幾何結構，通過分析人臉器官特徵點及其之間的拓撲關係進行辨識。這種方法簡單直觀，但是一旦人臉姿態、表情發生變化，精度則嚴重下降。

20世紀90年代

1991年，著名的“特徵臉”（Eigenface）方法第一次將主成分分析和統計特徵技術引入人臉識別，在實用效果上取得了長足的進步。這一思路也在後續研究中得到進一步發揚光大，例如，Belhumer成功將Fisher判別準則應用於人臉分類，提出了基於線性判別分析的Fisherface方法。

來自100個類（主題）的前四個Fisherfaces。

2000-2012年

21世紀的前十年，隨著機器學習理論的發展，學者們相繼探索出了基於遺傳演算法、支援向量機（Support Vector Machine，SVM）、boosting、流形學習以及核方法等進行人臉識別。

2009年至2012年，稀疏表達（Sparse Representation）因為其優美的理論和對遮擋因素的魯棒性成為當時的研究熱點。與此同時，業界也基本達成共識：基於人工精心設計的區域性描述子進行特徵提取和子空間方法進行特徵選擇能夠取得最好的識別效果。

圖形概要

Gabor及LBP特徵描述子是迄今為止在人臉識別領域最為成功的兩種人工設計區域性描述子。這期間，對各種人臉識別影響因子的針對性處理也是那一階段的研究熱點，比如人臉光照歸一化、人臉姿態校正、人臉超分辨以及遮擋處理等。

3種圓形的LBP運算元

也是在這一階段，研究者的關注點開始從受限場景下的人臉識別轉移到非受限環境下的人臉識別。LFW人臉識別公開競賽（LFW是由美國馬薩諸塞大學釋出並維護的公開人臉數集，測試資料規模為萬）在此背景下開始流行，當時最好的識別系統儘管在受限的FRGC測試集上能取得99%以上的識別精度，但是在LFW上的最高精度僅僅在80%左右，距離實用看起來距離頗遠。

2013年

微軟亞洲研究院的研究者首度嘗試了10萬規模的大訓練資料，並基於高維LBP特徵和JointBayesian方法在LFW上獲得了95.17%的精度。這一結果表明：大訓練資料集對於有效提升非受限環境下的人臉識別很重要。然而，以上所有這些經典方法，都難以處理大規模資料集的訓練場景。

2014年前後

隨著大資料和深度學習的發展，神經網路重受矚目，並在影象分類、手寫體識別、語音識別等應用中獲得了遠超經典方法的結果。香港中文大學的Sun Yi等人提出將卷積神經網路應用到人臉識別上，採用20萬訓練資料，在LFW上第一次得到超過人類水平的識別精度，這是人臉識別發展歷史上的一座里程碑。

論文下載連結：

https://www.aminer.cn/archive/hybrid-deep-learning-for-face-verification/53e9a51db7602d9702e4193c

自此之後，研究者們不斷改進網路結構，同時擴大訓練樣本規模，將LFW上的識別精度推到99.5%以上。人臉識別發展過程中一些經典的方法及其在LFW上的精度，都有一個基本的趨勢：訓練資料規模越來越大，識別精度越來越高。

ofollow,noindex">aminer學術頭條

AMiner平臺由清華大學計算機系研發，擁有我國完全自主智慧財產權。系統2006年上線，吸引了全球220個國家/地區800多萬獨立IP訪問，資料下載量230萬次，年度訪問量1000萬，成為學術搜尋和社會網路挖掘研究的重要資料和實驗平臺。

理論人臉識別 Eigenface Fisherface 機器學習卷積神經網路語音識別

相關資料

神經網路技術

Neural Network

（人工）神經網路是一種起源於 20 世紀 50 年代的監督式機器學習模型，那時候研究者構想了「感知器（perceptron）」的想法。這一領域的研究者通常被稱為「聯結主義者（Connectionist）」，因為這種模型模擬了人腦的功能。神經網路模型通常是通過反向傳播演算法應用梯度下降訓練的。目前神經網路有兩大主要型別，它們都是前饋神經網路：卷積神經網路（CNN）和迴圈神經網路（RNN），其中 RNN 又包含長短期記憶（LSTM）、門控迴圈單元（GRU）等等。深度學習是一種主要應用於神經網路幫助其取得更好結果的技術。儘管神經網路主要用於監督學習，但也有一些為無監督學習設計的變體，比如自動編碼器和生成對抗網路（GAN）。

來源：機器之心

大資料技術

Big data

大資料，又稱為巨量資料，指的是傳統資料處理應用軟體不足以處理它們的大或複雜的資料集的術語。

來源：維基百科

人臉識別技術

Facial recognition

廣義的人臉識別實際包括構建人臉識別系統的一系列相關技術，包括人臉影象採集、人臉定位、人臉識別預處理、身份確認以及身份查詢等；而狹義的人臉識別特指通過人臉進行身份確認或者身份查詢的技術或系統。人臉識別是一項熱門的計算機技術研究領域，它屬於生物特徵識別技術，是對生物體（一般特指人）本身的生物特徵來區分生物體個體。

來源：維基百科

遺傳程式設計技術

Genetic programming

遺傳程式設計或稱基因程式設計，簡稱GP，是一種從生物演化過程得到靈感的自動化生成和選擇計算機程式來完成使用者定義的任務的技術。從理論上講，人類用遺傳程式設計只需要告訴計算機“需要完成什麼”，而不用告訴它“如何去完成”，最終可能實現真正意義上的人工智慧：自動化的發明機器。

來源：維基百科

線性判別分析技術

Linear Discriminant Analysis

線性判別分析是對費舍爾的線性鑑別方法的歸納，這種方法使用統計學，模式識別和機器學習方法，試圖找到兩類物體或事件的特徵的一個線性組合，以能夠特徵化或區分它們。所得的組合可用來作為一個線性分類器，或者，更常見的是，為後續的分類做降維處理。

來源：維基百科

機器學習技術

Machine Learning

機器學習是人工智慧的一個分支，是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的演算法。因為學習演算法中涉及了大量的統計學理論，機器學習與推斷統計學聯絡尤為密切，也被稱為統計學習理論。演算法設計方面，機器學習理論關注可以實現的，行之有效的學習演算法。

來源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

流形學習技術

Manifold learning

流形學習（manifold learning）是機器學習、模式識別中的一種方法，在維數約簡方面具有廣泛的應用。它的主要思想是將高維的資料對映到低維，使該低維的資料能夠反映原高維資料的某些本質結構特徵。流形學習的前提是有一種假設，即某些高維資料，實際是一種低維的流形結構嵌入在高維空間中。流形學習的目的是將其映射回低維空間中，揭示其本質。

來源：知乎 Jason Gu

主成分分析技術

Principal component analysis

在多元統計分析中，主成分分析（Principal components analysis，PCA）是一種分析、簡化資料集的技術。主成分分析經常用於減少資料集的維數，同時保持資料集中的對方差貢獻最大的特徵。這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住資料的最重要方面。但是，這也不是一定的，要視具體應用而定。由於主成分分析依賴所給資料，所以資料的準確性對分析結果影響很大。

來源：機器之心維基百科

語音識別技術

Speech Recognition

自動語音識別是一種將口頭語音轉換為實時可讀文字的技術。自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。自動語音識別是一個多學科交叉的領域，它與聲學、語音學、語言學、數字訊號處理理論、資訊理論、電腦科學等眾多學科緊密相連。由於語音訊號的多樣性和複雜性，目前的語音識別系統只能在一定的限制條件下獲得滿意的效能，或者說只能應用於某些特定的場合。自動語音識別在人工智慧領域佔據著極其重要的位置。

來源： What is Automatic Speech Recognition?

深度學習技術

Deep learning

深度學習（deep learning）是機器學習的分支，是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。深度學習是機器學習中一種基於對資料進行表徵學習的演算法，至今已有數種深度學習框架，如卷積神經網路和深度置信網路和遞迴神經網路等已被應用在計算機視覺、語音識別、自然語言處理、音訊識別與生物資訊學等領域並獲取了極好的效果。

來源： LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

微軟亞洲研究院機構

Microsoft Research Asia

微軟亞洲研究院是微軟公司在亞太地區設立的研究機構，也是微軟在美國本土以外規模最大的一個。從1998年建院至今, 通過從世界各地吸納而來的專家學者們的鼎力合作，微軟亞洲研究院已經發展成為世界一流的計算機基礎及應用研究機構，致力於推動整個電腦科學領域的前沿技術發展，並將最新研究成果快速轉化到微軟全球及中國本地的關鍵產品中，幫助消費者改善計算體驗。同時，微軟亞洲研究院著眼於下一代革命性技術的研究，助力公司實現長遠發展戰略和對未來計算的美好構想。目前，微軟亞洲研究院共有200多名科學家以及300多名訪問學者和實習生，主要從事五個領域的研究：1. 自然使用者介面、2. 新一代多媒體、3. 以數字為中心的計算、4. 網際網路搜尋與線上廣告、5. 電腦科學基礎從微軟亞洲研究院誕生出來的新技術層出不窮，它們對微軟公司產生了非常重要的影響。眾多從微軟亞洲研究院誕生的創新技術轉移到了微軟產品中，包括：Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect、Power BI等，以及近年來以微軟小冰、Cortana、Microsoft Translator、微軟認知服務等為代表的人工智慧產品。同時，基於以實踐驅動的研究理念，近年來微軟亞洲研究院孵化了很多廣受歡迎的應用和技術專案，包括微軟自拍、微軟小英、微軟識花、微軟對聯/字謎、Urban Air、小魚天氣等。

涉及領域

特徵選擇技術

Feature selection

在機器學習和統計學中，特徵選擇（英語：feature selection）也被稱為變數選擇、屬性選擇或變數子集選擇。它是指：為了構建模型而選擇相關特徵（即屬性、指標）子集的過程。

來源：維基百科

支援向量機技術

Support Vector Machines

在機器學習中，支援向量機是在分類與迴歸分析中分析資料的監督式學習模型與相關的學習演算法。給定一組訓練例項，每個訓練例項被標記為屬於兩個類別中的一個或另一個，SVM訓練演算法建立一個將新的例項分配給兩個類別之一的模型，使其成為非概率二元線性分類器。SVM模型是將例項表示為空間中的點，這樣對映就使得單獨類別的例項被儘可能寬的明顯的間隔分開。然後，將新的例項對映到同一空間，並基於它們落在間隔的哪一側來預測所屬類別。

來源： Wikipedia

歷經27年，人臉識別技術如何發展至識別精度達99.5%以上

20世紀90年代

2000-2012年

您可能也會喜歡…