清華大學鄭方：語音技術用於身份認證的理論與實踐

語音識別人臉識別資料探勘 · 發表 2018-11-02 16:14:00

摘要：本講座選自清華大學語音和語言技術中心主任鄭方教授近期於清華大資料“技術·前沿”系列講座上所做的題為《語音技術用於身份認證的理論與實踐》的演講。以下為演講的主要內容：鄭方：今天，我所講的關於語音技術用於身份認證的理論與實踐，主要分...

本講座選自清華大學語音和語言技術中心主任鄭方教授近期於清華大資料“技術·前沿”系列講座上所做的題為 《語音技術用於身份認證的理論與實踐》 的演講。

以下為演講的主要內容：

鄭方：今天，我所講的關於語音技術用於身份認證的理論與實踐，主要分為兩個方向：

一是更高的安全保障；
二是更低的隱私洩露。

內容則分成四個方面：

一是身份認證的技術要求；
二是語音訊號的特點分析；
三是安全保障和隱私保護；
四是語音處理技術的實踐。

一、身份認證的技術要求

1. 網路空間身份認證

“網路空間身份認證”事關新時代的國家安全、經濟安全、社會穩定、民眾福祉等，這其中包括五個方面：

一是網路空間已成為 國際反恐新陣地 ；
二是 網路安全風險 向更多終端蔓延；
三是資訊資源 共享開放 面臨認證瓶頸；
四是 個人資訊倒賣 助長“黑色產業鏈”；
五是 認證漏洞 威脅公民財產生命安全。

2. 身份認證的三個層級

網路空間身份認證分為三個層級：第一層級是實名；第二層級是實證；更高的層級是實人，即人本身必須是真實的。

3. 各國政府解決方案和路線圖比較

各國政府解決方案和路線圖也各有不同，歐美等發達國家在這方面早有佈局。

比如，歐盟於2006年釋出了《2010年泛歐洲eID管理框架路線圖》（eID即電子身份證），計劃用五年實現歐洲聯盟電子政務的身份管理。

美國於2011年釋出了《網路空間可信身份國家戰略》，計劃用十年的時間，建設一套公民的身份認證生態體系。

中國起步比較晚。2013年底，中國通訊標準化協會專門設立了“網路空間身份管理標準工作組”，公安部三所正在牽頭制定30多項eID國家及行業標準。

另外，公安部一所在2016年研發了“網路可信身份認證服務平臺”，每個人都可在網上生成終生唯一編號的“身份證網上副本”；同時，由公安部一所牽頭，清華大學也參與共建了多維身份識別和可信認證國家工程實驗室。

2012年7月，為了滿足市場需求和應付網上驗證的要求，線上快速身份驗證聯盟（FIDO）成立。它主要通過兩個子協議實現安全的登入，第一個協議UAF（通用認證框架），支援指紋、語音、虹膜等生物特徵識別；第二個協議U2F是關於使用PIN和USB棒或者支援NFC手機的認證協議。

4. 生物特徵（生理特徵+行為特徵）

我們發現，不管是中國公安部一所還是FIDO聯盟，都已經開始考慮使用生物特徵。那麼什麼是生物特徵呢？生物特徵分為生理特徵和行為特徵。其中，生理特徵包括指紋、人臉、虹膜、掌紋、DNA等，生 理特徵的最大特點是從出生到去世基本不變 。

第二類特徵是行為特徵。它既有生理方面的一些特徵，同時又有一些行為方面的特徵；比如，簽名、步態、聲紋。

可以參考的第一個事件是去年12月26號在廣州市的南沙區推出的微信身份證“微證”，第二個事件是江西共青城做的一個網路電子身份標識的手機貼膜卡（SIMEID）。

5. 公民關注的焦點

公民關注的焦點主要分為兩個方面：

一是生物特徵的 安全性 ——防攻擊效能如何？
二是生物特徵的 隱私性 ——生物特徵丟了怎麼辦？

所以，網上出現一句話“丟臉即丟人”，這是最大的問題。

我們發現生理特徵具有很多類似的特點，即 不可撤銷性 。比如，虹膜是不能防攻擊的。

同時，指紋識別、人臉識別也具有不能防攻擊的特性。

刷臉也存在安全問題，只需採用一些傳統方法，就可以輕易攻擊某些基於AI安全手段的系統。

歐盟於今年5月25日釋出了一個GDPR條例，即通用資料保護規範。它是對我們企業影響非常大的條例，不僅是適用於歐盟的組織，而且適用於在歐盟擁有客戶和聯絡人的組織；只要跟歐盟有關係，它都會保護，所以對產業具有非常巨大的影響。

無監督身份認證的技術要求包含五個方面：

一是 人證合一性 ，用來進行身份認證的特徵，一定要具有唯一性，並且識別技術要有準確性；
二是不易偽造性；
三是意圖真實性；
四是證據可溯性；
五是認證便宜性。

二、語音訊號的特點分析

語音特徵具有的優勢包括：

第一， 語音獲取自然、 方便，易於接受；
第二， 語音採集和傳輸成本低廉 ，使用簡單；
第三， 使用者互動性強 ，易防止假冒闖入；
第四，可以 結合業務 ；
第五，可以 體現使用者真實意圖 。

它的劣勢包括：

一是 不直觀 ，看不見摸不著；
二是 時變性 ，隨著年齡等會有變化；
三是 弱可獲得性 ，不同於人臉可以從身份證系統獲得，聲紋每次需要預留；
四是 弱抗噪性 ，類似於手指（指紋）髒了。

總結一下，語音主要有以上三個比較突出的特點。

上圖是計算機眼中的語音。

語音訊號是一維訊號，形簡意豐，包含很多豐富的資訊。比如，語音內容、說話人、語音、性別、情感等。

如上圖所示，語音訊號包含多層資訊。第一層面是 語言資訊 ，句子、句式、焦點、因素等都可以在其中體現出來；第二層面是 副語言資訊 ，包括音高、音質量、語調等，蘊含了說話人的態度、情感、意圖、方言等等多方面資訊；第三層 非語言資訊 ，比如健康狀況、性別、年齡等。

身份識別是指對人的身份通過語音訊號中所蘊含的資訊來進行判別的自動化技術。

總體來講，可以分為四類：

第一， 聲紋辨認 。判定測試語音屬於目標說話模型集合中哪一個人。辨認是“多選一”的 “選擇”問題；
第二， 聲音確認 。確認測試語音是否來自所宣告的目標說話人。確認是“一對一”的“判別”問題；
第三， 說話人檢出 。判斷測試語音中是否存在目標說話人；
第四， 檢出的擴充套件 。判斷目標說話人在測試語音中的發音位置。

第二種分類方法是按照說話內容的限定性，分為：

文字相關
文字無關
文字提示

所謂 文字無關 是指聲紋識別系統對發音內容無任何要求，說話人可隨意錄製或發音一定長度的語音；所謂 文字相關 是指聲紋識別系統要求說話人必須發音事先指定的文字內容；所謂 文字指示 是指聲紋識別系統從訓練文字庫中隨機提取若干詞彙組合後提示使用者發音的文字內容，一般需要結合ASR。

對於聲紋確認效能的評價，我們會使用到EER 和DET曲線。DET曲線由兩個座標組成，橫座標是FAR，縱座標是FRR，FAR是指錯誤的預警、錯誤的接受，與安全性對應；FRR是指錯誤拒絕，與使用者體驗對應。當兩個錯誤率相等時，即FAR=FRR，稱之為等錯誤率（EER）。等錯誤率可以平均地表現系統的好壞，衡量的標準是等錯誤率離原點越近系統越好，離原點越遠系統越差。

同時，我們也會用到檢測代價函式（DCF），DCF值是FAR和FRR的加權和。DCF值將FAR和FRR不同重要性量化，值越小，系統性能越好越好。

聲紋識別辨認有兩種：

一是開集聲紋辨認，
二是閉集聲紋辨認。

對於聲紋識別的技術發展歷程，我們可以按照兩個維度來看，一是特徵域，二是模型域，每個域的發展都經歷了非常漫長的過程。

現在比較多的模型是GMM—UBM，它將GMM（高斯混合模型）和UBM（通用背景模型）放到一起來進行說話人識別，提高了準確率。

說話人識別技術經歷的很多發展基本很多都是利用了一個概念，即Supervector（超向量）。

說話人識別需要解決的問題非常多，可以分為三類：

第一是 環境相關 的魯棒性，包括背景噪音、跨通道、多說話人；
第二是 說話人相關 的魯棒性，包括身體條件變化、年齡變化、說話方式變化；
第三是 應用相關 的魯棒性，比如防假冒攻擊、短語音的使用者體驗、真實意圖檢測、語音編碼相容性等。

三、隱私保護和安全保障

我們發現，身份認證其實涉及了安全性和方便性的一對矛盾共同體。有時候完全強調方便性不行，完全考慮安全性也不行。

聲紋識別系統的常見攻擊手段分為直接攻擊和間接攻擊，可能的攻擊點存在8個方面，如上圖所示。

常見的攻擊手段有四類：

第一類叫 聲音模仿 ；
第二類叫 語音合成 ；
第三類叫 語音轉換 ；
第四類叫 語音重放 。

其中，聲音模仿是模仿說話韻律和說話風格，未見研究證明其具有顯著威脅性，暫無防禦的必要性。

語音合成是合成特定說話人的語音。一方面，可以通過 引數合成方法 ，估計關鍵引數；另一方面，可以通過 發聲器模型 ，人工製造語音發生攻擊。

語音合成和語音轉換都要通過一個計算機系統把聲音生成出來，然後再播放。這個放的過程和錄音重放是一樣的，所以從研究的角度講，只要把錄音重放檢測做好了，其他的問題便都可以解決。

實際上，錄音重放的檢測有很多方法可以做到。比如資料追蹤，即對比當前語音和歷史驗證語音是否存在相同聲紋水印。

所謂通道檢測是指檢測模型預留和識別測試之間的通道差異。

如上圖所示，既有信道模式噪音，又有遠場混響。

基於倒譜分析設計各類特徵，區分重放前後的語音，不同子頻帶具有不同的錄放檢測功能。

還有一種方法是利用活體檢測麥克風所接收的語音是來自真人發音還是機器放音。

第一個方案是 噴麥現象的檢測 。比如，任何一個正常人說話，都會有“噗”的聲音。但是如果是錄音機放的聲音，就沒有噴麥現象。

更復雜的是通過 多普勒雷達 ，人在正常說話的時候，嘴巴一張一合，口腔中有不同的反射。用一個發射器發出20K赫茲的訊號，出來之後，如果這邊是真人在說話，訊號經過口腔的反射，接收到的反射頻率不一樣，老在變；但如果是錄音機放的聲音，就沒有這個變化。

所以，我們發現不管通過軟體還是硬體，聲紋的防攻擊都是低成本。

我們總結一下發現，應對直接攻擊的對策是用錄音檢測，間接攻擊的對策是加強軟體安全，修復系統漏洞。

聲紋的防攻優勢，一是特徵提取，體現了多層。我們在特徵提取訊號域要進到頻率域，做一些處理，最後再到倒譜域，這才取得的第一道特徵。

最近的JFA、i-vecter等是基於來自GMM-UBM的超向量。

防攻擊的第一個是 基礎策略 ，綜合利用語音識別和聲紋識別。

第二是 增強策略 ，比如錄音檢測、使用者自定義密碼等。

脣語有語音的資訊、身份的資訊，並且和語音很像，脣語和語音結合起來就是 雙特徵 和 雙活體檢測 。

什麼叫被知情？如果沒有使用者真實意圖檢測的話，會出現上圖所示的場景：“老公，看一眼手機唄”。如果“老公”一看，就會刷臉支付。

語音的特點是非常方便，它是更高安全，更低成本和更低隱私的聲紋+的結構。

除了虹膜在人證合一準確率方面是最好的之外，聲紋在 不易偽造、意圖真實、證據可追溯、認證便宜 方面都是最好的，符合性最大。

上表是我們把各種不同的生物特徵進行的一個比較。其中，聲音的隱私風險最低。用一句話表達的話，便是“失聲（音）不失身（份）”。

“聲紋+”方案有三個特點：

一是高精度；
二是高安全；
三是低隱私。

為什麼有這三個特點呢？因為有三個方面的原因。一是語音訊號本身的特點；二是語音演算法的優勢；三是低的成本。低的成本包括訊號本身的採集和傳輸，也包括計算成本都很低，所以“聲紋+”是最好的解決方案。

四、語音處理技術的實踐

其他的AI領域包括社保、汽車、移動、保險、國家資訊中心、公安系統等。

公有云的試驗已經逐步推開，涉及的領域包括移動金融、電子政務、社保的身份認證、電話反欺詐、汽車鎖、考勤、門禁等領域。

上圖是“聲紋+”的未來的場景，特點是便宜（方便和低成本）。在加油站、賓館、無人商店、ATM機都可以裝一些麥克風，需要認證的時候對它說一下。而不需要依賴於任何一個企業，任何一個應用或平臺。

ofollow,noindex">THU資料派

THU資料派"基於清華，放眼世界"，以紮實的理工功底闖蕩“資料江湖”。釋出全球大資料資訊，定期組織線下活動，分享前沿產業動態。瞭解清華大資料，敬請關注姐妹號“資料派THU”。

理論清華大學語音識別生物特徵指紋識別人臉識別無監督身份認證聲紋識別魯棒性語音合成高斯混合模型

相關資料

人臉識別技術

Facial recognition

廣義的人臉識別實際包括構建人臉識別系統的一系列相關技術，包括人臉影象採集、人臉定位、人臉識別預處理、身份確認以及身份查詢等；而狹義的人臉識別特指通過人臉進行身份確認或者身份查詢的技術或系統。人臉識別是一項熱門的計算機技術研究領域，它屬於生物特徵識別技術，是對生物體（一般特指人）本身的生物特徵來區分生物體個體。

來源：維基百科

高斯混合模型技術

Gaussian Mixture Model

高斯混合模型（Gaussian Mixture Model，GMM）是單一高斯概率密度函式的延伸，就是用多個高斯概率密度函式（正態分佈曲線）精確地量化變數分佈，是將變數分佈分解為若干基於高斯概率密度函式（正態分佈曲線）分佈的統計模型。

來源：維基百科

引數技術

parameter

在數學和統計學裡，引數（英語：parameter）是使用通用變數來建立函式和變數之間關係（當這種關係很難用方程來闡述時）的一個數量。

來源：維基百科

語音合成技術

Speech synthesis

語音合成，又稱文語轉換（Text to Speech）技術，是將人類語音用人工的方式所產生，能將任意文字資訊實時轉化為標準流暢的語音朗讀出來，相當於給機器裝上了人工嘴巴。它涉及聲學、語言學、數字訊號處理、電腦科學等多個學科技術，是資訊處理領域的一項前沿技術，解決的主要問題就是如何將文字資訊轉化為可聽的聲音資訊，也即讓機器像人一樣開口說話。

來源：張斌,全昌勤,任福繼. 語音合成方法和發展綜述

語音識別技術

Speech Recognition

自動語音識別是一種將口頭語音轉換為實時可讀文字的技術。自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。自動語音識別是一個多學科交叉的領域，它與聲學、語音學、語言學、數字訊號處理理論、資訊理論、電腦科學等眾多學科緊密相連。由於語音訊號的多樣性和複雜性，目前的語音識別系統只能在一定的限制條件下獲得滿意的效能，或者說只能應用於某些特定的場合。自動語音識別在人工智慧領域佔據著極其重要的位置。

來源： What is Automatic Speech Recognition?

準確率技術

Accuracy

分類模型的正確預測所佔的比例。在多類別分類中，準確率的定義為：正確的預測數/樣本總數。在二元分類中，準確率的定義為：(真正例數+真負例數)/樣本總數

來源： sary?hl=zh-cn" target="_blank" rel="nofollow,noindex">Google ML Glossary

噪音技術

Noise

噪音是一個隨機誤差或觀測變數的方差。在擬合數據的過程中，我們常見的公式$y=f(x)+\epsilon$中$\epsilon$即為噪音。資料通常包含噪音，錯誤，例外或不確定性，或者不完整。錯誤和噪音可能會混淆資料探勘過程，從而導致錯誤模式的衍生。去除噪音是資料探勘（data mining）或知識發現（Knowledge Discovery in Database，KDD）的一個重要步驟。

來源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

說話人識別技術

Speaker recognition

說話人識別作為模式識別的一類，主要任務是通過待測試語音來判斷對應的說話人身份。從識別物件進行劃分可以主要分為兩個部分：說話人確認（speaker verification）和說話人辨認（speaker identification）。如果待測說話人的範圍已知，需要通過語音段對待測說話人的身份進行判斷，是否是屬於某個說話人，則為說話人確認。說話人確認問題可以歸結為是一種1:1的身份判別問題。若說話人的身份範圍未知，需要從一定的範圍內來對語音段對應的說話人身份進行辨別，這屬於說話人辨認問題。說話人辨認問題可以歸結為是1:N的問題。從識別語音段的文字，可以講說話人識別問題分為文字相關問題和文字無關問題。對於文字相關問題，待測試語音段的內容需要和系統中預先登記的內容相同。對於文字無關問題，待測試語音段的內容可以與系統中預先登記的內容不同，待測試說話人可以只說幾個字來進行身份認證。

來源：維基百科

清華大學鄭方：語音技術用於身份認證的理論與實踐

一是更高的安全保障；

二是更低的隱私洩露。

一是身份認證的技術要求；

二是語音訊號的特點分析；

三是安全保障和隱私保護；

四是語音處理技術的實踐。

一、身份認證的技術要求

1. 網路空間身份認證

2. 身份認證的三個層級

3. 各國政府解決方案和路線圖比較

4. 生物特徵（生理特徵+行為特徵）

5. 公民關注的焦點

二是不易偽造性；

三是意圖真實性；

四是證據可溯性；

五是認證便宜性。

二、語音訊號的特點分析

一是開集聲紋辨認，

二是閉集聲紋辨認。

三、隱私保護和安全保障

一是高精度；

二是高安全；

三是低隱私。

四、語音處理技術的實踐

您可能也會喜歡…