用演算法聽懂你,“聲音風險評估”是偽科學還是真本事?
【獵雲網(微信號:)】11月28日報道 (編譯:張璐璐)
編者注:本文作者Ava Kofman是一名專欄作家。本文中,作者根據AC Global Risk公司開發的一種基於聲音的風險評估系統展開討論,從這一系統本身出發並結合行業內情形進行客觀論述。
試想,是否有這樣的可能:僅通過觀察人們的臉或聽他們的聲音來判斷某人是否是罪犯?這個想法可能看似荒謬,就像科幻小說《1984》中的老大哥(Big Brother)察覺到某些“帶有異常暗示”的無意識表情。然而,近期一些公司開始直面這個問題:答案不是可能,而是肯定。一家成立於2016年的初創企業AC Global Risk,聲稱能夠確定一個人作為員工或尋求庇護者的風險水平,依據不是這個人說了什麼,而是怎麼說。
這家位於加利福尼亞州的企業提供一種自動篩選系統,稱為RRA(Remote Risk Assessment,遠端風險評估)。該系統的工作原理是:AC Global Risk在客戶的幫助下形成一些自動化的、是或否的面試問題。選定進行篩選的人群隨後將在10分鐘的面談中用自己的母語回答這些簡單的問題,該過程可在電話上進行。然後RRA通過測量他們的聲音特徵產生評估報告,該報告將以從低風險到高風險的頻譜形式對每個人進行評分。AC Global Risk執行長Alex Martin表示,作為該公司的專利,該風險分析將“永遠改變人類風險的衡量標準”。
AC Global Risk則表示,其諮詢委員會成員包括羅伯特·蓋茨(Robert Gates)、康多莉扎·賴斯(Condoleezza Rice)和斯蒂芬·哈德利(Stephen Hadley)的諮詢公司,並與美國駐阿富汗特種作戰司令部、烏干達野生動物管理局以及Palantir、蘋果、Facebook、谷歌等安全團隊簽訂了合同。Martin表示,風險篩選在這些市場和其他市場的廣泛使用,證明其“準確性高、可擴充套件、具有成本效益,並且具有高吞吐量。”AC Global Risk還聲稱其RRA系統可以對上百個處於世界各地的人同時進行操作。針對當前美國總統特朗普要求對移民進行“極端審查”的呼籲,該公司已經將自己視為美國和其他國家目前正經歷的巨大難民危機的“殺手鐗”。
這項建議似乎引起了美國國土安全域性(DHS)的興趣。國土安全域性已經對研究開發類似的邊境人工智慧技術提供了資助。自動實時真相評估虛擬系統(AVATAR)測謊儀,使用人工智慧來評估旅客的聲音、姿勢和麵部表情的變化,從而標記那些有意欺騙或可能構成潛在風險的旅客。2012年,該技術在美國與墨西哥的邊境對志願者進行了測試。歐盟也對這項可以減少由人為因素產生的工作量和主觀錯誤的技術提供了資助。
語音分析、演算法歧視和機器學習方面的一些領先專家發現,數字測謊儀測試的趨勢令人不安,並且指出AC Global Risk等公司的方法存在謬誤。普林斯頓大學心理學家Alex Todorov解釋道:“語音的動態變化會產生一些資訊,這些公司正在對這些資訊進行檢測,這非常合理。但問題是,在檢測他們認為有風險的人時,這些資訊的可信度有多高?因為這些資訊一般來說都是模稜兩可的。”Alex Todorov的研究方向是社會感知和第一印象科學。
過去的一年裡,美國公民自由聯盟和其他有關組織表示,邊境巡邏人員一直根據外表或口音在灰狗巴士(Greyhound)上逮捕一些人。由於海關和邊境保護局已經採用某人說話方式或長相的資訊作為依據,在160千米的邊境地區進行搜查,或者拒絕某人入境。專家們擔心基於聲音情緒的檢測軟體會使這種歧視成為一種常規、普遍甚至看似“客觀”的現象。
AC Global Risk拒絕回覆本文的多次置評請求,也沒有對該技術詳細運作方式的問題作出迴應。然而,在公開場合,Martin聲稱其公司的專有分析流程可以確定某人的風險等級,準確率超過97%。(而AVATAR則表示其準確率在60%到70%之間。)幾位業內領先的視聽專家在審閱了AC Global Risk公開發布的檔案後,使用“廢話”或“虛假”一詞來描述該公司的主張。奧格斯堡大學教授Björn Schuller表示:“從道德的角度來看,只通過聲音測謊會讓人們覺得非常可疑和陰暗,任何一家宣稱自己能做到這一點的公司可能都是一顆‘定時炸彈’。”Björn Schuller領導了該領域的主要研究,致力於提高聲音情緒檢測的最新技術水平。
高風險業務
去年夏天有報道稱,特朗普的極端審查計劃(Extreme Vetting Initiative)要求軟體能夠自動確定和評估簽證申請者成為社會積極成員的可能性,並預測申請者是否打算在進入美國後實施犯罪或恐怖行為。AC Global Risk將自己標榜為實施這一舉措的完美工具,聲稱可以評估忠誠度不明人員的風險等級,例如難民和簽證申請者。隨後,國土安全域性將決定如何根據這些報告的結果採取行動。“我們將風險等級分為低水平、平均水平、潛在水平和高水平,根據這四個風險等級建立部門協議並不難。”該公司在其部落格上表示。
風險評估本身並不是什麼新鮮事。近年來,在刑事司法程式的各個階段幾乎都引入了演算法,從警務、保釋到量刑、假釋。這種技術的出現並非無可非議。許多這類自動化工具都因其不透明性、保密性和偏見遭到批判。在大多數情況下,辦公人員、法院和公眾沒有能力或根本不允許質疑這些工具的基本假設、訓練或結論。而持懷疑態度的專家關注的主要問題是,機器學習的客觀光環可能為歧視提供一個道貌岸然的藉口。
對於其技術原理,AC Global Risk提供的細節寥寥無幾。該公司沒有發表支援其研究主張的白皮書,也沒有公佈其研究人員的科學譜系。除此之外,該公司甚至沒有回答關於其產品特徵(比如音高、速度、拐點)的問題。猶他州大學一位主攻演算法公平性的電腦科學家Suresh Venkatasubramanian認為:“儘管在刑事司法環境中使用風險評估存在一定的問題,但比這家公司的工具準確得多。”
如果AC Global Risk對其技術的任何一項宣告得到證實,都將成為人類聲音研究的前沿,因為研究人員認為聲音具有確定某些資訊的可能性。例如,聲音評估可以出色地識別人口統計資訊。這類資訊可能很常規,例如某人的年齡、性別或方言,也可能非常個性化,比如判斷某人來自哪個地區,以及他們任何潛在的健康問題。
上個月,亞馬遜獲得了一項專利,允許其虛擬助手Alexa確定使用者的聲音特徵,包括語言、口音、性別和年齡等。然而,在從聲音確定情緒的過程中,準確性仍然是一個重大問題。聲音分析公司audEERING的聯合創始人Schuller表示,目前通過聲音判斷某人是否在說謊的準確率不高於70%(如果說謊是該公司的風險評估指標之一),這與人類判斷的平均概率基本相同。
Schuller還表示,通過聲音有可能判斷某人是否陶醉、真誠或欺騙,但同樣,其準確率與人類判斷相似。他說:“有時在具備可靠標籤的基礎上,工具的準確性可能更高,但如果有人宣稱零誤差,最好還是保留態度。”
評估AC Global Risk的主張是否有效的關鍵是,什麼是風險,以及誰來定義這一概念。主攻生物識別技術的澳大利亞學者Joseph Pugliese表示:“他們把風險定義為一種不言自明的、看似普遍的品質,並且假設人們已經知道什麼是風險,而當然,定義風險引數的主體和風險引數的構成應該是一個政治問題。”
AC Global Risk執行長Alex Martin曾談到“尋找每個人都存在的連續統一體的實際風險。”而普林斯頓大學的心理學家Todorov則解釋,風險是一種天生的、可識別的人類特徵,而且這種特性可以從聲音中確定,這種觀點依賴於有缺陷的假設。他補充道,我們檢測人們實際感受的方式與我們感知他們感受的方式的能力,一直是機器學習領域一個眾所周知的難題。評估設定可能會使錯誤印象的可能性進一步複雜化。Pugliese說:“邊境地區的人們已經處於高壓和高度情緒化的環境中,又怎麼可能用我們所謂的正常情緒標準來衡量?”
新的人相學?
越來越多公司對其行為分析軟體的能力要求過高,AC Global Risk只是其中之一。受人工智慧觀察能力的鼓舞,許多生物識別供應商和人工智慧公司一直在向企業和政府提供這樣的服務:採集面部表情、動作和聲音資訊,從而判斷一個人的人格。例如,2014年俄羅斯冬季奧運會期間,一家生物識別供應商通過掃描與會者的表情,使該國的安全機構FSB能夠找出那些看似不起眼,但實際精神狀態過激且存在潛在威脅的人。
一些研究人工智慧和人類行為的專家對這類工具持懷疑態度,他們將這些工具框定為人們對人相學(physiognomy)興趣日益返潮的一部分。人相學是一種通過觀察一個人的 身體來尋找道德品質和犯罪意圖跡象的行為。在19世紀中期,塞薩爾·隆布羅索(Cesare Lombroso)對“天生罪犯”的頭骨和麵部特徵的精確測量,為這種“紙上談兵”披上了科學的外衣。然而,儘管像隆布羅索這樣的犯罪學家的成果被扔進了“偽科學”的垃圾箱,但是從身體特徵和行為中推斷某人的道德品質或隱藏思想的慾望仍舊持續不斷。
Pugliese認為,AC Global Risk和同類公司的努力都基於一個假設——大資料的相關性可以規避科學方法。他解釋說,這些“人相”應用尤其令人不安,因為機器學習演算法設計的初衷就是為了在他們給出的資料中找到表面模式(無論這些模式是否真實)。Pugliese表示:“當這些公司聲稱正在進行風險等級分類時,不言而喻,他們已經對構成‘犯罪意圖’的跡象有了客觀的認識。但我們並不知道什麼實際跡象會這些犯罪預測指標。”
然而,揭露這種技術的偽科學前提並不一定會降低企業和政府使用這項技術的可能性。與許多其他預測性和基於風險的系統相同,這些技術的能力主要依賴於它們對效力和速度的承諾。Venkatasubramanian解釋說:“他們主要的主張是提高效率,從這個意義上講,這種技術的確會起作用。”換句話說,這種效率是否對這種系統受眾的生命機會有益或有害,他們漠不關心。遠端風險評估由於人類的接納將得到廣泛應用。正如Todorov與另外兩位機器學習專家在表達他們對這一大趨勢的擔憂時所寫:“無論是否有意,通過計算機演算法為人類的歧視‘洗白’,確實有可能使這些偏見看起來更客觀合理。”
AD:12月7-8日,北京望京凱悅酒店!獵雲網邀您共赴創投盛宴“ ofollow,noindex">聚勢謀遠 創變未來—2018年度CEO峰會暨獵雲網創投頒獎盛典 ” 24大獎項 330榜單 3000+企業參選 獎項投票已開啟 邀您參與!