不公正的AI演算法,在質疑中邁向透明化
AI演算法頻遭質疑
9月6日中午,作家六六在繼炮轟京東後,再一次炮轟百度:“在百度上就查一個上海美國領事館官網的地址,翻了多少個都是騙子廣告”,並@李彥巨集:“你是做搜尋引擎還是做騙子首領?”微博發出後,迅速上了熱搜榜,百度也立即給出迴應:搜尋是複雜演算法,每個使用者對資訊的需求不同,搜尋引擎受演算法的影響,給出的結果也會不一樣。
與此同時,美國東部時間9月5日,Facebook COO 桑德伯格和Twitter CEO多西被要求參與了美國參議院情報委員會的聽證會。除此之外,多西還單獨出席了美國能源和商務委員會的聽證會。他們就諸如“為什麼共和黨議員在搜尋中排名靠後?”或者“為什麼廣告被惡意利用?”等問題被要求解答。以“搜尋排名”為例,多名議員質疑,在直接搜尋議員名字時,搜尋結果沒有顯示出正確的賬號,這是因為Twitter在背後搗鬼。面對有關“熱門話題”和“搜尋排名”等存在偏見問題的質疑,兩家公司的高管都表示:這不是我們存在偏見,而是我們的AI演算法出錯了。
上述一系列事件,實際上都引申出了一個更具有爭議的問題:AI 演算法的透明度。 AI演算法或者說神經網路的結果到底是不是足夠透明、公平可知並且毫無偏好的?
人工神經網路優勢助其廣泛應用
目前絕大部分AI演算法,都是基於人工神經網路(ArtificialNeural Network,即ANN)來構建的。人工神經網路是由大量處理單元互聯組成的非線性、自適應資訊處理系統。它是在現代神經科學研究成果的基礎上提出的,試圖通過模擬大腦神經網路處理、記憶資訊的方式進行資訊處理。 人工神經網路具有四個基本特徵:
-
非線性,非線性關係是自然界的普遍特性;
-
非侷限性,一個神經網路通常由多個神經元廣泛連線而成;
-
非常定性,人工神經網路具有自適應、自組織、自學習能力;
-
非凸性,非凸性是指這種函式有多個極值,故系統具有多個較穩定的平衡態,這將導致系統演化的多樣性。
ANN有一些關鍵優勢,使它們最適合某些問題和情況:
-
有能力學習和構建非線性的複雜關係的模型,這非常重要,因為在現實生活中,許多輸入和輸出之間的關係是非線性的、複雜的;
-
可以推廣,在從初始化輸入及其關係學習之後,它也可以推斷出從未知資料之間的未知關係,從而使得模型能夠推廣並且預測未知資料;
-
可以更好地模擬異方差性, 即具有高波動性和不穩定方差的資料,因為它具有學習資料中隱藏關係的能力,而不在資料中強加任何固定關係。
ANN在影象和字元識別中起著重要的作用,廣泛應用於社交媒體中的面部識別,醫學上的癌症治療的停滯以及農業和國防用途的衛星影象處理。目前,神經網路的研究為深層神經網路鋪平了道路,是“深度學習”的基礎,現已在計算機視覺、語音識別、自然語言處理等方向開創了一系列令人激動的創新,比如,無人駕駛汽車。同樣在醫藥、安全、銀行、金融、政府、農業和國防等領域有著廣泛的應用,例如經濟和貨幣政策、金融和股票市場、日常業務決策上,都可以提供強大的替代方案。
“黑箱”性質和易受操控的特點帶來擔憂
但是ANN也不是大家想象的那麼完美。在控制論中,通常把所不知的區域或系統稱為“黑箱”,一般來講,在社會生活中廣泛存在著不能觀測卻可以控制的“黑箱”問題。神經網路最廣為人知的缺點是“黑箱”性質,這意味著你雖然可以控制神經網路的結果,但是並不知道神經網路如何以及為何會得出一定的輸出。例如,當你將一張貓的影象輸入神經網路,神經網路預測這是汽車時,很難理解為什麼會導致它產生這個預測。當你有可解釋的特徵時,就能更容易的理解其錯誤的原因,顯然神經網路並不能滿足。
在某些領域可解釋性至關重要,這就是為什麼許多銀行不使用神經網路來預測客戶是否有信用,因為他們需要向客戶解釋為什麼他們無法獲得貸款。否則使用者會產生誤解和不滿,因為他不明白為什麼自己無法獲得貸款。像Facebook這樣的網站也是如此。如果他們通過演算法決定刪除某個使用者的帳戶,他們需要向用戶解釋當中的原因。如果僅僅說”這是計算機的決定”,這樣的答案是不盡人意的。制定重要的商業決策時也是如此。你能想象大公司的CEO在做出關於數百萬美元的決定,而不探究當中的原因,僅僅因為計算機的決策嗎?
除此之外,神經網路很容易被人為選擇後的資料影響決策,同時通過這些決策對人類產生潛移默化的改造。 最典型的的例子就是Tay。Tay是微軟2016年在Twitter上推出的智慧聊天機器人,最初設定Tay是一個年齡19歲的少女,具有一些幽默機制,適合和18至24歲的使用者聊天。然而僅上線一天,Tay就開始有一些種族歧視之類的偏激言論,微軟不得不緊急關閉了Tay的Twitter賬號。
Tay的設計原理是從對話互動中進行學習。於是一些網友開始和Tay說一些偏激的言論,刻意引導她模仿。人工智慧沒有分辨是非的能力,這些話語被無數次重複後就成了Tay的“彈藥庫”。整個過程就像小魚兒被十大惡人撫養,手把手教導各種旁門左道之術。人工智慧的大規模併發性,讓她的學習速度比人類快了無數倍。所以從誕生到變成滿嘴髒話的不良少女,Tay僅用了一天。
同樣在AI眼中,我們人類也不是最聰明的靈長類動物。在AI看來,人類只是由0和1組成的數字集合,而且非常容易被幹預和影響,很容易就從這串字串變成那串字串。因為人類需要通過資訊建立認知,確立價值觀。只要控制了人類能夠接觸到的資訊,就能影響其認知,最後導致機器學習不是讓機器學習,而是讓人類“學習”。此前,Facebook洩密影響美國大選的事情曾被炒得沸沸揚揚,目前的證據來看,就是一家名為劍橋分析的資料公司竊取了5000萬Facebook使用者資料,根據每個使用者的日常喜好、性格特點、教育水平,預測他們的政治傾向,進行新聞的精準推送,達到洗腦的目的,間接促成了特朗普當選。
文章開頭提到的美國參議院情報委員會的聽證會,谷歌首席法務官、全球政策高階副總裁 Kent Walker也曾參會。他在聽證會之前提交了公開證詞。據美國媒體的報道,該證詞概述了谷歌針對政治廣告披露的新指導方針,並指出谷歌將繼續刪除試圖誤導使用者的不良信源,如克里姆林宮附屬的網際網路研究機構。
解決AI演算法透明度之路任重道遠
在如何解決AI演算法透明度的問題上,曾經有兩個想法非常受歡迎。
第一個想法:“演算法透明度”——要求公司披露其AI系統中使用的原始碼和資料。
不久前紐約市長de Blasio就曾宣佈成立美國第一個監測和評估演算法使用的特別工作組。但是這個想法實施之後面臨著許多問題。因為絕大部分的AI系統太過複雜,僅通過檢視原始碼是無法完全理解的。而且要求商業公司披露原始碼會降低他們投資開發新演算法的動力,事實上競爭對手很容易根據其原始碼進行山寨。
另一個想法:“演算法可解釋性”——將要求公司向消費者解釋他們的演算法如何做出決策。
今年5月歐盟就制定了全面的新資料保護規則,出臺《通用資料保護條例》要求公司能夠向消費者解釋所有自動化決策。但是演算法的準確性通常隨其複雜性而變化,所以演算法越複雜,解釋就越困難,實現它可能需要讓AI人為地變蠢。機器學習有如此強大的使用前景,縮減AI的能力可能意味著無法診斷疾病、無法發現氣候變化的重要原因等等。
這兩個最受歡迎的想法——要求公司披露演算法原始碼並解釋它們如何做出決策以及通過規範商業模式和內部運作,會導致弊大於利,並不能讓這些公司對結果負責。在應對演算法透明度問題上,一個更為可行的建議被提了出來:演算法問責制。
這個建議提倡政策制定者不應該要求公司披露他們的原始碼或限制他們可以使用的演算法型別,而是應該堅持演算法問責制——算法系統應採用各種控制措施來確保運營商(即負責部署演算法的一方)可以驗證它是否按預期執行,並確定和糾正有害後果的原則。圍繞演算法問責制構建的政策框架將具有幾個重要好處。首先,它會使運營商對其演算法可能造成的任何危害負責,而不是開發人員。其次,讓運營商對結果而不是演算法的內部運作負責,可以讓他們專注於確保演算法不會造成傷害的最佳方法,諸如信心措施,影響評估或程式規律等。
當然,這並不是說透明度和可解釋行就沒有它們的位置。例如,透明度要求對刑事司法系統中的風險評估演算法來說是有意義的。同樣無論公司是否使用AI來做出決策,消費者仍然有權獲得這些解釋。
規範制度才能適應未來趨勢
總結目前AI演算法的發展歷程,智慧演算法大大提升了使用者接收、選擇資訊的速度,但也可能讓一個人的視野變窄,甚至直接影響人們的決策。
那是不是AI演算法存在這麼多問題,我們就需要避之不及,完全不用它呢?當然不是。AI演算法只是一種工具,工具與生俱來就具有兩面性,無論是火藥、核能還是網路,若使用不當,都容易帶來各種問題,最終決定權掌握在人類手裡。演算法推送帶來種種不良現象的“鍋”,不應該都讓技術來背。相關法律規範的不健全,有關崗位工作人員對管控責任的認識不足,再加上大資料時代資訊的迅猛浪潮,都容易使真正有用的高質量資訊淹沒在繁雜的資訊海洋中。
演算法推送、個性化定製是未來的趨勢, 一方面可以實現需與求的精準對接,另一方面也實現了資源的最大化利用。 我們可以調整推送權重的分配,比如系統算法佔60%,使用者選擇佔40%:即使用者可以自己定製或者遮蔽關鍵詞、可以自己決定資訊排序,當然也可以選擇系統預設。技術可能帶來一些壁壘,但人卻可以突破這樣的壁壘,讓技術更好地為自己服務。
希望各方面加強合作,創造天朗氣清的網路世界。合理利用技術跟演算法,讓AI技術服務社會、淨化心靈、啟迪智慧,創造和諧、健康、正能量的網路環境和現實世界,這才是我們真正該尋求的正確“演算法”。