彼得森國際經濟研究所丨強推資料共享,打破網際網路壟斷
【編者按】
本文第一作者克勞迪婭•比安科蒂(Claudia Biancotti)自2002年起供職於義大利中央銀行,現任該行國際經濟與國際關係部高階經濟學家,並自2008年10月起擔任美國彼得森國際經濟研究所訪問學者。主要關注技術公司監管,側重競爭政策對人工智慧發展的影響。
本文認為,資料集中對集體安全、消費者權利和競爭構成負面影響,而推行強制性的資料共享,即要求市場領袖企業與其他公司和學術界共享使用者資料將對競爭帶來正面影響。但另一方面,資料共享可能加劇已有的消費者隱私風險和集體安全風險,推動強制性資料共享的決策者應權衡利弊得失。
本文原題“ Opening Internet Monopolies to Competition with Data Sharing Mandates”,是彼得森國際經濟研究所2019年4月釋出的一份政策簡報(Policy Brief 19-3)。
彼得森國際經濟研究所(Peterson Institute for International Economics,PIIE)是一家美國的私立、非營利智庫,1981年創辦,位於美國首都華盛頓。據美國賓夕法尼亞大學“智庫與公民社會專案”(TTCSP)2019年1月釋出的《全球智庫報告2018》(2018 Global Go To Think Tank Index Report),彼得森國際經濟研究所在“全球頂級智庫(美國和非美國)”分類排名中列第12位。
以下是對該文主要觀點的摘譯,具體技術細節請參考原文。文中觀點只代表作者個人,請讀者明察。
體量空前的資料為何重要
2009年,來自普林斯頓大學的一個電腦科學家小組釋出了ImageNet,這是一個最初包含320萬張數碼圖片、代表大約5000個真實物體的資料庫。機器終於能用足夠的資料去理解不同物體的外觀,這標誌著計算機視覺技術的轉折點。到2015年,計算機在物件識別任務中的表現超過了人類。
ImageNet拉開了機器學習飛速發展的序幕,這是一種基於演算法的人工智慧,它通過觀察樣本推匯出決策規則。機器學習模型需要大量資料,儘管早在20世紀50年代其數學基礎就已奠定,但數十年來,資料的缺乏阻礙了模型應用。網際網路和經濟數字化的發展使得越來越多的資料可供研究人員和公司使用,機器學習變得司空見慣。
隨著時間的推移,人工智慧已從諸如區分靜態物體這樣的簡單任務逐步發展至更為複雜的應用,這進一步增加了資料之於技術、社會和經濟進步的重要性。
經濟合作與發展組織(OECD)已將資料驅動型創新定義為“21世紀經濟增長的關鍵支柱”。
相較其競爭對手而言,GAFAM(指Google、Apple、Facebook、Amazon、Microsoft五大科技巨頭——譯註)享有顯著的資料優勢。儘管這些公司之間在所收集資料的具體變數集方面存在差異,但它們大多掌握使用者的以下資訊:個人識別資訊,包括身體特徵、社交聯絡、地理位置、職業;信仰、觀點和偏好;線上行為,可能包括瀏覽過的網頁、購買的產品、花費的金額、點選的連結、看過的視訊,以及進行的搜尋。將例如實體店信用卡使用記錄這樣的線下活動,與線上行為打通結合的資料收集越來越普遍。
資料集中的風險
與資料集中相關的首要風險涉及集體安全。
所有計算機系統都註定存在技術漏洞,而一心要利用漏洞發動網路攻擊去獲取利益或實現戰略目標的敵對行動方數量龐大。因它們擁有的資料價值連城,以及為其他經濟活動提供服務,GAFAM成為網路攻擊的頭號目標。
GAFAM擁有的資料若遭大規模洩露,破壞力將遠超過人們所理解的侵犯隱私。
涉及針對商業破壞的黑客攻擊時,損害也會遠超直接受害者所承受的損失。網路攻擊的負外部性是明顯的。
在這方面,GAFAM和社會上其他公司的利益是一致的:它們都希望避免遭遇攻擊。
涉及資料和集體安全之間的另一種關聯時,即敵對行動者可以利用GAFAM幾乎無所不在的觸角以及它們基於機器學習的洞見去操縱公眾輿論,情況就更復雜了。
到目前為止,整個行業主要依靠自律。特別是在美國,立法者一直在發出含混的訊號:他們從聽證會和公眾討論中聽到了對GAFAM的指控,即這些巨頭給資訊操縱提供了便利,甚至在這一過程中為達到自身目的而扮演了積極角色,但他們沒有做出任何政策迴應。
問題很難解決,這尤其是因為,在線上平臺的語境下,說服他人(包括在政治活動中)的合法企圖和惡意歪曲資訊之間的界限,很難以具有法律意義的方式劃出。此外,旨在管控釋出內容的法律往往會引發審查方面的顧慮。
越來越多的證據表明存在資料驅動的誤導資訊,在這種情形下,無論對GAFAM自身還是對社會來講,不作為的代價都是高昂的。公眾對網路平臺的信任崩塌,出現這樣一個轉折點是可能的。懷疑會蔓延到其他數字環境,致使人們放棄一些新技術,進而對生產力和經濟增長造成損害。
與資料集中相關的第二個風險涉及消費者權利。
企業獲取和使用由個人提供及與個人相關的資料時產生的部分問題由消費者保護法處理。在這種情況下,企業規模不是問題:無論擁有多少消費者,所有資料收集者都需要遵循相關法律。然而,在仍然存在的很多灰色地帶,由於GAFAM的決定影響著數十億人,它們毫無疑問是標準的制定者。
隱私作為已經達成了一些共識的一個領域,被定義為個人通過限制誰可以獲取特定資訊來區分私人和公共領域的能力。大多數OECD國家已經就隱私問題制訂了法律,或正在進行立法。相關的立法基於如下理念:公司收集的個人資料在使用、共享和出售時須徵求該人同意。在美國,儘管對這一做法的有效性存在重大疑問,聯邦層面也依舊沒有隱私法,但一些程序正在推進當中。
另一方面,提供資料的個人和從資料中挖掘收益的公司之間在力量和資訊方面的不對稱問題尚未得到廣泛解決。GAFAM的普遍做法是免費提供數字服務以換取使用者資料,但經濟學家們質疑這樣的條件是否公平地反映了資訊的價值。
資料驅動的歧視是另一個值得關注的問題。
監管機構難以查明形式更微妙的演算法偏見,在這種偏見作用下,族群、性別、年齡和宗教等變數都可能被不恰當地當作決策因素,而且找到證據非常困難,因為在黑箱模型中,這些變數會與其他變數混淆。
最後,資料集中會給公平競爭帶來風險。
資料賦予GAFAM競爭優勢的最明顯渠道,是可以運用機器學習演算法得出更準確預測。這將影響到:(1)旗艦產品市場,和(2)其他產品市場。
GAFAM的競爭優勢會延伸到技術發展方面,這一事實通常沒有被注意到,但從長遠看意義更為重大。機器學習是狹義人工智慧(narrow artificial intelligence, NAI)或者說能力侷限於完成專門任務的人工智慧的一個範例。下一步有待實現的,是像人類一樣具備創造力和靈活性的機器推理[即通用人工智慧(artificial general intelligence, AGI),也稱強人工智慧(strong AI)]。就通用人工智慧未來可以走多遠,以及狹義人工智慧如何逐步向通用人工智慧發展,電腦科學家的意見並不統一。
但無論如何,更多資料可能有助於GAFAM比其他競爭對手更快開發通用人工智慧。此外,它們與頂尖研究機構一樣更能吸引到資料之外的必要補充資源——科學人才。
經濟學理論假定,無論是在產品市場還是研究中,競爭優勢的存在本身都不是負面的。在一段時間內擁有市場支配力並獲得利潤的前景,是激勵企業創新的一種動力。但當占主導地位的公司排斥潛在競爭對手時,問題就出現了。
牢固的市場支配地位可能導致消費者面臨永久獨佔性定價(supracompetitive prices)和/或質量下降。也可能導致創新減少,因為占主導地位的公司不必投資就可以享受租金,但這一論點是否適用於GAFAM,目前仍無清晰證據。
強制性資料共享
2018年8月,德國社會民主黨領袖安德莉亞•納勒斯(Andrea Nahles)提出的立法倡議要求,超過一定規模的數字公司與公眾共享其擁有的部分代表性使用者資料。她認為,資料共享將為規模更小的公司開闢新的機會,減少不平等並促進經濟增長。
此前幾個月,《經濟學人》雜誌也曾提出過一個略有不同的方案,建議技術市場的領袖企業有償向競爭對手提供部分使用者資料。
在一篇刊登於《外交事務》雜誌的文章中,牛津大學網際網路治理專家維克托•邁爾-舍恩伯格(Viktor Mayer- Schönberger)和科技新聞記者托馬斯•拉姆什(Thomas Ramge)提出了更為激進的版本:“……系統收集和分析資料的每一家一定規模以上公司,都必須允許擁有同樣市場準入的其他公司獲取其資料的子集。某家公司的市場份額越大,其允許其他公司看到的資料就應該越多。”
呼籲實行強制性資料共享(data sharing mandates, DSMs)以一種新穎且更全面的方式反映了,在競爭政策制訂過程中,人們對個別公司壟斷關鍵資源長期存在的擔憂。
2008年,美國司法部批准了金融資料提供商加拿大湯姆森公司(Thomson Corporation)和英國路透集團(Reuters Group)的合併,條件是湯姆森集團將其三個專有資料庫的副本和相關智慧財產權出售和授權給會在與合併後的實體展開競爭時運用這些資料提供產品和服務的某一家或者幾家公司。司法部認為,一家公司獨享資料庫“可能導致價格上漲和創新減少”。歐盟委員會對該併購案也給出了類似的結論。
在湯姆森路透合併案中,資料的競爭相關性是簡單直接的,因為合併雙方都屬於銷售資料的商業領域。競爭監管當局飽受研究文獻的批評,研究者們指責,它們在ImageNet取得突破後的最初幾年間,在一些案例中未能權衡資料集中的潛在反競爭效應:這些案例中的公司沒有出售資料,而是將資料作為投入資源,生產出其他產品。
如今,在歐盟和美國的合併審查中,這一側面已成為例行考慮。2019年初,在一起涉及網際網路巨頭的反壟斷裁決中,“將資料作為投入資源,生產出其他產品”首次成為一個關鍵因素,當時,德國競爭監管機構禁止臉書(Facebook)在未得到使用者同意的情況下關聯不同服務之間的資料,並明確將此舉定義為濫用市場支配地位行為。
強制性資料共享要求公司對競爭對手銷售資料,而不是免費給予,這也可被視為是關鍵設施原則(essential facilities doctrine)的一種應用。該原則認為,假如一家公司獨家控制一項關鍵設施,而該設施對能在下游市場與之形成有效競爭的其他公司不可或缺,那麼該公司就有義務以合理價格交換這項設施的准入許可。儘管在法律學者中該原則頗受爭議,但在美國和歐盟的反壟斷法庭上,它依舊是諸多決策因素之一。
在應對資料集中負面影響的眾多可能措施中,強制性資料共享顯得特別有意義,因其目標是壯大可以從資訊中獲取價值的經濟參與者的隊伍,同時不會過分約束現有企業。
在所有競爭問題上,政策制定者都必須力求取得微妙的平衡。他們必須打擊濫用支配地位的行為,防止市場中的領袖企業自滿,確保公平條件下的市場準入是可能的,以及必須持續創新以保持優勢。同時,他們必須避免採取那種被認為粗暴隨意的利益再分配措施,因為這可能打擊市場領袖企業和新興企業的投資。
對GAFAM而言,尋求這種平衡尤為重要。鑑於這些公司具備創新能力,並在數字經濟中扮演著準基礎設施(quasi-infrastructure)的角色,錯誤的激勵組合可能嚴重削弱技術進步的整體速度,最終損害經濟增長。此外,基於網際網路的服務市場正在逐步全球化,但在一些司法管轄區向外國供應商開放市場準入的同時,也有地區實施了限制。美國和歐盟制定的任何旨在遏制GAFAM支配地位帶來的負面效應的政策干預或執法策略,都應考慮到平等競爭環境的缺失。當下市場準入的不對稱性不應有利於那些源自封閉市場的玩家。
政策權衡
如果僅依據潛在的競爭優勢進行評估,強制性資料共享本質上是不錯的,儘管在應用範圍上受到一定程度的限制。相關要求將使得更多企業有可能在依靠分析人類行為的廣泛領域中收穫基於機器學習的見解,或是改進已有的見解。
設計、生產和營銷選擇都將得到提升,整體經濟表現也將得到提升。
然而在競爭事宜之外,強制性資料共享並不是一個明確的積極解決方案。 一個關鍵問題是隱私保護。在包括歐盟和加州在內的多個管轄區內,未經資料主體同意,企業向第三方共享其收集的個人資料是違法的,而共享匿名資料是合法的。
假設立法者並不介意為推動資料共享而放棄通行的資料保護法規,那麼任何強制性資料共享舉措都必定需要獲得資料主體同意才能共享可識別資訊,或是隻能共享匿名資料。
依賴使用者同意是極成問題的。個人對隱私的偏好差異很大,難以衡量,有時甚至是矛盾的。
鑑於更小型公司的保護標準與大公司相比通常更弱,增加能接觸到個人資訊的實體的數量一樣會增加歧視的機會和黑客攻擊的風險。進而,即使共享的所有參與方都遵守資料保護法規,這樣的共享仍威脅到使用者隱私和集體安全。
此外,共享個人身份識別符(personal identifier)的要求,使得強制性資料共享對GAFAM來說成本太過高昂。
假設機器學習演算法的目標是要預測某個人喜歡什麼樣的新音樂,那麼它不必知道該人的姓名,有關人口統計、位置和聆聽習慣的匿名資訊已經足夠。但如果廣告商希望向特定的個人推廣唱片,他們就必須獲取他/她的個人資訊。
強制共享不含身份資訊的資料,令新興企業得以運用機器學習,由此可以促進競爭,但不會立即破壞GAFAM獨佔的市場影響力。出於這些原因, 強制性資料共享理當要求相關企業在共享資料之前對那些資料進行匿名處理。但需要注意的是,這個方案仍遠不能消除風險。
離群值移除或有限資料遮蔽(data obfuscation),在傳統統計學調查中已被證明是進行匿名化處理的成功方法,但在資料庫巨大、複雜且高粒度的新環境下,這一類方法表現並不好。利用多種技術,這些資料庫特別容易重新識別出資料主體。(粒度,是指資料庫的資料單位中儲存資料的細化或綜合程度的級別——譯註)
就如何更好地防範這一可能並生成保護隱私的人工合成數據,相關研究正取得進展。相應地,因企業在機器學習方面已有嘗試,這可以減少企業對大量使用者資料的依賴,進而在一定程度上推動所謂機器學習的“民主化”。(民主化,意指減少准入障礙,對更大社群開放——譯註)
然而,未來仍有很長一段距離要走。
任何基於匿名化處理的強制性資料共享都意味著要在隱私保護與資訊的經濟價值之間進行權衡。而經刪除和處理的資訊,其經濟價值會減少,因此這一權衡需要仔細評估。如何確認哪些資訊在經濟上最有價值,當前的知識經驗仍非常有限,有待拓展。
在設計政策糾正數字經濟中的力量不平衡問題時,競爭與隱私之間的權衡並非唯一考量。培育資料市場,讓資訊回報在這樣的市場中在消費者和企業之間進行更公平的分配,從理論上講是有價值的目標。這一目標,或許可以通過實施恰當的強制化資料共享規範或不同的舉措來實現。
另一方面,安全風險可能浮現。如果個人能夠通過出售自己的資料獲益,那麼遭洩露資訊的數量可能增加,能夠獲取資訊的參與方也可能增加。在一個開放的資料市場上,GAFAM不會是唯一的可能買家:任何使用機器學習或希望拓展其業務的企業都會表現出購買興趣。為防止敵對行動者冒充合法企業並批量購買個人資料,保護措施是必要的。