Facebook資料造假,竟涉及多家中國公司
一個創立十五年的社交網站,全球使用者量超過20億。但是卻屢屢遭遇隱私問題爭議,最近還出現相關報告發布稱其20億使用者或超半數都為“虛假賬戶”……
多年來的“私人恩怨”
在Facebook不斷髮展的過程中,似乎從來不缺人氣與爭議。
除了隱私之外,還存在“私人恩怨”。扎克伯格哈佛校友的艾倫·格林斯潘,曾宣稱擁有facebook商標的所有權,並且多年來堅持同facebook公司“鬥爭”。
格林斯潘說自己在Facebook上線前三個月就提出了類似的創意,名字叫「the Face Book」,他甚至還主動聯絡過扎克伯格希望合作。為此,他對外公佈了一些早期的通訊記錄,甚至還專門寫了本書,描述自己創造HouseSYSTEM網站的過程,並宣稱它是facebook的始祖。
“有好幾次,在路上碰到、從我的門前經過、在帕羅阿託的餐廳吃墨西哥餐,我示以微笑,或者向他招招手,他都可以走過來,道個歉的。但是,他從來都沒這樣做過。他一點都不感覺愧疚。”
但是硬氣如扎克伯格,格林斯潘始終沒有等來Facebook的“解釋”。於是格林斯潘堅持“鬥爭”,在各個方面找扎克伯格茬,越來越“檸檬”了,並且2012年的時候就直接狀告Facebook盜用其商標。
跨國官司的導火索
沒想到上訴也沒得到道歉,一氣之下格林斯潘憋了一個大招。
2019年1月底,格林斯潘公佈了一個關於Facebook的報告,長達70多頁的報告直接指出Facebook的20億月活使用者中有超過一半都是虛假賬戶。
報告一出就引起軒然大波,沸沸揚揚的隱私安問題還沒有解決,就又出現了“虛假賬號”的負面新聞。Facebook官方也趕緊出來澄清,說:“有關虛假賬戶的報告是明顯錯誤的,並且是不負責任的。”之後就直接起訴了四家中國公司和三位個人。
就這樣,跨國官司的序幕開啟。
被狀告的四家中國公司主要販賣Facebook、twitter等國外社交賬號。Facebook指控這些企業和個人建立及銷售虛假網路賬號、點贊和關注者,用於傳播虛假訊息或其他欺詐行為。 從2017年開始,這些公司通過myfacebook.cc和9xiufacebook.com等六個與Facebook有相似域名的網站行銷和出售了大量虛假賬號。
糾纏數年的噩夢——虛假賬戶
回過頭來看,虛假賬戶並非新傷,而是Facebook的一個糾纏了數年的噩夢:
2012年9月,Facebook開始嚴打殭屍粉,刪除虛假賬號; 2013年3月,Facebook可能有8300萬個“殭屍賬號”; 2015年3月,Facebook清理殭屍粉導致名人點贊量下降10%; 2018年8月,Facebook刪除試圖干預美國中期選舉的虛假賬號; 2018年11月,Facebook公佈有害內容清理報告:清理15億虛假賬號; 2019年2月,有報告稱:Facebook 20億月活使用者一半都是假賬號; 2019年2月,Facebook狀告4家中國公司和3位個人推銷虛假賬號、點贊和使用者好友; ……
除了官方公佈虛假賬號情況之外,早在2014年在YouTube就出現過一個名為《Facebook Fraud》的視訊,裡面主要介紹一位博主參與Facebook的推廣計劃之後,出現了粉絲量增加但推文關注、互動情況不變甚至減少的情況,懷疑Facebook使用者中存在著大量“機器使用者”。
Facebook Fraud
而這次格林斯潘的報告中,指出Facebook的系統性欺詐“不容小覷”。根據Statista的資料,Facebook在2018年的廣告收入高達338億美元。 也就是說,如果說10億的“虛假賬號”數量是真實的,那麼就意味著Facebook從廣告主那裡獲得的收益是“不義之財”。
圖片來自新浪財經
不僅如此,除了Facebook這次上訴的幾家中國企業,全球售賣虛假賬號的灰產鏈條也早就野蠻生長、遍地開花了。
比如美國,類似Devumi、SocialBoss等營銷推廣網站,內容點贊、漲粉、視訊播放刷量都應有盡有,價格多從1到20美元不等,還有一些網站直接售賣相關賬號。
而國內相關的灰產就更多了,根據帶不帶cookie、註冊年限、好友多少,賬號價格不等。
有意思的是,通過灰產的宣傳,發現其實國內外購買這些虛假賬號的目的也有些許的差別。 美國購買賬號的大部分主要用於漲粉、增加點贊量等,而中國購買賬號還涉及到不少跨境電商推廣等商業目的。
在上述博主的視訊中通過統計,發現他的“虛假粉絲”主要來源於發展中國家。Facebook在2017年的觀察報告中也指出,大部分虛假帳戶來自孟加拉國、印度、埃及和巴基斯坦等國。 而這背後也反映出整個虛假賬號、虛假流量市場不同地域的犯罪成本差距。 與發達國家比較,發展中國家的確存在相關法律不健全、監管不到位、懲戒體系不完善、意識很欠缺等問題,甚至在斯里蘭卡、埃及、印尼等地區還存在“機器工廠”,點選1000次只需要1美金。總體來說犯罪成本都遠遠低於發達國家,所以也就出現下圖的情況。
機器之爭,如何掌握主動權
而如今困擾各大社交平臺的“虛假賬號”、“虛假流量”其實在發展初期並沒有受到過多的關注與打擊,甚至還成為當時使用者量、活躍度統計中重要的一部分。遺憾的是,水能載舟亦能覆舟。當初各平臺所追求的“數字”如今卻成為難以擺脫的夢魘。
當然,從2012年到今天,其實我們也看到了Facebook在面對“虛假賬號”、“虛假流量”之下在不斷作出努力。甚至還想過請FBI調查…
但是就目前來看還是存在許多問題:
一是誤殺較多,影響使用者體驗;
二是對於異常賬戶檢測技術方面還有許多進步空間。
第一個誤殺的情況,由於Facebook的封禁是從裝置硬體、賬號登入情況、運營內容等多維度進行的。Facebook主管分析的副總裁Alex Schultz之前在採訪中透露,平臺已經在使用機器學習判定假賬號。通常來說, 一個被批量製造出來的帳號會在幾分鐘內被移除。
這樣一來,如果出現IP、賬號反覆登入等異常情況,很可能就會被封禁,誤殺率就這樣被提高了。
第二點是從2012年到現在,Facebook多次大面積封禁虛假賬號,但是這“野草燒不盡”般的勢頭背後反映出其在防禦策略和技術方面還是有很多進步空間。
而目前對於異常賬戶的檢測主要有以下幾種方式:
基於行為特徵的檢測方案;
基於內容的檢測方案;
基於圖的檢測方案;
無監督學習。
目前很多平臺主要使用的還是基於內容的檢測方案,輔之基於行為特徵的檢測方案。但是隨著AI的不斷髮展,“機器賬號”的偽裝能力越來越強,這場機器之戰之下,我們必須採用更為精細、科學的處理方式。比如從註冊稽核環節、使用軌跡等維度建立多維度、多環節、長週期的分析模型,盡力提高對於異常賬戶的檢測精度。
而目前隨著圖學習、社交網路等研究的不斷髮展,我們也可以採用基於圖的檢測方案。 這種方式的關鍵是構造一個圖,在圖中異常帳號與正常帳號具有不同的結構或者連線方式,然後利用圖挖掘的相關演算法找到圖中具體的異常結構或者異常節點。 從一個“異常賬號”找到相類似的更多機器賬號。