這種新的 AI 技術只要你的一張照片,就能偽造出一段視訊
當別人從你的社交網路上抓取一張照片,他能做些什麼?
給你 P 出各種表情?加上有趣搞笑的濾鏡?如果你以為只是這樣那就大錯特錯,因為通過 AI 技術做出一段惟妙惟肖的假視訊,然後讓朋友誤以為真的是你,這件事如今已經不再只是科幻。
你沒聽錯,這不是電影,而是 AI 技術又一次新嘗試。來自俄羅斯三星實驗室的研究員新開發的一項 AI 技術,只需要某人的一張照片,就能帶來一段活靈活現的視訊內容。這種技術甚至能讓蒙娜麗莎開口說話,就像下面視訊中這樣:
通常,要做出以假亂真的 deepfake 視訊需要大量資料支援。比如早前我們曾經介紹過利用深度學習技術,有人為色情演員加上了好萊塢明星的臉,蓋爾·加朵、艾瑪·沃森被「移花接木」到了色情視訊當中。
這樣的換臉技術本身是通過機器學習來對大量素材訓練,通過生成式對抗網路(GAN)將目標物件替換成自己需要的物件影象,甚至如果資料資料夠多,它還能將影象、聲音等完全偽造。但如今,新的 deepfake 技術不再需要大量資料,甚至一張普通照片就能偽造一段視訊。
研究人員先是從 YouTube 上搜集的 7000 多張名人照片進行進行面部特徵提取,包括臉型、眼睛、嘴型等特徵點,通過這些特徵點進行的訓練去比對拍攝的照片,並讓這些拍攝的照片動態頭部模型,通過一系列卷積運算讓比對效果不斷提升,最終在進行前期大量學習訓練之後,新的神經網路只需要少量資料和就能生成新的人臉資訊甚至是視訊。
聽起來有些複雜,但實際效果卻是肉眼可見的明顯,不僅僅是《蒙娜麗莎的微笑》中角色可以開口出現表情動作,就連阿爾伯特·愛因斯坦、薩爾瓦多·達利等也都可以從靜態肖像活靈活現出現在你的眼前。
當然,和大多數 deepfake 生成的視訊相似的問題是,三星的研究人員做出的這些視訊現在看來並不完美,你依然能看到有縫隙、動作古怪甚至有點像家地,但伴隨資料訓練越來越多,這樣的問題將會被改善。
研究人員表示,這項研究可以運用在娛樂領域,比如像《哈利·波特》電影中那樣讓靜態肖像畫活動起來。但這毫無疑問也為人們帶來了一些擔心,既然一張照片就能偽造成一段視訊,那麼未來這樣的技術是否會對我們產生危險?
關於這一點,達特茅斯學院媒體取證專家 Hany Farid 就談到:「deepfake 這樣的技術在如今的趨勢下,需要的相關資料越來越少,將會導致未來創造內容真假難辨。」這一點也是讓人所擔心的,也許犯罪分子會通過這樣的技術來進行犯罪。
不過三星的研究人員目前希望這樣的技術能夠實現更大突破,並且有機會被應用於電子遊戲、電影、電視等領域,對於特效行業來說,這樣的技術會降低不少成本。而隨著反作弊技術的進步,對於這些偽造視訊的判斷將會更加精準,現階段觀察並討論它的適用範圍是我們更該做的事情。