英偉達重大突破:用 AI 自動建模渲染影象,加快 3D 遊戲開發
AI 前線導讀:這個簡單的駕駛模擬器將變革視訊遊戲影象處理領域。
更多幹貨內容請關注微信公眾號“AI 前線”(ID:ai-front)
最近,人工智慧領域的繁榮已取得讓人驚歎的成果,尤其是在影象和視訊生成領域。最新的成果來自於晶片設計商英偉達,今天,該公司演示瞭如何結合傳統視訊遊戲引擎和 AI 生成視訊。這個混合型的影象系統將來可能會被用於視訊遊戲、電影和虛擬現實應用中去。
英偉達應用深度學習副總裁 Bryan Catanzaro 表示,“這是一種使用深度學習生成視訊的新方法,很明顯英偉達很重視生成影象,並在思考 AI 將如何變革這個領域。”
英偉達的這一工作成果其實不是真實的,和大部分 AI 生成的影象一樣,英偉達生成的視訊中商標也是模糊的。這也並非一項全新的技術。在一篇研究論文中,該公司的工程師解釋了他們如何基於一些現有方法,包括一個名為 pix2pix 的有影響力的開源系統,部署了生成對抗網路(GAN)。這種神經網路被廣泛用於 AI 影象生成,包括最近由佳士得出售的 ofollow,noindex">AI 肖像 。
但英偉達此次有所創新,釋出了第一個由 AI 生成影象的視訊遊戲演示。利用這個簡單的駕駛模擬器,玩家可以在 AI 生成的幾個城市街區空間中導航,但不能離開車內或以其他方式與世界互動。該演示僅使用一個 GPU 即可實現,這一點非常領先。(雖然不可否認,他們使用的 GPU 是該公司價值 3000 美元的頂級產品 Titan V,據稱是“有史以來最強大的 PC GPU”,而且通常用於高階模擬處理而不是遊戲。)
英偉達系統可以在幾個步驟內生成影象。
- 收集訓練資料,資料來自用於自動駕駛研究的開源資料集。
- 將該鏡頭分段,每個幀被分成不同的類別:天空、車、樹木、道路、建築物等。
- 使用分段資料訓練生成對抗網路,生成這些物件的新版本。
- 工程師使用傳統流行的遊戲引擎 Unreal Engine 4 建立虛擬環境的基本拓撲。使用此環境作為框架,深度學習演算法實時生成每個不同類別專案的影象,將它們貼上到遊戲引擎的模型上。
“結構還是用傳統的方法建立,”Catanzaro 解釋說,“人工智慧生成的唯一東西就是影象。”他補充道,演示本身是基本的操作,由一名工程師完成。 “這是概念驗證,而不是一個有趣的遊戲。”
為了建立這個系統,英偉達的工程師必須解決許多問題,其中最大的挑戰是物件永續性。即如果深度學習演算法以每秒 25 幀的速率生成現實世界的影象,他們如何保持物件看起來相同?Catanzaro 說這個問題意味著系統初期的生成結果將會“看起來像個災難”,因為顏色和紋理“每幀都會改變”。
解決方案是給系統一個短期記憶,以便將每個新幀與之前的幀進行比較。它嘗試預測這些影象中的運動等因素,並建立與螢幕上的內容一致的新幀。所有這些計算都很昂貴,因此遊戲只能以每秒 25 幀的速度執行。
Catanzaro 強調,這項技術處於早期階段,而且人工智慧生成的影象可能需要幾十年時間才能成為消費級產品。他將這種情況與光線跟蹤的發展進行了比較,光線跟蹤是當前影象渲染的熱門技術,它能實時生成單獨的光線,在虛擬環境中建立逼真的反射、陰影和不透明度。“第一次互動式光線追蹤演示發生在很久很久以前,但直到幾周前,我們還沒有在遊戲中得實現它,”他說。
這項工作確實在其他研究領域有應用潛力,包括機器人和自動駕駛汽車,它可以用來生成訓練環境。不久之後,它可能會出現在消費產品中,儘管範圍有限。
例如,該技術可用於混合影象系統,其中大多數遊戲使用傳統方法渲染,但使用 AI 建立人或物體的相似性。消費者可以使用智慧手機自己獲取素材,然後將這些資料上傳到雲端,演算法將學習複製並將其插入到遊戲中。例如,它可以更容易地建立看起來和玩家相似的頭像。
然而,這種技術引起了一些明顯的問題。近年來,專家越來越擔心別有用心之人使用 AI 生成的偽造品進行虛假宣傳。研究人員已經證明,生成一些政治家和名人從未說過的話合或做過的事非常簡單,AI 將變成一把雙刃劍。
同時,英偉達還提出,該技術可能會用於生成一些具有誤導性的內容。Catanzaro 表示,英偉達正在和合作夥伴合作探索檢測虛假 AI 的方法,但這種假訊息最終是“信任問題”。和之前很多信任問題相似,此問題需要一些列的方法來解決,而不僅是技術手段。
Catanzaro 表示,英偉達需要負一部分責任,“難道 AI 生成假視訊,發明電力的公司也需要負責任嗎?”
對於英偉達來說,推動 AI 生成影象技術總的來說將會對其有益:它將幫助英偉達售賣更多的硬體,英偉達的股價也隨著 2010 年深度學習的火爆而上升(雖然最近有下降的趨勢),因為該公司的晶片與機器學習發展的需求非常契合。
原文連結: