從演算法到硬體，一文讀懂2019年 AI如何演進

科技 · 發表 2019-03-20 20:31:00

摘要：原標題：從演算法到硬體，一文讀懂2019年 AI如何演進在剛剛過去的2018年，人工智慧領域的大事件、新發現和新進展層出不窮。 BERT重磅釋出，重新整理了很多NLP的任務的最好效能；GAN相關研究論文持續增長，生成的照片達到了以假亂真的程度；Deepfakes發展神速，讓許多政客和明星供大眾娛...

在剛剛過去的2018年，人工智慧領域的大事件、新發現和新進展層出不窮。

BERT重磅釋出，重新整理了很多NLP的任務的最好效能；GAN相關研究論文持續增長，生成的照片達到了以假亂真的程度；Deepfakes發展神速，讓許多政客和明星供大眾娛樂了一番；強化學習也在與人類的對戰遊戲中獨領風騷......

硬體方面，Nvidia一騎絕塵，Intel努力求變，定製硬體市場繁榮；

除此之外，自動駕駛、AI倫理等也是過去一年的討論重點。

回顧2018展望2019，人工智慧和機器學習將走向何方？

Medium的一位專欄作者為此撰文概括了過去一年中人工智慧領域的一些模式，並試圖勾勒出其中的某些趨勢。注意，這篇總結是以美國的發展為中心展開，以下是文章全文：

演算法

毫無疑問，演算法話語權由深度神經網路（DNN）主導。

當然，你可能會聽說有人在這裡或那裡部署了一個“經典的”機器學習模型(比如梯度提升樹或多臂老虎機)，並聲稱這是每個人唯一需要的東西。有人宣稱，深度學習正處於垂死掙扎中。甚至連頂級的研究人員也在質疑一些深度神經網路（ DNN）架構的效率和抗變換性。

但是，不管你喜歡與否，DNN無處不在: 自動駕駛汽車、自然語言系統、機器人——所有你能想到的皆是如此。

在自然語言處理、生成式對抗網路和深度增強學習中，DNN取得的飛躍尤為明顯。

Deep NLP: BERT以及其他

儘管在2018年之前，文字使用DNN（比如word2vec、GLOVE和基於LSTM的模型）已經取得了一些突破，但缺少一個關鍵的概念元素：遷移學習。

也就是說，使用大量公開可用的資料對模型進行訓練，然後根據你正在處理的特定資料集對其進行“微調”。在計算機視覺中，利用在著名的 ImageNet 資料集上發現的模式來解決特定的問題，通常是一種解決方案。

問題是，用於遷移學習的技巧並不能很好地應用於自然語言處理（NLP）問題。在某種意義上，像 word2vec 這樣的預先訓練的嵌入正在彌補這一點，但它們只能應用於單個單詞級別，無法捕捉到語言的高階結構。

然而，在2018年，這種情況發生了變化。 ELMo，情境化嵌入成為提高 NLP 遷移學習的第一個重要步驟。ULMFiT 甚至更進一步: 由於不滿意嵌入式的語義捕捉能力，作者找到了一種為整個模型進行遷移學習的方法。

但最有趣的進步無疑是BERT的引入。通過讓語言模型從英文維基百科的全部文章中進行學習，這個團隊能夠在11個 NLP 任務中取得最高水準的結果——這是一個壯舉！更妙的是，它開源了。所以，你可以把這一突破應用到自己的研究問題上。

生成式對抗網路（GAN）的多面性

CPU的速度不會再呈現指數級的增長，但是生成式對抗網路（GAN）的學術論文數量肯定會繼續增長。GAN多年來一直是學術界的寵兒。然而，其在現實生活中的應用似乎很少，而且這一點在2018年幾乎沒有改變。但是GAN仍然有著驚人的潛力等待著我們去實現。

目前出現了一種新的方法，即逐步增加生成式對抗網路: 使生成器在整個訓練過程中逐步提高其輸出的解析度。很多令人印象深刻的論文都使用了這種方法，其中有一篇採用了風格轉移技術來生成逼真的照片。有多逼真？你來告訴我：

這些照片中哪一張是真人？

這個問題有陷阱：以上皆不是。

然而，GAN是如何工作的，以及它為什麼會起效呢？我們對此還缺乏深入的瞭解，但是我們正在採取一些重要的措施: 麻省理工學院的一個團隊已經對這個問題進行了高質量的研究。

另一個有趣的進展是“對抗補丁“，從技術上來說它並非是一個生成式對抗網路。它同時使用黑盒(基本上不考慮神經網路的內部狀態)和白盒方法來製作一個“補丁”，可以騙過一個基於 CNN的分類器。從而得出一個重要的結果：它引導我們更好地瞭解深度神經網路如何工作，以及我們距離獲得人類級別的概念認知還有多遠。

你能區分香蕉和烤麵包機嗎？人工智慧仍然不能。

強化學習（RL）

自從2016年 AlphaGo 擊敗李世石後，強化學習就一直是公眾關注的焦點。

在訓練中，強化學習依賴於“獎勵”訊號，即對其在最後一次嘗試中表現的評分。電腦遊戲提供了一個與現實生活相反的自然環境，讓這種訊號隨時可用。因此，RL研究的所有注意力都放在了教 AI玩雅達利遊戲上。

談到它們的新發明 DeepMind，AlphaStar又成了新聞。這種新模式擊敗了星際爭霸 II的頂級職業選手之一。星際爭霸比國際象棋和圍棋複雜得多，與大多數棋類遊戲不同，星際爭霸有巨大的動作空間和隱藏在玩家身上的重要資訊。這次勝利對整個領域來說，都是一次非常重要的飛躍。

在RL這個領域，另一個重要角色OpenAI也沒有閒著。讓它們聲名鵲起的是OpenAI Five，這個系統在2018年8月擊敗了Dota 2這個極其複雜的電子競技遊戲中99.95%的玩家。

儘管 OpenAI 已經對電腦遊戲給予了很多關注，但是他們並沒有忽視 RL 真正的潛在應用領域: 機器人。

在現實世界中，一個人能夠給予機器人的反饋是非常稀少且昂貴的：在你的 R2-D2（電影中的虛擬機器器人）嘗試走出第一“步”時，你基本上需要一個人類保姆來照看它。你需要數以百萬計的資料點。

為了彌合這一差距，最新的趨勢是學會模擬一個環境，同時並行地執行大量場景以教授機器人基本技能，然後再轉向現實世界。OpenAI和Google都在研究這種方法。

榮譽獎：Deepfakes

Deepfakes指一些偽造的影象或視訊，（通常）展示某個公眾人物正在做或說一些他們從未做過或說過的事情。在“目標”人物大量鏡頭的基礎上訓練一個生成式對抗網路，然後在其中生成包含所需動作的新媒體——deepfakes就是這樣建立的。

2018年1月釋出的名為FakeApp的桌面應用程式，可以讓所有擁有電腦科學知識的人和對此一無所知的人都能建立deepfakes。雖然它製作的視訊很容易被人看出來是假的，但這項技術已經取得了長足的進步。

基礎設施

TensorFlow與PyTorch

目前，我們擁有很多深度學習框架。這個領域是廣闊的，這種多樣性表面上看是有意義的。但實際上，最近大多數人都在使用Tensorflow或PyTorch。如果你關心可靠性、易於部署性和模型過載等SREs 通常關心的問題，那麼你可能會選擇 Tensorflow。如果你正在寫一篇研究論文，而且不在谷歌工作，那麼你很可能使用PyTorch。

ML作為一種服務隨處可見

今年，我們看到了更多的人工智慧解決方案，它們被一個未獲得斯坦福大學機器學習博士學位的軟體工程師打包成一個供消費的 API。Google Cloud和Azure都改進了舊服務，並且增加了新服務。AWS機器學習服務列表開始看起來十分令人生畏。

天啊，AWS的服務很快就會多到需要兩級目錄層次結構來展示了。

儘管這種狂熱現象已經冷卻了一些，但還是有很多創業公司發出了挑戰。每個人都承諾了模型訓練的速度、推理過程中的易用性和驚人的模型效能。

只要輸入你的信用卡資訊，上傳你的資料，給模型一些時間去訓練或者微調，呼叫 REST (或者，給更有前瞻性的創業公司GraphQL)的 API，就可以成為人工智慧方面的大師，甚至不需要搞清楚“隨機失活(dropout)”是什麼。

有了這麼多的選擇，為什麼還有人會費心自己建造模型和基礎設施呢？實際上，現成的 MLaaS 產品在80% 的實用案例中表現得非常好。如果你希望剩下的20% 也能正常工作，那就沒那麼幸運了: 你不僅不能真正地選擇模型，甚至不能控制超引數。或者，如果你需要在雲的舒適區之外的某個地方進行推斷——一般情況下都做不到。這就是代價。

榮譽獎：AutoML和AI Hub

今年推出的兩項特別有趣的服務均由谷歌釋出。

首先，Google Cloud AutoML是一套定製的 NLP 和計算機視覺模型培訓產品。這是什麼意思？汽車設計師通過自動微調幾個預先訓練的模型，並選擇其中最好的那個，從而解決了模型定製問題。這意味著你很可能不需要自己去定製模型。

當然，如果你想做一些真正新鮮或不同的東西，那麼這個服務並不適合你。但是，谷歌在大量專有資料的基礎上預先訓練其模型，這是一個附帶的好處。想想所有關於貓的照片，它們一定比 Imagenet 更具推廣性！

第二，AI Hub 和 TensorFlow Hub。在這兩者出現之前，重複使用某人的模型確實是件苦差事。基於 GitHub 的隨機程式碼很少能用，通常記錄得很差，而且一般來說，處理起來並不愉快。還有預先訓練的遷移學習權重……這麼說吧，你甚至不想嘗試把它們用於工作中。

這正是TF Hub想要解決的問題: 它是一個可靠的、有組織的模型儲存庫，你可以對其進行微調或構建。只要加入幾行程式碼——TF Hub 客戶端就可以從谷歌的伺服器上獲取程式碼和相應的權重——然後，哇哦，它就可以正常工作了！

Ai Hub 更進一步：它允許你共享整個ML管道，而不僅僅是模型！它仍然處於 alpha 測試階段，但如果你明白我的意思的話，它已經比一個連最新的檔案也是“3年前才修改”的隨機儲存庫要好得多。

硬體

Nvidia（英偉達）

如果你在2018年認真研究過ML，尤其是DNN，那麼你就曾用過一個（或多個）GPU。因此，GPU的領頭羊在這一年裡都非常忙碌。

隨著加密狂潮的冷卻和隨後的股價暴跌，Nvidia釋出了基於圖靈架構的全新一代消費級卡。新卡僅使用了2017年釋出的基於Volta晶片的專業卡，且包含了被稱為Tensor Cores的新的高速矩陣乘法硬體。矩陣乘法是DNN執行方式的核心，因此加快這些運算將大大提高新GPU上神經網路訓練的速度。

對於那些對“小”和“慢”的遊戲GPU不滿意的人來說，Nvidia更新了他們的“超級計算平臺”。 DGX-2具有多達16塊Tesla V，用於FP16操作的480 TFLOP（480萬億次浮點運算），真可謂是一款“怪物”盒子。而其價格也更新了，高達40萬美元。

此外，自動硬體也得到了更新。Jetson AGX Xavier是Nvidia希望能為下一代自動駕駛汽車提供動力的一個模組。八核CPU、視覺加速器以及深度學習加速器，這些都是日益增長的自動駕駛行業所需的。

在一個有趣的開發專案中，Nvidia為他們的遊戲卡推出了基於DNN的一種功能：深度學習超級取樣（Deep Learning Super Sampling）。其想法是去替換抗鋸齒，目前主要通過先渲染解析度高於所需（例如4倍）的圖片然後再將其縮放到本機監視器解析度來完成。

現在，Nvidia允許開發人員在釋出遊戲之前以極高的質量去訓練影象轉換模型。然後，使用預先訓練的模型將遊戲傳送給終端使用者。在遊戲過程中，圖形通過該模型來運作以提高影象質量，而不會產生舊式抗鋸齒的成本。

Intel英特爾

英特爾在2018年絕對不是人工智慧硬體領域的開拓者，但似乎他們希望改變這一點。

令人驚訝的是，英特爾的大多數動作都發生在軟體領域。英特爾正在努力使其現有和即將推出的硬體更加適合開發人員。考慮到這一點，他們釋出了一對（既令人驚訝又有競爭力的）工具包：OpenVINO和nGraph。

他們更新了自己的神經計算棒：一個小型USB裝置，可以加速任何帶USB埠的DNN，甚至是Raspberry Pi。

有關英特爾獨立GPU的傳聞變得越來越錯綜複雜。雖然這一傳聞持續流傳，但新裝置對DNN訓練的適用性仍有待觀察。絕對適用於深度學習的是傳聞中的專業深度學習卡，它們的代號為Spring Hill和Spring Crest。而後者基於初創公司Nervana（英特爾幾年前已將其收購）的技術。

尋常（和不常見）的定製硬體

谷歌推出了他們的第三代TPU：基於ASIC的DNN專用加速器，具有驚人的128Gb HMB記憶體。256個這樣的裝置組裝成一個具有超過每秒100千兆次效能的集合體。谷歌今年不再僅憑這些裝置來挑逗世界的其他玩家了，而是通過Google Cloud向公眾提供TPU。

在類似的、但主要針對推理應用程式的專案中，亞馬遜已經部署了AWS Inferentia：一種更便宜、更有效的在生產中執行模型的方式。

谷歌還宣佈了Edge TPU專案：這個晶片很小：10個晶片加起來才有一美分硬幣的大小。與此同時，它能做到在實時視訊上執行DNN，並且幾乎不消耗任何能量，這就足夠了。

一個有趣的潛在新玩家是Graphcore。這家英國公司已經籌集了3.1億美元，並在2018年推出了他們的第一款產品GC2晶片。根據基準測試，GC2在進行推理時碾壓了頂級Nvidia伺服器GPU卡，同時消耗的功率顯著降低。

榮譽獎：AWS Deep Racer

亞馬遜推出了一款小型自動駕駛汽車DeepRacer，以及一個賽車聯盟。這完全出人意料，但也有點像他們之前推出DeepLens時的情況。這款400美元的汽車配備了Atom處理器，400萬畫素攝像頭，wifi，幾個USB埠，以及可執行數小時的充足電量。

自動駕駛模型可以使用完全在雲端的3D模擬環境進行訓練，然後直接部署到這款車上。如果你一直夢想著建造自己的自動駕駛汽車，那麼亞馬遜的這款車就能讓你如願，而不必再去自己創立受到VC支援的公司了。

接下來還有什麼？重點會轉向決策智慧

既然演算法、基礎設施和硬體等讓AI變得有用的因素都比以往任何時候要更好，企業於是意識到開始應用AI的最大絆腳石在於其實際性層面：你如何將AI從想法階段落實到有效、安全又可靠的生產系統中？

應用AI或應用機器學習（ML），也稱為決策智慧，是為現實世界問題建立AI解決方案的科學。雖然過去我們把重點放在演算法背後的科學上，但未來我們應該對該領域的端到端應用給予更加平等的關注。

人工智慧在促進就業方面功大於過

“人工智慧會拿走我們所有的工作”是媒體一直反覆宣揚的主題，也是藍領和白領共同的恐懼。而且從表面上看，這似乎是一個合理的預測。但到目前為止，情況恰恰相反。例如，很多人都通過建立標籤資料集的工作拿到了薪酬。

像LevelApp這樣的應用程式可以讓難民只需用手機標記自己的資料就可以賺到錢。Harmon則更進一步：他們甚至為難民營中的移民提供裝置，以便這些人可以做出貢獻並以此謀生。

除了資料標籤之外，整個行業都是通過新的AI技術建立的。我們能夠做到幾年前無法想象的事情，比如自動駕駛汽車或新葯研發。

更多與ML相關的計算將在邊緣領域進行

Pipeline的後期階段通常通過降取樣或其他方式降低訊號的保真度。另一方面，隨著AI模型變得越來越複雜，它們在資料更多的情況下表現得更好。將AI元件移近資料、靠近邊緣，是否會有意義嗎？

舉一個簡單的例子：想象一個高解析度的攝像機，可以每秒30千兆次的速度生成高質量的視訊。處理該視訊的計算機視覺模型在伺服器上執行。攝像機將視訊流式傳輸到伺服器，但上行頻寬有限，因此視訊會縮小並被高度壓縮。為何不將視覺模型移動到相機並使用原始視訊流呢？

與此同時，多個障礙總是存在，它們主要是：邊緣裝置上可用的計算能力的數量和管理的複雜性（例如將更新的模型推向邊緣）。專用硬體（如Google的Edge TPU、Apple的神經引擎等）、更高效的模型和優化軟體的出現，讓計算的侷限性逐漸消失。通過改進ML框架和工具，管理複雜性問題不斷得到解決。

整合AI基礎架構空間

前幾年人工智慧基礎設施相關活動層出不窮：盛大的公告、鉅額的多輪融資和厚重的承諾。2018年，這個領域似乎降溫了。雖然仍然有很多新的進步，但大部分貢獻都是由現有大型玩家做出的。

一個可能的解釋也許是我們對AI系統的理想基礎設施的理解還不夠成熟。由於問題很複雜，需要長期、持久、專注而且財力雄厚的努力，才能產生可行的解決方案——這是初創公司和小公司所不擅長的。如果一家初創公司“解決”了AI的問題，那絕對會讓人驚奇不已。

另一方面，ML基礎設施工程師卻很少見。對於大公司來說，一個僅有幾名員工、掙扎求生的創業公司顯然是很有價值的併購目標。這個行業中至少有幾個玩家是為了勝利在不斷奮鬥的，它們同時建立了內部和外部工具。例如，對於AWS和Google Cloud而言，AI基礎設施服務是一個主要賣點。

綜上可以預測，未來在這個領域會出現一個整合多個玩家的壟斷者。

更多定製硬體

至少對於CPU而言，摩爾定律已經失效了，並且這一事實已經存在很多年了。GPU很快就會遭受類似的命運。雖然我們的模型變得越來越高效，但為了解決一些更高階的問題，我們需要用到更多的計算能力。這可以通過分散式訓練來解決，但它自身也有侷限。

此外，如果你想在資源受限的裝置上執行一些較大的模型，分散式訓練會變得毫無用處。進入自定義AI加速器。根據你想要的或可以實現的自定義方式，可以節省一個數量級的功耗、成本或潛在消耗。

在某種程度上，即使是Nvidia的Tensor Cores也已經投身於這一趨勢。如果沒有通用硬體的話，我們會看到更多的案例。

減少對訓練資料的依賴

標記資料通常很昂貴，或者不可用，也可能二者兼有。這一規則幾乎沒有例外。開放的高質量資料集，如MNIST、ImageNet、COCO、Netflix獎和IMDB評論，都是令人難以置信的創新源泉。但是許多問題並沒有可供使用的相應資料集。研究人員不可能自己去建立資料集，而可提供贊助或釋出資料集的大公司卻並不著急：他們正在構建龐大的資料集，但不讓外人靠近。

那麼，一個小型獨立實體，如創業公司或大學研究小組，如何為那些困難的問題提供有趣的解決方案呢？構建對監督訊號依賴性越來越小，但對未標記和非結構化資料（廉價感測器的互聯和增多使得這類資料變得很豐富）依賴性越來越大的系統就可以實現這一點。這在一定程度上解釋了人們對GAN、轉移和強化學習的興趣激增的原因：所有這些技術都需要較少（或根本不需要）對訓練資料集的投資。

所以這一切僅僅是個泡沫？

這一行業已進入熱門人工智慧“盛夏”的第七年。這段時間內，大量的研究專案、學術資助、風險投資、媒體關注和程式碼行都湧入了這個領域。

但人們有理由指出，人工智慧所做出的大部分承諾仍然還未兌現：他們最近優步打車的行程依然是人類駕駛員在開車；目前依然沒有出現早上能做煎蛋的實用機器人。我甚至不得不自己綁鞋帶，真是可悲至極！

然而，無數研究生和軟體工程師的努力並非徒勞。似乎每家大公司都已經十分依賴人工智慧，或者在未來實施此類計劃。AI的藝術大行其道。自動駕駛汽車雖然尚未出現，但它們很快就會誕生了。

2018年，美國在人工智慧領域發展迅速，中國也不遑多讓。這個趨勢從近期百度和BOSS直聘聯合釋出的《2018年中國人工智慧ABC人才發展報告》中就可窺一斑。

————

編輯 ∑Pluto

從演算法到硬體，一文讀懂2019年 AI如何演進

您可能也會喜歡…