Jeff Dean撰文：谷歌AI 2018研究成果彙總

資料探勘谷歌 · 發表 2019-01-20 12:40:00

摘要：【編者按】谷歌AI團隊負責人Jeff Dean近日釋出部落格文章，總結了谷歌的研究團隊在2018年的主要研究成果。內容包括：AI道德原則與以人為本的AI、輔助技術、量子計算、自然語言理解、感知研究、計算攝影、演算法和理論、軟體系統、AutoML、TPU、開源軟體和資料集、機器人...

【編者按】谷歌AI團隊負責人Jeff Dean近日釋出部落格文章，總結了谷歌的研究團隊在2018年的主要研究成果。內容包括：AI道德原則與以人為本的AI、輔助技術、量子計算、自然語言理解、感知研究、計算攝影、演算法和理論、軟體系統、AutoML、TPU、開源軟體和資料集、機器人技術、人工智慧在其他領域的應用、醫療AI、研究推廣、AI道德原則與以人為本的AI。

文章轉載自新智元，原作者Jeff Dean，經億歐整理編輯釋出，供業內人士參考。

在過去的幾年裡，我們觀察到人工智慧的重大進步及其對我們的產品和數十億使用者日常生活的積極影響。我們認識到，AI是一種造福世界的力量，它應該被合乎道德地應用，也應該應用於對社會有益的問題。今年我們釋出了《谷歌人工智慧原則》(Google AI Principles)，提出一系列負責任的人工智慧實踐，並概述了實施的技術建議。

AI用於解決現實社會問題的潛力是顯而易見的。一個例子是谷歌在洪水預測方面的工作。這項研究旨在提供關於洪水可能的程度和範圍的準確、及時的細粒度資訊，使那些在洪水易發地區的人們能夠更好地決定如何最好地保護他們自己和他們的財產。

第二個例子是我們在地震餘震預測方面的工作，我們展示了機器學習模型可以比傳統的基於物理的模型更準確地預測餘震的位置。更重要的是，由於ML模型的設計是可解釋的，科學家們已經能夠對餘震的行為做出新的發現，這不僅可以得到更加準確的預測，而且對餘震的理解理解也達到了新的水平。

我們還看到大量的外部研究者，有時與谷歌的研究人員和工程師合作，使用TensorFlow等開源軟體應對廣泛的科學和社會問題，例如使用卷積神經網路識別座頭鯨，檢測新的系外行星，識別病變的木薯植物等等。

▌ 輔助技術

我們的大部分研究集中在使用ML和電腦科學來幫助使用者更快、更有效地完成任務。通常，研究團隊與不同的產品團隊協作，研究成果被應用於不同的產品特性和設定中。一個例子是Google Duplex，這個系統需要研究自然語言和對話理解、語音識別、文字到語音轉換、使用者理解和有效的UI設計等。

其他的例子包括Gmail的Smart Compose工具，使用預測模型給出關於如何撰寫郵件的相關的建議；以及聲音搜尋技術Sound Search，能夠讓使用者快速、準確地搜尋到正在播放的歌曲；等等。

▌ 量子計算

量子計算是一種新興的計算正規化，它能夠解決經典計算機無法解決的具有挑戰性的問題。在過去的幾年裡，我們一直在積極地進行這一領域的研究，我們相信該領域正在展示在至少一個問題上的尖端能力(所謂的量子霸權)，這將是該領域的一個分水嶺事件。

在過去的一年裡，我們取得了許多令人興奮的新成果，包括開發了一種新的72量子位元的量子計算裝置：Bristlecone，它可以擴大量子計算機可解決的問題的範圍。

我們還發布了面向量子計算機的開源程式設計框架Cirq，並探索瞭如何將量子計算機用於神經網路。最後，我們分享了我們在理解量子處理器效能波動方面的經驗和技術，並分享了一些關於量子計算機作為神經網路的計算基礎的想法。我們期待2019年在量子計算領域取得激動人心的成果!

▌ 自然語言理解

谷歌的自然語言研究在2018年取得了令人興奮的成果，既有基礎研究，也有以產品為重點的合作。我們對2017年提出的Transformer架構進行了改進，開發了一種名為Universal Transformer的新的實時並行版本，該版本在翻譯和語言推理等自然語言任務中顯示出強大的優勢。

我們還開發了BERT，這是第一個深度雙向、無監督的語言表示模型，只使用純文字語料庫進行預訓練，然後可以使用遷移學習對各種自然語言任務進行微調。BERT在11個自然語言任務上比以前的最先進的結果有了顯著的改進。

BERT在非常具有挑戰性的GLUE基準測試中將最優結果提高了7.6%

▌ 感知研究

感知研究致力於解決讓計算機理解影象、聲音、音樂和視訊的難題，併為影象捕獲、壓縮、處理、創造性表達和增強現實提供更強大的工具。

2018年，我們的技術提高了Google Photos中組織使用者最關心的內容的能力，比如人和寵物。Google Lens和Google Assistant 讓使用者瞭解自然世界，實時回答問題，並能在谷歌影象中使用Google Lens做更多事情。

Google Lens可以幫助你瞭解你周圍的世界

在音訊領域，我們提出了一種用於語義音訊表示的無監督學習方法，以及對富有表達性的語音合成的顯著改進。多模態感知成為一個越來越重要的研究課題。Looking to Listen將輸入視訊中的視覺和聽覺線索結合起來，以隔離和加強視訊中所需的說話者的聲音。這項技術可以支援許多應用，從視訊中的語音增強和識別、視訊會議，到改進的助聽器，尤其是可以應用於多人講話的場景。

在計算資源有限的平臺上實現感知變得越來越重要。MobileNetV2是谷歌的下一代移動計算機視覺模型，被廣泛應用於學術界和工業界。MorphNet提出了一種學習深度網路結構的有效方法，在計算資源限制的條件下，可以全面提高影象和音訊模型的效能。最近有關自動生成行動網路架構的研究也表明，繼續提高效能是可能的。

▌ 計算攝影

在過去的幾年裡，手機攝像頭的質量和功能都有了顯著的提高。部分原因是手機中實際使用的物理感測器有所改進，但更大的原因是計算攝影這一科學領域的進步。

我們的研究團隊釋出了最新研究技術，並與谷歌的Android團隊和消費硬體團隊緊密合作，將最新技術應用在最新的Pixel和Android手機及其他裝置中。2014年，我們提出了HDR+技術，通過該技術，攝像機捕捉到一組幀，然後在軟體中對齊這些幀，並將它們與計算軟體合併在一起。HDR+的工作最初是為了使圖片具有比單次曝光更高的動態範圍。然而，通過捕獲大量的幀，然後對這些幀進行計算分析成為了一種通用的方法，這種方法在2018年使相機中的許多進步成為可能。例如，它允許在Pixel 2中開發動態照片功能，在Motion Stills中實現增強現真實模式。

今年，我們在計算攝影研究方面的主要工作之一是創造一種稱為“夜視”( Night Sight)的新能力，它使 Pixel 手機相機能夠“在黑暗中觀看”。

▌ 演算法和理論

演算法是谷歌系統的支柱，觸及我們所有的產品，從Google trips背後的routing演算法到Google cloud的consistent hashing 演算法。在過去的一年裡，我們繼續在演算法和理論方面進行研究，涵蓋了從理論基礎到應用演算法，從圖挖掘到隱私保護計算的廣泛領域。

我們在優化方面的工作涉及從機器學習的連續優化到分散式組合優化的各個領域。在前者，我們研究用於訓練神經網路的隨機優化演算法的收斂性(獲得了ICLR 2018年最佳論文)，展示了流行的基於梯度的優化方法(如ADAM的一些變體)存在的問題，為新的基於梯度的優化方法提供了堅實的基礎。

ADAM和AMSGRAD在一個簡單的一維凸問題上的效能比較

▌ 軟體系統

我們在軟體系統方面的大部分研究仍然與構建機器學習模型有關，特別是與TensorFlow有關。例如，我們發表了TensorFlow 1.0動態控制流的設計和實現。我們的一些新研究引入了一個稱為Mesh TensorFlow的系統，它使得使用模型並行性來指定大規模分散式計算變得很容易。另一個例子是，我們釋出了一個使用TensorFlow的可擴充套件深度神經排序庫TF-Ranking library。

TF-Ranking庫

我們還發布了JAX，這是一個加速器支援的NumPy變體，支援Python函式按照任意順序自動區分。雖然JAX不是TensorFlow的一部分，但它利用了與TensorFlow相同的底層軟體基礎結構(例如XLA)，它的一些思想和演算法對TensorFlow專案很有幫助。

另一個重要的研究方向是ML在軟體系統中的應用。例如，我們繼續使用分層模型將計算部署到裝置上，並有助於學習記憶體訪問模式。我們還繼續探索如何使用學習的索引來替代資料庫系統和儲存系統中的傳統索引結構。正如我去年所寫的，我們認為在計算機系統中使用機器學習方面，我們只是觸及了皮毛。

在一個NMT模型(4層)中Hierarchical Planner的放置

▌ AutoML

AutoML，也稱為meta-learning，是利用機器學習來自動化機器學習的某些方面的方法。我們已經在這個領域進行了多年的研究，我們的長期目標是開發一種學習系統，這種系統能夠利用從以前已經解決的其他問題中獲得的見解和能力，自動地解決一個新問題。

我們在這個領域的早期工作主要是使用強化學習，但我們也對進化演算法的使用感興趣。去年，我們展示瞭如何使用進化演算法為各種視覺任務自動發現最先進的神經網路架構。

我們也探討了強化學習如何應用於神經網路架構搜尋之外的其他問題，我們的研究證明它可用於1)自動生成影象變換序列，以提高各種影象模型的準確性；以及2)尋找新的符號優化表示式，比常用的優化更新規則更有效。我們在AdaNet上的工作展示瞭如何得到具有學習能力的快速靈活的AutoML演算法。

AdaNet自適應地生成神經網路的集合。在每次迭代中，它都度量每個候選者的整合損失，並選擇最佳的一個進行下一次迭代。

▌ TPU

張量處理器(TPU)是谷歌內部開發的ML硬體加速器，從一開始就設計為支援大規模的訓練和推理。TPU幫助谷歌的研究取得許多突破性進展，例如BERT(前面已經討論過)，同時也使世界各地的研究人員能夠通過開放原始碼在谷歌的研究基礎上進行構建，並追求自己的新突破。例如，任何人都可以通過Colab在TPU上免費調優BERT, TensorFlow Research Cloud讓成千上萬的研究人員有機會從更大量的免費雲TPU計算能力中獲益。

單個TPU v3裝置(左)和TPU v3 Pod的一部分(右)

▌ 開源軟體和資料集

釋出開源軟體和建立新的公共資料集是我們為研究和軟體工程社群做出貢獻的兩種主要方式。我們在這個領域最大的努力之一是TensorFlow，這是2015年11月釋出的一個非常流行的ML計算系統。我們在2018年慶祝了TensorFlow的三週年，在這段時間裡，TensorFlow的下載量已經超過3000萬次，超過1700個貢獻者增加了4.5萬個提交。在2018年，TensorFlow釋出了8個主要版本，並增加了一些主要功能，如eager execution。隨著TensorFlow Lite、TensorFlow.js和TensorFlow Probability的推出，TensorFlow生態系統在2018年有了大幅增長。

除了繼續開發現有的開源生態系統，在2018年，我們還開發了一個用於靈活、可復現的強化學習研究的新框架，一個用於快速理解資料集的特徵的新視覺化工具(無需編寫任何程式碼)，一個使用TensorFlow.js在瀏覽器中進行實時t-SNE視覺化的庫，以及用於處理電子醫療資料的FHIR工具和軟體等。

完整 MNIST 資料集的 tSNE 嵌入的實時演變，該資料集包含60000個手寫數字的影象

我們釋出了Open Images V4，這是一個包含1540萬個邊界框的資料集，包含600個類別的190萬張影象，以及19794個類別的3010萬個經過人工檢查的影象級標籤。

我們還探索了一些技術，可以使用Fluid Annotation更快地建立視覺化資料集。

▌ 機器人技術

2018年，我們在理解 ML 如何教會機器人在現實世界裡行動方面取得了重大進展，該研究教機器人抓取從來沒見過的物體，相關論文獲得CoRL’18最佳論文。我們還通過結合ML和基於取樣的方法(ICRA'18 最佳論文)，在學習機器人運動方面取得了進展。我們第一次能夠在真實機器人上成功地線上訓練深度強化學習模型，並且正在尋找新的、基於理論的方法，來學習穩定的機器人控制方法。

▌ 人工智慧在其他領域的應用

2018年，我們已經將ML應用於物理和生物科學中的各種問題。使用ML，我們可以為科學家提供相當於數百或數千名研究助理的資料探勘，從而解放科學家，使他們變得更有創造力和生產力。

我們在Nature Methods上發表的一篇關於神經細胞高精度自動重建的論文提出了一種新的模型，與以往的深度學習技術相比，該模型將連線組學資料自動解釋的準確性提高了一個數量級。

我們的演算法在鳴禽大腦中追蹤單個神經突的 3D 過程

將 ML 應用於科學的其他一些例子包括：

通過資料探勘恆星的光曲線，尋找新的太陽系外行星
認識到短DNA序列的起源或功能
自動檢測失焦顯微鏡圖片
自動將質譜輸出對映到肽鏈

經過預訓練的 TensorFlow 模型可以對Fiji (ImageJ)細胞顯微鏡影象斑塊的蒙太奇進行聚焦質量評估

▌ 醫療AI

在過去的幾年裡，我們一直致力於將ML應用於醫療領域，這是一個影響我們每個人的領域，也是一個我們相信ML可以通過增強醫療專業人員的直覺和經驗而產生巨大影響的領域。我們在這個領域的一般方法是與醫療機構合作解決基礎研究問題(利用臨床專家的反饋使我們的結果更加可靠)，然後將結果發表在科學和臨床雜誌上。一旦該研究得到臨床和科學驗證，我們將進行使用者和HCI研究，以瞭解如何將其應用於實際的臨床環境。2018年，我們將工作範圍擴大到計算機輔助診斷和臨床任務預測。

在2016年底，我們發表的一項研究表明，經過訓練的用於評估視網膜眼底影象以檢測糖尿病視網膜病變跡象的模型，其表現與美國醫學委員會認證的眼科醫生相當，甚至略好於後者。

2018年，我們進一步表明，通過使用由視網膜專家標記的影象進行訓練，模型的表現已經與視網膜專家相媲美。後來，我們發表了一項評估，顯示了眼科醫生與ML模型協同判斷，如何比單獨做決定更準確。我們與Verily的同事合作，在印度的Aravind眼科醫院和泰國衛生部下屬的Rajavithi醫院等10多個地方部署了這個糖尿病視網膜病變檢測系統。

▌ ML評估糖尿病視網膜病變

我們還發表了一項關於機器學習模型通過視網膜影象評估心血管風險的研究，這是一項醫學專家和眼科專家都認為相當了不起的研究。這為一種新的、非侵入性的生物標誌物提供了早期有希望的跡象，這種標誌物可以幫助臨床醫生更好地瞭解患者的健康狀況。

我們今年也繼續病理學，展示瞭如何使用ML提高前列腺癌分級的準確度、利用深度學習檢測轉移性乳腺癌，並開發了一個原型的增強現實顯微鏡，可以通過來自計算機視覺模型的視覺資訊幫助病理學家和其他科學家。

在過去的四年裡，我們進行了一項重大的研究，利用電子健康記錄來進行臨床相關的預測。2018年，我們與芝加哥大學、加州大學舊金山分校和斯坦福大學合作，在Nature Digital Medicine上發表了一篇論文，展示了ML模型如何應用於識別電子病歷，能夠對各種臨床相關任務做出比當前臨床最佳實踐準確性更高的預測。作為這項工作的一部分，我們開發了一些工具，使得即使在完全不同的任務和完全不同的基礎EHR資料集上建立這些模型變得非常容易。我們還改進了基於深度學習的變數呼叫DeepVariant的準確性、速度和實用性。該團隊最近在《自然-生物技術》雜誌上發表了一篇同行評議的論文。

▌ 研究推廣

我們以多種不同方式與外部研究社群進行交流，包括教師參與和學生支援。我們很榮幸在本學年招收了數百名本科生、碩士生和博士生作為實習生，併為北美、歐洲和中東的學生提供多年的博士生獎研金(Ph.D. fellowships)。

作為這個獎學金專案補充的是Google AI Residency專案，這個專案允許想要進入深度學習研究的人在谷歌與研究人員一起工作並接受他們的指導。如今，Google AI Residency已進入第三個年頭，學員們被安插在谷歌全球的各個團隊中，從事機器學習、感知、演算法和優化、語言理解、醫療保健等領域的研究。

每年，我們也通過Google Faculty Research Awards program支援一些教師和學生進行研究專案。

我們認為，公開地為更廣泛的研究社群作出貢獻是支援健康和富有成效的研究生態系統的關鍵部分。除了開源和公開資料集之外，我們的許多研究都在頂級會議和期刊上公開發表，並積極參與、組織和贊助各種不同學科的會議。

原文連結：

https://ai.googleblog.com/2019/01/looking-back-at-googles-research.html

當人類從IT時代走向DT時代，當社會從傳統網際網路時代演進到大資料時代，資料迎來爆發式增長。DT時代的業務也將圍繞資料進行，在商業化的視角下，如何讓資料變得更有價值，如何把握資料安全重視度上升帶來的機遇？

1月18日下午，億歐將於北京舉辦 “商業視角下的資料應用安全——2019年億歐企業服務產業升級與創新” 沙龍，現場會有信通院、國科嘉和、華為雲、國舜股份、明朝萬達等企業的創始人、資深專家和投資人出席並進行主題分享，新年我們約一場活動？

報名連結：

https://www.iyiou.com/post/ad/id/767