DeepMind又推AI傑作：AlphaFold蛋白結構預測擊敗人類

資料探勘人工智慧 · 發表 2018-12-04 15:34:13

摘要： 11月2日，在墨西哥坎昆舉行的第13屆全球蛋白質結構預測競賽（Critical Assessment of protein Structure Prediction，CASP）上。組織者宣佈，DeepMind 的最新人工智慧程式 ——AlphaFold 在一項極其困難的任務中擊敗了所有對手，成...

11月2日，在墨西哥坎昆舉行的第13屆全球蛋白質結構預測競賽（Critical Assessment of protein Structure Prediction，CASP）上。組織者宣佈，DeepMind 的最新人工智慧程式 ——AlphaFold 在一項極其困難的任務中擊敗了所有對手，成功預測生命基本分子——蛋白質的三維結構。

作為一項基礎技術，DeepMind在自己部落格中，將AlphaFold 稱為在展示人工智慧研究推動和加速新科學發現方面的“第一個重要里程碑”。

通過跨學科方法，DeepMind彙集了來自結構生物學，物理學和機器學習領域的專家，以應用尖端技術，僅根據其基因序列預測蛋白質的3D結構。

在獲悉這一劃時代的技術性突破後，動脈網試圖通過以下邏輯，還原DeepMind再次戰勝人類模型的“里程碑”事件，以及DeepMind在醫療領域所做的探索。

1.蛋白質結構預測的劃時代意義

2.DeepMind憑藉什麼奪冠

3.AI演算法將漫長費力的預測過程縮短至幾小時

4.DeepMind的AI落地將給醫學帶來多少顛覆

曾獲得諾貝爾獎的科學難題

蛋白質是維持生命所必需的大而複雜的分子。幾乎我們身體所執行的所有功能：收縮肌肉、感知光線或將食物轉化為能量，都可以追溯到一種或多種蛋白質以及它們如何移動和變化。這些蛋白質的配方，稱為基因。

任何給定的蛋白質可以做什麼取決於其獨特的3D結構。例如，構成我們免疫系統的抗體蛋白質是“Y形”的，並且類似於獨特的鉤子。通過鎖定病毒和細菌，抗體蛋白能夠檢測和標記引起疾病的微生物以進行消滅。

類似地，膠原蛋白的形狀像繩索，其在軟骨，韌帶，骨骼和面板之間傳遞張力。其他型別的蛋白質包括CRISPR和Cas9，它們像剪刀一樣起作用，切割和貼上DNA；抗凍蛋白，其3D結構允許它們結合冰晶並防止生物凍結；核糖體就像一個程式化的裝配線，幫助自己構建蛋白質。

但是純粹從其基因序列中找出蛋白質的三維形狀是一項複雜的任務，科學家們已經發現了幾十年的挑戰。挑戰在於DNA僅包含有關蛋白質構建塊序列的資訊，稱為氨基酸殘基，形成長鏈。預測這些鏈如何摺疊成蛋白質的複雜3D結構就是所謂的“蛋白質摺疊問題”。

預測蛋白質3D結構模型示意（圖片來源：DeepMind官網）

“蛋白質摺疊”是一種令人難以置信的分子摺疊形式，科學界以外很少有人討論，但卻是一個非常重要的問題。生物由蛋白質構成，生物體功能由蛋白質形狀決定。理解蛋白質的摺疊方式可以幫助研究人員走進科學和醫學研究的新紀元。

因此，蛋白質摺疊(Protein Folding)問題被列為“21世紀的生物物理學”的重要課題，它是分子生物學中心法則尚未解決的一個重大生物學問題。蛋白質可在短時間中從一級結構摺疊至立體結構，研究者卻無法在短時間中從氨基酸序列計算出蛋白質結構，甚至無法得到準確的三維結構。

美國NIH的Christian Anfinsen博士因為發現蛋白質不需要其他幫助就可以自發地完成蛋白質摺疊的過程，於1972年獲得了諾貝爾化學獎。

DeepMind的聯合創始人兼執行長Demis Hassabis說：“對DeepMind來說，這是一個非常關鍵的時刻，這是一個‘燈塔’專案，是我們在人員和資源方面的第一項重大投資，同時也是正在成為一個基本的、非常重要的、現實世界的科學問題。”

早在2017年，美國科羅拉多大學“JILA物理研究中心”的生物物理學家們通過更細緻地測量了蛋白質摺疊後發現，其摺疊過程比科學家們曾經的預測更為複雜。這意味著，有關蛋白質，我們的瞭解程度尚在皮毛。

蛋白質分子的基本組成是氨基酸鏈。通過一系列中間過程，像摺紙一樣，氨基酸鏈摺疊成三維結構，之後才具有功能。準確地描述這個摺疊過程，需要已知所有中間狀態的形態。最新研究就揭示這個過程中許多未知的狀態，這一研究成果公佈在3月3日的Science雜誌上。

AI如何成功預測蛋白質3D結構？

此次讓DeepMind再一次嶄露頭角的CASP，被認為是蛋白質結構領域“奧林匹克競賽”。在這次比賽上，DeepMind團隊（參賽名為“A7D”）成功在43個參賽蛋白中拿到25個單項最佳模型，累計總分120.35排名第一。而根據第13屆全球蛋白質結構預測競賽官方披露的成績，總分第2名的團隊是一支名為“Zhang”的團隊，總分為107.03。

據DeepMind介紹，該項成果的設計源於使用神經網路預測物理特性以及構建蛋白質結構預測的新方法。

這兩種方法都依賴於深度神經網路，這些神經網路經過訓練可以從其基因序列中預測蛋白質的特性。DeepMind的網路預測的屬性是：（a）氨基酸對之間的距離和（b）連線這些氨基酸的化學鍵之間的角度。第一個發展是對常用技術的進步，這些技術估計氨基酸對是否彼此接近。

鑑於要研究的新蛋白質，AlphaFold使用神經網路預測氨基酸對之間的距離，以及連線它們的化學鍵之間的角度。在第二步中，AlphaFold調整草圖結構以找到最節能的佈置。

DeepMind訓練了一個神經網路來預測蛋白質中每對殘基之間的距離的單獨分佈。然後將這些概率組合成評估所提出的蛋白質結構的準確度的分數。此外，還訓練了一個單獨的神經網路，該網路使用匯總的所有距離來估計建議的結構與正確答案的接近程度。

使用神經網路預測物理特性（圖片來源：DeepMind官網）

第二種方法通過梯度下降優化得分- 通常用於機器學習的數學技術，用於進行小的、漸進的改進這導致高度精確的結構。該技術應用於整個蛋白質鏈而不是在組裝之前必須單獨摺疊的碎片，降低了預測過程的複雜性。

構建蛋白質結構預測的新方法（圖片來源：DeepMind官網）

使用這些評分函式，DeepMind能夠搜尋蛋白質影象，找到與我們的預測相匹配的結構。第一種方法建立在結構生物學中常用的技術上，並且用新的蛋白質片段反覆替換蛋白質結構的片段。為了構建AlphaFold，DeepMind在數千種已知蛋白質上訓練了一個神經網路，直到它可以預測單獨使用氨基酸的3D結構。

一旦AlphaFold被提供了一種新蛋白質，它就會利用其神經網路來預測其組成氨基酸對之間的距離，以及它們連線化學鍵之間的角度，形成一個牽伸結構。然後，AlphaFold調整此結構以找到最節能的結構。

雖然AlphaFold花了兩週的時間來預測第一個蛋白質結構，但該程式現在可以在幾個小時內完成。

AI將漫長費力的預測過程縮短至幾小時

根據英國《衛報》報道中的資料顯示，截至2010年，只有0.6%的已知蛋白序列被解析出了相應的結構。

在過去的五十年中，科學家們已經能夠使用冷凍電子顯微鏡，核磁共振或X射線晶體學等實驗技術來確定實驗室中蛋白質的形狀，但每種方法都依賴於大量的試驗和錯誤，這可能需要每年高達數萬美元的成本。這就是為什麼生物學家正在轉向人工智慧方法，以此作為這一漫長而費力的過程的替代方案。

對於蛋白質摺疊的複雜性，曾有外媒載文稱，用當今最快的計算機模擬計算蛋白質摺疊，要花100年。不過是在當時最快的計算機每秒幾萬億甚至十幾萬億次浮點運算的速度下，雖然目前效能最強悍的超級計算機每秒運算速度峰值可達20億億次，對於蛋白質摺疊的模擬計算仍有可能耗費科學家數年乃至數十年的時間。

每個蛋白質都是一個氨基酸鏈，而後者的型別就有 20 種。蛋白質可以在氨基酸之間扭曲、摺疊，因此一種含有數百個氨基酸的蛋白質有可能呈現出數量驚人（10 的 300 次方）的結構型別。通常，已經發現功能失常的蛋白質會導致疾病，並且歷史上，用藥物瞄準其結構、啟用或停用它們會產生治癒效果。由於計算機的演算法和算力侷限，直到現在，瞭解蛋白質的結構並不容易。

根據中國科學院生物物理研究所生物大分子國家重點實驗室研究員，中國科學院院士王志珍的觀點，蛋白質的摺疊和構象發生錯誤將會造成一些疾病，如阿爾茨海默氏症，帕金森氏症，亨廷頓氏症和囊性纖維化等。隨著蛋白質摺疊研究的深入，人們會發現更多疾病的真正病因和更加針對性的治療方法，從而設計更有效的要素。

如果科學家能夠學會從化學成分中預測蛋白質的形狀，他們可以弄清楚它的作用，它可能會誤導和造成傷害，並設計新的抗擊疾病或履行其他職責。簡而言之，瞭解蛋白質如何摺疊，研究人員可以開創科學和醫學進步的新時代。

以老年痴呆症（學名為阿爾茨海默氏症）為例，它在人體的潛伏期長達十幾年之久，且病因複雜，以目前的醫學技術，臨床上甚至很難在發病前幾年檢測出這一疾病。

幸運的是，由於基因測序成本的快速降低，基因組學領域的資料非常豐富。因此，在過去幾年中，依賴於基因組資料的預測問題的深度學習方法變得越來越流行。DeepMind關於這個問題的工作產生了AlphaFold，並於今年提交給了CASP。

DeepMind在部落格中稱：“我們很自豪能成為CASP組織者稱之為‘計算方法預測蛋白質結構能力的前所未有的進步’的一部分，在進入的團隊中排名第一。我們的團隊專注於從頭開始建模目標形狀的難題，而不使用先前解析的蛋白質作為模板。我們在預測蛋白質結構的物理性質時達到了高度的準確性，然後使用兩種不同的方法來構建完整蛋白質結構的預測。”

在2013年的某科技課題年度報告中（詳見： ofollow,noindex" target="_blank">http://www.nstrs.cn/xiangxiBG.aspx?id=64700 ，該報告僅作參照，不代表任何實際預測或判斷）我們發現這樣的描述：“虛擬藥物篩選及計算生物學受計算機資源及計算方法與軟體的限制，難以對數千萬個化合物進行比較系統的虛擬篩選，也難以實現一般蛋白質結構的從頭摺疊模擬，無法滿足創新藥物和計算生物學研究的需求。因此，迫切需要開發超大規模並行的虛擬篩選，蛋白質摺疊分子動力學模擬平臺，來滿足生命科學及創新藥物研究的需求。”

從這個方向來看，DeepMind的蛋白質結構預測的應用場景之一將是用於藥物創新的化合物篩選。

實際上，早在2016年AlphaGo計劃擊敗李世石之後，DeepMind就迅速將目光投向了蛋白質摺疊。2017年10月，DeepMind在一次公開採訪中表示，團隊開始對人工智慧在藥物開發中的應用感興趣，而新藥開發的關鍵一步，就是對靶點蛋白質三維結構的精準測算。

雷丁大學研究員Liam McGuffin表示：“預測任何蛋白質摺疊形狀的能力是一個大問題。它對解決許多21世紀的問題具有重大意義，影響健康、生態、環境，並基本上解決任何涉及生命系統的問題。”

屢屢突破技術創新，DeepMind在醫療領域的探索

在AlphaGo一戰成名後，DeepMind曾經嘗試過許多用於資料驅動的工具和技術，特別是支援人工智慧的機器學習方法，為改善醫療保健系統和服務提供了希望。Alphabet的執行主席Eric Schmidt曾表示，以AlphaGo為代表的新的深度學習能力可以提高日常生產力，為企業帶來無數的機會，特別是在醫療保健、交通運輸和政府領域。

眼底篩查

2016年3月，DeepMind Health（現已納入Google Health）使用與AlphaGo系統相同的深度學習技術。已經與倫敦大學學院和Moorfields眼科醫院的研究人員使用深度學習技術建立軟體，通過3D掃描識別數十種常見眼病，然後建議患者進行治療。

這項工作是三個機構之間多年合作的結果。雖然該軟體尚未準備好用於臨床，但它可以在幾年內部署在醫院中。

根據發表在《Nature Science》上的論文中描述，該軟體在基於深度學習的既定原則，該原理使用演算法來識別資料中的常見模式。在這種情況下，資料是使用稱為光學相干斷層掃描或OCT的技術對患者眼睛進行3D掃描，建立這些掃描大約需要10分鐘，並且需要從眼睛內部表面反射近紅外光，這樣做可以建立組織的3D影象，這是評估眼睛健康的常用方法。

該軟體接受了來自約7,500名患者的近15,000次OCT掃描的培訓。這些人都在Moorfields眼科醫院接受治療。在一項測試中，AI的判斷與八位醫生組成的診斷進行了比較，該軟體在94％的時間內提出了同樣的建議。

乳腺癌篩查

2018年4月，Deepmind 加入了倫敦帝國理工學院英國帝國癌症研究中心領導的一項開創性的新研究合作伙伴關係，探討人工智慧技術是否可以幫助臨床醫生更快更有效地診斷乳腺癌乳腺癌。

研究將分析2007年至2018年期間在醫院採集的大約30,000名婦女乳房X線照片。這些將通過AI技術與已經提供的歷史去除乳房X線照片一起進行分析。通過英國OPTIMAM乳腺X線攝影資料庫，研究該技術是否能夠比現有的篩查技術更有效地發現這些X射線上癌組織的跡象。在專案過程中，Jikei大學醫院也將分享來自大約30,000名女性的乳房超聲檢查和3,500次乳房MRI檢查。

這些合作為通過提供DeepMind可用於培訓醫療保健工作演算法的資料在NHS中更多地使用AI奠定了基礎。

協助醫生制定放療計劃

2018年9月，Deepmind 倫敦大學醫院NHS基金會信託基金放射治療部門正在開發一種人工智慧（AI）系統，該系統能夠分析頭頸癌的醫學掃描影象並作為專家臨床醫生以類似的標準將其分類。在計劃放射治療時，器官分割過程是一個必不可少但耗時的步驟。Deepmind正在開發一種新的效能指標，用於評估認為更能代表臨床過程的模型效能，以及一個測試集，幫助醫生進行器官分割與危及器官勾畫。

預測急性腎損傷惡化風險

2018年2月，Deepmind與美國退伍軍人事務部（VA）建立醫學研究合作伙伴關係，該部門是世界領先的醫療保健組織之一，負責為美國各地的退伍軍人及其家人提供高質量的醫療服務。

該專案正在與世界知名的VA臨床醫生和研究人員一起，分析來自大約700,000個歷史脫敏醫療記錄，以確定機器學習是否能夠準確地識別患者惡化的風險因素並正確預測其發病，主要專注於急性腎損傷（AKI）。

從DeepMind的上述研究可以發現，其在人工智慧技術在諸多領域的探索仍處於試驗階段，並未進入臨床階段。

有媒體觀點認為，實際上，AI在生物學的整合並非個例。近年來以google為首的人工智慧團隊在生物醫藥領域全面開花，已經在癌症病理圖片識別，基因組突變檢測，疾病風險評估等諸多領域取得了等於與人類水平，甚至超過人類水平的耀眼成績。但這些表面看上去很成功的模型也都不可避免地受到普適性、可用性、可解釋性的障礙。

從演算法上來看，DeepMind對於蛋白質摺疊基礎研究的技術突破具有劃時代的意義。儘管Hassabis表示，DeepMind並沒有完全解決蛋白質摺疊問題，預測只是第一步。“蛋白質摺疊是一個極具挑戰的問題，但我們有一個很好的系統，以及一些尚未實施的想法。”

一個事實是，雖然AlphaFold的成就確實值得稱讚，但只有在研究論文中詳細介紹並進行同行評審時，才能理解該方法的獨創性，併成為一項研究成果。

話雖如此，AlphaFold在該事件中的全面成功是一個明顯的跡象，科學界可能很快就能夠藉助技術有效地預測蛋白質的結構。

隨著其視野從遊戲轉向現實世界的問題，看看DeepMind下一步把目光投向哪些科學問題也將是有趣的。

參考連結：

https://deepmind.com/blog/alphafold/

https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins

https://mp.weixin.qq.com/s/QAzcRAnZOmlBAm3PM7ZLNA

https://mp.weixin.qq.com/s/6BTN7WTQlIyrEEgNYUR7kQ