聚焦強化學習，AAAI 2019傑出論文公佈：CMU、斯坦福等上榜

推薦系統 · 發表 2019-01-27 12:14:00

摘要： AAAI 2019，進入 2019 年後人工智慧領域的首場頂會，將於明天正式拉開序幕；而今天正有無數學者跨越山川海洋，乘坐數十小時的飛機陸續抵達美國夏威夷首府檀香山。正如大家所熟知，今年論文提交數量高達 7745 篇，創下了 AAAI 歷史新高；而同時論文錄取率僅有 16.2%，也...

AAAI 2019，進入 2019 年後人工智慧領域的首場頂會，將於明天正式拉開序幕；而今天正有無數學者跨越山川海洋，乘坐數十小時的飛機陸續抵達美國夏威夷首府檀香山。

正如大家所熟知，今年論文提交數量高達 7745 篇，創下了 AAAI 歷史新高；而同時論文錄取率僅有 16.2%，也創下 AAAI 的歷史新低。但一成不變的是，AAAI 2019 將毫無疑問成為新年首場人工智慧的盛宴，值得每一位 AI 研究人員矚目關注。

目前 AAAI 2019 的各項獎項已全部公佈，包括：傑出論文獎、傑出學生論文獎、經典論文獎、藍天理念獎、Feigenbaum 獎、傑出程式委員會成員等。

傑出論文獎（Outstanding Paper）

今年 AAAI 的傑出論文同樣比較關注強化學習，它們代表了高標準的技術貢獻和闡述。

論文：How to Combine Tree-Search Methods in Reinforcement Learning
作者：Yonathan Efroni、Gal Dalal、Bruno Scherrer 和 Shie Mannor
機構：以色列理工學院、法國國家資訊與自動化研究所
論文地址：https://arxiv.org/abs/1809.01843

傑出論文榮譽提名獎（Honorable Mention）

論文：Solving Imperfect-Information Games via Discounted Regret Minimization
作者：Noam Brown、Tuomas Sandholm
機構：卡內基·梅隆大學
論文地址：https://arxiv.org/abs/1809.04040

傑出學生論文獎

論文：Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference
作者：Mike Wu、Milan Mosse、Noah Goodman 和 Chris Piech
機構：斯坦福大學
論文地址：https://arxiv.org/abs/1809.01357

傑出學生論文榮譽提名獎

論文：Learning to Teach in Cooperative Multiagent Reinforcement Learning
作者：Shayegan Omidshafiei、Dong-Ki Kim、Miao Liu、Gerald Tesauro、Matthew Riemer、Christopher Amato、Murray Campbell 和 Jonathan P. How
機構：麻省理工學院、IBM研究院、美國東北大學
論文地址：https://arxiv.org/abs/1805.07830

經典論文獎（Classic Paper）

今年的經典論文獎頒給了 2002 年提交到 AAAI 的優秀論文，該論文發現當時基於協同過濾和基於內容的推薦系統各有優缺點，因此他們提出了一種新的框架以結合兩種方法來完成推薦任務。論文的獲獎詞為「為推薦系統中基於內容和協同過濾的方法提供互補性框架而獲獎」。

論文：Content-Boosted Collaborative Filtering for Improved Recommendations
作者：Prem Melville、Raymond J. Mooney 和 Ramadass Nagarajan
機構：德克薩斯大學奧斯汀分校
論文地址：https://www.cs.utexas.edu/~ml/papers/cbcf-aaai-02.pdf

2019 年 Feigenbaum 獎

AAAI Feigenbaum 獎旨在表彰和鼓勵通過電腦科學實驗方法取得的傑出人工智慧研究進展。2019 年的獎項授予加州大學伯克利分校的 Stuart Russell，以表彰他在概率知識表示、推理和學習上的創新與成就。

2019 年藍天理念獎（Blue Sky Idea）

AAAI 與計算機研究協會計算社群協會（CCC）合作，從眾多論文遴選出三篇提名為「藍天獎」，這些論文提出了可以激發研究界尋求新方向的想法和願景，例如新問題、新應用領域或新方法。包括：

第一名：Explainable, Normative, and Justified Agency（Pat Langley）
第二名：Building Ethically Bounded AI（Francesca Rossi、Nicholas Mattei）
第三名：Recommender Systems: A Healthy Obsession（Barry Smyth）

AAAI-19 傑出程式委員會成員

每年，AAAI 都會選出幾位得到認可的傑出程式委員會成員，基於其在達成共識決策時表現出的判斷力、清晰度、知識豐富度和領導力。

今年 AAAI 選出了 10 名獲獎的程式委員會成員，其中來自華中科技大學的白翔被授予傑出高階程式委員會獎，來自南京航空航天大學的黃聖君被授予傑出委員會獎。

獲獎論文簡介

如下展示了四篇傑出論文和一篇經典論文的摘要，讀者可以瞭解它們大致都描述並解決了什麼問題。因為機器學習和深度學習常見的概念涉及得比較少，所以這幾篇論文看起來就很「強大」，閱讀這些論文可能還需要額外的背景知識。

論文：How to Combine Tree-Search Methods in Reinforcement Learning

摘要：有限時域前瞻策略（Finite-horizon lookahead policies）被大量用於強化學習，並得到了令人印象深刻的實證成果。通常，前瞻策略是使用特定的規劃方法實現的，例如（例如在AlphaZero中）。這些實現中有一種合理的做法是將規劃問題視為樹搜尋，其僅在葉節點處備份值，而在根節點下獲取的資訊不用於更新策略。在本文中，我們對這種方法的有效性提出質疑。即，後一個過程通常是非收縮的，並且其收斂性不能保證。

我們提出的增強方法是簡單明瞭的：使用最佳樹路徑的返回值來備份根節點的後代的值。這導致了一個γ ^ h 收縮過程，其中γ是折扣因子（discount factor），h 是樹深度。為了實現我們的結果，我們首先介紹一種稱為多步貪婪一致性（multiple-step greedy consistency）的概念。然後，在存在樹搜尋階段和值估計階段的注入噪聲的情況下，我們展示了上述增強方法的兩個演算法例項的收斂速率。

論文：Solving Imperfect-Information Games via Discounted Regret Minimization

摘要：反事實後悔最小化（Counterfactual regret minimization / CFR）是一系列迭代演算法，是最受歡迎、也是實際上也是逼近解決大型不完美資訊博弈的最快方法。在這篇論文中，我們介紹了一種新型 CFR 變體，它能：1) 以各種方式從早期迭代中貼現後悔值（regrets），且在某些情況下對於正後悔值和負後悔值是不同的；2) 以各種方式重新加權迭代而獲得輸出策略；3) 使用非標準後悔值最小化器；4) 利用「optimistic regret matching」。

這種變體能在許多環境中顯著提升效能。首先，我們在每一個測試的博弈中引入一個優於 CFR+（先前最先進的演算法）的變體，這些測試博弈還會包含大規模現實設定。其中 CFR+是一種強大的基準：還沒有其他演算法能夠超越它。最後，我們表示很多重要的新變體與 CFR+不同，它們與現代不完美資訊博弈的剪枝技術相相容，並且還與中的取樣相相容。

論文：Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference

摘要：在現代電腦科學教育中，大規模開放線上課程（MOOCs）記錄了數千小時關於學生如何解決編碼挑戰賽的資料。由於資料非常豐富，這些平臺已經引起了機器學習社群的興趣，許多新演算法試圖自主地提供反饋以幫助之後的學生學習。但那些之前的數十萬學生呢？在大多數教育環境（即教室）中，作業沒有足夠的歷史資料用於監督學習。在本文中，我們介紹了一種人機環路（human-in-the-loop）的「量規取樣/rubric sampling」方法，以解決「零樣本」反饋挑戰。

我們能夠為第一批做入門程式設計作業的學生提供自主反饋，其準確性大大優於 data-hungry 的演算法，並接近人類的保真度。量規取樣只需要很少的教師工作量，可以將反饋與學生解決方案的特定部分相關聯，並能夠用教師的語言表達學生的錯誤觀念。深度學習推斷使得量規取樣能夠在獲得更多工特定的學生資料時進一步提高。我們在世界上最大的程式設計教育平臺 Code.org 的新資料集上展示了我們的結果。

論文：Learning to Teach in Cooperative Multiagent Reinforcement Learning

摘要：人類集體知識顯然得益於個人創新能通過交流傳授給他人。與人類社會群體類似，分散式學習系統中的智慧體可能會從溝通中受益，它們可以分享知識和教授技能。先前的工作已經研究了改進智慧體學習的教學問題，但是這些方法做出的假設阻礙了將教學方法應用於一般的多智慧體問題，或者需要領域專業知識來解決應用的問題。這種學習教學問題具有與度量教學的長期影響相關的固有複雜性，加劇了標準的多智慧體協調挑戰。

與現有工作相比，本文提出了智慧體在多智慧體環境中學習教學的第一個通用框架和演算法。我們的演算法，學習協調和教學強化（Learning to Coordinate and Teach Reinforcement，LeCTR），解決了合作多智慧體強化學習中的點對點教學。我們的方法中的每個智慧體都會學習何時何地提供建議，然後使用收到的建議來改善本地學習。重要的是，這些角色並不是固定的；這些智慧體學會在適當的時刻承擔學生和/或教師的角色，請求並提供建議，以提高整個團隊的績效和學習。對最先進教學方法的實證比較表明，我們的教學智慧體不僅學得更快，而且學會協調現有方法失敗的任務。

論文：Content-Boosted Collaborative Filtering for Improved Recommendations

摘要：大多數推薦系統使用協作過濾或基於內容的方法來預測使用者感興趣的新專案。雖然這兩種方法各有優勢，但若單獨使用它們，在大多數情況下都無法提供好的建議。若將兩種方法結合起來構成一個混合推薦系統，則可以克服這些缺點。在本文中，我們提出了一個漂亮且有效的框架，用於結合內容和協作。我們的方法使用了基於內容的預測器來增強現有使用者的資料，然後通過協作過濾提供個性化建議。我們的實驗結果顯示這種方法（內容增強的協作過濾）比純內容預測器、純協作過濾器或簡單混合方法的效能都要更好。

最後，值得一提的是，本屆大會程式主席由南京大學周志華教授聯合擔任；此外香港科技大學的楊強教授以及京東集團的鄭宇博士將作為特邀講者在大會期間做特邀報告。機器之心將持續關注 AAAI 2019，為大家帶來精彩的內容報道。