AI Challenger 2018 進行時
之前寫過一篇《 ofollow,noindex" target="_blank">AI Challenger 2017 奇遇記 》,記錄了去年參加 AI Challenger 英中機器文字翻譯比賽和英中機器同聲傳譯比賽的過程,得到了一些反饋,特別是一些同學私下留言希望共享語料做科研用,但是限於去年比賽AI Challenger官方的約定,無法私下分享。不過好訊息是,AI Challenger 2018 新賽季已經於8月29號啟動,總獎金高達300萬人民幣,單個賽道冠軍獎金最高到40萬人民幣。新賽季英中機器翻譯文字大賽繼續,提供了一批新的語料,中英雙語句對規模大致到了1千3百萬句對的水平,真的很贊。
我之前沒有參加這類資料競賽的經驗,去年因為做 AIpatent專利機器翻譯 產品的緣故,參加了 AI Challenger 2017 兩個與機器翻譯相關的賽道,並且僥倖進了英中機器同聲傳譯比賽的 Top 5,過程中最大的收穫其實是 follow 了一輪最新的神經網路機器翻譯模型和試用了一些相關的NMT開源工具,另外也跟蹤了機器翻譯相關的論文,瞭解了當前機器翻譯的進展情況,這些對於我的工作還是有相當幫助的。
10年前讀研的時候,沒有MOOC,沒有Kaggle,也沒有這麼多開源的深度學習平臺和工具,有時候不得不感慨,對於搞資料探勘的同學來說,這是最好的時代。對於還在校學習的同學,如果實驗室的任務不重,強烈建議參加類似 AI Challenger, Kaggle 這樣的比賽,這可能是除了實習之外,又一個很好的積累實戰經驗的方法之一。在 NLPJob ,我們已經發現有一些招聘方加了一條加分項,例如:有Kaggle比賽獲獎或者其他競賽獲獎的優先。而類似的,我們也發現很多同學的簡歷中參加Kaggle, 天池大資料等競賽的經歷逐漸成了標配。面向校招,在校同學缺乏實戰經驗,如果又沒有一些很好的實驗室專案或者實習經歷作為籌碼,那麼參加這類比賽不失為一個很好的簡歷補充方式。
以下選自 AI Challenger 2018 的相關官方介紹,其中五大主賽道有三個與自然語言處理相關,可見NLP是多麼的難。
在首屆大賽成功舉辦的基礎上,AI Challenger 2018 由創新工場、搜狗、美團點評、美圖聯合主辦,引入更多企業、大學、政府機構,為人工智慧領域的科技人才帶來十餘個全新的高質量資料集以及相關的兼具科研、產業應用、社會意義的競賽,並將整體獎金規模提升至300餘萬人民幣。今年的大賽主題是“用AI挑戰真實世界的問題”,資料集和競賽如下:
主賽道
觀點型問題閱讀理解競賽:機器閱讀理解是讓機器讀懂人類語言、和人類更好交流互動的重要領域。此技術可廣泛應用於智慧搜尋、智慧問答、智慧客服、智慧音箱、語音控制等場景,用AI實現基於文字、語音的人機智慧互動。資料集包含30萬問題、篇章與候選答案,是全球難度最大的中文觀點型問題機器閱讀理解資料集。
細粒度使用者評論情感分析競賽:線上評論的細粒度情感分析對於深刻理解商家和使用者、挖掘使用者情感等方面有至關重要的價值,並且在網際網路行業有極其廣泛的應用,主要用於個性化推薦、智慧搜尋、產品反饋、業務安全等。資料集包含15萬條餐飲使用者評論、6大類20個細粒度要素標籤,為業界最大。
英中文字機器翻譯競賽:機器翻譯正越來越成為人們跨越語言障礙的重要工具,應用於各種領域。資料集在2017年資料集的基礎上,總量達到1300萬句對,為業界最大;且其中具有上下文情景的中英雙語資料達到300萬句對,為機器翻譯的研究提供了更多探索空間
短視訊實時分類競賽:近幾年發展極快的短視訊行業具有明顯的娛樂性和流行性,深受人們喜愛;基於短視訊機器分類的技術還可以廣泛用於視訊內容分析、編輯與生產,監控、安防等領域。資料集包含20萬條短視訊、涵蓋63類流行元素,為業內首個多標籤短視訊分類資料集。
無人駕駛視覺感知競賽:自動駕駛技術即將改變我們的出行和生活方式。本次大賽的自動駕駛競賽採用了UC Berkeley DeepDrive(BDD)2018年最新發布的BDD 100K資料集,這是全世界最龐大、最複雜的自動駕駛資料集,包含原始圖片1.2億張、標註圖片10萬張,涵蓋多樣天氣和晝夜光照條件。
實驗賽道
天氣預報競賽:氣象要素的變化深刻影響著人類生活的方方面面。我們帶來北京氣象要素資料集,包含10個站點、3年多逐小時歷史“觀測”和“睿圖”資料,探索以AI提高天氣預報的準確性。
農作物病害檢測競賽:2016年農作物病害造成的直接損失佔我國農業生產總值的8.48%。我們發起世界上首個農作物病害檢測競賽,標註圖片50,000張、包含10種植物的27種病害,探索“AI植物醫生”。
眼底水腫病變區域自動分割競賽:我們發起國內首個眼底病變醫學影象檢測競賽,建立了目前最大的眼底病變資料集,包含由專業眼科醫生標註了三種類型水腫的、各含128張圖片的100個OCT體資料。
商品例項分割遷移學習競賽 :以3D虛擬影象訓練機器“認識”真實世界的物品,能極大降低標註成本、也是新興研究熱點。資料集包含不同場景的100個類日常生活用品的30,000張虛擬圖片和9,000張真實照片。
零樣本學習競賽:受人類學習能力的啟發,零樣本學習希望藉助輔助知識學習從未見過的新概念。本此競賽是首個國際性零樣本學習競賽,資料集包含78,017張圖片、230個類別、359種屬性。
到目前為止,AI Challenger 官方已經提供了多個賽道的baseline和評估指令碼,相關程式碼可以從github獲取: https://github.com/AIChallenger/AI_Challenger_2018 。參加這些賽道的比賽,即使一開始沒有什麼思路,也可以從這些baseline中學到很多東西。當然,打比賽是需要經驗積累的,所以最後還是一個建議,對於在校的同學,如果時間充足(我覺得你們能利用的時間遠多於工作的同學),儘量參與這些比賽;對於已經工作的同學,或者剛剛參加工作的同學,如果有興趣有時間,參加比賽當然也沒什麼問題,我能瞭解到的是,一些已經工作的同學通過MOOC課程和這類比賽積攢經驗轉行到演算法研發相關職位的。
如果作為求職者,或者作為招聘方,有相關的經驗、故事分享,歡迎留言。 最後歡迎關注我們的公眾號:
注:原創文章,轉載請註明出處及保留連結“我愛自然語言處理”: http://www.52nlp.cn