第2屆易觀演算法大賽完美收官,憑什麼他蟬聯兩屆演算法冠軍?
10月26日-27日,以“數造未來 精益成長”為主題的2018易觀A10峰會在北京海航大廈如期舉行。50+位嘉賓大咖齊聚大會現場,共同探討和分享在資料驅動下的企業精益成長之道。
厚積薄發,榮耀時刻
本屆演算法大賽共有700支隊伍參加,經過數輪激烈角逐後,來自廣州的李本旺團隊“housepower”以絕對優勢奪得漏斗計算規則賽題開源組冠軍,而性別年齡預測賽題開源組冠軍由林望黎團隊斬獲。兩組冠軍分別攬獲5萬元現金獎勵,成為本次大賽的最終贏家。另有技術專場meetup,來自俄羅斯的ClickHouse技術團隊和資料愛好者們匯聚一堂,共同探討了資料演算法的應用發展。
彩蛋——拿獎拿到手軟祕籍
賽後,小編有幸採訪到漏斗冠軍李本旺,上屆OLAP演算法大賽他憑藉其優異表現成為大賽最大黑馬,今年再次奪冠。為何他能連續兩次斬獲冠軍頭銜?下面就讓我們一起來了解一下。(以下為採訪實錄)
Q1:首先恭喜你們獲得本次演算法大賽的冠軍,能否簡單介紹下你們團隊?
李本旺:我們團隊三人,大家都是大資料和AI的愛好者。他們的實力都很棒。
其中宋強是我同學,他畢業於中科院自動化研究所,對推薦系統和影象識別領域尤為擅長,獲得過國際多媒體workshop影象識別比賽冠軍,國際計算機視覺workshop比賽亞軍,我們還一起拿過天池雲上智慧識別比賽亞軍。而張健, 目前是ClickHouse社群比較活躍的貢獻者, 對ClickHouse比較熟悉。關於我本人,目前在一家遊戲直播公司做高階資料工程師(搬磚)。
Q2:是什麼原因讓你決定再次來參加易觀演算法大賽呢?
李本旺:我對ClickHouse資料庫非常感興趣,但去年的ClickHouse meetup沒能參加,有點遺憾。得知這個比賽第二天就有meetup,也想見見幾位朋友,而且今年的複雜漏斗也是可以基於ClickHouse做定向優化並解決,所以便決定報名參賽。
Q3:能否簡要描述下你們團隊在比賽時所採用的解題思路及演算法亮點?
李本旺:關於解題的方法依舊是基於ClickHouse設計了UDAF函式,和去年思路相差不大。但今年漏斗計算較為複雜。在演算法處理過程中,我們選擇自定義壓縮、自動化調參、提前聚合,充分發揮單節點效能,以及通用規則攔截器等方式。簡言之,就是我們特別注重演算法細節優化,我們把能想到的細節,每一處都進行了“死磕”。
另外,我們做了一套自動化測試框架,能夠自動完成一些引數的評測並選出最佳引數,節省了很多時間。當然,在比賽中我們也有不足之處。我們的演算法實現並不是最優秀的,賽後我們和商業組冠軍討論了演算法實現上的相關細節,發現我們還有很大的提升空間。
Q4:你認為這次團隊奪冠的重要因素是什麼?如何評價自己和隊友的表現?
李本旺:除了技術上的實力,我認為團隊合作更為重要。很感謝我的隊友們,我們配合得非常默契,我主要負責演算法的技術選型、總體架構以及核心程式碼的實現,張健負責自定義壓縮的細節優化,而宋強負責演算法效能調優。正是因為隊友們的密切配合,才有了最終奪冠的好成績。
Q5:連續兩屆獲得演算法大賽冠軍,能和大家分享下你的感受嗎?
李本旺:在心態上我會更趨於平淡,希望通過易觀演算法大賽,讓更多人瞭解並使用ClickHouse這個高效能OLAP資料庫。
Q6:ClickHouse這款神級開源軟體,目前在中國發展應用如何?
李本旺:ClickHouse在過去一年發展迅速,目前中國使用者已成為除俄羅斯本土以外發展最快的使用者群。國內的阿里、騰訊、新浪、頭條、快手等代表性公司都對ClickHouse這個資料庫有所研究。令人非常關注的是,未來在實時分析領域,ClickHouse資料庫絕對會成為首選的技術選型。
至此,第2屆易觀演算法大賽正式落幕,同時也要感謝Ucloud強大的技術支援。演算法大賽是國內(外)科技人才溝通接觸的橋樑,不斷為行業注入新鮮活力。未來易觀將繼續堅持以海量場景為基礎,探索前沿資料科技,不斷推動大資料分析發展。這一次,我們不說再見,只為下一次更好的相聚。同時易觀也期待更多高校學子和資料愛好者的加入!