阿里巴巴華先勝支招：如何從技術和應用層改進視覺搜尋？

阿里巴巴搜尋引擎電子商務 · 發表 2018-11-06 08:03:00

摘要：導讀：視覺識別和視覺搜尋是視覺智慧中兩項最為常見和重要的任務。基於內容的影象檢索技術——視覺搜尋由於應用前景廣闊、能為使用者帶來更便捷、更優化的體驗而越來越受到研究和應用領域的青睞。然而，在技術和應用層面，雖然視覺搜尋在有些領域取得了巨大突破，在更廣泛的領域還面臨著諸多挑戰。阿里巴巴視覺智慧計...

導讀：視覺識別和視覺搜尋是視覺智慧中兩項最為常見和重要的任務。基於內容的影象檢索技術——視覺搜尋由於應用前景廣闊、能為使用者帶來更便捷、更優化的體驗而越來越受到研究和應用領域的青睞。然而，在技術和應用層面，雖然視覺搜尋在有些領域取得了巨大突破，在更廣泛的領域還面臨著諸多挑戰。阿里巴巴視覺智慧計算團隊重點研究的“城市大腦”專案，就在視覺搜尋技術上擁有很多落地實踐和克服困難的經驗。他們踩過哪些坑呢？對於視覺搜尋這項技術，他們的看法是什麼？

視覺搜尋，又稱基於內容的影象檢索，成為近年來計算機視覺的一個熱門研究領域。視覺搜尋不同於文字搜尋，可以以影象的形式直觀地搜尋所需內容，因此在社交媒體、電商搜尋等實際應用場景中非常受歡迎，如社交軟體Snapchat上線了“相機搜尋”，通過這一功能，使用者可以長按識別圖片或短視訊中的商品、歌曲、條形碼等；eBay、淘寶、京東等電商平臺也紛紛推出圖片搜尋功能，使用者可以通過拍照找到想要的商品，提高搜尋效率，提升使用者體驗。

阿里巴巴視覺智慧團隊的重點研究方向“城市大腦”專案，就包含了基於影象搜尋的技術而達到“智慧城市”的目的，並且在落地場景中獲得了很多經驗和突破。

據悉，阿里巴巴視覺智慧計算團隊目前的重點在四個方向： 城市大腦 ，醫療AI，工業視覺和智慧設計**。其中“城市大腦”致力於通過雲端計算和人工智慧技術去解決依靠人腦無法解決的城市治理和發展問題。圍繞這一目標，阿里巴巴目前的重點研究方向包括：多模態城市感知、交通預測與干預、並行異構計算加速、基於視訊的行人與行為搜尋識別、大規模城市視覺計算平臺等。

基於視訊的城市物件感知幾乎是所有工作的基礎，也是阿里率先取得突破的技術方向之一。在過去一年，阿里巴巴視覺智慧計算團隊先後取得了KITTI（全球權威機器視覺演算法排行榜）比賽中車輛檢測和行人檢測兩項測評的冠軍。在行人再識別任務中，也在公開資料集Market-1501上取得了當前最好成績（97%首位命中率），並在實踐中得以廣泛應用。

阿里巴巴在其他方面，如深度模型壓縮等也有突破。智慧設計當中最為突出的是電商場景的二維廣告圖設計，基於深度學習和強化學習的方法，可以高效地設計出初級設計師水準的廣告圖，並在雙11等場景中得以大規模應用。

“城市大腦”如何工作？

阿里巴巴的“城市大腦”專案需要處理整座城市的海量資料，這一挑戰的難度可想而知。

“城市大腦”是如何處理整個城市的視訊資料呢？使用到了哪些計算機視覺AI演算法進行優化和決策？

城市大腦人工智慧技術負責人華先勝為我們揭開了謎底：“簡單來講，城市大腦可以分為這麼幾個步驟，首先是 資料的匯聚 ，通過資料管道將各個部門的資料匯聚到我們的資料平臺上來。第二步是 資料的認知 ，當然其中主要是視訊資料要通過我們的認知平臺進行認知，要把整個城市發生的事情瞭解的一清二楚。這其中包含的視覺演算法很多，從常見的分類、檢測、跟蹤、分割，到特徵學習、視覺檢索、異常檢測等等都會用上。第三步是在認知的基礎上，進行** 決策和優化 ** 。當我們對城市的整個交通狀況有了瞭解之後，我們就可以進行紅綠燈配時的優化，或者交通事件、事故的實時報警。在前面幾步的基礎上，第四步我們 把城市的要素，車、人、事、物全部放到搜尋引擎裡面 去，進行 快速的查詢 。例如對肇事車輛、特定目標的查詢。當然也可以挖掘這些資料的聯絡，從而發掘事故事件以及一些交通現象背後的發生的原因。第五步是** 預測 ** ，預測城市的發展趨勢是什麼樣子的。比如說半個小時以後路口的車流或者一個大型商場周邊的人流的情況。第六步是干預，因為有了預測以後，我們就可以進行對應的處理，例如說如果我們知道一個小時以後的人流和車流會出現顯著地增加，那我們可以提前部署緊急人力甚至是醫療資源來應對一些突發的事件。”

總結來說，從資料匯聚、資料認知、決策優化、搜尋挖掘、預測到干預，整個一條流程是整個城市大腦的主要功能的體現。華先勝還透露，這些功能都是基於一套 大規模視覺智慧計算開放創新平臺 而得以實現，而這個平臺在剛剛結束的杭州雲棲大會上對外發布， 近期會開放出來 ，讓更多的人能夠在城市這個規模進行視訊的分析和視訊大資料的價值挖掘。

華先勝表示，實時處理整個城市的視訊資料確實是一個非常艱鉅的任務，團隊遇到的主要困難之一是 計算資源的消耗 。“即使我們已經擁有云叢集、GPU等很強的算力，但是如果不經過任何優化，在合理的機器成本下，依然無法實時處理整個城市的海量視訊資料。因此我們從多個方向發力來解決這個問題，首先是模型的精簡和加速，眾所周知深度學習模型的通病之一是引數量大、推理時間長，因此我們利用了矩陣分解、稀疏量化等技術進行模型精簡和加速。其次我們也和Intel、英偉達等硬體廠商進行深度合作，從底層硬體角度進行計算加速，將硬體的效能發揮到極致。再者，在單個計算節點上的排程，也是提升整體效率的有效方法。另外，我們也開發了 基於流式計算平臺的智慧排程模組 ，通過並行處理、彈性排程等方式進行處理流程優化。這些技術將單臺伺服器的處理能力提升了20多倍。同時我們也在佈局低成本的解決方案，比如專用FPGA晶片等。”

影象搜尋如何改進？

影象搜尋是計算機視覺、多媒體領域的一個很經典的問題，近些年隨著深度學習演算法的發展，這個領域也取得了很快速的發展，但是隨著實際應用場景的擴充套件、資料規模的擴大，也有很多可以優化的地方。

那麼，阿里巴巴是如何從技術層面和應用場景層面上改進影象搜尋技術的呢？

華先勝表示，阿里巴巴曾在三年前克服了很多技術難題，研發出商品拍照搜尋應用“拍立淘”，而城市視覺元素的搜尋，因其資料的複雜度和數量，則是更為困難的一個問題。

“從 技術層面 來說，首先我們需要一個更好的 特徵模型 ，來學習細粒度的影象特徵。除了目前比較火的local feature、attention等技術外，一個比較有趣的方向是，在特定的圖搜任務下，如何引入一些人類的 先驗知識 ，比如車輛的剛體結構、人的骨架資訊等等。其次，視訊資料會比影象資料具有更豐富的表徵，如何利用視訊資料進行檢索也是一個很有潛力的方向。

基於深度學習的影象搜尋依賴大量的標註資料，這其實很大程度上限制了演算法在實際應用場景下的擴充套件，如何利用 半監督、弱監督、無監督演算法 提升演算法效能是一個 關鍵問題 。

其次 真實場景下 的資料規模很大，在海量的影象庫中進行歐式距離的計算會帶來很高的延時，限制了演算法在實時場景下的應用，因此高效的向量索引技術也是在實際場景中落地的必備元件。”

由此可見，影象搜尋技術還有很多有待提升的空間，有望改進搜尋精度不夠、搜尋結果不匹配等在實際應用中經常出現的問題。

華先勝認為，未來，視覺搜尋在眾多場景中具有非常大的商業化潛力，城市大腦就是一個很大的應用場景。

“城市物件的感知其實是城市大腦的一個基礎元件，而城市物件的視覺特徵提取就是感知的重要組成部分。通過對城市物件進行特徵提取，我們可以在海量的資料中搜索出特定目標的移動軌跡。在交通場景下，可以幫助我們構建精確的車流、人流資料，從而服務上層的流量預測與干預應用。阿里巴巴的漸進式視覺搜尋引擎已經在衢州投入使用，可以幫助有關部門尋找走失人口，保障平民生命財產和資源安全。”

講師簡介

華先勝，現任阿里巴巴集團Distinguished Engineer，副總裁，阿里巴巴人工智慧核心研發機構達摩院機器智慧技術實驗室副主任，城市大腦人工智慧技術負責人。華博士是美國電氣與電子工程師協會會士（IEEE Fellow），美國計算機協會傑出科學家（ACM Distinguished Scientist）；2008年獲MIT技術評論“全球35個35歲以下傑出青年創新者”稱號（TR35）。1996年和2001年畢業於北京大學數學學院，分別獲學士和博士學位；之後分別工作於微軟亞洲研究院，微軟美國必應搜尋引擎，以及微軟美國研究院，從事多媒體、計算機視覺和機器學習方面的研發工作。2015年4月加入阿里巴巴，任搜尋事業部資深總監/研究員；2016年加入阿里巴巴iDST，負責雲上視覺智慧計算的技術研發。他的研發興趣在大規模視覺人工智慧領域，包括視覺分析、識別、搜尋和挖掘等。華博士在國際主流會議和期刊上發表論文200餘篇，擁有專利90餘項。曾擔任多個學術期刊的副主編以及ACM Multimedia等頂級學術會議的程式委員會主席，並獲得多個國際會議及期刊的最佳論文獎。華博士將擔任多媒體智慧領域頂級國際學術會議ACM Multimedia 2020年大會主席。

華先勝將會在12月份AICon大會上擔任聯席主席，想要跟華老師進一步交流的童鞋可到現場面基。

另外大會還邀請到了來自Google、Twitter、Netflix、BAT、360、京東、美團、小米、今日頭條等40+國內外一線AI技術負責人前來分享他們的機器學習落地實踐經驗，除此之外，還有知識圖譜、NLP、語音識別、搜尋推薦、計算機視覺、AI架構等熱門技術，乾貨滿滿。

目前大會6折售票倒計時4天，團購更優惠，點選 ofollow,noindex" target="_blank">這裡瞭解更多詳情。如有任何問題，可諮詢票務小姐姐：18514549229［微信同號］

阿里巴巴華先勝支招：如何從技術和應用層改進視覺搜尋？

“城市大腦”如何工作？

影象搜尋如何改進？

講師簡介

您可能也會喜歡…