【WOT2018】AI門檻不斷降低 AI工具人人可用
【51CTO.com原創稿件】2018年11月30日-12月1日,WOT2018全球人工智慧技術峰會在北京·粵財JW萬豪酒店盛大召開。60+國內外人工智慧一線精英大咖與千餘名業界專業人士齊聚現場,分享人工智慧的平臺工具、演算法模型、語音視覺等技術內容,探討人工智慧如何賦予行業新的活力。兩天會議涵蓋通用技術、應用領域、行業賦能三大章節,開設13大技術專場,如機器學習、資料處理、AI平臺與工具、推薦搜尋、業務實踐、優化硬體等,堪稱人工智慧技術盛會。
在《AI平臺和工具》分論壇,ThoughtWorks智慧服務團隊技術總監白髮川、百度深度學習技術平臺部總監馬豔軍和偶數科技AI負責人劉大偉,三位專家分享了各種深度學習的框架與工具,如TensorFlow、PaddlePaddle等應用及技巧。
持續智慧——打造規模化的AI服務
ThoughtWorks智慧服務團隊技術總監白髮川在《持續智慧——打造規模化的AI服務》主題演講中提到,持續整合、持續交付、持續部署可以讓軟體在快速迭代的同時保持著較高的軟體質量。隨著機器學習的普及,越來越多的服務更加的個性化、定製化,“持續智慧”定義了一套對此類服務進行快速迭代和釋出的方法。
智慧的定義大致可以分為三個等級:一是為響應當前運營需求而不得不開展的一系列工作;二是把AI變成一種基礎服務,融入到業務場景中;三是把AI變成個性化服務,可以組合產生新的業務場景。其中,第三個級別是較為理想的狀態,通過人工智慧發現新的業務和價值點,達到更好的使用者體驗。
整體來看,目前人工智慧在企業落地的過程中仍然面臨諸多挑戰。首先是規模化的問題,AI模型的邊界難以衡量,也很難複用現有模型的構建過程。其次是工程實踐的三大難題:難於追蹤,難於重現,難於部署。最後是資料問題,包括資料或模擬資料量不足,資料治理不足,資料安全隱患等諸多問題。很多開發者發現,對於一個機器模型,資料帶來的挑戰遠遠大於調整神經網路引數或選用演算法帶來的難度。
ThoughtWorks智慧服務團隊技術總監白髮川
人工智慧在業務系統或生態環境中落地實施,大致可以分為三個階段。一是做PoCs[鳶瑋1] (Projections onto convex sets),評估並驗證模型、服務或方案是否可行,完成單個模型的釋出和上線。第二個階段開始解決規模化的問題,因為經過優化和訓練後的模型,才可用於生產。最後一個階段進行跨業務系統的AI服務整合。
在PoCs階段,需要引入資料中臺的概念,使用資料治理、血緣分析、可訪問性和多語言資料儲存構建現代資料體系結構。傳統的資料倉庫架構只能解決智慧的第一個維度,也就是支撐運營,而在機器學習場景下,非結構化和半結構化的資料需要大規模ETL動作,則要使用到資料中臺架構。
在第二階段,因為從開發到釋出訓練再到實施,整個過程過於手動,需要一個產品化的機器學習架構。通過引入最佳實踐,例如CI/CD,TDD,Pipeline等技術方法使模型從建立到釋出的過程[鳶瑋2] 可被複用,跟蹤和重現。
在第三階段,需要搭建跨業務的機器學習架構,通過端到端的機器學習流水線構建平臺,最大限度的共享企業的AI服務、資料和演算法,達到跨業務線的智慧服務整合。
可複用的模型構建過程
- 和資料平臺結合,利用資料平臺的能力作為資料支撐,最大化的發揮資料平臺的價值;
- 拆分服務構建環節,智慧服務開發流程化,快速響應業務需求;
- 利用元資料管理方式,提供統一的標準格式,場景可以多人協同配合開發;
- 基礎設施共享化,模型的訓練和釋出與資料平臺有效繫結,服務的構建自動化;
- 統一的元資料管理系統,模型的全生命週期可管理;
- 通用AI能力平臺化,降低人員要求,提升協作效率。
資料中臺
要想實現持續智慧,讓AI模型像流水線一樣可以持續釋出,需要先解決以下幾層問題:一是資料中臺,可以將資料整合、資料加工、資料處理、資料釋出的過程形成一整套流水線。二是要有AI基礎設施平臺,可以選擇所需要的演算法、框架和服務,以及模型釋出所需要的執行環境,並實現流水化。三是資料和AI能力的匯聚層,解決資料和AI基礎平臺的銜接問題,例如模型的資料從哪來,模型在哪釋出,在哪儲存等等。這三層能力構建好,就能實現持續釋出、持續迭代和持續上線,也就是常說的AI流水線。
持續智慧架構的構建步驟
- 從硬編碼到自適應模型;
- 使用大規模資料訓練特定模型;
- 構建可擴充套件的系統;
- 創造互動式AI探索開發工具;
- 協同設計演算法、軟體和產品。
企業級機器學習目標
- 大規模資料集下的模型訓練;
- 模型分析和比較工具;
- 端到端的模型workflow;
- 可規模化的機器學習模型生態系統;
- 可複用的演算法和服務;
- 實驗管理。
企業級機器學習方案
可選的工具
最後,白髮川列舉了企業級機器學習一個模型、多個模型以及跨業務線和部門的案例,並列舉了機器學習的框架及工具。他強調,在考慮AI規模化落地的過程中,首先要考慮如何提高底層AI能力,然後再去構建上層的AI模型和業務場景,如果先考慮解決業務場景問題,往往會在AI規模化的過程中處處碰壁。
掃描下方二維碼檢視詳細課程
PaddlePaddle深度學習框架
百度深度學習技術平臺部總監馬豔軍在演講中分析了深度學習技術的發展歷程和未來趨勢,以及深度學習框架的發展現狀。結合百度在深度學習技術應用的情況,為參會者帶來了國內開源開放的深度學習框架PaddlePaddle的進展,介紹PaddlePaddle的技術領先性,分享了PaddlePaddle為各行各業進行AI賦能的經驗和成果。
百度使用深度學習技術可以追溯到2012年,短短一年時間就將其應用於百度的搜尋和推薦業務,並帶來業務的顯著提升。2015年百度上線了首個完全基於深度學習的翻譯引擎。隨著深度學習技術大火,應用場景越來越多,並且已經開始工具化,也就是所謂的深度學習框架,例如TensorFlow以及PaddlePaddle先後開源,而PaddlePaddle是百度內部長期研發的深度學習框架。
百度深度學習技術平臺部總監馬豔軍
實際上,深度學習框架的開源從很大程度上降低了技術的准入門檻,但開發者仍然需要特定的知識背景和硬體資源支援。要深入研究這一系統還是過於複雜,因此又誕生了一系列的工具。例如針對深度學習調參的難題,百度開放了網路結構自動化設計工具AutoDL,讓開發者無需經過特殊訓練即可完成。此外,百度還發布了更簡單的定製化AI模型應用平臺——EasyDL,它是一個零演算法基礎的快速應用平臺,無需程式碼,無需任何專業背景即可輕鬆定製模型,與雲端結合,使使用者無任何後顧之憂。
以深度學習框架為核心的“作業系統生態”
馬豔軍提到,在AI場景下,深度學習框架與作業系統類似,它介於使用者程式和硬體資源之間,通過核心為使用者程式提供資源排程,通過介面為使用者程式提供開發便利。深度學習框架要解決的是如何把底層的硬體效能發揮到極致,向上提供API,讓企業實現自己的演算法。當然,深度學習框架之上也會開放很多演算法、視覺化工具、安裝和部署工具等,企業或個人可以直接開發和使用這些模型,搭建自己的AI程式。
PaddlePaddle與其他深度學習框架不同的是,一是更注重模型以及API的相容性,在深度學習的安裝環境適配方面作了深度優化和驗證,讓開發者能真正用起來;二是更加便於二次開發,降低了企業的應用成本;三是效能更加穩定,並且更重視對上層視覺、語言處理、情感分析、對話系統等場景應用的支援,而不只是底層工具性的應用。此外,PaddlePaddle配套的工具和元件也非常豐富,包括AutoDL、VisualDL、EasyDL等等。
此外,PaddlePaddle官方公開的模型數量豐富多樣,且都是百度長期驗證過的模型,效果持續、穩定。而對於大規模的資料場景,PaddlePaddle的並行能力也是一大強項。在部署方面,百度開放了大量的特有模型,包括推薦模型、視覺模型、NLP模型等。
最後,馬豔軍表示,百度做了很多跟AI生態相關的工作,包括開放資料、評估標準以及平臺,舉辦一系列的專家課程,目的就是降低深度學習的門檻,讓AI技術為行業賦能,提高行業生產力。
讓人人都會使用AI
偶數科技AI負責人劉大偉從人工智慧行業發展現狀出發,列舉了行業發展的機遇和挑戰,進而介紹人工智慧建模系統的優勢及便利性。最後,以偶數科技的反洗錢金融專案為例,對如何“讓普通人輕鬆擁抱AI,助力行業實踐”進行了深入講解。
劉大偉表示,人工智慧技術在語音識別和影象識別領域取得了飛速進展,AI技術已經滲透到多個領域,例如AI模型能夠通過視網膜診斷糖尿病,AI能夠預測工業生產線上的裝置狀態,通過AI動態探測系統,來保護像東北虎等野生動物。
偶數科技AI負責人劉大偉
偶數科技應用AI技術在反洗錢領域已經取得了成功案例。據悉,美國大型徵信機構已經開始利用AI模型來計算FICO評分系統,從而鎖定非法交易。在中國每年有兩千億的洗錢交易發生,破壞了金融的穩定性,我國也出臺了反洗錢相關的法律和監管政策,因此每個銀行都有責任和義務去監管銀行內發生的每筆交易,找出洗錢行為,上報央行統一處理。
偶數科技反洗錢解決方案最底層是資料來源,包括交易流水,客戶資訊,洗錢模式樣本,訓練模型等。中間兩層是OushuDB和LittleBoy人工智慧平臺,以及分散式儲存元件。上層經過資料清洗,資料轉換和交叉驗證,得到有意義的洗錢相關的資料。偶數科技通過AI建模,提供了多個可行的模型方案,減少推送的可疑案件量和人工排查工作量可達上百倍。
可行模型方案
- 現有方法:查全率100%,查準率約1%;
- 偶數模型A:查全率100%,查準率51.43%;
- 偶數模型B:查全率86.11%,查準率92.08%。
在Oushu Lava AI Cloud上承載著OushuDB數倉,以及LittleBoy人工智慧平臺,既可以在公有云上管理整個叢集,也可以部署在使用者自己的私有云中。反洗錢解決方案從資料、建模、釋出到接入銀行的系統,整個流程聽起來很複雜,但其實它很簡單,甚至不需要學習專業的AI知識。例如,在LittleBoy的AI工作室裡,有很多現成的元件,使用者只需通過最短半個小時的培訓,瞭解配置節點的方法,就能通過拖拽操作將元件連線成不同的工作流,甚至是構建複雜應用。
五步訓練分類模型
除此之外,偶數科技找到了更為簡便的方法,增加了另一種建模方式,通過五步的引導式介面,不需要多少AI知識就可以將AI模型搭建起來。
- 第一步:訓練資料,把所有叢集、資料庫、資料表中的資料通過樹形結構展現;
- 第二步:選取特徵及標籤,網路會自動識別哪些Feature更加有用,因此不需要做太多的特徵工程;
- 第三步:評估模型;
- 第四步:配置演算法,系統預設使用AutoML自動調整演算法, 它會自動的去探索所需要的神經網路的網路結構,而且也會自動地去匹配最佳的一套超參組合,因此也無需配置,如果你是AI工程師,也可以自己填寫引數;
- 第五步:點選啟動,開始訓練,訓練過程中可以實時監控模型收斂狀態。
模型訓練完成後,只需點擊發布,模型的釋出以及服務都將在系統中自動完成。
此外,偶數科技還提供通用的REST API呼叫工具,使用者只要把這個介面整合到自己的應用中,就能馬上獲得AI能力,非常適合那些已有的不能在短期內更新的系統,通過呼叫API,這些系統將馬上變成人工智慧系統。
掃描下方二維碼檢視詳細課程
以上內容是51CTO記者根據WOT2018全球人工智慧技術峰會的《AI平臺和工具》分論壇演講內容整理,更多關於WOT的內容請關注請關注51cto.com。
【51CTO原創稿件,合作站點轉載請註明原文作者和出處為51CTO.com】