36氪專訪 | 第四正規化戴文淵:訓練機器就像訓練小狗,AI應用會像App一樣爆發
這是一個人人都想成為今日頭條的時代。
今年5月,第四正規化上線了針對媒體提供的Feed流技術產品,四個月後僅這個垂類的客戶量從1增長到200家。
內容個性化推薦只是AI落地應用中的一個小切面。整個商業世界的運轉鏈條正在迅速AI化,以搜尋和推薦演算法為主的AI科學家成了炙手可熱的崗位。幾年前這批科學家還不好意思自稱是做AI的,大多會對外說個“最優化原理”之類的說法。
但如今,第四正規化創始人戴文淵看到了以往被抑制的千奇百怪的需求釋放出來:從地鐵零部件檢查、節約電力、廣告營銷、到金融反欺詐……
他認為三五年內AI落地會在各個行業全面爆發,不過他覺得這個速度太慢了,更甚的是,落地場景只集中在少數能聘的起AI科學家的高精尖行業,就比如無人駕駛,未來聽上去很晦澀的深度學習應該像今天的App開發一樣普及。
“App爆發是因為有大量開發者,但在AI領域,如今有個說法,做AI要請個科學家,這說明AI的門檻太高了,太小眾了。小場景有用技術提升效率的需求,但是養不起貴的人,沒人做開發。”戴文淵希望那些做網站、App開發的人也能轉向AI開發,但這一切的前提是降低AI技術門檻,以及提升AI的運作效率。
所以他在2015年成立了第四正規化。
這家公司的定位,簡單說是一家平臺型的AI技術服務商,通過提供AI引擎、API介面等底層技術降低AI的使用門檻。按照戴文淵的設想,AI真正普及後的狀態,是客戶根本不需要知道什麼叫深度學習。所以第四正規化選取的路線並不是以深度定製和應用為主,而是做平臺。第四正規化的業務模式有兩種,一類這對核心客戶直接提供服務,另一類針對中長尾客戶,提供引擎,由ISV這類合作伙伴來為落地端做應用。
這種商業路徑的選擇跟他在百度的工作經歷相關。
2009年至2013 年,戴文淵曾是百度最年輕的百度高階科學家、T10級員工,擔任百度鳳巢(基於百度搜索引擎的營銷系統)策略的技術負責人。當時作為科學家的戴文淵為了理解業務,花費很大精力把自己變成了廣告業務專家,但他意識到對於AI在垂直行業的普及,深度定製是一種效率不高的生產方式。不如把整個平臺技術產品化,集中效率,讓一套東西服務不同的應用。讓不懂深度學習的開發者也能做出個今日頭條。
“這聽上去有點天方夜譚,但其實是可以實現的。訓練機器就像訓練小狗那麼簡單,需要客戶定義好目標,然後給機器設定好行為和反饋,收集資料,然後抽離出規律和演算法,”戴文淵對36氪說。
至於門檻能降低到什麼程度?迄今為止,第四正規化接過最小體量的客戶,只有兩個人規模,是一對夫妻開的攝影工作室,用第四正規化的API結構做了個AI客服。戴文淵告訴36氪,通常而言,經過兩至三週的學習週期後,使用者就可以進入做應用的階段,實現相對快速的接入。
據第四正規化方面稱,目前公司的客戶集中在金融、能源、安防、醫療、媒體、製造、零售、網際網路等垂直領域,總數超過2000家。
36氪採訪了第四正規化創始人戴文淵,以下為對話內容,經36氪編輯略有刪節:
36氪:用機器去寫規則、推演出規則和演算法的邏輯,跟人類自己去寫規則有什麼不同?
戴文淵:其實沒有什麼不一樣的,人寫規則的方式也是發現規律。比方說在百度上搜索乾洗的人,95%以上會選擇乾洗店,而不是去買一臺乾洗機回家,於是程式員就可以去編寫一條規則叫“搜乾洗的人只准給他看乾洗店,不準給他看乾洗機”。甚至我們還可以做得更加精細,比方說去看搜乾洗之前搜了什麼?搜乾洗之前,如果搜的是吃飯、看電影,應該給他出乾洗店,如果搜的是店鋪租賃,很多人最後的訴求是搜乾洗機。這就是生成規則的過程。
而機器寫規則的做法,也是從資料中發現規律,把它提煉出來,變成規則,區別只是更加精細。因為人會受到精力的侷限性,寫一萬條規則已經非常辛苦了,而當我們開始千人千面的提供服務,即要從每個人身上提取出不同的規則,這個規模是以億為計了,只能交給機器去做了。
36氪:相對於人工寫規則,機器寫規則在效率上、譬如同等工作量下時間週期的提升能到什麼程度?
戴文淵:首先還不是時間週期的問題,是規則的數量。人工寫規則通常在幾條到幾千條不等,我見過最多的是上萬條規則,而機器可以很輕鬆的去寫上千萬條以上的規則,我們做過的最大規模的能達到幾千億條規則。
36氪:能編寫的規則量級的大幅度增加,對於商業落地場景意味著什麼?
戴文淵:提升的是準確度,就比方剛才說乾洗那個例子,如果使用者搜尋乾洗只能呈現洗衣店的結果,那麼有一批先前搜尋過店鋪租金其實想搜尋洗衣機的人就沒有人滿足。如果你能做得更細,你就可以去服務的更好。
36氪:無論今日頭條推薦文章,或者電商個性化推薦,今年千人千面在各個行業的落地趨勢非常明顯,為了第三方服務商,你如何用技術定義垂直行業中那些複雜的、關於人性的,難以量化的部分,專業地把它們轉化成規則和演算法?
戴文淵:這些不同場景的需求叫做深度定製,我自己從2009年開始(在百度)幹深度定製的事情,技術人員需要和業務需要結合的非常緊密,我甚至花了很長時間把自己變成了一個廣告專家,但有一個很大的問題,生產效率是提不上去,因為既能做好AI科學家,又能做好業務甚至工程的人非常非常少。要大面積推廣AI,需要減少AI在垂直領域落地的前提條件。我們想建立一個平臺,讓垂直領域的業務人員,甚至沒有學過計算機的,也能做出一個“今日頭條”,而不需要理解什麼是深度學習。這是可行的。把計算機當成小狗一樣教,關注“行動”和“反饋”兩個要素。比如推薦文章是個行為,使用者看了就是反饋,金融反欺詐交易,通過了就是反饋。我們發現絕大多數的普通開發人員、業務人員,都是可以理解並掌握這個互動過程,然後去各行各業去產出新的解決方案出來。
36氪:這種訓練機器的反饋需要一個標準,第四正規化的團隊跟客戶是什麼樣的協作模式?
戴文淵:很重要的一點是客戶一定要知道他想要幹什麼。比方說他想要去降低風險,降低壞賬率,使得營銷的效率提升,讓醫療診斷更加精準,這個需要客戶定義好,這個目標定義完了以後,他要能夠非常清楚的知道行動和反饋是什麼,然後把資料給到計算機。
第四正規化的任務是讓客戶不需要感知到深度學習,我們做O2ML,就是深度學習上面所有需要人去定義或者調優的引數,各種設定和網路結構,讓客戶感受到機器不斷的反饋。
36氪:在第四正規化,做技術研發和產品化的人是這樣的比例?
戴文淵:第四正規化現在有600多人,我們保持超過半數的人是做產品化的,其實做應用就是背離了我們的初衷,如果我們做應用,其實不需要創立第四正規化這個公司,我可以跳槽去各個公司去做各種各樣應用,但效率就是這一個團隊只做一個事情。只有把整個平臺技術產品化,才是集中效率,用一套東西服務不同場景的應用。
36氪:一份招聘網站的資料顯示,今年對搜素和推薦演算法的需求量很旺盛,很多做內容化和社群化的公司都在招聘做AI演算法的人,你怎麼看待這種需求的爆發?
戴文淵:用資訊流做內容能夠興起的原因是手機裡空間太小,螢幕太小,但內容太多,要更好的利用空間,放盡量多的內容,用Feed呈現是一個必然的趨勢。我們有將近200家媒體客戶,他們的訴求就是把自己的網站、App、小程式改造成今日頭條的樣子,個性化推薦。
36氪:這種需求的爆發是從什麼時候開始明顯出現的?
戴文淵:其實早就有這個需求,只是早年間被壓抑的需求,在頭條起來之後,媒體都意識到了,背後的邏輯原理大家都想得明白,問題是怎麼去實現。當我們提供了這種服務以後,其實媒體客戶數量是漲得非常快的,我們大概是今年5月份開始推出,5月份之前只有少量的實驗客戶,您可以理解大概5月1號之前,我們可能有那麼一個兩個客戶,到現在已經有將近兩百個客戶。
36氪:除了內容推送和金融反欺詐,在哪些領域會落地得比較快?
戴文淵:AI的應用大體來說遵循了一個趨勢,首先會在獲取資料代價比較低的行業,比如廣告,只要使用者看一條廣告就獲取了一條資料。第二會在犯錯誤代價低的場景,比如新聞客戶端,只不過在2013年之前(這一年今日頭條上線)大家沒有理解到新聞客戶端分發的商業價值。再之後爆發的是金融,醫療,隨之犯錯的代價也更高了,甚至無法衡量。
但今天要解決的問題是AI落地太慢了,很多場景沒有覆蓋到,有種說法當你要做AI需要請一個科學家,但你做個App就不用,這說明AI的門檻太高,科學家意味著一定是小眾的。只有當AI被廣泛的開發者在開發的時候,AI才能夠像今天的APP那樣爆發。其實我們經常會看到一些千奇百怪的需求,絕對不是今天我們在討論的無人車,人臉識別,語音識別這些。
36氪:千奇百怪的需求,比如呢?
戴文淵:高鐵晚上是會12點以後就不運營了,因為需要巡檢去發現是否有零部件壞了,如果有壞掉的,就會輸入型號讓總部調過來,但你知道型號填錯的錯誤率是多少嗎?50%。所以我們通過AI幫他們解決問題,比如讓巡檢人員拍個照,人工智慧去識別型號然後發給總部,做個這樣應用。又比如在金融機構填寫匯票的票據,其實是需要人工錄入電腦的,工農中建每家銀行大概3000-4000人幹這個無聊的事情,也可以讓AI做。有很多這樣的需求,但是為什麼今天科學家都在做無人車?因為大場景才養的起貴的人,但同樣需要技術去提升效率的小場景沒有人做。所以我們希望幫助原來做App開發、網站開發的人,也能去做AI開發。
36氪:根據第四正規化的發展節奏,哪些目標是今年一定要實現的?
戴文淵:我們今年有一個非常重要的一個目標,是為業界培養一千個AI的開發者,現在應該差不多完成了。但是其實一千個是遠遠不夠的,這個行業我覺得至少得要一百萬個以上。
36氪:今年有一種說法,AI公司之間的演算法在商業競爭中已經夠不成門檻了。你怎麼看這種觀點?
戴文淵:其實永遠都會有門檻的,因為AI是一個利潤中心,而不是成本中心的生意。什麼叫成本中心?就是原來我們做一個網站,如果我投入一百萬,能把這個網站做下來,並且它穩定執行,那麼我第二年想的事情就是怎麼把它節省到50萬,第三年想怎麼節省到25萬。而AI是另外一個邏輯,就是今天我投入100萬,可以給這個公司創造一個億的利潤,然後明年如果我投入200萬呢。所以即便說今天有說AI演算法門檻已經不高、代價不大的說法,但我們還是會願意去研究一個更一流的,代價更高的演算法,只要它能賺得回來。AI是一種武器,打仗沒有哪家軍火商說我的武器造成這樣就夠了。