中國AI產業鏈底端眾生相:艱難生存的“人工”團隊
《財經》記者劉以秦/文 謝麗容/編輯
有多少“智慧”,就有多少“人工”,這位人工智慧資料標註創業者的夢想是建一個“富士康”,但希望越來越渺茫
從人工智慧發展高地北京到河南鄭州,只需要兩個小時的高鐵,那裡有中國最大的代工廠富士康。再從鄭州火車站出發,半小時車程,到達一棟不起眼的寫字樓,開啟一扇沒有任何標誌的大門,就是目前河南最大的人工智慧資料標註工廠翊澳資料的總部。
聚集在北京的人工智慧公司裡,隨處可見人臉識別機器以及實時的大資料熱點圖。但這家資料工廠裡,並沒有任何智慧的樣子,也沒有普通工廠裡的流水線,更像是一間網咖——裝修簡單,幾十臺電腦依次排開。
正值午休時間,一半的電腦前面空空如也,還有數十名員工坐在電腦前,或是吃著打包來的午飯,或是掏出手機打遊戲,也有部分標註員還在處理一張張模糊或清晰的照片。
資料標註行業流行著一句話,“有多少智慧,就有多少人工。”目前AI演算法能學習的資料,必須通過人力逐一標註,這些人力為AI產業提供養料,這是AI金字塔的基礎,處於最底層。
此前,一些資料標註工廠被冠以“血汗工廠”的名號,為了應對龐大的資料標註需求,標註員們必須加班加點盯著電腦螢幕,夜以繼日地重複枯燥的工作,但眼前的這個工廠裡,似乎有些輕閒
“聽說AI很火,我們也想參與進來。”翊澳資料總經理靳建偉對《財經》記者說。
靳建偉經歷豐富,善於追逐潮流。微信最火的時候他做過微信推廣, 拼多多 起來後在上面賣過襪子,還在關注短視訊營銷行業,“你知道抖音推廣吧?就是一個後臺可以操縱一百個賬號那種,據說很賺錢。”
大多數AI初創公司還處於依靠融資發展的階段,但資料標註產業更像傳統行業,拿一單資料結一單錢,江湖中流傳的傳說是,這個領域已經創造了不少“一夜暴富”的故事。
被這樣的故事吸引,不少像靳建偉一樣的人加入了這場淘金遊戲,但現實給了他們當頭一棒。
2018年,河南省的資料標註公司死掉了一大半,剩下的幾乎都在艱難求生,接受《財經》記者採訪時,靳建偉已經兩個多月沒有接到新的訂單,工廠員工從600人,銳減至200人,他覺得自己恐怕需要開始找下一個風口了。
撞進了AI圈
靳建偉今年28歲,2017年以前,他甚至沒聽說過“資料標註”這個詞。
他並不懂AI演算法和技術,也不太清楚AI到底能解決哪些問題,2017年,他偶然聽說做資料標註能賺錢,當時他正從事證券銷售業務,由於沒有資質,公司被關停,他找到一個賣保健品的朋友,共同成立了這家資料標註公司。
2017年,中國AI創業開始達到頂點。對資料標註的需求也迅速爆棚。河南是人口大省,數百家資料標註公司在此誕生。
靳建偉算了一筆賬,一個成熟的標註員,月產值能做到7000元,除去3000元的工資和質檢、場地裝置等費用,公司能賺1500元。
“那我不斷招人就行,如果招100個人,一個月就賺15萬元。”靳建偉說道,“怎麼看都覺得這個生意靠譜。”
有電腦、有場地,再迅速招一批沒有學歷、工作經驗要求的資料標註員,就可以迅速上手。
深度學習的關鍵在於大量的資料訓練,資料訓練之前,必須對這些資料進行明確的標註。例如,機器需要識別斑馬線,就必須提供大量標註了斑馬線的資料來進行學習,資料量足夠大時,機器就可以識別出任何角度的斑馬線。
這意味著,在某種程度上,AI演算法的優化,取決於資料標註的質量,而把控這些質量的,是完全不懂AI技術的一群人。
一名沒有任何經驗的標註員,通過半天的培訓即可開工,一兩個月之後可變成熟練工,一天就可以完成1500張-2000張圖片的標註。
需要標註的圖片資料從客戶提供的資料處理平臺上打包下載,根據不同的需求進行標註,常見的包括物體識別和人臉識別,物體識別主要是“畫框”,人臉識別則是“打點”。
完成後會進行一到兩道的質量檢測程式,來確保標識準確率,合格後會重新傳送到客戶的資料平臺上。
然後,這些資料會被應用到自動駕駛、AI安防、智慧身份認證等新興應用領域。
依靠這些應用,人工智慧公司在資本市場頗受追捧,投中研究院釋出的資料顯示,2018年上半年,進入商業化階段的中國人工智慧行業已經獲得超過400億元人民幣的融資。
這400億元的資金,僅有極少部分流入了資料標註行業。商業資訊服務平臺企名片收錄的標籤為“資料標註”的公司共有15家,2018年,這15家公司共完成6筆融資,單筆融資金額約為1000萬元人民幣左右,總計不超過1億元人民幣。
靳建偉還沒考慮過融資這件事,他聽說北京的AI公司都在以億為單位進行融資,但他的思維和之前的數次創業沒有區別,找客戶,做業務,能賺錢,才是應該做的事情。
單打獨鬥在當下的AI圈很難混得開。由於完全沒有相關行業經驗,也沒有資本加持,一開始靳建偉只能接二手、甚至三手訂單,也即外包服務。“一些有渠道的公司接了訂單,自己不做,或者自己做不過來,就分發給我們做,他們再從中間收取差價。”
與很多行業一樣,渠道是核心競爭力,中間商們不需要耗費太多的人力物力,就能賺取可觀的利潤,底層的工廠們,加班加點,只能勉強維持經營。
這樣下去可不行。在熟悉了行業之後,靳建偉開始主動出擊,拓展渠道,試圖繞過中間商。從知名的頭部AI公司開始,到所有他能找到聯絡方式的中小AI企業,他問了個遍。得到的迴應要麼是“不需要”,要麼是“我們已經有了自己的資料標註團隊”,更多的是石沉大海,沒有迴音。
“人家上來就問你,以前做過哪些專案,我說不上來。”他很無奈。
類似商湯科技、科大訊飛這樣的頭部AI公司,都會自建資料標註團隊,既方便管理,也能更好地理解需求。
但確實也有大量AI公司,由於團隊人數、資金成本有限,有外包資料標註的需求,但大部分都會通過熟悉的渠道尋找標註團隊,或者和大平臺合作,例如 百度 眾測平臺。
百度眾測是百度旗下的一個類似眾包模式的資料平臺,2014年在百度世界大會上正式推出,平臺上會分發各類任務,在行業內稱為“放題”,包括資料採集、圖片標註、文字標註等。
百度在中國人工智慧領域起步早,渠道輻射廣,眾測平臺上每天都有大量的資料標註需求,並且開放註冊,這讓靳建偉看到了機會。
當然了,當時他還沒有意識到,更大的困難在等待著他。
飽一頓,飢一頓
距離鄭州車程兩個小時的河南新鄉輝縣,甚至找不到一棟商用寫字樓。從馬路邊一個毫不起眼的門洞上樓,就是翊澳在輝縣的工廠,也是該公司目前規模最大的一個廠。
兩層樓,近500平方米的空間裡,劃分出了三片工作區域,目前僅有一片區域開工運轉。
翊澳下面類似這樣的分廠有十幾個,分佈在河南省內各個縣市裡。
由於百度眾測平臺提供了訂單來源,翊澳幾乎是在一夜之間發展成這樣的規模,靳建偉拉來以前一起做證券銷售的同事們,讓他們回到各自的老家成立分廠,並擔任負責人。“之前一起做過事,已經有信任關係,下面這些地方場地租金更便宜,員工工資也低,更省成本。”
百度眾測給了翊澳資料第一桶金,但同時也讓靳建偉認識到這個行業的慘烈。
他回憶,去年百度眾測上的“題”特別豐富,大量資料標註團隊都緊緊盯著,僧多粥少,百度眾測有絕對的權力來制定遊戲規則。
想要拿到“做題”資格,必須經過數輪考核,比賽做題的速度和準確度,每一輪考核後,都有團隊被淘汰出局,最後僅剩十支團隊能進入百度眾測的名單,每隔一段時間,就會有末位淘汰,後三名的團隊會被替換掉。
這一過程堪比高考,工廠的員工大多學歷不高,以專科生為主,但為了賺錢,他們鉚足了勁。“那一段時間我們天天刷題庫,練習,這個事情就是熟能生巧,我們單獨拉了一支20人的團隊,不幹別的,就應付這個考試,來來回回折騰了好幾個月,終於考上了。”
自去年加入百度眾測平臺開始,翊澳資料就一直保持在前十名的位置,這也讓他們真的賺到了錢。“從去年10月到今年上半年,百度一共給我們結了120萬元。”靳建偉說道。
但他仍有怨言,在他和一些同行看來,百度也不太地道。前期耗費幾個月時間的考試,似乎是在做無償勞動,“那些考試的題,其實就是真實的客戶需求,我們做完了,百度就拿去賣了”。
只要能賺錢,前期免費付出一些也未嘗不可。相比其他訂單來源,百度眾測給的單價更高,平臺上的訂單價格是按照每個標註員每天8小時工作量測算,正常情況下8小時能標註1200個數據框,價格是240元人民幣。
為了能夠擴大收入,靳建偉要求員工一天能標註2000個數據框,“做得越多,賺得越多”。
依靠百度眾測,靳建偉嚐到了甜頭。但好景不長,百度眾測平臺上的單越來越少,甚至出現長時間的“斷糧”情況。
目前整個AI行業都處於起步階段,資料與演算法交替磨合前進,需求在不斷變化,對於資料標註的需求也是週期性的,並非源源不斷。例如,2017年,資料標註行業就很少接到車牌標註的訂單,因為標註量已經足夠多,演算法需要時間去慢慢消化,並落實應用,然後再發現其他資料需求。
突然無題可做,這對於當時已經有數百人規模的翊澳資料來說,壓力巨大,每天員工的工資就是一筆不小的開銷。
為了維持運轉,他只能再去找新客戶,他們曾經接過自動駕駛明星公司Momenta的二手訂單,他降低價格,說服了Momenta直接給訂單,繞開了中間商。
自動駕駛企業對資料量的要求非常大,路況資訊龐雜,採集到路況圖片後,需要人工對路牌、障礙物、交通訊號標誌等多種資訊進行標註。
Momenta成立兩年時間,已經完成5輪融資,融資金額超過1億美元。在同行看來,接到這樣的明星客戶,意味著能在業內樹立口碑,且融資能力強,不缺錢。
但Momenta給到翊澳資料的標註價格非常低,幾乎只有百度眾測的30%,他們完全賺不到錢。“那也沒辦法,還是要做,不然我手裡這麼多員工,吃什麼?”
採訪進行到一半時,靳建偉突然接到了百度眾測打來的電話,過去兩個月,他多次試圖聯絡百度眾測平臺,但得到的迴應都很冷淡,而這一次,對方告訴他,馬上平臺上會放題,讓他提前做好準備。
“其實我有好幾次都想放棄,每次一冒出放棄的念頭,就有訊息說資料馬上要來了。”
這個訊息讓他既欣喜又糾結,百度眾測一旦放題,意味著收入可以很快跟上,但他現有的團隊很難保證同時兼顧百度和Momenta兩頭,雖然出價低,但Momenta是他唯一的標杆客戶,也有必要長期維繫。
距離翊澳資料總部幾十公里之外,是富士康的鄭州園區,員工數量超過25萬人,靳建偉曾經的夢想是做出一家人工智慧領域的富士康,但現在,他發現這個夢想有些遙不可及。
隨著AI產業的興起,各行各業都有AI化的需求,也進一步刺激了資料標註行業的發展,翊澳資料這樣的資料工廠只是其中一環,AI公司、資料標註平臺、中介、資料工廠,甚至包括個人,共同組成了這一條產業鏈。
其中,中介們最為活躍。
除了Momenta,在靳建偉尋求出路的過程中,北京資料標註初創公司星塵資料主動聯絡了他,也是唯一一家主動找上門,並能提供訂單的公司。
星塵資料位於北京三里屯,2018年1月完成1000萬元人民幣的Pre-A輪融資,公司運營副總裁商宇通過百度眾測平臺發現了翊澳。“他們一直保持在平臺的前幾名,說明標註質量有保障。”商宇接受《財經》記者採訪時說道。
與翊澳資料一樣,星塵資料的辦公室也找不到任何標誌,創始團隊大多有美國工作背景,他們像矽谷的初創公司一樣,十幾名員工擠在一起,整個公司看起來還沒有靳建偉個人辦公室大。
但他們比靳建偉更瞭解這個行業。
“我們想做的其實是一個數據標註平臺,”商宇說,“能夠對接需求方和標註團隊,以及有時間和餘力做標註的個人,就像是資料標註裡的滴滴。”
平臺是長期目標,短期內,星塵做的是中介的工作,他們去競標訂單,然後找到工廠承接。
但大家都處於摸著石頭過河的程度,星塵斷續給了翊澳一些小訂單,怎麼定價,是雙方都不太清楚的問題。
從鄭州去往輝縣的路上,靳建偉收到星塵發來的訊息,稱他們準備去競標一項資料採集的單子,讓靳建偉報個價,他們拿著這個價格去競標。
“我怎麼知道應該報什麼價格?”靳建偉有些茫然,他沒做過資料採集的工作,但是他缺訂單,兩小時的車程中,他一直在糾結報價的問題。“50?30?要不然報高一點讓他們砍價?但是萬一覺得太貴把我們排除了怎麼辦?”
相比他們的迷茫與矛盾,博雅立方走的是另外一條路線——提供定製化的資料標註服務。
資料服務提供商博雅立方是中昌資料(600242.SH)旗下品牌,主要業務就是資料標註,團隊目前超過1000人。
博雅立方資料服務事業部總經理王馨比靳建偉更早看到了機會,2012年,她開始做搜尋引擎和輸入法的語量庫和知識庫。“你在網上搜索資料,和語音識別、影象識別一樣,都是機器互動,也就需要不斷地給機器灌輸資訊來實現。”
AI爆發後,王馨也轉型到資料標註領域,除了簡單的影象資料標註,他們還做難度更高的語音資料標註,以及專業性更強的細分行業資料標註,如醫療、法律等。
不過,AI公司通常不會只找一家資料標註公司提供服務,將標註需求拆分給多個團隊能夠更好地降低成本。這一過程基本通過招投標的方式來進行,客戶主要考察過往經驗,完成訂單所需時間,以及單價。
在全行業都缺乏經驗時,完成訂單的效率和單價就成為主要考核因素,靈活的小團隊們在這兩點上,優勢顯得更大。“想要找人來外包訂單,快速完成,並不困難。”靳建偉表示,“你在網上發個招聘資訊,一天之內會有100家接不到活的團隊找上門。”
價格方面,小團隊也更“狠心”,王馨就多次在招投標環節遇到開出不合理低價的小團隊,“他們更想要的是客戶案例積累。”
環環相扣的資料標註行業像是一片擠滿了鯉魚的池塘,偶爾一把魚食撒下來,會被不擇手段地立刻分食乾淨,然後餓著肚子等待下一場競爭。
快要消失的圍城?
過去幾個月,靳建偉看著周圍的同行一個個開始轉型、退場,每天都處於焦慮狀態中。
他熟悉的一個同行,由於找不到標註的訂單,接了一份豬臉資料採集的工作,在鄉下找豬圈拍照,三天時間收入2000元。
“我也想好了,不能這樣無限地砸錢進去,我的底線是再投入100萬元,如果還是這樣的情況,就放棄。”他說。
資料標註行業越來越像一個圍城,城中人痛苦不堪,找不到出路,城外人認為這裡遍地黃金,會誕生下一個富士康。
在中國政府大力支援AI產業發展的政策環境之下,不少地方政府都通過各項優惠政策,吸引AI公司落戶,但資料標註行業似乎是一塊被忽視的死角。
接受《財經》記者採訪的資料標註相關團隊都表示,目前他們沒有發現任何相關的優惠政策。
沒有政策優惠,也幾乎沒有任何壁壘,資料標註只能存活於產業鏈底端,壓價情況嚴重,生存艱難。大部分時候,資料標註團隊都會面臨兩個選擇——要麼無訂單可做,要麼接受虧本價。
由於業務的不確定性,大量小型資料標註團隊都是有活就幹、無活解散,這也導致標註質量無法得到有效保證。
中國資訊通訊研究院在今年9月釋出的《2018年人工智慧發展白皮書》中表示,在資料層面,主要存在流通不暢、資料質量良莠不齊和關鍵資料集缺失等問題,尤其是資料標註主要通過外包形式,勞動力水平決定了產出的標註資料質量。
多位接受《財經》記者採訪的AI初創公司創始人表示,他們接觸過的資料標註團隊質量良莠不齊。“那些資料標註團隊能做到的,我們自己也能做,可能還能做得更好,為什麼要花這個錢?”其中一位創始人說道。
在商宇看來,沒有技術壁壘的工作,完全可以通過平臺眾包模式,分發給個人來做,“這樣效率更高”。
資料標註眾包模式最早出現在美國,2005年, 亞馬遜 推出勞務眾包平臺(Amazon Mechanical Turk),初衷是為了解決內需——管理庫存、完成圖片和產品分類、翻譯文字、將語音或者圖片轉錄成文字等工作,隨後平臺漸漸對外開放。截至2017年底,該平臺註冊使用者量累計超過50萬。
亞馬遜眾包平臺的一個標誌性的成績是幫助斯坦福人工智慧實驗室主管李飛飛完成了ImageNet的建立,ImageNet目前擁有超過1400萬被分類的圖片,大部分由該眾包平臺上5萬名使用者耗時兩年完成。
目前在中國,還沒有面向個人的眾包資料標註平臺,百度眾測官方平臺僅對企業開放。
一個現實的問題是,眾包模式如何保證質量?資料標準的準確度從95%提升到96%,需要團隊多花費3倍的時間。“很多時候,由於一點細微的問題,整個訂單都要重新返工。”靳建偉說道。
質量問題也是王馨認為眾包模式現階段並不可行的主要原因。
AI在行業落地時,屢遭困難,很大一個原因在於傳統行業與AI之間的隔閡仍然明顯。博雅立方作為資料標註行業裡的老牌公司,同時又有上市母公司的背景,吸引了不少想要進行AI化改造的傳統企業。
這些公司很多仍然不清楚自己真正的需求是什麼,為此,博雅立方組建了一支專業化的前端團隊,這些人來自於傳統行業或是AI行業,在前期就會花費大量的時間進行溝通交流,來明確應該採集哪些資料,應該做哪些維度的標註。“這些都是眾包模式無法提供的服務。”王馨說,“當然我們的價格也會更高。”
以目前行業壓價情況來看,有能力做到深度、定製化服務的團隊並不多,另一方面,大部分資料標註需求,還處於相對基礎的水平,對於還未能通過AI盈利的大部分企業來說,也不願意在資料標註環節,支付稍高的價格。
AI是否會讓更多人失業,一直是被討論的焦點。國際貨幣基金組織的一份報告稱,包括AI在內的新興科技將讓全球30個國家和地區的2600萬份工作消失。科技進步同時也創造了許多新的就業機會,資料標註就是一個由於人工智慧發展而誕生的新行業。
在缺乏行業標準、發展混亂這些現有問題之下,資料標註行業面臨的最大隱患是,未來AI的發展可能不再需要這一環節。
2018年10月10日,中國最大的科技公司華為釋出了AI戰略,華為輪值董事長徐直軍在臺上提到,資料標註師這樣的職業很有可能被顛覆,華為要做的改變是提升AI自身的自動化水平,比如在資料標註、資料獲取、特徵提取、模型設計和訓練等環節實現自動化或半自動化。
沒有“人工”就沒有“智慧”,這一幕很可能只是人工智慧產業發展史上的短暫一幕。
(本文首刊於2018年10月15日出版的《財經》雜誌)