你還好意思說自己是腦力勞動者嗎?
很長時間以來,人類區別腦力勞動和體力勞動的標準,是頗值得反思的。
我們一般預設,那些坐在辦公室裡的人,都應該屬於腦力勞動者,即在工作中基本不使用頭部和手指以外肌肉的人。在東亞這種極為重視教育的民族氛圍中,更將這種區別二元對立化,認為體力勞動只是簡單、重複、乏味的肌肉迴圈,唯有腦力勞動才是充滿挑戰、變化、不可預測的高智慧人類勞動。
這個區別以及背後的含意真的準確嗎?比如橄欖球運動員,個個體壯如牛,喘著粗氣鼓著腮幫子奔跑、衝撞甚至抱摔,然而橄欖球是一項非常講究規則戰術,嚴格依靠團隊配合,並且極其考驗個人瞬間判斷的運動。這些壯漢在工作時,不動腦嗎?
再比如面朝黃土背朝天的農民,以及工廠裡的焊接工,他們不僅要掌握並不斷打磨自己的技藝,還必須應付工作中的隨機性,比如氣候變化和不規則模具。他們不是什麼識文斷字的高手,但在自己的工作領域內,具備了極高的技能儲備和應變能力,這些統統都是需要腦力判斷的。
更關鍵的,還不是體力勞動者動不動腦,而是那些“腦力勞動白領”們,平時的工作真的都屬於挑戰、變化、不可預測、需要高階智慧判斷的嗎?
財會人員每天大量的時間,會用在比對資料,整理表格上;合格的文字工作者,其收集素材與產出內容的比例至少是二比一以上;教師、律師、醫生等職業在絕大部分時間談不上什麼處理新鮮事,每天都在應付一些淺層知識的重複呼叫;至於客服、錄入員、稽核員等等傳統的白領職位,就離“腦力勞動”更遙遠了。
說這個話題,不是為了抨擊什麼,而是揭示目前人類勞動狀態中,依然有太多重複、單調、無聊的時刻,即便在傳統意義上的“腦力勞動”中也是如此。
這不是一種讓人類更幸福的工作模式,因為在這些勞動崗位上,人其實只是工具。和一個扳手、錘子、釘子沒什麼區別,只不過人比這些工具多讀了十幾年書罷了。比如近幾年很多公司都在做實時翻譯機,看著手裡這個雞蛋大小的玩意能夠清晰翻譯多國語言,不少專業八級的外語高材生難過起來——這工具不就是他們真人的物化版本嗎?
從21億秒中找出60秒
自從拿到NBA賽事的網路傳播權後,騰訊的視訊庫中就積累了長達69年、超過21億秒的籃球比賽視訊素材。這豐富而龐大的視訊資料儲備,既是幸福也是煩惱。
這是一個常見的情景:在NBA比賽傳播中,需要經常為某個球員做一段精華集錦片段,比如當這個球員被評獎、本場比賽發揮出色或者人氣很高時,我們在網上都看過大量此類視訊。
然而,有誰考慮過,製作這些視訊的剪輯師要怎樣工作呢?他們需要從數億秒的視訊中找到60秒可用的素材,再通過自己的認知判斷將其剪為一段完整的視訊,最後再配上音樂和特效才能完成。
在傳統意義上,這份工作毫無疑問屬於腦力勞動,然而上文的質疑同樣有效:按照特定屬性尋找視訊素材、遍歷一個巨大的資料庫、將這些視訊素材組合成一個符合邏輯的視訊時間軸,如果抽象出來,這幾步工作就是尋找、判斷、剪接的動作不斷重複,這真的是“智慧結晶”嗎?
於是,騰訊找來了一個幫手,一起分擔這種單調重複的勞作——IBM AI Vision視覺大腦。(以下簡稱IBM視覺大腦)
IBM視覺大腦的工作原理並不複雜,只是模擬了一個正常人類剪輯師要做的工作——
首先,騰訊體育編輯會根據需求為IBM視覺大腦下達任務,比如“尋找凱文•杜蘭特的精彩瞬間”,這些精彩瞬間包括投籃、扣籃、搶斷、蓋帽等內容。
接下來,IBM視覺大腦會對視訊素材的每一幀資料進行多通道分析,並打上標籤,包括人物、運動軌跡、聲音等,將非結構化視訊資料提取為結構化資料,並用資料庫進行實時管理,讓每一幀畫面都變得可檢索。同時,還會針對動作的精彩程度和不同主題的匹配程度,生成綜合評價。
最後,根據體育編輯設定的主題和球員等要求,“AI剪輯師”按照綜合評分選出最貼切主題的精彩視訊片段,幾乎實時自動生成一分鐘剪輯視訊,並加上特效處理。而這一系列操作,IBM視覺大腦僅僅需要20秒鐘就夠了。
這意味著什麼呢?
看球沒那麼簡單
鑑於讀到本文的大多是成年人,所以必須請大家回憶一下自己童年時期,第一次在電視上看到乒乓球比賽時的情景。我當時唯一的感覺就是“不知道球在哪裡”,眼睛和脖子跟不上小球來回跳動的速度,一會就失去興趣,換臺了。
(中國乒乓球運動員:馬龍)
而籃球作為一項高速運動,對其進行視訊分析幾乎是所有比賽中最難的。場上10個高壯大漢,不僅經常在逼仄空間和快速移動中重疊、衝撞、跳起、變向,令人難以識別,而且比賽規則也極為繁瑣:是否踩線、蓋帽還是干擾球、打手還是有效防守……均在一線之間。更不必說球出手後有多種可能:傳球、投籃、三分投籃,甚至可能是一個極為花哨的上籃動作。
還是那句話,人類往往對自己已經具備的能力過於輕視,不妨試試向一個從未看過球的新朋友講球,感受下什麼是崩潰吧。
為了讓AI能看懂球,IBM採用了“多模態視覺理解技術”。比如說,怎麼確定眼前這個漂移投三分的是球員庫裡?這就要涉及到機器視覺(確定庫裡的臉、球衣等)、動作識別(庫裡的投籃、運球、上籃、防守等姿勢)、聲音識別(庫裡進球之後的吼叫或被吹犯規之後的抱怨等)等幾個方面的技術。同樣,通過對各種比賽要素的訓練,機器能看懂什麼叫進球、誰是進攻一方,根據投籃姿勢等不同確定投籃的方式(三分、後仰、上籃、扣籃等等)。
接下來IBM視覺大腦在理解比賽內容後,將海量視訊用自己的邏輯將其分類:比如哪些畫面被定義為扣籃,哪些畫面是後仰跳投,又有哪些是蓋帽等。打完了標籤,再進行檢索,那麼想要什麼素材就都隨用隨取了。有趣的是,IBM視覺大腦還能為動作打分,比如某球員的扣籃動作非常有表現力,能打一百分;而另一位勉強的把球放進籃框,就只能得個及格分了。這種評分機制,正是迅速生成“精華片段”的關鍵。
這看似簡單的幾步,但卻是AI技術突飛猛進的結晶。人類一直以來對複雜模糊情景的快速理解能力,已經基本被AI全部“偷師”過去——要知道,這個系統可是能夠瞬間將幾小時的籃球比賽,按照“靈動”、“霸氣”、“精準”、“強硬”等標準,分成不同段落的。
由此帶來的效率的提升是顯而易見的。剪輯師們再也不用因為趕時間而把一個素材用到爛,而且資料的快速處理,也就能夠在海量視訊資源中掘金,讓歷史影像資料都能夠得到最大化的價值利用。
有資料顯示,在海量儲存視訊中,能被使用者高頻調取的資料僅佔總量的20%。因此,很多視訊運營者致力於在資料爆炸的時代中,有效盤活另外80%的非活躍資料。到2025年,全球資料量將達到163ZB,想再讓人類去處理這天文數字已經不太可能,這恰恰為IBM視覺大腦提供了用武之地。
讓工具回到工具,把人當人
不難看出,對於視訊剪輯師而言,IBM視覺大腦能夠給出最符合製作需求的視訊片段。當尋找合適的素材這個需要耗費大量時間的環節被完美解決之後,剪輯師的工作任務也就被分解,從而可以騰出更多的時間開發出更多有創意的視訊內容。
只有那些真正有創意的,需要發揮人類作為智慧生物體無窮創造力的工作,才真正配得上“腦力勞動”。比如讓IBM視覺大腦去拍部李安的電影,是根本沒門的。反過來說,能夠被IBM視覺大腦代替的工作,恐怕也不好意思再說是什麼“腦力勞動”了。比如各類視訊的粗剪,產品質量的檢測,安防監控,都不太需要再安排一個人類盯著了,還不如用AI:成本更低,效率更高。
總之,AI技術進步並非是要來搶人類的飯碗。而是代替人類去做那些重複、單調、低水平的工作,解放人類。讓工具回到工具,把人當人,進而增加整個社會的效率和幸福感。
IBM視覺大腦無疑是人類智慧實踐的結晶之一,然而即便強大如它,也不過屬於目前AI領域多個探索賽道其中的一條。像這樣有趣的故事,地球上每時每刻都在上演著。
日前,Discovery探索頻道推出了一部名為《THIS IS AI》的紀錄片,在這部由十個章節組成的AI全景紀實中,IBM視覺大腦代表了第八章節“人造第六感”的技術路線——由於AI具備了面孔識別、語言理解和動態視訊分析能力,很多國家的安全部門已經以AI為助手,識別潛在的犯罪行為。
這是我目前看過的市面上所有講述AI的紀錄片中,最清晰直白,最容易理解,也最實實在在的一部。在這裡,沒有遙遠的猜測或過於巨集大的論述,只有一個個真實存在的案例、問題和實踐。你能看到人類是如何利用AI,一個個攻克技術難題,又如何在與AI共處中,探索出新的分配結構和認知體系,彷彿一部“科技創世紀”。
這十個自成邏輯的章節,從“理解人類語言”,再到“與機器爭辯”,進而探討“機器如何學習”,最終直到“與機器融為一體”。無論你是一名普通的科技從業者,媒體人,學生,甚至只是一名路人,都值得一看。因為這部紀錄片所描述的內容,包含了人類改變自身命運的最新實踐和未來可能,更不必提連中學生都能看懂。
接下來一個半小時裡,你可以找個舒服的地方,安靜享受思維與認知的快感。如果時間不夠也沒關係,收藏起來這篇文章,每天看個幾分鐘,用來下飯也是好的——
文| 錢德虎