你還好意思說自己是腦力勞動者嗎？

IBM 設計 · 發表 2018-11-08 10:17:41

摘要：很長時間以來，人類區別腦力勞動和體力勞動的標準，是頗值得反思的。我們一般預設，那些坐在辦公室裡的人，都應該屬於腦力勞動者，即在工作中基本不使用頭部和手指以外肌肉的人。在東亞這種極為重視教育的民族氛圍中，更將這種區別二元對立化，認為體力勞動只是簡單、重複、乏味的肌肉迴圈，唯有腦力勞動才是充...

很長時間以來，人類區別腦力勞動和體力勞動的標準，是頗值得反思的。

我們一般預設，那些坐在辦公室裡的人，都應該屬於腦力勞動者，即在工作中基本不使用頭部和手指以外肌肉的人。在東亞這種極為重視教育的民族氛圍中，更將這種區別二元對立化，認為體力勞動只是簡單、重複、乏味的肌肉迴圈，唯有腦力勞動才是充滿挑戰、變化、不可預測的高智慧人類勞動。

這個區別以及背後的含意真的準確嗎？比如橄欖球運動員，個個體壯如牛，喘著粗氣鼓著腮幫子奔跑、衝撞甚至抱摔，然而橄欖球是一項非常講究規則戰術，嚴格依靠團隊配合，並且極其考驗個人瞬間判斷的運動。這些壯漢在工作時，不動腦嗎？

再比如面朝黃土背朝天的農民，以及工廠裡的焊接工，他們不僅要掌握並不斷打磨自己的技藝，還必須應付工作中的隨機性，比如氣候變化和不規則模具。他們不是什麼識文斷字的高手，但在自己的工作領域內，具備了極高的技能儲備和應變能力，這些統統都是需要腦力判斷的。

更關鍵的，還不是體力勞動者動不動腦，而是那些“腦力勞動白領”們，平時的工作真的都屬於挑戰、變化、不可預測、需要高階智慧判斷的嗎？

財會人員每天大量的時間，會用在比對資料，整理表格上；合格的文字工作者，其收集素材與產出內容的比例至少是二比一以上；教師、律師、醫生等職業在絕大部分時間談不上什麼處理新鮮事，每天都在應付一些淺層知識的重複呼叫；至於客服、錄入員、稽核員等等傳統的白領職位，就離“腦力勞動”更遙遠了。

說這個話題，不是為了抨擊什麼，而是揭示目前人類勞動狀態中，依然有太多重複、單調、無聊的時刻，即便在傳統意義上的“腦力勞動”中也是如此。

這不是一種讓人類更幸福的工作模式，因為在這些勞動崗位上，人其實只是工具。和一個扳手、錘子、釘子沒什麼區別，只不過人比這些工具多讀了十幾年書罷了。比如近幾年很多公司都在做實時翻譯機，看著手裡這個雞蛋大小的玩意能夠清晰翻譯多國語言，不少專業八級的外語高材生難過起來——這工具不就是他們真人的物化版本嗎？

從21億秒中找出60秒

自從拿到NBA賽事的網路傳播權後，騰訊的視訊庫中就積累了長達69年、超過21億秒的籃球比賽視訊素材。這豐富而龐大的視訊資料儲備，既是幸福也是煩惱。

這是一個常見的情景：在NBA比賽傳播中，需要經常為某個球員做一段精華集錦片段，比如當這個球員被評獎、本場比賽發揮出色或者人氣很高時，我們在網上都看過大量此類視訊。

然而，有誰考慮過，製作這些視訊的剪輯師要怎樣工作呢？他們需要從數億秒的視訊中找到60秒可用的素材，再通過自己的認知判斷將其剪為一段完整的視訊，最後再配上音樂和特效才能完成。

在傳統意義上，這份工作毫無疑問屬於腦力勞動，然而上文的質疑同樣有效：按照特定屬性尋找視訊素材、遍歷一個巨大的資料庫、將這些視訊素材組合成一個符合邏輯的視訊時間軸，如果抽象出來，這幾步工作就是尋找、判斷、剪接的動作不斷重複，這真的是“智慧結晶”嗎？

於是，騰訊找來了一個幫手，一起分擔這種單調重複的勞作——IBM AI Vision視覺大腦。（以下簡稱IBM視覺大腦）

IBM視覺大腦的工作原理並不複雜，只是模擬了一個正常人類剪輯師要做的工作——

首先，騰訊體育編輯會根據需求為IBM視覺大腦下達任務，比如“尋找凱文•杜蘭特的精彩瞬間”，這些精彩瞬間包括投籃、扣籃、搶斷、蓋帽等內容。

接下來，IBM視覺大腦會對視訊素材的每一幀資料進行多通道分析，並打上標籤，包括人物、運動軌跡、聲音等，將非結構化視訊資料提取為結構化資料，並用資料庫進行實時管理，讓每一幀畫面都變得可檢索。同時，還會針對動作的精彩程度和不同主題的匹配程度，生成綜合評價。

最後，根據體育編輯設定的主題和球員等要求，“AI剪輯師”按照綜合評分選出最貼切主題的精彩視訊片段，幾乎實時自動生成一分鐘剪輯視訊，並加上特效處理。而這一系列操作，IBM視覺大腦僅僅需要20秒鐘就夠了。

這意味著什麼呢？

看球沒那麼簡單

鑑於讀到本文的大多是成年人，所以必須請大家回憶一下自己童年時期，第一次在電視上看到乒乓球比賽時的情景。我當時唯一的感覺就是“不知道球在哪裡”，眼睛和脖子跟不上小球來回跳動的速度，一會就失去興趣，換臺了。

（中國乒乓球運動員：馬龍）

而籃球作為一項高速運動，對其進行視訊分析幾乎是所有比賽中最難的。場上10個高壯大漢，不僅經常在逼仄空間和快速移動中重疊、衝撞、跳起、變向，令人難以識別，而且比賽規則也極為繁瑣：是否踩線、蓋帽還是干擾球、打手還是有效防守……均在一線之間。更不必說球出手後有多種可能：傳球、投籃、三分投籃，甚至可能是一個極為花哨的上籃動作。

還是那句話，人類往往對自己已經具備的能力過於輕視，不妨試試向一個從未看過球的新朋友講球，感受下什麼是崩潰吧。

為了讓AI能看懂球，IBM採用了“多模態視覺理解技術”。比如說，怎麼確定眼前這個漂移投三分的是球員庫裡？這就要涉及到機器視覺（確定庫裡的臉、球衣等）、動作識別（庫裡的投籃、運球、上籃、防守等姿勢）、聲音識別（庫裡進球之後的吼叫或被吹犯規之後的抱怨等）等幾個方面的技術。同樣，通過對各種比賽要素的訓練，機器能看懂什麼叫進球、誰是進攻一方，根據投籃姿勢等不同確定投籃的方式（三分、後仰、上籃、扣籃等等）。

接下來IBM視覺大腦在理解比賽內容後，將海量視訊用自己的邏輯將其分類：比如哪些畫面被定義為扣籃，哪些畫面是後仰跳投，又有哪些是蓋帽等。打完了標籤，再進行檢索，那麼想要什麼素材就都隨用隨取了。有趣的是，IBM視覺大腦還能為動作打分，比如某球員的扣籃動作非常有表現力，能打一百分；而另一位勉強的把球放進籃框，就只能得個及格分了。這種評分機制，正是迅速生成“精華片段”的關鍵。

這看似簡單的幾步，但卻是AI技術突飛猛進的結晶。人類一直以來對複雜模糊情景的快速理解能力，已經基本被AI全部“偷師”過去——要知道，這個系統可是能夠瞬間將幾小時的籃球比賽，按照“靈動”、“霸氣”、“精準”、“強硬”等標準，分成不同段落的。

由此帶來的效率的提升是顯而易見的。剪輯師們再也不用因為趕時間而把一個素材用到爛，而且資料的快速處理，也就能夠在海量視訊資源中掘金，讓歷史影像資料都能夠得到最大化的價值利用。

有資料顯示，在海量儲存視訊中，能被使用者高頻調取的資料僅佔總量的20%。因此，很多視訊運營者致力於在資料爆炸的時代中，有效盤活另外80%的非活躍資料。到2025年，全球資料量將達到163ZB，想再讓人類去處理這天文數字已經不太可能，這恰恰為IBM視覺大腦提供了用武之地。

讓工具回到工具，把人當人

不難看出，對於視訊剪輯師而言，IBM視覺大腦能夠給出最符合製作需求的視訊片段。當尋找合適的素材這個需要耗費大量時間的環節被完美解決之後，剪輯師的工作任務也就被分解，從而可以騰出更多的時間開發出更多有創意的視訊內容。

只有那些真正有創意的，需要發揮人類作為智慧生物體無窮創造力的工作，才真正配得上“腦力勞動”。比如讓IBM視覺大腦去拍部李安的電影，是根本沒門的。反過來說，能夠被IBM視覺大腦代替的工作，恐怕也不好意思再說是什麼“腦力勞動”了。比如各類視訊的粗剪，產品質量的檢測，安防監控，都不太需要再安排一個人類盯著了，還不如用AI：成本更低，效率更高。

總之，AI技術進步並非是要來搶人類的飯碗。而是代替人類去做那些重複、單調、低水平的工作，解放人類。讓工具回到工具，把人當人，進而增加整個社會的效率和幸福感。

IBM視覺大腦無疑是人類智慧實踐的結晶之一，然而即便強大如它，也不過屬於目前AI領域多個探索賽道其中的一條。像這樣有趣的故事，地球上每時每刻都在上演著。

日前，Discovery探索頻道推出了一部名為《THIS IS AI》的紀錄片，在這部由十個章節組成的AI全景紀實中，IBM視覺大腦代表了第八章節“人造第六感”的技術路線——由於AI具備了面孔識別、語言理解和動態視訊分析能力，很多國家的安全部門已經以AI為助手，識別潛在的犯罪行為。

這是我目前看過的市面上所有講述AI的紀錄片中，最清晰直白，最容易理解，也最實實在在的一部。在這裡，沒有遙遠的猜測或過於巨集大的論述，只有一個個真實存在的案例、問題和實踐。你能看到人類是如何利用AI，一個個攻克技術難題，又如何在與AI共處中，探索出新的分配結構和認知體系，彷彿一部“科技創世紀”。

這十個自成邏輯的章節，從“理解人類語言”，再到“與機器爭辯”，進而探討“機器如何學習”，最終直到“與機器融為一體”。無論你是一名普通的科技從業者，媒體人，學生，甚至只是一名路人，都值得一看。因為這部紀錄片所描述的內容，包含了人類改變自身命運的最新實踐和未來可能，更不必提連中學生都能看懂。

接下來一個半小時裡，你可以找個舒服的地方，安靜享受思維與認知的快感。如果時間不夠也沒關係，收藏起來這篇文章，每天看個幾分鐘，用來下飯也是好的——

文| 錢德虎

你還好意思說自己是腦力勞動者嗎？

您可能也會喜歡…