人工智慧將如何顛覆現有的文字工作?
人類發明了數字和文字,來幫助我們能夠來記憶這些重要的資訊
人工智慧逐漸改變了很多職位的工作方式,
文字作為資訊傳遞的主要載體,
那些和文字閱讀、處理、分發、生產相關的工作,
將如何被人工智慧重塑?
本文為達觀資料創始人陳運文
在東方財經浦東頻 道《創贏未來》中的 演講,
一起來看文字智慧處理的現在和未來。
我在復旦大學計算機系讀完博士以後,在百度、盛大、騰訊分別從事過文字挖掘的技術管理工作。我們團隊也是由心懷著文字自動化處理夢想的小夥伴們構成的。
人類文明從誕生文字的那一刻起開始算,已經有五千年的歷史。人類文明史上最早的四種文字分別是兩河流域的楔形文字、埃及的聖書文、瑪雅文和中國的甲骨文。約在公元前2600年,這四種文字在全球的四個不同的地區,獨立產生出來。
人類最早誕生的一塊文字叫“庫辛石板”,它是在公元前2600年時,在幼發拉底河和底格里斯河兩河流域發現的最早的楔形文字泥板,它也是人類考古學裡發現的最早的文字痕跡。裡面記錄了一個叫庫辛的人在37個月的時間裡,總共收到了2萬9千多個大麥。也就是說,人類文明史上最早的文字既不是歌頌王侯將相的詩歌,也不是描述勞動人民狩獵的場景,更不是詩歌或者是祭文,而是一個財務報告。這是因為人腦對文字和數字的記憶是非常弱的,時間久了會記不住具體的數字和文字細節。 因此,人類發明了數字和文字,來幫助我們能夠來記憶這些重要的資訊。
達觀的計算機系統也同樣是輔助我們來完成很多文字分析、記錄、處理的工作,它可以讓我們更加輕鬆地工作和生活。
文書處理的應用面非常廣,簡單來說可以分成兩大部分。 第一部分是代替人來完成文字的閱讀工作,第二部分是代替人來完成文字的寫作工作。
讀和寫是我們每個人每天都在做的工作,它耗費了我們大量的時間。我們做了一個統計,不管你是公務員、財務人員、法務人員,還是傳媒公司的校對人員,其實每天都有大量的工作是稽核材料。稽核材料就需要閱讀這些材料並基於你對這個領域的理解去判斷材料有沒有問題。一個普通的白領每天有超過三分之一的時間是用在文字的讀和寫上的。
我們的計算機軟體自動化系統,可以讓這些文字工作由繁化簡。它能從頭到尾完成一個文件的閱讀工作,從裡面自動化抽取出關鍵要素,並且根據相應的法規、合規和審查內容,判斷出文字是否能夠通過相應的合規檢查。 我們的系統已經在很多政府機構、大型央企、五百強企業、四大會計師事務所裡面應用,大幅度地減輕了人工的負擔。
除了文字稽核以外,大量文件資料的比對、搜尋、知識提取和知識網路的構建也是非常重要的事情。我們做文字閱讀時,平均一秒鐘一個人的閱讀速度大概是20-30字,相當於一條微信的長度,效率是非常低的。但是計算機一秒鐘可以閱讀一萬字,它的速度是人的幾百倍,更何況我們提供的是幾千臺伺服器的一整套叢集,它的閱讀速度是非常驚人的,可以大幅度地縮短文字閱讀處理的時間。原來可能一個團隊三五個人用一週才能完成的工作,現在用我們的計算機系統只要十幾分鍾就可以完成,效率大幅提高。
在網際網路的文字資訊處理方面,我們也有個性化推薦的系統。很多網際網路的客戶,他們有大量的文件資料, 比如對商品的使用者意見分析、商品資訊搜尋、資訊推薦等,這些都可以用我們的計算機系統代替人來完成。 同時,很多中國的大型企業、五百強客戶、四大會計師事務所等,他們的員工每天都要閱讀大量的合同、財務報表,去分析各種各樣的上市公司的公告,這些工作非常費時費力。一但用了我們的計算機軟體來做這些工作,不但效率提高了,而且出錯的概率更小。
中國有句古話,叫“讀書破萬卷,下筆如有神”。我們讓軟體系統閱讀人類所積累下來的文件資料,去分析裡面字詞的語言模型和語法規律,從而讓計算機能夠具備不亞於人類的文字閱讀理解能力。截至目前,我們已經積累了超過兩百億字的文件資料。
也期待在不久的將來,計算機能夠成為我們每個企業、每一個人身邊非常好的助手。 我 們預測到2035年的時候,有超過一半的文字日常處理工作,都可以讓計算機代替人類來完成,期待這天能夠早日到來。