靠譜!NLP值得學習的關鍵技術有哪些?
公眾號/AI前線
嘉賓 | 高揚
策劃 | QCon 廣州站專案組
編輯 | Vincent
AI 前線導讀:文字資料作為企業重要的資料資產,我們都渴望從中分析出一些有價值的結論,並驅使商業應用利用其進一步發展。自然語言處理(NLP)技術已經有了產品落地和商業化的一些經驗,比較成熟的商業化包括搜尋引擎、個性化推薦、廣告、細分領域的知識問答 / 智慧問答等,也有很多企業聲稱在自己的產品中採用了這些技術,但真正能產生多少價值還值得進一步探討。因此,NLP 技術離完美解決問題、滿足複雜的業務場景需求還有一定的距離。
QCon 全球軟體開發大會(廣州站)本次採訪到了 「深度培訓」 講師高揚,跟大家分享下 NLP 技術在行業內的發展現狀,聊一聊解決 NLP 技術關鍵難題的突破口在哪裡?有哪些必須學習的關鍵技術以及適配哪些場景?
更多優質內容請關注微信公眾號“AI 前線”(ID:ai-front)
「嘉賓簡介」高揚,珠海金山辦公軟體 AI 工程組架構師。曾在金山軟體西山居遊戲工作室、歡聚時代等公司任架構師、技術專家職務,負責人工智慧、大資料等領域的技術方案及落地研究工作。著有《白話大資料與機器學習》《白話深度學習與 TensorFlow》《白話強化學習與 Pytorch》《資料科學家養成手冊》等多本技術暢銷書。目前主要負責主要落實人工智慧落地的相關工作,包括演算法層面的和工程層面的。
InfoQ:高揚老師,你怎麼看待 NLP 技術在行業內的發展現狀?其商用進展是否緩慢?造成這樣的原因是什麼?
高揚: 我認為 NLP 技術的發展現狀仍然處在相對初級的階段。之所以這樣說,是因為結合目前各廠商的產品釋出來看,其實落地的點仍然比較有限。而且場景非常聚焦,很難出現像人臉識別這樣比較廣譜的現象級服務產品。造成這樣的原因其實比較簡單,第一、高質量語料的獲取成本很高;第二、真正懂 NLP 技術的人還是比較少,門檻比較高。 這樣整個行業的研發的氣氛其實仍然是比較低迷的,儘管很多大廠確實在努力地進行著產品研發工作。
InfoQ:NLP 技術的應用有哪些關鍵難題?解決這些難題的突破口在哪裡?
高揚: 在深度學習逐漸成熟之後,NLP 技術的研發確實比在以前傳統機器學習環境下有個更多的選擇。就目前而言,所有落地的產品都面臨很多模型“無法學會”的東西。說它“無法學會”主要是很多語言語義上的內容的先驗知識和上下文學習困難。因為人在說話的過程中有完整的場景、完整的話題背景,還有人自己完整的知識體系,這些在 NLP 領域的構造量化還是沒有有效的突破性技術。或者說以目前的學術技術水平要想達到那樣的要求需要比現在高出幾個數量級的儲存和運算能力——這不是一個務實的研究方法。
因此在目前的企業中,本著做產品的態度來做事情的話,仍然是傾向於 以規則方法和深度學習模型有機結合的方式 來進行處理。價效比往往要比單純依賴深度學習模型高很多。如果非要說突破口的話,我覺得仍然是 理解業務場景,和高質量語料的獲取 問題。
InfoQ:NLP 技術值得學習的關鍵技術有哪些?其重要應用場景有哪些?
高揚:NLP 值得學習的關鍵技術還是非常多的。NLP 領域中主要的任務有:分類任務、生成任務、抽取任務 等幾個方向。
分類任務 是所有任務中最普遍也是最成熟的一種,比如“垃圾郵件分類”“垃圾簡訊分類”“新聞類別分類”等。這裡需要學習的有 分詞技術、TF-IDF、樸素貝葉斯演算法、Word Embedding、LDA、TextCNN 等。學會了這些就可以上手,能幫企業解決不少的相關問題。
生成任務 也比較多,比如“線上機器人客服”“自動寫作”等。這類任務主要需要學習的就是深度學習中的 Encoder、Decoder、RNN 技術等。
抽取任務 現在是越來越多了,畢竟我們經常需要從文件中做摘要資訊,或者是抽取其中我們感興趣的資訊。例如,我們可能需要從一篇簡歷中找出這個人的姓名和聯絡電話,評估出這個人的工作年限、畢業院校,甚至畢業的院校是否是 211/985 等。這通常要用到 NER 技術(命名實體識別),根據標準樣本中對於物件的標註資訊學到一個模型——這個模型具備識別一些詞彙屬性的能力:哪些是人名、地名,哪些是組織機構名等。
當然還有很多衍生出來的模型,不一定都能落地,但是足夠有趣,也值得大家不斷關注。
InfoQ:聊一聊 NLP 技術的未來趨勢?
高揚: 從最前沿科技發展的角度來說,應該會有一批人研究 純粹的無監督學習 的新方法,畢竟這個是非常理想的 NLP 進化方向。不論是分類模型、生成模型還是其他任何 NLP 相關的模型都會是向這個趨勢發展。這個趨勢應該是沒問題的,從中長期來看即便不火熱也會一直有人去研究。這類方法的話可能要基於目前所成熟的知識圖譜技術或者其他輔助的降維手段。這類技術可以關注,但是落地的話不能寄期望於它,因為技術成熟是有一個週期的。
作為企業來說,我認為還是應該做窄而深的積累,也就是應用自己積累的優勢來做產品。所以從產品落地的角度來說,還是 要看自己目前手裡的樣本都有什麼,成本夠不夠有優勢。因為從務實的角度來說,企業是不可能在 NLP 方面做無謂的沒有預期的投入,因此,緊扣自己業務產品的各種技術的細化落地會是比較靠譜的方向。
基於 Tensorflow、Pytorch 的,以 CNN、RNN、BiRNN、CRF 為實現基礎的分類、提取、生成技術肯定是要在未來幾年逐步普及的。這個我相信在絕大多數企業中都會有比較真實的應用場景。
InfoQ:聽說你要在 QCon 廣州站做一場 NLP 技術相關的深度培訓,主要內容是什麼?希望聽眾能從中學到什麼?
高揚: 這次面向的聽眾其實還是比較開放的,既要兼顧技術人士,也同時要兼顧管理決策層人士和產品、運營等公司一線的相關人員。所以內容主要涉及的還是切中 應用的場景、技術原理,以及實現難度的客觀評估。脈絡上還是以當前比較成熟和流行的技術為主要脈絡,兼顧一些前沿技術的展望。應該是會讓不同崗位的聽眾都能從中獲取對自己工作有幫助的資訊。