從ICT巨頭到NLP領軍者,神州泰嶽成功“跨界”
2019全球智博會(ai-expo.org.cn)將於今年5月9日至11日在蘇州工業園區舉辦。大會舉辦前期,億歐作為全球智博會合作媒體先後對即將參與本屆智博會的重點企業進行了走訪。
NLP被稱為人工智慧“皇冠上的明珠”。NLP研究的領域包括自然語言理解、自然語言生成、文字分類、資訊檢索、問答系統、機器翻譯等等,每個領域都需要深入探索,缺乏能解決所有問題的通用技術。此外,與計算機視覺技術不同,中文的語言學無法直接遷移到國外成熟的學習模型中,這也為國內NLP技術帶來了更多的挑戰。
而說起國內研究NLP的企業,不少人都會想到百度、科大訊飛等巨頭,但卻常常忽略了一家傳統以ICT為主要業務的公司——神州泰嶽。
十年前的“偶然”,從ICT到AI-NLP
神州泰嶽成立於1998年,早期以ICT業務為主。2016年,神州泰嶽正式確立了新的方向,形成了現在以ICT運營管理、人工智慧與大資料、物聯網及通訊技術應用三大馬車為主的戰略佈局。
雖然神州泰嶽在2016年才強調自己的人工智慧戰略,但公司對人工智慧的研究卻不是從2016年才開始的。神州泰嶽副總裁李國東告訴億歐,他們研究人工智慧,最早能追溯到2008年左右。
“在傳統的電信業務中,使用者需要打電話來諮詢話費套餐情況,我們最早是想研發一款客服機器人,優化這一塊的業務。”李國東說。但要讓客服機器人真正能像人一樣,擁有連續對話的能力,只依靠建立資料庫並抽取所需資料是不夠的,還要讓機器人能“理解”人說話時表達的核心意思。而這就需要用到自然語言處理技術,這也是神州泰嶽發展NLP的初衷。
從2008年左右至今,神州泰嶽在NLP相關領域的探索已有將近十年,經過十年的積累,神州泰嶽在NLP領域探索出了自己的道路。
人工智慧能夠分為感知智慧和認知智慧,其中認知智慧的最大技術挑戰就是NLP。對NLP而言,中文的歧義性是一個繞不開的難題。同一個詞彙在不同的語境中,可能代表著不同的意思,因此解決“歧義性”的問題,就需要讓機器能夠根據不同使用場景來判斷語義。
針對這個難題,神州泰嶽推出了獨創的“本體建模技術”。“本體”可以作為NLP場景化應用的知識表示框架,在特定場景下,把與場景相關的領域知識、NLP任務、語言資源等內容進行形式化規範描述,以實現面向任務的概念模型,使得NLP場景應用實現最大化的共享。
除了歧義性外,NLP的另一難題是如何處理語言結構。比如,中文可以形成“主語+謂語+賓語”的句子結構,而在此基礎上還能形成述補、“把”字句、“被”字句、巢狀式的多重結構等,不同的結構對機器翻譯技術存在較大影響。
但該如何對待語言結構,目前在學術界尚未達成共識。深度學習在影象和語音處理方面立下“汗馬功勞”,但在NLP中,深度學習智慧把橘子當做一個序列來處理,不涉及序列的遞迴處理,因此深度學習在處理語言結構方面並沒有太多突破性的成績。
而神州泰嶽將符號化語義與深度學習技術結合,研發了自主智慧財產權的智慧語義認知技術,即能有效地識別多種語言結構,實現同一意思、不同結構的歸一化處理;同時對語言結構的遞迴巢狀處理,也表現優異。據瞭解,目前該技術已經可以識別出3層以上語言結構的遞迴嵌,極大增強了NLP的可解釋性。
“少年”NLP,未來大有可為
技術與應用是相輔相成的。神州泰嶽從具體業務的需求出發,著手NLP的研究。如今,神州泰嶽已經在NLP領域實現了巨大的突破,“如果影象處理能被稱為成熟期,那麼NLP可以認為處於少年期。”李國東說,通常一項技術的準確率能達到85%左右,這項技術就能開始落地應用了。前幾年,深度學習的發展讓影象處理的成功率提到了90%以上,這使得影象處理能夠走進市場,得以重用。
“現在NLP的成功率能達到80%左右,即將靠近85%。”李國東說,這意味著少年期的NLP很快將走出“象牙塔”,走向大規模應用。“可以發現,前年NLP的實際落地案例還沒有那麼多,但NLP的熱度越來越高,去年開始落地案例也一個接著一個出現了,包括我們自己也在公安行業有很好的落地。”
公安是神州泰嶽選擇深耕重要領域之一,“我們已經紮根了兩三年了。”
說起公安、警務,不少人都會聯想到人臉識別。但人臉識別只是其中一個環節,筆錄、審訊記錄的整理也是必不可少的工作。通過整理文書,辦案人員才能更好地挖掘出案件的蛛絲馬跡,並進行串併案分析。這其中涉及文書的部分,就是NLP能夠大展拳腳的地方。
去年,神州泰嶽推出了面向公安行業的綜合應用產品——“智腦2.0”,一款以人工智慧-自然語言處理(AI-NLP)為核心,以極速計算、實體360°全息畫像、資料共享為支撐的跨警種跨網域的產品,適用於公安全警種。
據瞭解,目前神州泰嶽已與北京市公安局、廣西公安廳、石家莊市公安局、太原市公安局、貴陽市公安分局等積極開展合作,並與北京銳安科技有限公司(公安部第三研究所控股)戰略合作、成立大資料生態聯盟,共同開拓公安大資料市場。
“智腦2.0”擁有“類腦智慧”,可對公安“人、事、地、案、物、組織”的資料資訊進行智慧化語義分析、線索挖掘、關聯關係分析、資料碰撞比對等,從而輔助公安機關進行案事件偵察研判,增強破案實戰效率。同時,“智腦2.0”還擁有融合共享的特性,可貫穿元件與元件之間的資料聯動,頁面聯動、功能效果呈現等應對不同公安應用場景建設,可快速靈活地進行業務調整,滿足公安系統的升級改造需求。其“360度全息畫像”還能自動將碎片化的“人、事、地、案、物、組織”等獨立的資訊進行提煉融合,形成嫌疑人的360°全息畫像。
最重要的是,“智腦2.0”獨有的公安筆錄文字分析功能,能通過感知智慧技術和智慧識別,對所有警員的有效研判動作進行記憶儲存及分析,把海量的公安筆錄全部閱讀記錄,並且進行提煉、歸納。將零碎的資訊關聯起來,為將來一鍵破案做足夠積累。
公安只是神州泰嶽NLP技術落地的其中一個場景,隨著NLP技術的進一步成熟,神州泰嶽的NLP技術還將應用到更多的場景中。“只要有語言、有文字的地方,都能用上自然語言處理技術。”李國東說,比如公檢法司有大量的卷宗,NLP能根據文書內容生成摘要,提取文字重點,幫助工作人員快速找到需要的資料;再例如專利審查領域,NLP能夠輔助寫作,協助專利文書分類,提升審查效率。
“當然,即使沒有人工智慧,這些工作依靠人力也一樣能完成,但是有了技術的幫助之後,整個工作的效率將得到極大的提升。”李國東認為,無論對任何職業而言,經驗都非常重要。但經驗通常只能用時間來積累,這也是為什麼“老警官”“老法官”顯得異常“寶貴”。
而用了人工智慧技術後,機器能夠幫助行業新人快速總結出規律,得出經驗。比如年輕的法官想知道某型別的案件在國內曾有多少起相似的案例,過往案件是如何判決的,機器能夠快速找到相應資料,幫助法官總結相關經驗,極大提高工作效率。
建平臺,定標準,致力推動NLP應用
雖然NLP即將步入成熟期,但從“少年”過渡到“成人”,除了需要繼續攻克技術難關外,NLP還面臨著幾座大山。一是NLP技術的“知名度”不足,許多人不知道該技術能怎麼用,以及該如何獲取;二是學術研究與產業脫節的問題,掌握NLP最前沿技術的人幾乎都在高校中,而最需要使用這項技術的人還在市場中苦苦尋覓;三是針對各個行業的語料庫資料不足,導致落地時無法順利推進。
針對NLP技術突破以及落地應用的難題,中文資訊(深度)處理開放創新平臺(簡稱中文資訊平臺)應運而生。據瞭解,該平臺是在中國中文資訊學會的指導和建議下,由中國中文資訊學會指定的產學研落地唯一合作伙伴神州泰嶽為建設和運營主體的產學研一體化平臺。
“簡單來說,這個平臺就像是個NLP的淘寶。但它又不像淘寶那麼簡單。”李國東告訴億歐,如果將NLP技術比喻成一件商品,目前國內最好的NLP都“滯留”在高校和研究院中,並沒有被廣泛地“用”起來,平臺的作用就像是淘寶平臺,將這些技術展示出來,那些不擅長NLP的人,就可以到這個平臺上來挑選自己需要的“商品”。
但NLP終歸不是普通的商品,不能即拿即用,需要根據具體的行業進行調整和定製。因此,平臺還配有專業人員,幫助技術的落地應用,讓中文資訊平臺能真正發揮產學研的橋樑作用。
李國東告訴億歐,中文資訊平臺的服務能夠總結為“一雲四塊兩線”。
“一雲”是指平臺是以雲的形式呈現,讓使平臺服務隨處可見、隨處可用。
“四塊”包含開放板塊、創新板塊、資料板塊、培訓互動板塊。開放板塊,顧名思義,是將行業解決方案、技術演算法等開放給市場;資料板塊提供行業訓練資料集、評測資料集、大資料工具集等,為NLP發展提供“養料”;培訓互動板塊和創新板塊更偏向於幫助技術落地,推動專案落地、技術推廣,以及知識分享。
“兩線”指的是“線上”和“線下”。線上採用公有云,提供技術及服務展示、服務功能和資料集的PaaS、SaaS呼叫,利用PaaS服務進行業務原型拼裝。線上模式為租用模式,適用於中小微企業的人工智慧應用開發,同時滿足創新團隊、在校學生進行二次開發和創新。線下采用私有云,按需為企業使用者搭建完整的應用,更適用於大中型企業。
為更好促進中文資訊平臺中NLP技術的開放,並推動NLP成為更廣泛的應用,去年神州泰嶽還推出了“泰嶽語義工廠”,定位“自然語言應用的Intel”,打造“Ultra NLP inside”模式,並將神州泰嶽的 NLP 技術及服務開放,讓 NLP 技術賦能應用開發 。
今年3月,OpenI啟智新一代人工智慧開源開放平臺盛大發布,OpenI是在國家相關部委的指導下,由新一代人工智慧產業技術創新戰略聯盟(AITISA)組織,產學研用通力協作的新一代人工智慧開源開放平臺。神州泰嶽不僅是AITISA組織NLP的推進組組長,也是OpenI上NLP方面提供開源內容的夥伴。
推動NLP的產學研結合,除了建立平臺外,推動標準統一也十分重要。“現在看起來各家都在做不一樣的事,但本質其實都一樣。”李國東說,比如句法分析這類底層的技術,“大家用的方法都不太一樣,但最終目的是一樣的。”再例如各家的介面都不統一,雖然實現的功能相同,但卻不能大規模推廣。
李國東告訴億歐,因此今年NLP推進組的一大課題就是推動標準化。“制定了標準,就能有更多標準化的應用擴充套件,NLP才能進一步得到推廣和應用。”
附:2019全球人工智慧產品應用博覽會
2019全球智博會(http://www. ai-expo.org.cn),定於今年5月9日至11日在蘇州工業園區舉辦。此次全球智博會由國家科學技術部、工業和資訊化部和江蘇省人民政府指導、蘇州市人民政府和新一代人工智慧產業技術創新戰略聯盟聯合主辦、蘇州工業園區管理委員會、蘇州啟智創新科技有限公司承辦。這場人工智慧博覽會的目標,是力爭成為中國人工智慧技術創新、產業發展和應用落地的風向標。
AI如何持續滲透平安城市?安防企業為何紛紛“進軍”商業?智慧交通除了“大腦”還該關注什麼?如何抓準家庭社群安全零散的市場?
2019年5月23/24日,億歐將舉辦GIIS2019中國智慧城市峰會,本次峰會將延續前兩次會的主題,邀請知名專家學者、行業龍頭企業、標杆初創企業、知名投資人等,聚焦技術在智慧城市領域(平安城市、智慧商業、智慧交通、家庭社群安全)的應用現狀及未來發展。
活動連結:
https://www.iyiou.com/post/ad/id/795
版權宣告
本文來源億歐,經億歐授權釋出,版權歸原作者所有。轉載或內容合作請點選轉載說明,違規轉載法律必究。