肖仰華談知識圖譜:知識將比資料更重要,得知識者得天下
ofollow">
CSDN 出品的《2018-2019 中國人工智慧產業路線圖》V2.0 版即將重磅面世! V1.0 版釋出以來,我們有幸得到了諸多讀者朋友及行業專家的鼎力支援,在此表示由衷感謝。此次 V2.0 版路線圖將進行新一輪大升級,內容包括 3 大 AI 前沿產業趨勢分析,10 位 AI 特邀專家的深度技術分析,15 家一線網際網路企業的 AI 實力大巡展,以及 20 個 AI 優秀應用案例,力求為讀者呈現更全面的中國人工智慧產業發展概況和趨勢判斷。 V2.0 版將於 11 月 8 日舉辦的 2018 AI 開發者大會上正式釋出,在此之前,我們將不間斷公佈精要內容,以饗讀者。此為 V2.0 版中深度技術分析系列稿件第 3 篇,作者為 CSDN 特邀 AI 專家——復旦大學教授肖仰華。
作者簡介:肖仰華博士,復旦大學電腦科學與技術學院教授,博士生導師,知識工場實驗室負責人。
一、什麼是知識圖譜
▌1.1 知識圖譜的定義
知識圖譜是什麼?本質上是一種大規模語義網路。理解知識圖譜的概念,有兩個關鍵詞。
首先是語義網路。語義網路表達了各種各樣的實體、概念及其之間的各類語義關聯。
圖1. 知識圖譜示例
比如“C羅”是一個實體,“金球獎”也是一個實體,他們倆之間有一個語義關係就是“獲得獎項”。“運動員”、“足球運動員”都是概念,後者是前者的子類(對應於圖中的subclassOf 關係)。
理解知識圖譜的第二個關鍵詞是“大規模”。語義網路並非新鮮事物,早在上個世紀七八十年代知識工程盛行之時,就已存在。相比較於那個時代的語義網路,知識圖譜規模更大。
從2012年Google提出知識圖譜直到今天,知識圖譜技術發展迅速,知識圖譜的內涵遠遠超越了其作為語義網路的狹義內涵。 當下,在更多實際場合下,知識圖譜是作為一種技術體系,指代大資料時代知識工程的一系列代表性技術進展的總和。 去年我國學科目錄做了調整,首次出現了知識圖譜的學科方向,教育部對於知識圖譜這一學科的定位是“大規模知識工程”,這一定位是十分準確且內涵豐富的。這裡需要指出的是知識圖譜技術的發展是個持續漸進的過程。從上個世紀七八十年代的知識工程興盛開始,學術界和工業界推出了一系列知識庫,直到2012年Google推出了面向網際網路搜尋的大規模的知識庫,被稱之為知識圖譜。
▌1.2與傳統知識表示的區別
理解今天的知識圖譜內涵,是不能割裂其歷史臍帶的。 上世紀七八十年代的各種知識表示與我們今天的知識圖譜到底有著本質差別。傳統語義網路與知識圖譜的差別首先表現在其規模上。
知識圖譜是一種大規模語義網路,與上世紀七八十年代的各類語義網路相比較,最顯著的差異就是規模差異。推而廣之,以知識圖譜為代表的大資料時代的各種知識表示與傳統的知識表示的根本差別首先體現在規模上。傳統知識工程一系列知識表示都是一種典型的“小知識”(smallknowledge)。
而到了大資料時代,受益於海量資料、強大計算能力以及群智計算,我們如今能夠自動化構建、或者眾包構建大規模、高質量知識庫,形成所謂的“大知識”(bigknowledge,合肥工業大學的吳興東教授在很多場合下也提到類似觀點)。所以 知識圖譜與傳統知識表示在淺層次上的區別,就是大知識與小知識的差別,是在規模上的顯而易見的差別 。
更深刻地進行分析就會發現,這樣的一個 知識規模上的量變帶來了知識效用的質變 。
知識工程到了上世紀八十年代之後就銷聲匿跡了。根本原因在於傳統知識庫構建主要依靠人工構建、代價高昂、規模有限。舉個例子,我國的詞林辭海是上萬名專家花了10多年編撰而成的,但是它只有十幾萬詞條。而現在任何一個網際網路上的知識圖譜,比如DBpedia,動輒包含上千萬實體。人工構建的知識庫雖然質量精良,但是規模有限。 有限的規模使得傳統知識表示難以適應網際網路時代的大規模開放應用的需求。
網際網路應用的特點在於:
-
一、規模巨大,我們永遠不知道使用者下一個搜尋關鍵詞是什麼;
-
二、精度要求相對不高,搜尋引擎從來不需要保證每個搜尋的理解和檢索都是正確的;
-
三、簡單知識推理,大部分搜尋理解與回答只需要實現簡單的推理,比如搜尋劉德華推薦歌曲,是因為知道劉德華是歌星,至於“姚明老婆的婆婆的兒子有多高”這類的複雜推理在實際應用中所佔比率是不高的。
網際網路上的這種大規模開放應用所需要的知識很容易突破傳統專家系統由專家預設好的知識庫的知識邊界。這一定程度上回答了,為何谷歌在2012年這個時間節點推出知識圖譜,利用一個全新名稱以表達與傳統知識表示毅然決裂的態度。
二、知識圖譜的重要性
知識圖譜是實現機器認知智慧的基礎。機器認知智慧的兩個核心能力:“ 理解 ”和“ 解釋 ”,均與知識圖譜有著密切關係。 首先需要給機器“理解與解釋”提出一種解釋。 我認為機器理解資料的本質是建立起從資料到知識庫中的知識要素(包括實體、概念和關係)對映的一個過程 。
比如如果我說到“2013年的金球獎得主C羅”這句話,我們之所以說自己理解了這句話,是因為我們把“C羅”這個詞彙關聯到我們腦子中的實體“C羅”,把“金球獎”這個詞彙對映到我們腦中的實體“金球獎”,然後把“得主”一詞對映到邊“獲得獎項”這個關係。我們可以仔細體會一下我們的文字理解過程,其本質是建立從資料(包括文字、圖片、語音、視訊等)到知識庫中的實體、概念、屬性對映的過程。
再來看人類是如何“解釋”的。比如我問“C羅為什麼那麼牛?”,可以通過知識庫中的“C羅獲得獎項金球獎”以及“金球獎地位影響力最大的足球獎項之一”這兩條關係來解釋這一問題。
這一過程的本質就是 將知識庫中的知識與問題或者資料加以關聯的過程。有了知識圖譜,機器完全可以重現我們的這種理解與解釋過程 。有過一定計算機研究基礎的,是不難完成上述過程的數學建模的。知識圖譜對於機器認知智慧的重要性也體現在下面幾個具體方面。
▌2.1 知識圖譜使能機器語言認知
知識圖譜對機器認知智慧的必要性還可以從若干具體問題來進行闡述。首先,我們來看機器認知的核心能力之一: 自然語言理解 。
我的觀點是 機器理解自然語言需要類似知識圖譜這樣的背景知識 。自然語言是異常複雜的:自然語言有歧義性、多樣性,語義理解有模糊性且依賴上下文。機器理解自然語言困難的根本原因在於,人類語言理解是建立在人類的認知能力基礎之上的,人類的認知體驗所形成的背景知識是支撐人類語言理解的根本支柱。
我們人類彼此之間的語言理解就好比是根據冰山上浮出水面的一角來揣測冰山下的部分。我們之所以能夠很自然地理解彼此的語言,是因為彼此共享類似的生活體驗、類似的教育背景,從而有著類似的背景知識。冰山下龐大的背景知識使得我們可以彼此理解水面上有限的幾個字元。我們可以做個簡單的思想實驗,假如現在有個外星人坐在這裡聽我講報告,他能聽懂麼?我想還是很困難的,因為他沒有在地球上生活的經歷,沒有與我相類似的教育背景,沒有與我類似的背景知識庫。
再舉個很多人都有體會的例子,我們去參加國際會議時,經常遇到一個尷尬的局面,就是西方學者說的笑話,我們東方人很難產生共鳴。因為我們和他們的背景知識庫不同,我們早餐吃燒餅、油條,西方吃咖啡、麵包,不同的背景知識決定了我們對幽默有著不同的理解。所以語言理解需要背景知識,沒有強大的背景知識支撐,是不可能理解語言的。要讓機器理解我們人類的語言,機器必需共享與我們類似的背景知識。
實現機器自然語言理解所需要的背景知識是有著苛刻的條件的:規模足夠大、語義關係足夠豐富、結構足夠友好、質量足夠精良 。
以這四個條件去看知識表示就會發現,只有知識圖譜是滿足所有這些條件的:知識圖譜規模巨大,動輒包含數十億實體;關係多樣,比如線上百科圖譜DBpedia包含數千種常見語義關係;結構友好,通常表達為RDF三元組,這是一種對於機器而言能夠有效處理的結構;質量也很精良,因為知識圖譜可以充分利用大資料的多源特性進行交叉驗證,也可利用眾包保證知識庫質量。所以知識圖譜成為了讓機器理解自然語言所需的背景知識的不二選擇。
▌2.3 知識圖譜使能可解釋人工智慧
知識圖譜對於認知智慧的另一個重要意義在於: 知識圖譜讓可解釋人工智慧成為可能 。
“解釋”這件事情一定是跟符號化知識圖譜密切相關的。因為解釋的物件是人,人只能理解符號,沒辦法理解數值,所以一定要利用符號知識開展可解釋人工智慧的研究。 可解釋性是不能迴避符號知識的 。
我們先來看幾個解釋的具體例子。比如,我若問鯊魚為什麼可怕?你可能解釋說:因為鯊魚是食肉動物,這實質上是用概念在解釋。若問鳥為什麼能飛翔?你可能會解釋因為它有翅膀。這是用屬性在解釋。若問鹿晗關曉彤前些日子為什麼會刷屏?你可能會解釋說因為關曉彤是鹿晗的女朋友。這是用關係在解釋。我們人類傾向於利用概念、屬性、關係這些認知的基本元素去解釋現象,解釋事實。而對於機器而言,概念、屬性和關係都表達在知識圖譜裡面。因此,解釋離不開知識圖譜。
▌2.4 知識引導將成為解決問題的主要方式
知識圖譜的另一個重要作用體現在知識引導將成為解決問題的主要方式。前面已經多次提及使用者對使用統計模型來解決問題的效果越來越不滿意了,統計模型的效果已經接近“天花板”,要想突破這個“天花板”,需要知識引導。
舉個例子,實體指代這樣的文字處理難題,沒有知識單純依賴資料是難以取得理想效果的。比如“張三把李四打了,他進醫院了”和“張三把李四打了,他進監獄了”,人類很容易確定這兩個不同的“他”的分別指代。因為人類有知識,有關於打人這個場景的基本知識,知道打人的往往要進監獄,而被打的往往會進醫院。但是當前機器缺乏這些知識,所以無法準確識別代詞的準確指代。很多工是純粹的基於資料驅動的模型所解決不了的,知識在很多工裡不可或缺。比較務實的做法是將這兩類方法深度融合。
▌2.5 知識將顯著增加機器學習能力
知識對於認知智慧又一個很重要的意義就是將顯著增強機器學習的能力。
當前的機器學習是一種典型的“機械式”學習方式,與人類的學習方式相比顯得比較笨拙。我們的孩童只需要父母告知一兩次:這是貓,那是狗,就能有效識別或者區分貓狗。而機器卻需要數以萬計的樣本才能習得貓狗的特徵。
我們中國人學習英語,雖然也要若干年才能小有所成,但相機器對於語言的學習而言要高效的多。機器學習模型落地應用中的一個常見問題是與專家知識或判斷不符合,這使我們很快陷入進退兩難的境地:是相信學習模型還是果斷棄之?機器學習與人類學習的根本差異可以歸結為 人是有知識的且能夠有效利用知識的物種 。
我相信,未來機器學習能力的顯著增強也要走上充分利用知識的道路。符號知識對於機器學習模型的重要作用會受到越來越多的關注。這一趨勢還可以從機器智慧解決問題的兩個基本模式方面加以論述。
機器智慧的實現路徑之一是習得資料中的統計模式,以解決一系列實際任務。另一種是專家系統,專家將知識賦予機器構建專家系統,讓機器利用專家知識解決實際問題。如今,這兩種方法有合流的趨勢,無論是專家知識還是通過學習模型習得的知識,都將顯式地表達並且沉澱到知識庫中。再利用知識增強的機器學習模型解決實際問題。這種知識增強下的學習模型,可以顯著降低機器學習模型對於大樣本的依賴,提高學習的經濟性;提高機器學習模型對先驗知識的利用率;提升機器學習模型的決策結果與先驗知識的一致性。
因此,知識將成為比資料更為重要的資產 。前幾年大資料時代到來的時候,大家都說“得資料者得天下”。去年,微軟的沈向洋博士曾經說過“懂語言者得天下”。而我曾經論述過,機器要懂語言,背景知識不可或缺。因此,在這個意義下,將是“ 得知識者得天下 ”。 如果說資料是石油,那麼知識就好比是石油的萃取物 。如果我們只滿足賣資料盈利,那就好比是直接輸出石油在盈利。但是石油的真正價值蘊含於其深加工的萃取物中。石油萃取的過程與知識加工的過程也極為相像。都有著複雜流程,都是大規模系統工程。知識工程的鼻祖,費根鮑姆曾經說過的一句話“knowledge is the power inAI”。
三、知識圖譜的生命週期
圖2. 知識圖譜的生命週期
知識圖譜系統的生命週期包含四個重要環節: 知識表示、知識獲取、知識管理與知識應用 。 這四個環節迴圈迭代。
知識應用環節明確應用場景,明確知識的應用方式。
知識表示定義了領域的基本認知框架,明確領域有哪些基本的概念,概念之間有哪些基本的語義關聯。比如企業家與企業之間的關係可以是創始人關係,這是認知企業領域的基本知識。知識表示只提供機器認知的基本骨架,還要通過知識獲取環節來充實大量知識例項。比如喬布斯是個企業家,蘋果公司是家企業,喬布斯與蘋果公司就是“企業家-創始人-企業”這個關係的一個具體例項。
知識例項獲取完成之後,就是知識管理。這個環節將知識加以儲存與索引,併為上層應用提供高效的檢索與查詢方式,實現高效的知識訪問。
四個環節環環相扣,彼此構成相鄰環節的輸入與輸出。在知識的具體應用過程中,會不斷得到使用者的反饋,這些反饋會對知識表示、獲取與管理提出新的要求,因此整個生命週期會不斷迭代持續演進下去。
▌3.1 知識表示
在知識表示方面,常用三元組(主語、謂詞、賓語)表示知識圖譜。如三元組<七里香,歌曲原唱,周杰倫>表示“七里香這首歌曲的原唱是周杰倫”這一知識。需要強調一點, 知識圖譜只能表達一些簡單的關聯事實,但很多領域應用的需求已經遠遠超出了三元組所能表達的簡單關聯事實,實際應用日益對於利用更加多元的知識表示豐富和增強知識圖譜的語義表達能力提出了需求 。
這一趨勢首先體現在對於時間和空間語義的拓展與表達方面。
有很多知識和事實是有時間和空間條件的,比如說“美國總統是特朗普”這個事實的成立是有時間條件的,十年前美國的總統不是特朗普,十年之後應該也不大可能是特朗普。還有很多事實是有空間條件的,比如“早餐是燒餅與油條”這件事,在中國是這樣,但是在西方並非如此,西方的早餐可能是咖啡、麵包。
從時空維度拓展知識表示對很多特定領域具有較強的現實意義。比如在位置相關的應用中,如何將POI(Point of Interest)與該POI相關實體加以關聯,成為當下拓展POI語義表示的重要任務之一。比如將“邯鄲路220號”(復旦大學地址)關聯到“復旦大學”是十分有意義的。 在網際網路娛樂領域,粉絲們往往不僅僅關心某個明星的妻子是誰,可能更關心明星的前任妻子、前任女友等資訊,這些應用都對事實成立的時間提出了需求。
第二、增強知識圖譜的跨媒體語義表示。
當前的知識圖譜主要以文字為主,但是實際應用需要有關某個實體的各種媒體表示方式,包括聲音、圖片、視訊等等。比如對於實體“Tesla Model S”,我們需要將其關聯到相應圖片和視訊。知識圖譜時空維度拓展在物理實現上可以通過定義四元組或者五元組加以實現。跨媒體表示可以通過定義相關的屬性加以實現。知識圖譜的語義增強總體上而言將是未來一段時間知識表示的重要任務。知識圖譜作為語義網路,側重於表達實體、概念之間的語義關聯,還難以表達複雜因果關聯與複雜決策過程。
如何利用傳統知識表示增強知識圖譜,或者說如何融合知識圖譜與傳統知識表示,更充分地滿足實際應用需求,是知識圖譜領域值得研究的問題之一。在一些實際應用中,研究人員已經開始嘗試各種定製的知識表示,在知識圖譜基礎上適當擴充套件其他知識表示是一個值得嘗試的思路。
▌3.2 知識獲取
圖3.知識獲取的基本步驟
知識的獲取是個系統工程,流程複雜,內涵豐富,涉及到知識表示、自然語言處理、資料庫、資料探勘、眾包等一系列技術。知識獲取的基本步驟如圖3所示:
第一步是模式(Schema)設計 。 這一步是傳統本體設計所要解決的問題。基本目標是把認知領域的基本框架賦予機器。在所謂認知基本框架中需要指定領域的基本概念,以及概念之間subclassof關係(比如足球領域需要建立“足球運動員”是“運動員”的子類);需要明確領域的基本屬性;明確屬性的適用概念;明確屬性值的類別或者範圍。比如“效力球隊”這個屬性一般是定義在足球運動員這個概念上,其合理取值是一個球隊。
此外,領域還有大量的約束或規則,比如對於屬性是否可以取得多值的約束(比如“獎項”作為屬性是可以取得多值的),再比如球隊的“隸屬球員”屬性與球員的“效力球隊”是一對互逆屬性。這些元資料對於消除知識庫不一致、提升知識庫質量具有重要意義。
第二步是明確資料來源 。在這一步要明確建立領域知識圖譜的資料來源。可能來自網際網路上的領域百科爬取,可能來自通用百科圖譜的匯出,可能來自內部業務資料的轉換,可能來自外部業務系統的匯入。應該儘量選擇結構化程度相對較高、質量較好的資料來源,以儘可能降低知識獲取代價。
第三步是詞彙挖掘 。人們從事某個行業的知識的學習,都是從該行業的基本詞彙開始的。在傳統圖書情報學領域,領域知識的積累往往是從敘詞表的構建開始的。敘詞表裡涵蓋的大都是領域的主題詞,及這些詞彙之間的基本語義關聯。在這一步我們是要識別領域的高質量詞彙、同義詞、縮寫詞,以及領域的常見情感詞。比如在政治領域,我們需要知道特朗普又被稱為川普,其英文簡稱為Trump。
第四步是領域實體發現(或挖掘) 。需要指出的是領域詞彙只是識別出領域中的重要短語和詞彙。但是這些短語未必是一個領域實體。從領域文字識別某個領域常見實體是理解領域文字和資料的關鍵一步。在實體識別後,還需對實體進行實體歸類。能否把實體歸到相應的類別(或者說將某個實體與領域類別或概念進行關聯),是實體概念化的基本目標,是理解實體的關鍵步驟。比如將特朗普歸類到政治人物、美國總統等類別,對於理解特朗普的含義具有重要意義。實體挖掘的另一個重要任務是實體連結,也就是將文本里的實體提及(Mention)連結到知識庫中的相應實體。實體連結是拓展實體理解,豐富實體語義表示的關鍵步驟。
第五步是關係發現 。關係發現,或者知識庫中的關係例項填充,是整個領域知識圖譜構建的重要步驟。關係發現根據不同的問題模型又可以分為關係分類、關係抽取和開放關係抽取等不同變種。關係分類旨在將給定的實體對分類到某個已知關係;關係抽取旨在從文字中抽取某個實體對的具體關係;開放關係抽取(OpenIE)從文字中抽取出實體對之間的關係描述。也可以綜合使用這幾種模型與方法,比如根據開放關係抽取得到的關係描述將實體對分類到知識庫中的已知關係。
第六步是知識融合 。因為知識抽取來源多樣,不同的來源得到的知識不盡相同,這就對知識融合提出了需求。知識融合需要完成實體對齊、屬性融合、值規範化。實體對齊是識別不同來源的同一實體。屬性融合是識別同一屬性的不同描述。不同來源的資料值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數十種表達方式,這些需要規範化到統一格式。
最後一步是質量控制 。知識圖譜的質量是構建的核心問題。 知識圖譜的質量可能存在幾個基本問題:缺漏、錯誤、陳舊 。
先談知識庫的缺漏問題。某種意義上,知識完備對於知識資源建設而言似乎是個偽命題,我們總能枚舉出知識庫中缺漏的知識。知識缺漏對於自動化方法構建的知識庫而言尤為嚴重。但是即便如此,構建一個儘可能全的知識庫仍是任何一個知識工程的首要目標。既然自動化構建無法做到完整,補全也就成為了提升知識庫質量的重要手段。補全可以是基於預定義規則(比如一個人出生地是中國,我們可以推斷其國籍也可能是中國),也可以從外部網際網路文字資料進行補充(比如很多百科圖譜沒有魯迅身高的資訊,需要從網際網路文字尋找答案進行補充)。
其次是糾錯。自動化知識獲取不可避免地會引入錯誤,這就需要糾錯。根據規則進行糾錯是基本手段,比如A的妻子是B,但B的老公是C,那麼根據妻子和老公是互逆屬性,我們知道這對事實可能有錯。知識圖譜的結構也可以提供一定的資訊幫助推斷錯誤關聯。比如在由概念和例項構成的Taxonomy中,理想情況下應該是個有向無環圖,如果其中存在環,那麼有可能存在錯誤關聯。
最後一個質量控制的重要問題是知識更新。更新是一個具有重大研究價值,卻未得到充分研究的問題。很多領域都有一定的知識積累。但問題的關鍵在於這些知識無法實時更新。比如電商的商品知識圖譜,往往內容陳舊,無法滿足使用者的實時消費需求(比如“戰狼同款飾品”這類與熱點電影相關的消費需求很難在現有知識庫中涵蓋)。
經歷了上述步驟之後得到一個初步的知識圖譜。在實際應用中會得到不少反饋,這些反饋作為輸入進一步指導上述流程的完善,從而形成閉環。此外,除了上述自動化構建的閉環流程,還應充分考慮人工的干預。人工補充很多時候是行之有效的方法。比如一旦發現部分知識缺漏或陳舊,可以通過特定的知識編輯工具實現知識的新增、編輯和修改。也可以利用眾包手段將很多知識獲取任務分發下去。如何利用眾包手段進行大規模知識獲取,是個十分有意思的問題,涉及到知識貢獻的激勵機制,我前幾年有個題為《未來人機區分》的報告,專門討論如何利用知識問答形式的驗證碼來做知識獲取,可以搜尋此文獲取更多資訊。
▌3.3 知識管理
知識圖譜的管理主要圖譜的儲存、檢索等問題。通常這些問題的解決需要資料庫系統的支撐,因而系統的選型也是知識圖譜管理的一個重要問題。這裡主要討論能用於知識圖譜管理的資料庫系統選型以及知識圖譜查詢語言。知識圖譜儲存是個較為專業化的問題,此處不再深入討論。
知識圖譜管理系統的選型 。 知識圖譜本質上在表達關聯,天然地可以用圖加以建模,因而很多人想到用圖資料庫對領域知識圖譜加以儲存。圖資料庫的確是知識圖譜儲存選型的重要選擇,但是不是唯一選擇。傳統關係資料庫,近幾年充分發展的其他型別的NoSQL資料庫在很多場景下也是合理選擇。那麼資料庫的選擇考慮的要素是什麼呢? 有兩類重要的選型要素:圖譜的規模以及操作複雜度 。
從圖譜的規模角度來看,百萬、千萬的節點和關係規模(以及以下規模)的圖譜對於圖資料庫的需求並不強烈,圖資料庫的必要性在中等或者小規模知識圖譜上體現並不充分。但是如果圖譜規模在數億節點規模以上,圖資料庫就十分必要了。
從操作複雜性來看,圖譜上的操作越是複雜,圖資料庫的必要性越是明顯。圖譜上的全域性計算(比如平均最短路徑的計算),圖譜上的複雜遍歷,圖譜上的複雜子圖查詢等等都涉及圖上的多步遍歷。圖上的多步遍歷操作如果是在關係資料庫上實現需要多個聯結(Join)操作。多個聯結操作的優化一直以來是關係資料庫的難題。圖資料庫系統實現時針對多步遍歷做了大量優化,能夠實現高效圖遍歷操作。
除了上述因素之外,還應該充分考慮系統的易用性、普及性與成熟度。總體而言圖資料庫還是發展中的技術,對於複雜圖資料管理系統的優化也是隻有少部分專業人員才能從事的工作。在資料庫選型時需要充分考慮這些因素。我們實驗室在實現CN-DBpedia(2000萬實體、2.2億關係)線上服務系統時先後採用了RelationalDB、Graph DB、MongoDB,最後出於綜合考慮選用的是MongoDB,已經穩定運行了三年,累計提供10億多次API服務。
知識圖譜查詢語言 。通常對於表達為RDF形式的知識圖譜,可以使用SPARQL查詢語言。SPARQL語言針對RDF資料定義了大量的運算元,對於推理操作有著很好支撐,因而能夠適應領域中的複雜查詢與複雜推理。從應用角度來看,也可以將知識圖譜僅僅表達為無型別的三元組。對於這種輕量級的表示,關係資料庫與傳統NoSQL資料庫也是較好選擇。那麼此時,SQL語句就是比較好的選擇。SQL十分成熟,語法簡單,使用者眾多且有著幾十年的成功應用基礎。
很多領域圖譜上的查詢是相對簡單的,以單步或者兩到三步遍歷居多。此時,SQL完全能夠勝任。但是不排除有一些特定場景,特別是公共安全、風控管理等領域,通常需要進行復雜關聯分析,需要較長路徑的遍歷,需要開展複雜子圖挖掘,此時SQL的表達能力就顯得相對較弱了。
四、知識圖譜的發展現狀及應用
▌4.1知識圖譜的應用
知識圖譜的應用場景非常廣泛,除了通用應用外,在金融、政府、醫療等領域也有特殊的應用。
圖4. 知識圖譜的應用
通用領域的應用主要包括精準分析、智慧搜尋、智慧問答、智慧推薦等。在精準分析方面,當認識到王寶強和寶寶是指同一個人後,就可以合併“王寶強離婚”和“寶寶離婚”兩個事件,得到一個統一的熱點分析。
在智慧搜尋方面,通過知識圖譜建立起實體及其之間的關係,可提高搜尋引擎的理解能力。例如建立程式碼知識圖譜,自動理解程式碼的上下文資訊,如建立起“quicksort”和“快速排序”、“QS”等的等價關係,以及“quick sort”是一種排序演算法的isA關係等。這樣一來,當用戶搜尋“排序演算法”時,能把程式碼中包含“quick sort”、“快速排序”的內容都搜尋出來。實現程式碼的精準、高效搜尋。
在智慧問答方面,系統降低了人機互動的門檻,非常適合成為網際網路的新入口。相較於傳統的使用者輸入問題,搜尋引擎返回網頁的方式,智慧問答系統可以直接通往答案。例如復旦大學知識工場實驗室推出的“不倒翁問答”,是一個基於知識圖譜和網際網路內容作為答案來源的問答系統,能回答各類事實型問題。系統接收自然語言問句作為輸入,通過深度學習的方法,從知識圖譜和網際網路中找到相應的答案進行解答。支援單知識問題、是否問題、比較問題、列舉問題、常識問題以及多知識問題等。
在智慧推薦方面,可基於知識圖譜構建場景,提供基於場景的推薦。例如在電商領域,通過使用者已購產品推斷其購物場景,並推薦其他相關場景產品成為一個熱門需求。
金融領域的應用主要包括風險控制和智慧投顧等。在風險控制方面,通過構建工商知識圖譜,可以將人、公司的資訊用視覺化的方式清晰的展示出來。一來可以用於人的特徵的不一致性檢測;二來可以進行異常節點分析,如正常借貸人只用一個手機號在一個金融產品中進行借貸,而異常借貸人會使用多個手機號在多個不同的金融產品中進行借貸;三來很多欺詐團伙組織會通過一系列的複雜操作來持有公司,利用知識圖譜的視覺化可以發現其中的潛在風險。
在智慧投顧方面,通過對金融資料進行結構化提取和智慧化分析,根據客戶自身的理財需求,實現自動理財顧問。
政府領域的應用主要包括資料治理、司法智慧輔助審判和智慧情報研判等。在資料治理方面,可將所有政務公開資料進行融合,構建政務知識圖譜,為使用者提供統一的政務資料訪問服務。
在司法智慧輔助審判方面,通過建立司法知識圖譜,建立了一套智慧判案輔助機器人系統。為當事人提供專業的案件諮詢,案件風險評估,法院服務和法律援助等。提高簡單案件的審判效率,減少寶貴的司法資源的浪費。
在智慧情報研判方面,主要對公安情報資料進行智慧整合,將真實世界的海量異構碎片化資料等價轉換為一張唯一的關係大網,與真實世界的人事地物組織物件一一對應,類似於“公安大腦”。構建完成後,每個民警都可以藉助這個“公安大腦”來進行情報分析,準確做出判斷。
醫療領域的主要應用包括智慧輔助問診和導診和醫藥研發等。在智慧輔助問診和導診方面,通過構建醫療知識圖譜及相應的虛擬助手,實現對患者進行自動問診並生成規範、詳細的門診電子病歷。同時,根據患者的病歷,自動對其進行導診。
在醫藥研發方面,傳統藥物研發需要經歷靶點篩選、藥物挖掘、臨床試驗、藥物優化等階段,耗時十分巨大。通過從海量醫學文獻、論文、專利、臨床試驗資訊等非結構化資料中抽取出可用的資訊,構建生物知識圖譜,可加快醫藥的研發速度。
五、知識圖譜面臨的挑戰
知識圖譜技術的挑戰主要表現在知識表示、知識獲取和知識應用等三個方面。
在知識表示層面,越來越多的領域應用不僅僅需要關聯事實這種簡單知識表示,還要表達包括邏輯規則、決策過程在內的複雜知識;需要同時表達靜態知識和動態知識。單單知識圖譜已經不足以解決領域的很多實際問題。如何去增強知識圖譜的語義表達能力,如何綜合使用多種知識表示來解決實際應用中的複雜問題是非常重要的研究課題。
在知識獲取方面,領域知識圖譜一般樣本很小,如果需要構建抽取模型,那就需要基於小樣本構建有效的模型。目前基於小樣本的機器學習仍然面臨巨大挑戰。解決這一問題的思路之一就是利用知識引導機器學習模型的學習過程。具體實現手段已經有不少團隊在開展相關的探索工作,比如利用知識增強樣本、利用知識構建目標函式的正則項以及利用知識構建優化目標的約束等等。總體而言,這仍然是個開放問題需要巨大的研究投入。
在知識的深度應用方面。如何將領域知識圖譜有效應用於各類應用場景,特別是推薦、搜尋、問答之外的應用,包括解釋、推理、決策等方面的應用仍然面臨巨大挑戰,仍然存在很多開放性問題。
六、知識圖譜未來的發展趨勢
從2012年發展至今,知識圖譜技術發生了一系列的變革。從兩個方面來講,一方面是應用場景,另一個方面就是技術生態。隨著應用場景和技術生態的變化,整個知識圖譜面臨著全新的挑戰,以前的技術手段在應對現在智慧化大潮給我們提出的挑戰的時候,已經有些力不從心,所以我們要研發一些新技術。
從應用的角度來講 ,知識圖譜的應用趨勢越來越從通用領域走向行業領域,現在的局面是通用與行業應用百花齊放,各行各業都在討論適合自己的知識圖譜。
今天展示給大家的是我們自己實驗室的知識圖譜,在通用領域,我們實驗室有CN-DBpedia,Probaseplus。CN-DBpedia是一種通用百科知識圖譜。通用知識庫在通用人工智慧中扮演著重要的角色,是未來競爭的戰略制高點,即掌握了通用人工智慧技術,可以從一個戰略制高點向下俯衝,這樣收穫領域知識圖譜的成果是相對容易的。但是如果只具備領域人工智慧的能力,未必可以掌握通用人工智慧能力。
雖然領域/行業人工智慧技術更容易落地,但是從戰略層面上來講,一定要對通用人工智慧予以高度的關注。領域人工智慧在很多領域已經落地開花,但領域圖譜的應用也不是簡單的事,還具有很多挑戰性的研究問題,領域知識庫構建的語料往往比較稀疏,比如在某個領域提到某個事實,某類關係的樣本非常少,這個時候利用關係去構建有效的抽取模型就會變的十分困難,在樣本稀疏的環境下去做領域知識圖譜的自動化構建仍然是件非常困難的事情。
第二個應用場景發生變化是從搜尋延伸至推薦、問答等複雜任務 。舉個例子,用知識圖譜幫助搜尋程式碼,如果能利用知識圖譜理解搜尋意圖,並返回準確的程式碼,這樣效率將大有提升。使用者搜尋輸入關鍵字,機器給出答案,還可以為使用者做智慧推薦。將來更智慧的形式就是直接問答,我們實驗室研發的“小Cui問答”就是這樣的問答系統。整個知識圖譜將來會在越來越複雜和多元的場景下發揮重要的作用。
再進一步就是互動方式發生變化 。以前的互動方式更多是基於關鍵字,現在越來越多的是自然語言的處理,對話式的處理,像GoogleNow,Apple Siri,Amazon Alexa等等,很多大公司都在研發自然語言互動的產品,這意味著自然語言互動成為未來人機互動的主流方式。對知識圖譜提出的挑戰就是,對自然語言的認知到了一個新的高度,需要能夠利用知識圖譜幫助平臺和系統更好地理解問答,上下文對話等等。
進而就是從使用者提的問題來看,呈現出從簡單的陳述類問題到解釋類問題的變化趨勢。 以前使用者喜歡問“what”、“who”、“when”、“where”這樣簡單陳述性問題,現在越來越多的問“why”、“how”。使用者對系統智慧性的期望越來越高,很多使用者在Google上問why類問題,但是很遺憾,Google還不能進行回答,只能回答陳述類問題。隨著“why”、“how”問題越來越多,解釋就變的很重要,可解釋是未來人工智慧發展的核心訴求之一,是人機互信的前提。
再進一步就是,以前在實體之間找到一些簡單關係就行了,比如王寶強的老婆是馬蓉,但現在不滿足於簡單關係的揭示,而是希望能夠推理出一些深層關係 ,比如王寶強離婚案,為什麼王寶強會請張起淮當律師?王寶強和馮小剛是好朋友,馮小剛有個御用演員叫徐靜蕾,張起淮是徐靜蕾的法律顧問,所以王寶強會請張起淮當律師,這個就是深層關係推理。隱式關係發現、深層關係推理將成為智慧的主要體現之一。
再從技術生態的角度來看 ,人工智慧也發生了很大的變化。 從機器學習來看,雖然深度學習發展非常迅速,並且在樣本資料豐富的場景下取得了很好的效果,但是機器學習仍然存在很多問題,小樣本學習、無監督學習手段有限,現有模型難以有效利用大量先驗知識。再從自然語言處理角度來看,雖然自然語言處理在深度學習的推動下取得了很大的進展,但是自然語言處理離實際應用需求還很遠,還只是在處理階段,遠遠談不上理解。從知識庫本身來看,英文圖譜積累迅速,發展得相當成熟,並且在很多應用中發揮了巨大的作用,但是其他語種的知識圖譜十分缺乏。
雖然現在知識圖譜很多,但是大部分都側重在簡單事實,對於常識的覆蓋仍然十分有限。很多知識圖譜都是依賴手工構建的,如何從大規模資料裡用資料探勘的方法自動挖掘出知識圖譜的手段仍然缺乏。
總體而言,知識圖譜技術的落地應用前景是光明的,但是也需要充分意識到知識圖譜落地的巨大挑戰。
2018 AI開發者大會
AI技術年度盛會即將開啟!11月8-9日,來自Google、Amazon、微軟、Facebook、LinkedIn、阿里巴巴、百度、騰訊、美團、京東、小米、位元組跳動、滴滴、商湯、曠視、思必馳、第四正規化、雲知聲等企業的技術大咖將帶來工業界AI應用的最新思維。
如果你是某個AI技術領域的專業人才,或想尋求將AI技術整合至傳統企業業務當中, 掃碼填寫大會註冊資訊表 ,我們將從中挑選出 20 名相關性最高的幸運讀者, 送出單場分論壇入場券 。大會嘉賓陣容和議題,請檢視文末海報。
此外,如果你想與所有參會大牛充分交流溝通,點選閱讀原文購票,使用 優惠碼:AI2018-DBY 購買兩日通票, 立減999元 ;此外大會還推出了 1024定製票 ,主會+分會自由組合,精彩隨心。