未來在知識圖譜領域還會面臨哪些挑戰?
現在以商業搜尋引擎公司為首的網際網路巨頭已經意識到知識圖譜的戰略意義,紛紛投入重兵佈局知識圖譜,並對搜尋引擎形態日益產生重要的影響。同時,我們也強烈地感受到,知識圖譜還處於發展初期,大多數商業知識圖譜的應用場景非常有限,例如搜狗、知立方更多聚焦在娛樂和健康等領域。
根據各搜尋引擎公司提供的報告來看,為了保證知識圖譜的準確率,仍然需要在知識圖譜構建過程中採用較多的人工干預。
可以看到,在未來的一段時間內,知識圖譜將是大資料智慧的前沿研究問題,有很多重要的開放性問題亟待學術界和產業界協力解決。
我們認為,未來知識圖譜研究有以下幾個重要挑戰:
-
知識型別與表示
知識圖譜主要採用(實體1,關係,實體2)三元組的形式來表示知識,這種方法可以較好的表示更多事實性知識。然而,人類知識型別豐富多樣,面對很多複雜知識,三元組就束手無策了。
例如,人們的購物記錄資訊,新聞事件等,包含大量實體及其之間的複雜關係,更不用說人類大量的涉及主觀感受、主觀情感和模糊的知識了。有很多學者針對不同場景設計了不同的知識表示方法。
知識表示是知識圖譜構建與應用的基礎,如何合理設計表示方案,更好地涵蓋人類不同型別的知識,是知識圖譜的重要研究問題。最近認知領域關於人類知識型別的探索也許會對知識表示研究有一定啟發作用。
-
知識獲取
如何從網際網路大資料萃取知識,是構建知識圖譜的重要問題。目前已經提出各種知識獲取方案,並已經成功抽取出大量有用的知識。但在抽取知識的準確率、準確率和效率方面,都仍不盡如人意,有極大的提升空間。
-
知識融合
從不同來源資料中抽取的知識可能存在大量噪聲和冗餘,或者使用了不同的語言。如何將這些知識有機融合起來,建立更大規模的知識圖譜,是實現大資料智慧的必由之路。
-
知識應用
目前大規模知識圖譜的應用場景和方式比較有限,如何有效實現知識圖譜的應用,利用知識圖譜實現深度知識推理,提高大規模知識圖譜計算效率,需要人們不斷銳意發掘使用者需求,探索更重要的應用場景,提出新的應用演算法。
這既需要豐富的知識圖譜技術積累,也需要對人類需求的敏銳感知,找到合適的應用之道。
整體而言,知識圖譜領域的發展將會呈現以下趨勢:
-
特色化
構建大規模知識圖譜多基於Web資訊、知識庫:國外以Web開放資訊為主、結構化知識庫為輔快速構建大規模、跨領域知識圖譜,如Google 基於Web開放資源、知識庫(維基百科、Freebase等)採集資訊並構建知識圖譜;國內早期採用該類方法構建並通過增加中文特性擴充語義範疇、滿足使用者需求。
但限於中英文資訊處理差異性,當前中文知識圖譜構建多基於中文知識百科整合Web開放資訊構建特色垂直型中文百科知識圖譜及其應用。
-
開放化
大規模知識圖譜多依賴開放域資料((半)結構化資料)抽取知識(如Freebase,CN-DBPedia)並基於Web傳播但當前開放度較低(尤其是商用知識圖譜),不利於知識圖譜構建、垂直應用落地,與其開放、互聯初衷相悖。
新近出現的開放知識圖譜社群(Open KG)制定協議規範(遵循商業規則、智慧財產權、資料開放許可協議等),通過開源軟體方式在保障各方權益前提下開放知識圖譜以實現整體利益最大化:基於關聯資料技術實現多知識圖譜關聯,基於知識圖譜連結封閉域資料與開放域資料(有效彌補封閉域資料知識不完全缺陷),提供API方便使用者訪問,以發現、共享知識並增加其價值。
-
智慧化
為更好發揮現有知識圖譜知識表達、知識資源優勢,需與其他技術(資訊推薦、事理圖譜、機器學習、深度學習等)融合以提升應用智慧性:中文知識圖譜個性化推薦系統利用大規模知識圖譜中概念、實體間超鏈關係度量任意詞條間語義關聯並結合顯式語義分析模型實現使用者與專案(用兩組標籤分別描述)間精準推薦;表示事件邏輯關係的事理圖譜輔助知識圖譜定位、拓展事態程序並可用於智慧推薦、常識推理等。
工業界基於大資料、知識圖譜、人工智慧、機器學習等技術構建機器智腦,通過知識規則或深度學習模型積累知識、經驗以模擬、抽象人類智慧,提升商業應用可行性及機器智慧性。
基於分析,我們用Trend analysis分析知識圖譜領域內的研究熱點。通過Trend analysis分析挖掘可以發現當前該領域的熱點研究話題有:
-
conceptual graph
-
parallel algorithm
-
knowledgerep resentation
-
grapht heory
-
knowledge base
知識圖譜領域的熱點趨勢分析
根據Trend analysis的分析結果我們可以發現,conceptual graph是當前的熱門話題之一,20世紀90年代開始其研究熱度始終保持在Top 1,論文發表數量也遠超其他研究熱點,之後話題熱度雖然經歷了一定的變化,但目前的話題熱度也較高。
從Trend analysis我們還可以看到,知識表示也在該領域的熱點話題之列。知識表示是指把知識客體中的知識因子與知識關聯起來,便於人們識別和理解知識。知識表示學習則主要是面向知識圖譜中的實體和關係進行表示學習。
使用建模方法將實體和向量表示在低維稠密向量空間中,然後進行計算和推理。知識表示的代表模型有距離模型、單層神經網路模型、能量模型、雙線性模型、張量神經網路模型、矩陣分解模型和翻譯模型等。
蒙彼利埃大學的Marie-Laure Mugnier教授是該領域的代表學者,她於1992年發表的“Extensions of simple conceptualgraphs: the complexity of rules and constraints”一文系統地研究了通過限制約束和/或規則的形式而獲得的某些特定案例的複雜性,提出了基於規則和約束模型的一系列擴充套件,將圖同態作為基本操作。
知識圖譜作為人工智慧技術中的知識容器和孵化器,會對未來AI領域的發展起到關鍵性的作用。
無論是通用知識圖譜還是領域知識圖譜,其構建技術的發展和對應用場景的探索仍然會不斷的持續下去。知識圖譜技術不單指某一項具體的技術,而是從知識表示、抽取、儲存、計算、應用等一系列技術的集合。
隨著這些相關技術的發展,我們有理由相信,知識圖譜構建技術會朝著越來越自動化方向前進,同時知識圖譜也會在越來越多的領域找到能夠真正落地的應用場景,在各行各業中解放生產力,助力業務轉型。