清華新聞網6月10日電 近日,,清華大學計算機系AMiner團隊和智譜.AI團隊構建了一個大規(guī)模,、結構化、中英文雙語的新冠知識圖譜(COKG-19),。COKG-19旨在幫助發(fā)布者和科研人員識別和鏈接文本中的語義知識,,并提供更多智能服務和應用。目前,,COKG-19包含了505個概念,、393個屬性、26282個實例和32352個知識三元組,,覆蓋了醫(yī)療,、健康、物資,、防控,、科研和人物等。
疫情暴發(fā)初期,,OpenKG(openkg.cn)公布了新冠知識專題,,其中包括了8個獨立的人工或半人工整理的知識圖譜,涉及健康,、防控,、流行病、百科,、人物,、醫(yī)療、物資,、事件,、科研等方面。然而這些知識圖譜規(guī)模不一,,質量不一,,且存在重疊和不一致等情況。
團隊首先通過語義匹配和排歧方法,,將相同含義的概念進行合并,,將同名不同義的概念進行區(qū)分。其次,,根據相關專家的意見對排歧合并后的概念間關系進行修正和補充,,例如刪除冗余概念、細分病毒等專業(yè)子類、修正疾病的子類等,。最后得到的COKG-19概念層共包含505個概念,,其中頂層概念為22個(疾病、癥狀,、藥物,、醫(yī)療設備、病毒,、防控等),,大致可劃分為生物學、流行病學和通用百科三個方向,。對于屬性的排歧與合并也采取類似的語義融合方法處理,,并將不同domain和range的概念進行區(qū)分,共包含393個屬性,。

COKG-19第一版構建流程

COKG-19第二版構建流程
COKG-19的應用除了可作為基礎的科研用知識數(shù)據庫之外,,還可以提供實體鏈接和知識檢索等功能。融合多種知識數(shù)據之后,,COKG-19為更深層次的知識挖掘提供了非常豐富的知識數(shù)據基礎,。COKG-19知識圖譜的構建充分利用了開源社區(qū)(OpenKG等)和領域專家的力量,同時又應用了實體識別,、語義消岐,、知識融合等多種自然語言處理和機器學習算法,充分展現(xiàn)了AI+大數(shù)據技術在快速應對疫情過程中的廣泛作用,。

COKG-19中包含的關鍵實體間關聯(lián)關系
AMiner是清華大學計算機系研發(fā)的科技情報大數(shù)據挖掘與服務系統(tǒng)平臺,,該系統(tǒng)2006年上線,吸引了全球220個國家和地區(qū)的1000多萬獨立IP訪問,,數(shù)據下載量230萬次,,年度訪問量超過1100萬,已成為學術搜索和社會網絡挖掘研究的重要數(shù)據和實驗平臺,。
智譜.AI是清華控股旗下的人工智能(AI)科技公司,,旨在打造先進的認知計算引擎,為研究和創(chuàng)新領域提供強大的數(shù)據支持和后臺服務,。智譜.AI致力于通過利用其在超大規(guī)模網絡分析,、深度隱含語義挖掘和認知推理等技術方面的優(yōu)勢,,幫助解決研究機構及政府機構當前面臨的學術挑戰(zhàn)及社會熱點問題,。
供稿:計算機系
編輯:李晨暉
審核:程曦