本文中的数据、信息、知识和智慧(DIKW)体系是对知识图谱技术的一种表达形式。知识图谱是由Google公司在2012年提出来的一个新的概念。从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法[1]。 知识图谱已被广泛应用,在很大程度上是由于其无模式的性质。它使知识图谱能够无缝增长,并允许根据需要创建新的关系和实体。知识图谱已经成为一种强有力的工具,它以有向图的形式表示知识,并为文本信息提供语义。知识图谱是将每个项目、实体和用户表示为节点,并通过边将相互作用的节点连接起来的图。知识图谱具有丰富的自然语义,能包含多种更完整的信息[2]。其表达机制接近自然语言。在Web视角下,知识图谱如同简单文本之间的超链接一样,通过建立数据之间的语义链接,支持语义搜索。在自然语言处理视角下,知识图谱就是从文本中抽取语义和结构化的数据。在知识表示视角下,知识图谱是采用计算机符号表示和处理知识的方法。在人工智能视角下,知识图谱是利用知识库来辅助理解人类语言的工具。在数据库视角下,知识图谱是利用图的方式去存储知识的方法。 然而,知识图谱技术也面临挑战,比如多源异构数据难以融合、非结构化数据计算机难以理解、分散的数据难以统一利用等。现今资源的获取渠道多样,采集得到的资源总量多、种类复杂,但常见的资源处理方法例如数据挖掘等手段多关注于数据库等种类明确的资源,并且处理时往往也需要对采集到的数据指定特定的使用处理方案,这些方案的重用性不佳,难以迁移到其他类型的资源上去,而且这些资源加入没有一个统一的结构,计算机将会难以理解和处理。
本文中的数据、信息、知识和智慧(DIKW)体系是对知识图谱技术的一种表达形式。知识图谱是由Google公司在2012年提出来的一个新的概念。从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法[1]。 知识图谱已被广泛应用,在很大程度上是由于其无模式的性质。它使知识图谱能够无缝增长,并允许根据需要创建新的关系和实体。知识图谱已经成为一种强有力的工具,它以有向图的形式表示知识,并为文本信息提供语义。知识图谱是将每个项目、实体和用户表示为节点,并通过边将相互作用的节点连接起来的图。知识图谱具有丰富的自然语义,能包含多种更完整的信息[2]。其表达机制接近自然语言。在Web视角下,知识图谱如同简单文本之间的超链接一样,通过建立数据之间的语义链接,支持语义搜索。在自然语言处理视角下,知识图谱就是从文本中抽取语义和结构化的数据。在知识表示视角下,知识图谱是采用计算机符号表示和处理知识的方法。在人工智能视角下,知识图谱是利用知识库来辅助理解人类语言的工具。在数据库视角下,知识图谱是利用图的方式去存储知识的方法。 然而,知识图谱技术也面临挑战,比如多源异构数据难以融合、非结构化数据计算机难以理解、分散的数据难以统一利用等。现今资源的获取渠道多样,采集得到的资源总量多、种类复杂,但常见的资源处理方法例如数据挖掘等手段多关注于数据库等种类明确的资源,并且处理时往往也需要对采集到的数据指定特定的使用处理方案,这些方案的重用性不佳,难以迁移到其他类型的资源上去,而且这些资源加入没有一个统一的结构,计算机将会难以理解和处理。
数据 → 数据 例如,从某用户(实体)的身份证号码可以查出此用户的籍贯,从用户(实体)每天工作的时间计算平均工作时间,从所有用户(实体)的年龄计算用户(实体)的平均年龄
数据 → 信息 数据转化为信息主要基于用户的意图,若用户的数据产生于此用户的意图关联,则此数据可以反映出用户行为的动机或与另一个用户之间的关系产生对应的信息。
数据 → 知识 数据转化为知识可以通过两种方式实现。第一种是通过统计学原理将数据直接转化为知识,当数据的规模足够大时,就可以通过数据挖掘等技术来推理生成知识,以表达实体的总体发展规律或变化趋势。
信息 → 数据 信息转化为数据的过程可以看作数据转换为信息的逆过程,将信息与意图剥离生成与实体相关的数据,即Information - Purpose = Data。这里定义“-” 为信息和意图之间的运算。
信息 → 信息 信息可以结合数据转化为新的信息,也可以两个或多个信息结合转化为新的信息。
信息 → 知识 信息到知识的转化是DIKW体系的核心部分之一,将信息经过抽象归纳等操作后可以得到知识。如2.5.2中的例子,猎人每次出门打猎时带了一把伞(D)+ 遮雨(P) = 猎人打猎时外面下雨(I),可以转换为知识规则:下雨需要带伞(K)。
知识 → 数据 知识转化为数据也可以通过两种方法实现。第一种即数据→信息→知识的逆过程,例如下雨需要带伞(K)→ 猎人打猎时外面下雨(I)→ 猎人出门打猎时带了一把伞(D)。第二种通过现有的知识来预测某实体的数据,例如根据某地的气候特征、季节等预测此地的温度数据
知识 → 信息 知识可以直接转化为信息,也可以与已有信息结合转化为新的信息。例如已知五一假期人们的出行量将增加(K),可以直接预测五一人们大都会选择去外地旅游(I)。但若结合2020年新冠病毒疫情肆虐(I),可以得出2020年五一假期将不会有大量人选择去外地旅游(I)。
知识 → 知识 知识与知识之间的转化是最基本的一种转化,知识之间往往存在联系,知识与知识的组合可以生成新的知识。例如,已知人体每天需要摄入足够的蛋白质(K1 ),鸡蛋富含有丰富的蛋白质(K2),因此可以根据K1和K2得到人们可以通过食用鸡蛋补充蛋白质(K3)。