项目由来

  随着虚拟社交成为主流,它的弊端也逐渐暴露出来。由于虚拟社交的虚拟性,导致该社交方式的社交双方往往是不确定的,即他们可能会来自于不同的背景,有着不同的经历,带着不同的目的,这使得双方存在或多或少的认知差异,以至于在很多话题方面,他们并不能准确的理解双方交流的信息或是不能准确的传达交流的信息,这就有可能会导致社交双方的话题过早的结束或是难以进一步深入,进而影响沟通的效率。如何有效的组织交流的信息数据,使其能够基于社交双方的认知水平,在不改变信息的整体意思的情况下,重构出满足双方层次差异的信息数据,能提高沟通效率,现在已经成为业内重点研究的课题。

 

 

关于知识图谱

  知识图谱这个新概念是由谷歌公司最先提出,其本质是一种大型的语义网络,是一种以图为基础的数据结构,以实体概念为节点,以关系为边,提供一种从关系的视角来看世界的模式。它是用来描述客观世界中各种概念实体事件以及他么之间的关系。随着技术的发展,知识图谱被越来越多的应用在各种领域,国外如谷歌、Facebook等公司先后推出Knowledge Graph、Facebook等知识图谱应用。百度和搜狗等国内公司也相继推出了知识图谱产品。

 

关于图数据库

  图数据库本身属于NoSql数据库,它是基于数学中图论的数据库。与将数据存储在数据库表字段中的传统关系数据库不同,图形数据库存储数据以及节点和边之间的数据关系。在图形数据库中,这称为“节点”和“关系”。没有库表字段的概念,就相当于将数据存储在一个大而宽的表中。图数据库还支持传统数据库的某些功能,例如CRUD和处理事务的能力。现在市面上比较常用的图数据库有:Neo4j、FlockDB、AllegroGrap、GraphDB、InfiniteGraph、TITAN、OrientDb。而Neo4j是由Java实现的开源NoSql图数据库,它是图数据库中流行的一种。

 

建模背景

  由于社交双方可能来自于不同的背景,有着不同的经历,带着不同的目的,这使得双方在很多社交话题方面,并不能准确的理解交流内容或者不能准确的传递表达的信息,从而影响双方话题的深入以及沟通的效率。基于谷歌提出的知识图谱的技术,采用知识图谱的技术架构对社交文本内容进行建模以及优化处理,通过大量的文本数据构建知识图谱内容库,考虑内容传递的准确性和效率性,来设计基于内容库的重构算法,实现了传递内容重构,同时在原内容的关键语义的基础上实现了更佳个性化的表达,减少沟通的难度,提高沟通效率。全文介绍了如何从知识获取、知识抽取、知识融合、知识存储以及知识应用等方面来一步步搭建一个基于内容重构的社交系统,以实现内容的重构。

内容重构框架

         针对目前社交系统发展现状,在知识图谱技术的基础上,依托自然语言处理技术将互联网上社交平台的公开数据,结合大数据处理技术,构建知识图谱;采用负载均衡的方法,在用户终端和第三方平台进行内容重构;基于用户双方的知识图谱对重构内容进行修正;在实现传输形式的无障碍的同时也保证传递内容的理解无障碍;最终提出一种基于内容驱动的社交系统,并对其进行设计和实现。

 

 

子模块及功能示例

  下图为重构算法模块,以及该算法模块的具体执行交互过程: