基于内容识别的个性化社交网络系统

指导老师:段玉聪教授

其他成员:孔链杰

问题背景

由于互联网带来的便捷式交互方式,使得人们的社交活动越来越广泛。但是大量的社交网络信息包含着冗余、低俗、无效的数据,这让我们在获取及时有效的信息时,难免感到眼花缭乱甚至无从下手。所以在有限的时间内获取最有效的数据信息,以提高我们当前工作和生活中的效率是至关重要的。

 

             生活领域中不同年龄层对信息关注的分类图

解决思路

分三个角度分析造成这一问题的主要原因:1.联系人。联系人包括很多,亲人、朋友、聚会群、推销群等。正如老师给的网站提供的以及我自己收集到的相关数据:如果我们正值过年回家,那么大学在校期间的一些群消息可能就会显得不那么重要,而亲戚朋友间的消息可能就会占主导,如:今天去谁谁家吃饭了等等。2.兴趣爱好。比如我们加了一个美剧群,但是不时地群里会flash很多关于美国篮球、棒球啊等的信息,其实有些美剧迷并不care这些。3.时间点(及时性)。及时性侧重的是消息的及时重要性,包括一些会议的时间、地点。

  综合以上的三点,可以分别设计三者在消息重要性中占有的比重权值。并且例如那些联系人、关键词的信息应是因人而异的,所以应该留有相应的模块供用户自行设计,达到个性化社交网络的目的。

设计思路

给予用户充分的个性化设置权限,让用户自行设置所有联系人(包括讨论群)、兴趣爱好、及时性的权重。然后由后台的算法对权重进行计算分析,最好是消息的实时计算(或是每条消息发送过来的时间节点进行计算)。对当前的消息综合权重进行对比和排序,将当前权重最高的消息置顶,并依次由递减顺序进行排列。最终排列显示的方式由综合界面设计给出,并且保证较大权重信息处于醒目位置。同时,点击消息排序界面中的某一对话框后,可对个人联系人和群消息聊天界面做高亮和醒目标注的处理。

技术路线

利用内容识别技术和预先设计的的算法,分析用户数据库的信息,结合收到的消息,对消息进行实时呈现后达到个性化社交网络的目的。

 

             技术路线图

综合界面设计

根据以上三者的描述,可以利用例如图形大小,颜色高亮,signal标记等方式,分类别区分这一时期或者当前比较重要、与自己相关的信息。然后提供相应的设计控件以便用户能调整不同阶段的权重。对话回复框主要分两种情况:一、个人联系人:聊天界面信息和普通对话框几乎没有差别。二、重要消息群:用醒目颜色标注关键信息点,如:下午2:00在303室开会。并且可设置该条重要消息长期置顶,以防群成员回复消息过多导致部分成员无法看到。

拟解决问题

本课题存在如下几个主要问题:

(1)内容识别的技术问题;对于用户所接收到的讯息有所筛选,有对于语义和语境的内容识别能力,能精确判断消息的重要性是否为用户设置所需,最终实现消息排序准确可靠。

(2)权重比例算法的设计和实现;我们的初衷是要求用户自行设定联系人以及兴趣爱好、生活习惯的权重,但有一个恰到好处的后台算法能权衡整个个性化社交网络系统的实现是必须的,怎样在满足用户的设置条件下,又突出信息的灵动可靠是该算法要重点解决的难点。

(3)用户数据库的设计和实现;用户数据库是用户存储之前使用习惯和设置的仓库,合理设计数据库表之间的关系,有利于我们规范的管理数据库数据,为用户提供更好的和更长久的服务。

(4)个性化社交网络系统软件的开发;综合上述内容识别技术和比例算法,我们还需要对个性化社交网络系统做一个完整的界面设计,将所有应用到的内容融入到这个系统当中,最终完成个性化社交网络系统软件的开发。

创新点

(1)相比于传统的社交网络推荐系统,我们采取用户自定义方式,在减少数据收集时间的基础上,加强了人机交互能力。传统的社交网络推荐系统,是根据用户往常的使用习惯和作息,为用户推送用户感兴趣我的内容,例如:淘宝、天猫、京东等电商平台。但是我们的个性化社交网络完全是建立在用户自身的意愿之上,用户可对个性化的设置进行实时的更改。

(2)不用于传统的社交网络推荐系统,仅对当前的个性化数据进行分析和计算,具有实时性的同时,也保护了用户的隐私和习惯。传统的社交网络推荐系统,通常会对用户某一时期或者某一时段的社交信息进行归纳和总结,然后在过后对用户推送相应的服务。但是新型的个性化社交系统意在强调实时性、提前性,不是对用户习性的归纳总结,而是用户的设置,于此同时用户数据的习惯和作息不再被获取也保护了用户的个人隐私。

(3)比较我查询到的外文文献中的推荐系统,我们大大降低了手机用户信息所带了的时间,提高了整个社交网络系统的效率,而且设置由用户自定义,不用增加系统的负荷,由于过往的推荐系统都是定期手机用户信息,还会带了大量的信息冗余。

整体系统运行流程和模块

系统大致分为两个整体流程: 1.用户个性化权重设置流程,如左图所示。此项系统意在区别传统的社交推荐系统,采用用户自主设定的方式,录入联系人、时间(及时性)以及兴趣爱好三者的权重,再存入用户数据库 2.接收信息并按权重排序的流程。当用户接收到联系人发送来的短信后,提取关键字与用户数据库当前设定的权重进行对比,再采用相应的算法对消息进行重新排序

 

系统大致分为三个模块: 1.用户聊天模块:实现用户基本的社交网络操作 2.用户数据库模块,此项系统意在区别传统的社交推荐系统,采用用户自主设定的方式,录入联系人、时间(及时性)以及兴趣爱好三者的权重,再存入用户数据库 3.信息模块。当用户接收到联系人发送来的短信后,提取关键字与用户数据库当前设定的权重进行对比,再采用相应的算法对消息进行重新排序

 

关键词分析

对于各种生活场景,大致规划了几种不同的关键词分析:工作、旅游娱乐、访亲

 

技术分析

内容识别技术

 

内容识别中对于文本信息的关键字提取流程,主要有对信息的预处理,采用数据挖掘的方式,简历特征集,对信息进行聚类分析。将聚类好后的信息同用户数据库信息对比后,进行筛选过滤,留下权重比高的信息,便于于后续的信息排序。下一页图片会具体对信息处理的流程做细化的分析。

 

语境建模的过程可以简单描述为:假设有k个语境单元ui,w(.,.)函数是一个可以度量语境单元表征该频繁模式的程度的权重函数,频繁模式pα的语境就表示为一个k维向量,其中向量的第i个维度取值即为w(pα,ui)。 语义模式注解分为三个步骤: 1.模式语境的形式化定义和建模 2.根据语境单元表征模式语境的强度设置权重函数 3.通过语境相似度分析构建语义注解结构

数据库技术:逻辑模型和物理模型

 

面向对象分析

用例图分析:用例图是从用户的观点描述系统的功能,由一组用例、参与者以及它们之间的关系组成。 用例(Use Case)是从用户角度描述系统的行为,它将系统的一个功能描述成一系列事件,这些事件最终对参与者产生有价值的可观测结果。 当参与者与用例之间进行交互时,用例和参与者之间拥有关联关系。

 

类图分析:类图描述系统的静态结构,表示系统中的类、类与类之间的关系以及类的属性和操作。 类是一种抽象,代表着一组对象共有的结构和行为。类之间的关系包括关联、聚合、泛化、依赖等类型。