摘要

     随着网络技术的飞速发展,网上购物日益普及,个体相对稳定的选购需求和购物网站当中繁杂的商品之间的矛盾日益突出。商品推荐技术在购物网站/购物APP之上的应用越来越普及,但是随着人们对购物体验、购物要求的不断提高,购物网站/购物APP面临的挑战也越来越严峻。

     对于用户性格、兴趣爱好和行为习惯信息的挖掘、分析与利用,用户对商品的选购会随着时间、地点等各种外部环境因素发生改变,如何进一步准确地把握与利用用户在购物网站/购物APP之中产生的各种数据信息是商品推荐系统的成败的关键;对于推荐算法的选择,商品推荐系统基于DIKW图谱的虚拟社区用户性格需求与行为习惯进行分析,如何根据用户在网站当中留下的数据选择合适的推荐算法和推荐模式在很大程度上决定着商品推荐结果的准确性;并且针对网站当中未注册用户、新用户与老用户,应采用不同的推荐模式,使基于DIKW图谱设计实现的商品推荐系统的用户体验感和商品推荐准确度得以最大程度上的提高。

     本文的主要研究内容如下:

     (1) 构建基于DIKW图谱的虚拟社区用户性格需求分析内容推送系统;根据现有用户的数据集的分析,设计在一定程度上提高用户满意度和忠实度的商品推荐系统。

     (2) 根据相关文献的原理和方法,收集购物网站(饿了么)的用户数据集进行分析,通过对DIKW图谱学习得到的语义信息来进行内容推荐,提高内容推荐的精确性。

     (3) 对于“根据性格指数和心理需求设计针对不同用户的不同的性格转换方法,模拟用户生成内容的产生”以论文的形式呈现; “‘基于DIKW图谱的虚拟社区用户性格需求分析及内容推送系统’的前端的初步实现”则以页面的形式呈现。

     关键词:DIKW图谱;性格分析;内容推荐

研究背景

      互联网发展正在持续上升,据第48次《中国互联网络发展状况统计报告》显示,截至2021年6月,中国网民数量达到1.011亿,比2020年12月增加2175万人,互联网普及率达到71.6%,比2020年12月增加1.2个百分点。中国互联网网民数量总体呈现了一个逐步上升趋势。其中一点,截至2021年6月,中国网上订餐用户规模达到4.69亿,比2020年12月增加了4976万,占所有互联网用户的46.4%。截至2021年6月,中国移动互联网用户数量达到10.07亿,比2020年12月增加了2092万。截至2021年6月,中国网民人均每周上网时长为26.9小时,比2020年12月增加0.7小时。中国网民通过手机上网的比例为99.6%,与2020年12月基本持平。随着社会进步,网络的发展,人们花在网络上的时间越来越多,以上数据也显示当前我国外卖餐饮行业蓬勃发展,新消费趋势凸显,外卖行业覆盖内容也逐渐多元化。因此从众多商品中发现符合用户偏好的内容,提高内容推送的准确性,需要对传统推荐算法进行进一步优化。

      目前国内很多平台,如抖音,淘宝,京东等等很大程度上应用了协同过滤推荐算法。抖音基于用户个人信息和使用数据的协同过滤是指通过用户注册账号初期等级的相关个人信息以及使用过程中产生的用户数据来进行人群划分,并据此推荐用户可能感兴趣的相关内容。这种方法早就被应用于数字广告的精准投放之中,目前在电商平台和社交媒体上经常能够见到这类程序化投放的广告。例如淘宝会根据新注册用户的年龄、性别、 所在城市、喜好、职业来判断用户的消费水平和同 类人群消费倾向选择 ,从而推给用户可能感兴趣的 商品内容。虽然传统协同过滤推荐算法得到了广泛应用,但是存在着冷启动,数据稀疏和扩展性的问题。在协同过滤方法中,项目的推荐基于用户过去的偏好,因此当出现新用户或新项目的时候无法做出推荐。该问题被称为冷启动问题;此外,由于电子商务规模的扩大,用户数据和项目数据急剧增加,而用户评价过的项目或用户重叠的项目数量过少,使得用户-项目矩阵出现极端稀疏性,导致推荐效果不理想;最后,由于用户和项目会不断扩大,后来的推荐准确度会严重依赖之前的推荐准确度,这就是可拓展性问题。这些问题的存在可能会导致系统无法对用户推送用户偏好的内容。

     随着电子商务的蓬勃发展,为了能使用户在繁多的信息之中找到自己想要的信息和话题,仅仅依靠传统的协同过滤方法是远远不够的。因此,DIKW(data information knowledge wisdom)的出现为解决传统商品推荐系统的问题提供了新的解决思路。DIKW中包含丰富的语义信息,能够一定程度上解决协同过滤算法中的数据稀疏问题,通过引入更多的语义关系,可以更深层次的发现用户的性格或行为习惯,具有重要的研究意义和实用价值。本文将根据用户DIKW图谱结合自我构建理论将用户按性格指数进行进一步归类,并根据 DIKW图谱结合自我决定理论将用户的心理需求分类. 根据性格指数和心理需求设计了针对不同用户的不同的性格转换方法,模拟了用户生成内容的产生,能够使内容推荐更个性化,更精确。

国内外研究现状

国内内容推荐技术研究现状

      据中国学术期刊统计,在2000-2018年期间,有关个性化推荐的文献数量己经达到2064篇。并且该领域论文发表的数量随着时间的推移逐年递增。尤其在2009-2018年的十年间,个性化推荐算法的研究成果显著,每年有关个性化推荐的论文的发表数量均超过了100篇,是2000-2008年间发表数量的6.8倍。推荐系统(RS)不同于搜索引擎一样需要用户主动进行信息筛选,主要是通过挖掘用户的历史行为,分析用户行为习惯,兴趣偏好,然后向用户提供个性化推荐。协同过滤推荐技术是发展最快、应用最广泛的个性化推荐技术,使用用户对物品的历史评分计算用户或物品的相似度,将相似度高的物品推荐给相关用户。但是如果用户没有进行过评分或者物品没有被用户评价,就很难得到准确的推荐结果。为解决这个问题,在内容推荐领域,可以引用交互信息,历史行为等行为结合DIKW模型生成新的信息来作为补充信息辅助推荐系统进行精准推荐。

     针对传统协同过滤推荐算法的缺点带来的问题,已经有针对不同问题的解决方案。在国内,例如抖音基于用户社交图谱的精准推荐。根据虚拟用户在虚拟社区中留下的“电子痕迹”(用户转发、评论、点赞陌生用户等交互行为)或者根据虚拟用户在虚拟社区中的社交关系进行更精准的推荐。除此之外,还有其他各大电商平台,例如淘宝,京东,QQ,微博等等,也都使用推荐系统作个性化推荐。

国外内容推荐系统研究现状

      Shweta Gupta等人基于多标准推荐系统(MCRS),使用多标准评级来有效地捕获用户偏好,并且在MCRS中合并各种标准评级提高性能。提出了一个基于项目可信度评分的MCRS,它是一个项目的各种标准的可信度评分的综合。这些可信度分数是根据个人自身和公众的观点计算出来的。但是,每个用户对于同一项目观点不同,所以每个用户都具有不同的优先级。因此,Shweta Gupta等人使用遗传算法(GA)要在可信度评分的聚合计算中得到合适的权重。

     在国外,例如Amazon公司使用的是基于项目的协同过滤推荐算法,在与用户交互中,该系统除了能够根据用户行为自动分析并获取商品评分之外,还可以将用户对商品的主观评分的所有数据存储起来,得到用户项目评分矩阵。通过计算该矩阵的列向量之间的距离来获得项目与项目之间的相似度。随着各大互联网公司、电子商务、网络新闻以及在线娱乐的发展,推荐系统的实用价值也越来越凸显。显然,推荐算法是推荐系统中最重要的环节,它的好坏直接影响推荐系统的效果。所以,推荐算法的研究是该领域研究的重要方向。

主要研究内容

      一是,虚拟社区用户的DIKW建模

      用户在购物平台中,对商品进行的浏览,点赞,转发等等操作之外,还包括和其他与自己有相同兴趣和目的的用户进行分享,互相评论的交互过程中留下“电子痕迹”,这些能够很好的反应出用户本能习惯和兴趣偏好的“电子痕迹”数据统统命名为“用户类型化资源(TRDIK)”。首先将虚拟社区中确认与用户相关的类型资源TRDIK进行初步分类,根据TRDIK 自身的性质可分为客观型TRDIK 资源和主观型TRDIK 资源. 二者之间的区分标准在于客观型TRDIK 资 源可映射到逻辑语言“True/False”,不因为直接观察者的变化而变化. 而主观型的TRDIK 资源 属于概念类资源,属性值取决于观察者对事物的主观评价“Yes/No”,评价结果因人而异. 例如:外卖平台中的用户DIKW模型上的TRDIK资源中,性别,地区,籍贯等客观存在的事实属于客观型TRDIK。而用户自己对自己口味的评价,菜系偏好,做法喜好等等属于主观型TRDIK。再根据用户类型资源TRDIK建立用户由数据图谱(DGraph),信息图谱(IGraph),知识图谱(KGraph)为主要模块构成的DIKW图谱模型。

      二是,分析用户性格

      本文将依据自我构建理论对用户进行分为独立自我型用户和依存型自我用户两类用户,独立自我型用户注重个体的意义,更加倾向于与自己有关的TRDIK属性,而依存型自我用户更注重与其他用户的联系属性。并依据自我决定理论(self-determination theory, SDT)将用户需求和个性联系起来,SDT将人类行为分为自我决定和非自我决定行为,认为社会环境可以通过自主、胜任、关系三种基本心理需要来提供人类内部动机。不同性格的用户对于商品有不同的偏好,根据数据图谱中用户交互过程中特定动作频次来进行个性化推荐。

研究方法

      (1) 网络查询资料,同学交流,请教学长等来确定研究方向

      (2) 体验一下现有网上外卖平台的运行流程和平台特点

      (3) 确定系统的具体功能,并完成各模块的设计

      (4) 对程序进行编码调试

步骤及进度安排

       2022年1月18日前 查阅资料完成开题报告

       2022年1月19日-2022年3月1日 应用现有原理建立DIKW模型

       2022年3月1日-2022年3月20日 收集数据进行分析并总结结论

       2022年3月21日-2022年4月1日 进行编码完成前端设计

       2022年4月1日-2022年4月25日 测试系统功能,完善系统设计

       2022年4月26日-2022年5月7日 完成毕业论文

本课题的重点和难点

       本文的重点和难点在于DIKW模型的建立,用户性格分析和转化,用户行为的分析,数据分析和处理,网页前端设计。

预期结果和成果形式

      通过Vscode,WebStorm,Google Chrome,Python等环境完成对代码的调试及数据的分析,模拟真实场景使用测试。