课题背景

          纵观现今,人工智能是异常的火热,各大新闻媒体都在宣传人工智能带给这个社会的巨大便捷,同样,作为整个社会茫茫人海中的一员,能够切身的体会到人工智能在各方面的带来好处,比如当今手机上的语音识别等,对个人来说,也是非常棒的体验。 而本课题也是迎合时代的潮流,对人工智能的一种具体应用——情感分析做了一番研究。因为个人的精神世界是无法看见无法触摸的,只能通过个人的感知来传达,但是个人的感知仅仅只是个人的感觉,无法进行具体量化,所以本课题通过调查研究,想通过一种方法将个人的情感表示出来,从而将个人的精神世界展示出来,以便更加直观的对人类的情感进行下一步分析与研究。同时,若能够通过这种方法,分析并展示出个人甚至是群体的情感。

 

 

关于情感分析

         情感分析,属于自然语言处理,在这个领域,国内外已有了大量对情感分析的研究,而且很多家互联网公司的项目也已经落地,做出来的效果也是十分优秀,比如国内的百度AI开放平台,在此领域也是成绩斐然。当然,国外的谷歌也相当厉害,前段时间开源了的 BERT,也是震惊了整个自然语言处理领域,这也使他们一直处于这个领域的“领头羊”地位。本课题对情感分类进行研究的对象主要是主观性的文本,并且使用了jieba分词工具对文本进行分词,选用较为简单的TF-IDF来对文本进行特征的提取,提取之后将数据输入到搭建好的神经网络模型里去训练,并且采用有监督学习的方式对数据集的标签进行定义。本文结合软件工程生命周期的过程以及软件的开发方法及步骤、情感分类的相关理论与方法,开发出一个小型的web应用系统——面向群体的基于内容和情感的展示系统。 此系统主要是通过收集用户的一些数据,比如一些能够表示个人情感的评论性的句子文章等,将其输入到此系统,通过系统的一些特定的算法,对其进行学习和分析,分析个体用户此句话所表现出来的情感并将其简单的展示出来,提供给用户参考。

 

面向群体的基于内容和情感的展示系统模型

         首先,需要从用户群体中采集有关情感的大规模数据,然后将这些数据进行筛选、清洗,得到测试集。然后将处理过的数据即测试集输入到预先已经搭建好的人工神经网络中去训练和学习,得到不同的情感以及情感倾向,再将不同的数据对应的情感进行情感区域分类。到此,就基本完成了情感的识别与分类,之后便可以进行情感的识别与处理。主要过程是采集用户群体的情感数据,将其输入到刚刚训练好的情感识别与分类系统中,进行情感识别,再将识别后的情感进行展示。

 

关键技术

          “jieba”分词:可以将文本按照你想要的方式对其进行词语精确拆分,有全模式、精确模式和搜索引擎模式,能够实现对拆分后的中文文本进行词性的标注,也可以准确的提取其中的关键词,是一个方便且实用的分词组件。

         词袋模型:简称BOW模型,顾名思义,就是把所有词语装进一个袋子里,它不对词语的感情色彩、顺序、字符的长短等因素进行区分,简单的将其视为所有的独立的词语的一个集合,每个词的出现都是独立的不同词语的重要性仅仅是根据出现的次数来表示。

         词向量:英文叫 Word2Vec,又叫词嵌入,这种方法可以解决词袋模型的稀疏性问题,是通过对原始文本建模训练学习得到的。由于词向量把每一个词映射到了一个高维空间中,并用向量表示,向量的生成是基于词与词之间的相关性得来,可以理解为相关的词在空间中的位置会比较靠近,所以词向量有一个非常有趣的特性,那就是类比。词向量模型的核心原理就是用邻居词的概率分布来作为中心的词向量表示。

面向群体的基于内容和情感的展示系统总体概要设计图

         最基本的是用户群体,这一块需要的是采集用户的主观性的一些文本数据,以便可以进行情感的分析。 在数据的采集预处理过程中,主要是把采集到的数据进行清洗,本课题既进行了人工的数据的清洗也利用代码进行分词等处理。 在情感的识别与分类中,主要做的是文本的特征提取,然后利用分类器进行模型的训练。 在情感识别与处理中,主要进行的是预测以及展示。 最后反馈系统中,需要的是推荐给用户相应的与他情感相似的区域。

 

 

系统功能详细设计

  下图为系统功能详细设计,分为了三个子系统,分别为:数据采集系统、情感识别与分析系统、反馈系统。