关键技术
“jieba”分词:可以将文本按照你想要的方式对其进行词语精确拆分,有全模式、精确模式和搜索引擎模式,能够实现对拆分后的中文文本进行词性的标注,也可以准确的提取其中的关键词,是一个方便且实用的分词组件。
词袋模型:简称BOW模型,顾名思义,就是把所有词语装进一个袋子里,它不对词语的感情色彩、顺序、字符的长短等因素进行区分,简单的将其视为所有的独立的词语的一个集合,每个词的出现都是独立的不同词语的重要性仅仅是根据出现的次数来表示。
词向量:英文叫 Word2Vec,又叫词嵌入,这种方法可以解决词袋模型的稀疏性问题,是通过对原始文本建模训练学习得到的。由于词向量把每一个词映射到了一个高维空间中,并用向量表示,向量的生成是基于词与词之间的相关性得来,可以理解为相关的词在空间中的位置会比较靠近,所以词向量有一个非常有趣的特性,那就是类比。词向量模型的核心原理就是用邻居词的概率分布来作为中心的词向量表示。