发明专利作为知识产权的核心组成部分,在国际经济竞争中发挥着不可替代的作用。面对经济和社会对创新的快速增长的巨大需求,传统的发明专利申请、审核、答复、授权等环节的从人才到管理的持续快速质量改进和效率提升都面对更艰巨的挑战。本文从信息技术角度,借助所在课题组丰富的发明专利申请和答复的数据和经验积累,研究依托数据、信息、知识与智慧(DIKW)架构的发明专利智能申请与答复系统,为海南加快培育现代产业体系,实现跨域式发展提供信息化保障。
     首先,依托数据图谱、信息图谱、知识图谱和智慧图谱(DIKW图谱)构建申请人和审查员两方的用户画像,依据各个用户画像搭建内容数据库,根据用户内容数据库设计多维度体系化交互机制。其次,基于DIKW图谱架构的交互机制设计与实现发明专利智能申请与答复系统,依托和结合开发生命期软件工程全过程建模管理,面向发明专利申请到授权全过程处理,针对生命期内的发明专利,结合专利法、专利实施细则等相关专利法规,对申请人或代理人撰写的发明专利申请文档进行修正,使其符合相应的规则,并利用竞争及合作的智能填充算法实现专利的自动化申请。在答复过程中,根据答复意见并结合用户画像内容数据库,对内容进行重构,并提供具有针对性的修改意见及方案,实现发明专利的智能辅助答复。之后,提出正负双向索引算法得到更加精确的搜索结果以配合专利申请和答复,其中搜索结果的形式除了匹配查询关键字的链接,还能够基于专利技术内容的实体关系搜索答案。最后,本文还结合发明问题解决理论(TRIZ理论)中的冲突矩阵工具,通过DIKW图谱对技术方案进行分析,依据40项发明创造原理,得出可供申请专利或有应用前景的技术发明点,并以数据图谱可视化展示。
     综上所述,本文对DIKW图谱技术和发明专利申请及答复的结合进行了深入的研究,涉及了DIKW图谱的数据层、信息层和知识层实体的处理、多模态融合的语义处理以及TRIZ理论等内容。依据DIKW图谱技术提出了一种可应用于专利智能申请与答复的系统,基于经验性判断及仿真实验,将DIKW图谱技术应用于发明专利的研究是有效的。本项目的研究内容具有理论意义和应用价值,可将本文的研究技术推广应用到海南各个专利申请和处理的单位,加速专利申请过程,提升质量和通过率,为海南自贸港创新发展助力。
      国际背景及意义:发明专利作为知识产权的核心组成部分,在国际经济竞争中发挥着不可替代的作用。专利战略已经成为企业经营战略与防御国外企业专利战攻击的核心,增强自主知识产权成为重要的国家战略措施。然而,我国绝大部分企业在知识产权保护方面重视程度较低,大多数原创技术得不到保护。在企业专利战上,经常被国外企业攻击,长期处于被动挨打的局面(付启明, 2010、姜军, 2015)。例如芯片等高端技术一直处于国外垄断的地步,在2020年4月份的国外新冠肺炎疫情爆发期间,美国通过对中国企业进行限制,尤其表现在对华为的“断芯”升级。因而如何应对国外技术垄断是我国面临的一大难题。
      国内背景及意义:国家知识产权局2021年1月27日公布的《知识产权统计简报》(国家知识产权局战略规划司, 2021)公布了以下数据:2020年1-11月,我国发明专利申请140.4万件,2020年一整年,我国授权的发明专利数量为53万件。从中我们可以看到相对于庞大的发明专利申请量,授权比例仅仅只有三成。中国是“专利大国”而不是“专利强国”的现状阻碍国民经济登上新的台阶(耿宁悦, 2019、刘垠, 2019)。近年来,国家在技术创新尤其是高端技术创新上不断加大投入,带来的是专利数量的飞速增长,而不是专利质量的提高。以高校为代表的单位不断鼓励科研技术人员申请专利,以提高其影响力,但这也滋生了许多的无效专利,白白浪费了国家的巨大投入。由于我国对知识产权保护的鼓励,极大地减少了专利申请的成本,导致我国高校的专利申请量占总申请量的比重远远大于美国的这一比重,而企业的申请量比重则远远低于美国,这带来了我国专利成果转化效率极低的痛点。有文章还指出,我国的科技成果转化率仅仅只有10%。这也意味着我国投入的绝大部分资金换来的成果都打了水漂。因此提高我国发明专利尤其是高价值专利的质量是一项艰巨而又必须完成的任务。
      发明专利作为科技创新和产业升级的产物,必然会随着技术的发展而发展。以发明专利为核心的知识产权已然受到人工智能技术的高速发展的冲击。在这种背景下,以创新为原始驱动力的产业随着人工智能的发展需要不断升级,以满足人们的需求(孔祥俊, 2019)。根据智能程度,人工智能可以分为增强智能与替代智能。其中,增强智能指的是研究人员利用人工智能强大的数据分析整理能力,辅助人类进行一系列创造活动,实现人机协作。而替代智能则是人工智能自行参与社会性活动和发明创造中去,不需要人类的任何参与和辅助。替代人工智能具有人的思维能力和人的推理判断能力,是强人工智能时代的特点之一。然而以目前的技术发展水平来看,人工智能还远未达到替代智能的程度。因此在这个弱人工智能时代,我们应该将增强智能作为主要视域,让人工智能在数据分析方面辅助人类进行发明创造活动。以实现有效缩短分析时长,促进分析成果转化和分析结论共享的效果(李想, 2020)。
      在发明专利的管理以及检索方面,人工智能也同样发挥着重要作用。Trappey等人(Trappey et al., 2006)提出了一种基于ANN技术的发明专利申请文档的分类和检索系统,该系统能帮助公司更有效地管理专利文档。在与创新管理重叠的领域,Trappey等人(Trappey et al., 2012)帮助公司评估知识产权以及用于创新产品开发和发现最新技术趋势的专利文件的质量。通过反向传播神经网络并结合专利交易信息,可以根据专利质量对专利进行分类,准确度为85%。此外,Trappey等人(Trappey et al., 2013)提出了一种专利知识管理方法,该方法使用基于本体的人工神经网络算法自动对发明专利文档进行分类和搜索,从而刺激新产品开发创新以实现有效的协作管理(Chiang et al., 2011)。为了了解当前的技术变化以更好地预测技术变化的基础,Trappey等人(Trappey et al., 2017)开发一种发明专利分析方法,以探索生物增材制造领域的专利组合和专利发展,以用于决策支持和战略规划。在(Nutter et al., 2002)中,作者设计了一种发明专利评估方法和系统,该系统通过分析专利的可观察性、可缩放性、现有技术的可能性、未来的商业用途、调查困难、索赔强度、替代品的可用性和目前的商业用途,综合考虑专利的价值以分配许可度等级,从而允许公司以具有成本效益的方式确定获得大量专利或其他知识产权的许可的可能性的系统和方法。Wu等人(Wu et al., 2016)的工作表明了对专利质量的关注。他开发了一种自动专利质量分析和鉴定系统,该系统基于自组织图,内核主成分分析和支持向量机的组合。为了更好地将先验知识纳入渐进式创新中,Lu等人(Lu et al., 2009)使用混合最小-最大模块化(M3)和支持向量机分类器来提高日本专利的学习性能。此外,Hido等人(Hido et al., 2012)通过结合机器学习和文本挖掘方法来评估专利申请的质量,该方法可计算可专利性得分。可专利性评分给出专利申请被专利局批准的可能性。Lee等人(Lee et al., 2016)使用多个专利指标来检查技术在其生命周期中的进展。作者采用了隐马尔可夫模型来估计技术处于生命周期的某个阶段的可能性并确定模式。Kim和Lee(Kim et al., 2017)基于专利引用分析,依赖结构矩阵和神经网络分析,提出了一种多技术融合的预测方法,该方法可以规划未来技术组合的技术开发。预测专利申请的数量也是了解技术领域发展的重要因素。Zhang等人(Zhang et al., 2009)提出一种支持向量机的方法,以克服主要存在于专利中的稀疏性问题。Jun(Jun., 2016)基于支持向量聚类和Silhouette度量,使用降维和K-means聚类构建了一种组合聚类方法,通过专利分析实现技术预测。此外,Tenorio-González和Morales(Tenorio-González et al., 2018)描述了一个名为概念自动发现的系统,该系统将归纳逻辑编程技术与谓词发明相结合,并将强化学习与内在动机相结合,以发现新概念。此外,Vrochidis等人(Vrochidis et al., 2012)提出了一种在专利检索任务期间自动提取描述专利图像内容的概念信息以支持搜索者的方法。同样,Riedl等人(Riedl et al., 2016)提出了许多用于专利数字图形识别的算法。Aristodemou等人(Aristodemou et al., 2018、Aristodemou et al., 2017)为有关发明专利分析方法(例如人工智能方法,机器学习)使用的持续讨论做出了贡献和深度学习方法,以分析发明专利数据。NLP设计计算机和人类(自然)语言之间的相互作用,特别是对大型自然语言语料库的处理。它使用计算语言机制来表示在任何文档中找到的文本。NLP已用于带有书目耦合和文本挖掘的混合结构中,以在专利检索和分析平台中发现模式(Liu et al., 2011)。Yoon和Lim(Yoon et al., 2013)通过分析主观行动客体结构,搭建专利知识图谱,该图谱可以有效的预测专利竞争方向。Park等人(Park et al., 2013a)也利用主观行动客体结构,从专利文献中提取基于主观行动客体的智能专利分析,并对专利技术文档中的语言相似性进行可视化展示(Park et al., 2013b)。Choi等人(Choi et al., 2012)利用NLP开发技术,提取SAO结构,进行专利相似性检测。Park等人(Park et al., 2013a)通过使用SAO结构来表示技术组件之间存在的关系,计算语义相似性来检测侵权。此外,Gerken和Moehrle(Gerken et al., 2012)利用NLP通过句法分析来构建语义SAO结构,以识别专利中的新颖性。一些学者利用属性分析法,即利用语法分析从专利文献中提取属性和功能,建立专利网络(Dewulf et al., 2013、Yoon et al., 2012)。Lee等人(Lee et al., 2013)提出使用语义分析和依赖关系来检测侵权。Wang和 Cheung(Wang et al., 2011)从专利文献中提取关键概念,以发现和使用从USTPO数据库收集的专利文献摘要,并通过Naives-Bayes算法对专利文献进行分类。而且,针对多个领域的本体开发可以用作集成平台,以通过填充本体类来开发知识库(Taduri et al., 2011)。 Taduri等人(Taduri et al., 2012)对此进行了扩展,以提出一个基于知识的框架来促进专利文献的检索。
      人工智能采用的陡峭上升正在创造与2000左右的通信和互联网繁荣并行的专利文件。基于专利洞察力,在(Cowan et al., 2018)中,作者建议创建一个IP战略框架,为人工智能(AI)采纳者和市场领导者考虑。这对于学术界和企业界来说是至关重要的,他们希望在这个日益增长的全球市场中发展和领先,以及政府资助计划,以支持国家研究计划。在发明专利体系中,专利法等相关专利法规在广泛传播发明和思想给社会带来的好处与通过在有限时间内为发明人提供专有权而进行创新的动机之间取得了平衡(Cubert et al., 2018)。在专利法中,专利的创造性、新颖性和实用性是最具有代表性的。而创造性的判断则是人工智能参与专利申请时讨论最多的。其次,在自然语言处理领域,人工智能依据其强大的数据整理、分析能力已经具备了单独创作的可能,这意味着传统的著作权法将会受到猛烈地冲击(寇枫阳, 2019)。其次,人工智能技术参与发明创造不仅会造成依靠自学习算法的专利技术的大量出现,而且也会使拥有新兴人工智能技术的企业申请大量技术方案,通过破坏新颖性的方式形成行业垄断(李想, 2020)。最后,龙文懋和季善豪(龙文懋等, 2019)认为“创造性”的本质和特征包括四个方面:一是人脑是创造的基础,二是创造是有意图的活动,三是只有依靠人的逻辑思维和直觉思维共同参与工作才是创造的本质,四是创造的特征在于打破常规。而人工智能的创造性则不具备其本质和特征,人工智能的创造性一般局限于四个方面:一是“深度神经网络”赋予AI自主学习能力,二是AI仅能实现逻辑思维能力,三是AI的“创造意图”来源于人类。
      发明专利是具有创造性的,那么运用人工智能辅助其申请和答复是否会影响其创造性呢?随着人工智能技术的高速发展,人工智能已经可以非常有效的辅助科研人员进行发明创造。人工智能依靠其自身强大的算力能够对海量的数据进行分析整理,发现新的技术方案、物质成分、改进措施、合成方法等(吴坤, 2020),这些人机协作所产生的发明创造可以大幅提高专利的新颖性。早在2016年,美国科学家就在晶体合成领域使用人工智能完成多达四千次的试验训练,最终依靠深度学习技术成功的发现了新的有机模板化产品的生产制置方法。从上面的例子来看,人工智能技术在自学习领域已经完全具备了实际操作的能力,完全能够对数据进行收集整理并自主的发现新的改进方案。从某种角度上来说,人工智能正在成为,甚至已经成为了发明创造的“创造者”(吴坤, 2020)。自2010年以来,美国专利商标局就已经开始考虑将人工智能发现的发明创造授予专利权,并且还应该对其实用性进行考量,不能因为没有人的参与而将其排除在外。同时对因人工智能参与的发明创造也由原来的驳回决定,通过考虑发明创造的技术方案本身,重新授予专利权。例如“一种收集有用信息的方法”就由原驳回决定改为重新授予专利权。在深度学习、自然语言处理、知识图谱等领域,人工智能充分发挥自身优势,通过分析、预测数以亿计的数据可以发现新的技术方案,推动技术发展,为人类谋福祉。因此,专利审查也应该同美国专利商标局所希望的那样,应当首先关注专利法规定的“三性”要求,即使这个专利不是自然人所发现的,也应当授予专利权(吴坤, 2020)。
      一是,依托DIKW图谱构建申请人或代理人和审查员两方的用户画像,依据各个用户画像搭建内容数据库,根据用户内容数据库设计多方交流的可定义隐私模糊度的多维度体系化交互机制。
      二是,基于DIKW图谱架构的交互机制设计与实现发明专利智能申请与答复系统,依托和结合开发生命期软件工程全过程建模管理,面向发明专利办理全过程,针对生命期内的发明专利,结合专利法等相关法律法规,对申请人或代理人撰写的技术文档进行修改,使其符合相应的规则,并利用竞争及合作的智能填充机制实现专利的自动化申请。
      三是,在答复过程中,从DIKW概念架构角度进行相关内容资源建模与转换映射。依据多方交流的交互机制从数据、信息、知识和智慧的角度对内容进行重构,以达到不同领域人员相互理解的目的。根据答复意见并结合用户画像内容数据库,提供具有针对性的修改意见及方案,实现发明专利的智能辅助答复。
      四是,在专利检索过程中,重构内容能够满足更加精确的信息搜索需求,提出的正负双向索引算法使搜索结果的形式除了匹配查询关键字的链接,还能够基于专利技术内容的实体关系搜索答案。
      五是,结合发明问题解决理论(TRIZ理论)中的冲突矩阵工具,通过DIKW图谱对技术方案进行分析,依据40项发明创造原理,得出可供申请专利或有应用前景的技术发明点,并以数据图谱可视化的形式展示。
      六是,面向分布式处理效率,进行价值导向的修正重构等处理设计。在双方相互答复的交互过程中考虑系统的负载均衡,实现资源处理效率的最优。通过设计数据、信息和知识的存储、处理、转换等环节,实现对发明专利的实时分析和评估,从而对申请人或代理人的意图进行实时理解。
       数据是DIKW层次结构的最低层级,它是最基础的也是最重要的,而且数据还是通向智慧的源头。数据有着元数据和数据元之分。元数据在元模型中被定义为关于数据的数据。元数据对于用户而言,提供发现数据、访问数据、转换数据等作用(吴轩, 2018)。例如Duan等人(Duan et al., 2017a)所定义的图的元数据由数据图谱中的概念组成。数据元则是描述属性的数据单元。在知识图谱中数据元与实体关系模型有着紧密联系(段玉聪等, 2018c)。在计算机系统中数据是编码的不变性(Zins., 2007)。Buckland(Buckland., 1991)指出数据是通过观察获得的数字或其他信息的基本单个项,但就其本身而言,没有上下文,他们就没有信息。文献(Zins., 2007)也指出数据是由科学家和其他人收集的关于世界的原始观测数据,只有最低限度的上下文解释。Wang(Wang., 2015)定义了数据是现实世界中所有可描述或不可描述对象的抽象表示。本文结合本体论和概念模型,从事物本身的存在特性出发,建议将数据定义为世界可观察属性的象征性表示。我们认为数据作为世界中存在事物的基本单元,能够通过观察数字或者其他信息获得,作为数据本身,仅有存在与否,没有其他任何意义。数据有着多种表达形式,例如数组、队列等(Duan et al., 2017a)。数据在5W+H中能够回答“Who/When/Where”指导下的问题(Shao et al., 2017b)。
       信息有着多态和多义的特点。例如当信息作为一种解释时,它可以与很多种不同的解释关联起来,所采用的的抽象级别不同则解释也不相同(Floridi., 2008)。在信息元模型中,元信息被定义为关于信息的信息,可以被用来实现有条件的请求。Shannon的工作(Shannon., 1948)导致许多人从物理学的角度来对信息进行定义。但是,这种方法并没有深入人心,因为人们普遍喜欢思考信息的社会和心理意义(Bates., 2005)。信息代表依赖于数据的存在而标记的关联的多于一个的数据(段玉聪等, 2018c)。信息与意义或人类意图有关,在计算系统中信息是数据库、网络等的内容(Zins., 2007)。Buckland(Buckland., 1991)指出信息是指通过数据和组合数据的上下文传达的信息,并可能适合进行分析和解释。文献(Zins., 2007)也指出信息是数据的集合,用来对世界进行连贯的观察。Wang(Wang., 2015)定义了信息是人类大脑感知到的抽象物体的一般形式,由符号、数学、通信、计算和认知系统表示。本文从本体论的角度解释信息,基于实体关系模型,信息被定义为有着上下文含义的数据。信息在5W+H中能够回答“What”指导下的问题(Shao et al., 2017b)。
       知识在日常生活中经常被人们所使用。关于知识的定义的讨论一直都是哲学家和社会科学家所感兴趣的话题。为了了解知识,哲学还产生了一个重要的分支-知识论。在知识元模型中,知识有着知识元和元知识的区分。元知识是关于描述和使用一般知识的知识,而知识元是指不可再分割的具备完备知识表达的知识单位。从本体论的角度看,元知识是可被清晰表述和有效转移的最小可控单位,即显性知识的最小可控单位。知识的重要性使得研究者们从各个方面获取知识,例如数据挖掘、文本挖掘和Web挖掘(Jifa., 2013)。Hey(Hey., 2004)认为知识是与信息或数据完全不同的“实体”,是由知识者现有的观念和经验“塑造”的,它不同于数据和信息一样可以在现实世界中直接观察得到(Duan et al., 2017a)。根据Gamble(Gamble et al., 2001)的描述,知识是关于经验,价值,背景信息,专家见解和扎实直觉的处理信息,这些知识可以导致出新的信息和做法。知识还分为显性知识和隐性知识(Cleveland., 1982、Cooley., 1980、Eliot., 1934)。能够被记录下来的知识被称为显性知识(Yusof et al., 2018),有着能捕获、获取、创建和转让等特点(Polanyi., 1962)。而不能被记录的经验教训,经验和培训技能的知识称为隐性知识(Yusof et al., 2018),有着难以编码和交流的特点(Polanyi., 1962)。区分显性知识和隐性知识在评估知识管理的范围至关重要(Broadbent., 1998)。进一步的,Duan等人(Duan et al., 2019)根据显式和隐式划分提出了对目标资源隐私保护的解决方案。本文从认知论的角度出发,将知识定义为抽象信息和转换信息的有效结合。将信息进行认知处理和验证得到的结构化和组织化的信息就是知识。不管是显式知识还是隐式知识都可以通过学习获得,仅仅是难易程度的区别。当我们传递知识时,首先需要将知识编码为信息,以事物存在的形式、内容等传递给对方,然后在将信息解码为知识(Duan et al., 2017a)。知识在5W+H中能够回答“How”指导下的问题(Shao et al., 2017b)。
       智慧是最高的抽象层次,是我们辨别对与错,善与恶的过程(Duan et al., 2017a、Yusof et al., 2018、Cooper., 2014),它具有远见卓识和超越视野的能力(Baskarada et al., 2013、Awad et al., 2004)。尽管在过去的几个世纪中人们对智慧概念进行了深入的哲学研究,并且尽管智慧在当代商业世界中有着重要作用,但很少对智慧进行实证研究。众所周知的是虽然DIKW模型包含了智慧这一层级,但是大多数学者在对DIKW的讨论中很少提及智慧。智慧的定义比知识的定义更加抽象,即使他们都是从主观逻辑上进行定义的。例如当知识被定义为人们的经验是,智慧则被定义为人们能根据经验而做出决定的能力。尽管DIKW金字塔在数据,信息,知识和智慧之间提供了层次结构的关系,但是很少有关于如何将数据、信息和知识实际上转换为智慧的讨论(Intezari et al., 2016)。例如Wognin(Wognin et al., 2012)认为DIKW层次结构无法解释知识转化为智慧的过程。甚至于,有学者认为,智慧不能被存储,也不能从一个人转移到另一个,它不应存在于DIKW模型中(Hoppe et al., 2011),缺少智慧这一层时也不会影响知识服务于人类(Jifa et al., 2014)。然而,随着许多智慧城市的出现,关于智慧的讨论以及如何生成并使用智慧势在必行。Jashapara(Jashapara., 2004)指出智慧是在任何给定情况下都能够采取批判性或实际行动的能力。Jessup和Valacich(Jessup et al., 2008)认为智慧是知识的集合,通过积累实现从量变到质变的转化,最终形成经验和能力。它能帮助我们如何将概念从一个领域应用于另一个领域。在DIKW模型中,通过知识和道德判断抽象出原理和价值能够促使知识向智慧的转化(Zhang., 2016)。Wognin(Wognin et al., 2012)提出在知识层和智慧层之间添加复杂的思维过程以促进知识向智慧的转换。本文采用叔本华的直觉(Schopenhauer., 2012),取智慧作为推理和意志之间的平衡,以优化人类的长期目标。智慧在5W+H中能够回答“Why”指导下的问题(Shao et al., 2017b)。
 
       知识图谱是指将存在事物以节点的形式进行表达,然后把存在相互关系的存在事物以线的形式链接起来,而形成的图形。由于知识图谱对于知识服务的重要支撑作用,知识图谱被作为新一代人工智能的基础设施。从语义网的角度看,知识图谱是数据知识化的过程。从人工智能的角度看,知识图谱的发展历程又是知识数据化的过程。2017年,Shao等人(Shao et al., 2017c)首次从数据、信息、知识的角度描述了知识图谱架构,并从数据图谱(Data Graph)、信息图谱(Information Graph)、知识图谱(Knowledge Graph)、智慧图谱(Wisdom Graph)等四个基本形式细分了知识图谱。细分后形成了知识图谱的四层架构-DIKW架构(Duan et al., 2017a)。DIKW图谱的每一层分别对应数据(Data)-信息(Information)-知识(Knowledge)-智慧(Wisdom)的知识金字塔结构的每一层(Rowley., 2007)。并且规定了数据、信息、知识等类型化资源之间以及数据图谱、信息图谱、知识图谱等图谱资源之间的类型转换(Duan et al., 2017b)。知识图谱提供了网络化的知识组织方案。然而,递进式的数据、信息、知识等三个层次的结构需要更加细化的知识图谱架构方法来更好的解决。一套用于解决对数据、信息、知识的组织问题的更加细化的知识图谱架构方案迫在眉睫。
       基于DIKW的发明专利智能申请与答复系统还将涉及到语义搜索问题,并且因为申请人和审查人的领域知识、自身性格等因素的差异,将导致混合形态的语义搜索受到极大的挑战。因而对于语义搜索的相关技术有必要在此进行陈述。虽然早在1980年,国际上就已经对语义搜索进行了讨论,但是限于当时技术发展水平的局限,语义搜索研究一直没有取得突出的成果。近年来,随着人们对自然语言处理的研究愈发成熟,语义处理终于得到了迅速发展。然而对于多模态语义搜索问题,却一直都是搜索引擎中拉低搜索精度的一大痛点,而多模态语义搜索引擎的效率又取决于大量标记数据。Fader等人(Fader et al., 2014)使用共指分解技术提取的知识库,并从未标记的问题语料库和多个知识库中提取了数百万条规则,以寻找问题分析和查询重构的解决方案。Wang等人(Wang et al., 2013)将概率计算引入到语义处理问题中,通过注释的方式使不同语言知识库之间关联起来,该方法促进了不同语言之间的知识共享。建立区域合作医疗数据中心以实现医院信息之间的整合。Shao等人(Shao et al., 2017d)通过DIKW图谱自动提取和调整资源,该体系结构通过对数据图进行频率集中的概要分析以及对信息图和知识图的抽象优化搜索,从而递归地支持经验知识的集成以及对资源元素的高效自动语义分析(段玉聪等, 2018a)。Sen(Sen., 2012)将主题模型作为相似度计算的基础,并从维基百科获得了实体目录。大量的基于特征向量的监督学习方法,半监督学习方法(Carlson et al., 2010)应运而生。Baoko等人(Baoko et al., 2007)提出了一种用于开放域的信息提取框架,并发布了一个基于自我监督学习的开放信息提取原型系统。借助5W(Who,When,Where,What和How)问题(Chatti et al., 2012)的分类,可以很容易地获得用户学习需求的描述,5W是在信息收集或解决问题中被认为是基本答案的问题。
       TRIZ理论在发明创造领域具有非常突出的特点和强大的理论指导意义。本系统结合TRIZ理论中的冲突矩阵工具,通过DIKW图谱对技术方案进行分析,依据40项发明创造原理,得出可供申请专利或有应用前景的技术发明点,并以数据图谱可视化的形式展示。
       TRIZ理论(Tan et al., 2014)也叫基于专利知识的系统化方法学(Kim et al., 2000)。是阿奇舒勒在对专利进行分析时,利用不同的方法从多维层面对其进行归纳,并得出了大量的可行性规律,最终进行一套发明问题解决理论。此后,随着TRIZ理论的不断扩充和完善,增加了大量研究人员发现的方法和工具。
       其中本文主要运用的是TRIZ理论中的矛盾冲突矩阵工具,依据40项发明创造原理和48个通用工程参数(旧版为39个通用工程参数)。
       目前,TRIZ理论在国内多应用于专利研究,并取得了一些应用成果。如杨鑫超等人(杨鑫超等, 2020)提出TRIZ在高价值专利培育中的应用,许崇春(许崇春, 2012)在TRIZ的基础上融合集成了专利技术路线图、专利地图,并将其应用到技术创新的新路径中;王克奇等人(王克奇等, 2011)以TRIZ理论中的冲突矩阵工具,开发了一种专利检索系统,该系统能有效帮助专利检索技术人员获得对专利创新有启发的参考方案。在专利检索方向,李更等人(李更等, 2013)利用TRIZ理论,来规避专利侵权问题,从而提高科研人员的创新效率。在知识产权预警方向,祁明等人(祁明等, 2012)从政府视角、企业视角和国际视角三个视角出发提出一个知识产权综合预警框架;江屏、李鹏等人(江屏等, 2015、李鹏等, 2013)基于TRIZ理论对产品进行专利规避创新设计。在专利分类方向,TRIZ理论被用于用于协同过滤(胡学钢等, 2018)、专利竞争(燕慧泉等, 2018)、和专利信息组织(李睿等, 2017)。胡正银(胡正银等, 2017)、彭茂祥(彭茂祥等, 2016)和鲁麒等人(鲁麒等, 2014)基于大数据技术、数据挖掘技术,结合TRIZ理论在从深层次对专利技术进行挖掘。基于上述研究,本文结合TRIZ理论中的冲突矩阵工具,结合DIKW图谱技术,对发明专利的技术方案进行分析,得出可供申请专利或有应用前景的技术发明点,并以数据图谱的方式可视化展示。
       在申请一项新的发明专利时,一般都仅需要提交说明书、权利要求书、说明书摘要、说明书附图、发明专利请求书。
       在专利申请流程中的初审阶段,申请人可以主动提交补正书对专利进行修改以完善专利。其次,审查员也将会对专利是否存在明显缺陷进行审查,若存在则申请人需要针对补正通知书内容进行答复,并提交补正书和修改后的申请书。
       在专利申请流程中的实质审查阶段,审查员会对专利文件是否符合授权条件进行审查。在没有达到授权条件时,审查员会下发通知书。申请人可以根据通知书进行意见陈述或对专利文件进行修改,直至该专利授权或被驳回。
       在专利申请流程中,当发明专利公布后,申请人需要办理专利的实质审查手续,使专利进入实质审查阶段。在这一流程中,申请人需提交实质审查请求书。对于一些需要加速审查的专利,如计算机类的专利,还可以申请优先审查,使专利更快的得到审查。
       在国内外研究中,对于智能填表方面的研究有很多。曹东(曹东, 2012)设计开发了面向人事管理的智能填表系统,并实现了利用基于最大熵的隐马尔可夫模型自动填充表格的方法。姜涛等人(姜涛等, 2012)通过规则分析并结合智能化信息获取技术设计了一种基于excel模板的在线填表系统,王亚非(王亚非, 2014)结合人际交互等技术,设计了离线表格建模工具和在线填表提示系统,两者都能有效实现智能填表。此外,Wang等人(Wang et al., 2017)设计了一个用于在不同的web应用程序自动填充web表单的智能框架。王玉秋(王玉秋, 2018)设计了一个基于VS中“WebBrowser控件”的自动填表程序。虽然在智能填表领域研究众多,但现有设计几乎都是从数据迁移过程出发的,本系统在专利申请自动化中,充分考虑申请人的意图,通过判断表项的重要程度和填充难易程度,减少专利申请文件提交过程的无效时间损耗。
       在意图识别领域,唐静笑等人(唐静笑等, 2014)针对用户在使用搜索引擎时的查询意图设计了一种意图识别的方法。该方法能够对无明显意图的行为进行识别。杨春妮等人(杨春妮等, 2018)结合句法特征和CNN进行结合,提出了一种多意图识别模型。王海旺等人(王海旺等, 2019)提出一种基于直觉模糊集合的新型意图识别方法,Firdaus等人(Firdaus et al., 2019)提出了一个用于意图检测和槽填充的多任务分层方法,该方法使用CNN和RNN捕获上下文信息,利用CRF进行建模,最后得出的模型可以联合执行针对不同域的数据集的意图检测和槽填充任务。
       本系统参考以上研究与应用,构建基于图数据库的意图模型,然后通过信息抽取技术对表项进行匹配,得到它的重要程度和填充难易程度,图15是专利申请书数据图谱可视化效果,圆圈的大小代表该项的重要程度,线段的长短代表该项的填充难易程度。
       基于DIKW图谱的多模态语义建模,主要用于从效率提升和战略投资实践中获得最大的效益提升和战略投资实践的价值。
       在DIKW图谱中,离散事物一般记录在数据图谱上,通常表示为时间、空间和结构三个频度。在发明专利申请文件中,数据图谱可以记录各个步骤的操作顺序,产品内各组件的间距、尺寸大小和组合方式等。信息图谱记录每个实体的交互关系,在信息图谱上可以通过计算交互频度推理出新节点,并重新计入数据图谱中。例如当某一产品的n-1个配件的尺寸大小已知时,可以对最后一个配件的尺寸大小进行推理判断,若符合则记录成新的节点;在知识图谱上对类之间的关系运用关系抽取规则进一步抽象,并对技术方案表达的完整性进行补充,提升沟通的效率。
       专利的准确性和传输速度是衡量图谱优劣的重要标准,为了消除相关人员对专利内容的理解偏差,本文提出的基于DIKW的图谱依托于传统的专利申请方案,引入了一系列的优化对策,例如对专利内容进行归类、整合以增强内容的可参阅性,在保证专业性的基础上增加个性化、交互性强的语义,减少理解误区等。
       通过构建DIKW内容库实现传递的专利申请方案内容的重构,解决申请人、代理人等技术人员和审查员之间对专利内容理解存在差异的问题,且重构的专利内容在保留了原内容的关键语义的基础上实现个性化的表述。同时系统还对传递的专利内容进行整合优化,提高内容传递的准确性和传递效率。
       在申请人等技术人员和代理人之间可能存在,某一方的内容库中不存在某一概念,或在双方的内容库中,同一概念可能对应不同的理解。为了实现双方对同一概念理解的一致性,本文通过对传递的概念进行重构,使双方实现差异化理解,其中重构可在三方中的任意一方进行。
       本节就传输内容重构问题提出了解决对策,基于DIKW图谱的内容重构算法流程图如下,发送方向接收方发送数据,接收方提取关键信息后将该信息封装成包,并确认该包是否能被接收方的DIKW图集库校验,是则直接转发,否则获取接收方的DIKW图谱内容库和第三方DIKW图谱内容库等详细信息,并采取重建算法,对无法识别的内容进行重构后将重建内容转发至接收方。
       为保证图谱迁移后的一致性,需要对多模态的内容语义进行价值计算。本文仿造区块链技术,提出一种针对节点和节点网络的内容语义价值计算算法,以处理多模态的内容语义。
       在发明专利申请及答复过程中,对专利进行检索是一项必须要进行的工作。例如当专利申请优先审查时,需要对现有技术进行检索;当专利处于答复过程中,审查员对专利是否具有创造性进行审查时,也需要对现有技术进行检索。因此专利检索在专利申请到授权整个周期内都是及其重要的。本文提出一种正负双向索引算法以得到更加精确的搜索结果,配合专利申请和答复。其中搜索结果的形式除了匹配查询关键字的链接,还能够基于专利技术内容的实体关系搜索答案。
       本文提供一种基于DIKW图谱的正负双向搜索策略。在搜索之前,首先计算资源在DIKW图谱各层上的搜索代价,然后通过比较排序,选择代价最低的图谱进行遍历,最终实现搜索载体的优化。
       根据搜索效率确定在三层图谱上搜索的优先顺序,使用户花费最少代价而能获得相对有效和准确的资源。
       本文针对具有正向和负向趋势的问题提供渐进式搜索方法,通过多次渐进式搜索来提高资源的可信度。同时,引入DIKW图谱作为资源处理架构,以组织网络上的资源,并通过语义分析来分析搜索者检索信息的趋势。根据搜索时间和每次搜索的项数来计算资源的熵,以表示具有正负趋势的资源的可靠性。在渐进式搜索过程中,将消除具有歧义倾向和虚假信息的资源,并提高搜索结果的质量,同时避免针对无限和复杂问题的死循环。根据用户搜索到的实际问题的描述,获取满足用户信息需求的相关资源,这些资源可以分别分为具有正向和负向倾向的资源。例如当申请人搜索“申请发明专利时,摘要附图是必需的吗?”时,正趋势是必需而负趋势则是非必须。
       本文通过对用户的需求进行建模,并分别对具有正向和负向的搜索资源的权重进行计算。
       该系统的主要功能是针对传统专利申请、审核、答复、授权等环节的效率低下以及高校专利质量普遍较低的问题,设计一种基于DIKW的发明专利智能申请与答复系统。旨在优化知识产权管理过程以及提高我国发明专利尤其是高价值发明专利的质量,为海南加快培育现代产业体系,实现跨域式发展提供信息化保障。本系统实现了对申请人和代理人双方的DIKW图谱画像,可以根据双方数据库设计可供多方交流的交互机制;系统实现了对发明专利申请书中内容的重构算法,可以根据专利法、专利实施细则等相关专利法规和审查员的答复意见,对发明专利申请文档进行修正,使其符合申请和答复标准;系统实现了基于DIKW的专利文件检索系统,可以根据专利内容匹配DIKW图谱,以满足更加精确的信息搜索需求;系统还实现了对可供申请专利的技术方案的预测,结合TRIZ理论中的冲突矩阵工具,通过DIKW图谱对技术方案进行分析,依据40项发明创造原理,得出可供申请专利或有应用前景的技术发明点,并以数据图谱可视化的形式展示。系统面向分布式处理,在双方相互答复的交互过程中考虑系统的负载均衡,实现资源处理效率的最优。
       安全性,可靠性,可维护性,可用性,可伸缩性,性能
       用户可以在首页进行登录、注册、专利检索等操作,当用户为申请人或代理人时,可以接入申请人界面;当用户为审查员时,可以接入审查员界面。
       系统总体上分为三层,分别是需求采集层、处理层和传输层。需求采集层:需求采集层包括申请人、代理人和审查员需求的采集。其中申请人和代理人包括专利申请及下载需求、专利检索需求、专利修改及答复通知书需求、专利发明点预测需求;审查员包括专利检索需求、专利审查和答复陈述意见需求、专利提交及下载需求。处理层:处理层为本系统的核心部分,包括竞争及合作智能填充模块、多模态内容语义建模、传输及计算一体化模块、正负双向搜索模块、个性化展示模块。其中竞争及合作智能填充模块主要服务于专利申请及提交需求、多模态内容语义建模、传输及计算一体化模块主要服务于专利修改及答复需求和专利发明点预测需求、正负双向搜索模块主要服务于专利检索需求、个性化展示模块主要服务于申请人代理人和审查员沟通时的用户画像构建和本系统的界面展示。传输层:传输层为申请人和审查员双方进行交互时作用的层级,其中包括边缘计算、云计算和雾计算。双方在沟通时,根据传输数据的大小、传输的速率等参数进行DIKW图谱转化,以负载平衡。
       系统包括注册、登录、专利检索、申请人接入和审查员接入五大功能。其中申请人接入包括专利申请功能、专利通知书下载功能、专利修改功能、专利答复功能和专利发明点预测功能五个功能,审查员接入包括专利及答复下载功能、专利审查功能、通知书提交功能三个功能,其中专利审查功能包括初步审查功能和实质审查功能两个功能。
       用户登录本系统后,点击申请人接入,进入到申请人接入界面。用户可以选择专利申请、专利通知书下载、专利修改、专利答复、发明点预测五个按钮进行操作。
       本系统采用Neo4j作为DIKW图谱存储的图数据库(Li et al., 2019)。根据关系型数据库的结构和Neo4j提供的接口,设计了一个基于Binlog的导入架构模型来搭建DIKW图谱。
       在首页功能被激活后,用户可以直接使用专利检索功能。专利检索功能可选择常规搜索和精确搜索,其中常规搜索为模糊搜索,通过匹配关键字和DIKW图谱匹配内容库进行搜索;精确搜索通过用户输入专利申请号、公开号、申请人、专利名称其中一个或多个信息进行精确搜索,用户输入信息越多,其等待时间和搜索精度越高。
       本系统结合TRIZ理论体系,依据DIKW图谱化技术对发明专利的技术发明点进行预测,得到具有专利前景的技术发明点。
     发明专利作为知识产权的核心组成部分,在国际经济竞争中发挥着不可替代的作用。专利战略已经成为企业经营战略与防御国外企业专利战攻击的核心,增强自主知识产权成为重要的国家战略措施。然而,我国绝大部分企业在知识产权保护方面并不重视,许多原创技术得不到保护。目前海南围绕海洋科技和农业科技发展、科技服务精准脱贫和民生改善,深入实施专利倍增计划,建设知识产权强省。
     在当前海南创建自贸港的大背景下,本文针对传统的发明专利申请、审核、答复、授权等环节的从人才到管理的持续快速质量改进和效率提升困难痛点上,设计与实现一种基于DIKW的发明专利智能申请与答复系统。从信息技术角度,借助所在课题组丰富的发明专利申请和答复的数据和经验积累,研究依托DIKW架构的发明专利内容全生命周期内的智能申请与答复系统,为海南加快培育现代产业体系,实现跨域式发展提供信息化保障。
     第一:基于DIKW图谱架构的交互机制设计与实现发明专利申请自动完成与智能辅助答复系统,依托和结合开发生命期软件工程全过程建模管理,面向发明专利申请到授权全过程处理,针对生命期内的发明专利,结合专利法、专利实施细则等相关专利法规,对申请人或代理人撰写的发明专利申请文档进行修正,使其符合相应的规则,并利用竞争及合作的智能填充机制实现专利的自动化申请。在答复过程中,根据答复意见并结合用户画像内容数据库,提供具有针对性的修改意见及方案,实现发明专利的智能辅助答复。
     第二:在申请与答复过程中,从DIKW概念架构角度进行相关内容资源建模与转换映射。依据多方交流的交互机制从DIKW的角度对内容进行重构,以达到不同领域人员相互理解的目的。并在一定条件下,重构内容能够满足更加精确的信息搜索需求,提出的正负双向索引算法使搜索结果的形式除了匹配查询关键字的链接,还能够基于专利技术内容的实体关系搜索答案。
     第三:结合TRIZ理论中的冲突矩阵工具,通过DIKW图谱对技术方案进行分析,依据40项发明创造原理,得出可供申请专利或有应用前景的技术发明点,并以数据图谱可视化的形式展示。
     人工智能革命将极大地改变人,机器与社会之间的关系。随着人工智能技术自身融入我们的世界,现有的法律理论和结构变得越来越过时。从历史上看,知识产权法在广泛传播发明和思想给社会带来的好处与通过在有限时间内为发明人提供专有权而进行创新的动机之间取得了平衡。当“个人”的定义扩展到包括自动机器时,我们将需要重新检查社会的功利性需求和个人权利之间的平衡。在美国,专利所有权最初归属于历史上一直被认为是人类的发明人。但是,“强”人工智能可能很快就能构思出发明并将其付诸实践,而无需人类参与。如何处理记入AI的发明人所有权可能是未来的研究重点。鉴于此,下一步本研究拟从AI治理方向切入,继续探索AI与技术发明创新结合实践中去。
本文总体实验步骤如下: 步骤一:利用爬虫技术获取相关情感数据,对数据进行人工标注和数据清洗等。 步骤二:下载中文版维基百科,对维基百科数据进行格式转换、繁简转换等预处理。 步骤三:将情感数据和维基百科数据相结合,进行中文分词,然后训练word2vec词向量模型。 步骤四:将预处理后的情感数据分为训练集和测试集。 步骤五:将词向量融合情感词典构造情感词向量模型。 步骤六:将中文训练集根据情感词向量转换为词向量矩阵输入LSTM长短时记忆神经网络进行训练。 步骤七:将测试集输入训练好的模型,评估模型的效果。 总体实验流程如图所示。
 
由于微信、QQ上的数据隐私性较强、获取难度大,所以采用三名志愿者提供的聊天数据,使用最基本的复制粘贴的方法。数据部分展示如表。
本文也搜集了微博上来自工作、学习、生活、影视、游戏等多个方面的评论数据,这些评论数据表达了自己的感受、情绪以及针对某一话题自己的经历。对于微博上的数据采取爬虫技术,主要分为“数据获取”、“数据解析”、“数据存储”三个部分。
 
对于微博中的评论,每条微博所含的评论数不一样,且每一页的评论是通过Ajax技术动态加载在页面上的。通过火狐浏览器的开发者工具,如图所示。
找到请求获取评论的URL和相关的规律,使用头信息验证和传入每一页相应的参数,并限制请求频率,每爬取一页,设置time.sleep(3),停顿三秒,使之爬取的速度尽可能接近人们使用的速度。
 
获取到的响应数据是JSON格式,如图所示
 
使用lxml库的XPath解析出相应的评论数据,首先打开网页HTML,在HTML中,所有的内容都可以看作节点,整个HTML文档是一个文档节点,每个HTML元素是元素节点,此次获取评论数据的HTML DOM节点树如图所示
 
XPath解析评论数据代码如图所示
 
由于获取每一页所要提交的参数不一样,于是利用正则表达式获取下一页相关的参数,整个解析过程函数parse_res(self,response)如图所示
图中阴影地方pat2即为正则表达式解析数据的模式字符串。在这里,先把每个评论数据结点用XPath解析出来,然后去掉冒号、换行和空格等,把评论数据转换为DataFrame格式,每一条数据附在上一条数据后面。DataFrame两个列属性“content”和“type”,“content”表示评论,“type”是情感(首先设置为0,方便后面进行标注)。
 
将数据以CSV格式存储在本地文件中。部分数据展示如图所示
 
数据的预处理包括文本的情感倾向标注(分为高兴、愤怒、悲伤、恐惧)、文本清洗、中文分词。文本预处理是在集成开发环境Anaconda Jupyter notebook 上运行。
由于原始的文本中存在一些特殊字符和很多不规范的表达,且含有和评论无关的信息,因此需要对文本进行预处理,从而得到规范化的文本数据。主要流程如图所示。
 
将人们在社交网络上表达的情感分为4类——高兴、愤怒、悲伤、恐惧,采用细致的人工标注法对这些获取的数据进行筛选和标注,如图所示。
 
使用正则表达式将文本中的空格、特殊字符等去掉,还有微博评论数据中,“#...#”表示某一主题、“@...”表示指定某人等等,将这些都利用正则表达式去掉,将有的错别字进行改正,如果出现空行,则直接清除掉,部分代码和清洗好的数据如图所示。
 
 
使用的分词器为jieba分词器,选择jieba分词器是因为要分析的句子是中文的,同时jieba是一款免费的分词器工具包,对不是过于复杂的句子和特定领域的句子都具有很好的分词效果,适合对日常人们社交所表达的内容进行分词,同时也可以再自己加入特定的词汇,而NLTK工具包也有分词器,但是更适用于英文分词。分词效果如下:
'全国', '首趟', '春运', '高铁', '务工', '专列', '发车', '广大', '务工者', '登上', '幸福', '回家', '路'
本文没有去除停用词,因为有些停用词含有情感信息,比如“难道你这样做没错”和“你这样做没错”表达的情感是不同。
Word2vec词向量构造主要的数据来源于中文维基百科,同时再附加爬取所得的中文情感数据。首先将官网上下载的维基百科数据包(.bz2格式),在PyCharm集成开发环境上利用Python代码将其转换为.txt格式,用记事本展示如图所示。
 
利用OpenCC软件将繁体转换为简体,然后结合经过预处理后的情感文本,利用jieba分词器对其进行分词,分词后的结果用记事本展示如图所示。
 
将分词好的数据进行训练得word2vec词向量模型。词向量训练使用gensim.models.word2vec来实现,Gensim是Python第三方工具包。使用Gensim的word2vec工具包训练词向量的主要参数设置如表所示。
 
由此可训练出语料库中词语的词向量,如果两个单词具有语义上的相似性,则它们的词向量在空间上的距离相近。训练后得到的词语对应的词向量如表所示。
 
简单地测试词向量模型如图所示。
图中测试了4个词语——“喜爱”、“讨厌”、“学生”、“生气”,列表表示与这4个词语距离最近的10个词语。从图中可以看出,一个词语和空间上与之距离相近的词语也存在语义上的联系,但是有些词语的情感倾向却相反,比如“讨厌”和“喜欢”,“生气”和“高兴”。
 
然后结合情感词典,将所有词划分为6类,正向情感词、正向评价词、负向情感词、负向评价词、否定词、非上诉三类词。扩展word2vec词向量维度,将60维扩展为65维,分别将60维向量与,, ,,,中的一种沿词向量方向进行叠加,得到的词语对应的词向量如图所示。
 
经过一定的筛选,使高兴、愤怒、悲伤、恐惧四类情感文本各含有3200条数据,使数据分配均衡。句子长度及频数如图所示。
 
由图像可得,句子的最大长度设定为100。LSTM的输入层是文本经过向量化后生成的矩阵,词向量维度是65,所以每个句子的输入是一个100*65的矩阵。隐藏层神经元个数设置为100,输出层选择softmax分类器,结果为一个4维向量(高兴、愤怒、悲伤、恐惧四类情感概率)。所用的编程语言为python3.7,使用的深度学习框架为TensorFlow,设置batch大小为64,优化器采用Adam,设置dropout参数保留0.75,迭代次数为20000次。训练过程如图所示。
 
将4类数据4:1分为训练集和测试集,对测试集评判的结果如表所示。为了使展示更加直观,采用混淆矩阵对测试集评判的结果进行可视化展示,如图所示。
训练总准确率是0.73,“悲伤”的划分效果不及“高兴”、“愤怒”和“恐惧”的划分效果。中文句子比较复杂,有各种转折,网络上人们的说话方式也各不一样,会存在一些不常见的用法和生僻的词语,并且数据集涉及到学习、工作、影视、游戏等方面,还需要更大的数据集来训练。同时还需要对词向量转换为情感词向量的情感把握进行提升,使得到的情感词向量能够更好地表示情感相似性和语义相似性。
由混淆矩阵可以看出,在“悲伤”数据集中,有79条错误地识别成“高兴”,有113条错误地识别成了“愤怒”,有53条错误地识别成“恐惧”,可见错误识别成“愤怒”的占比较高。在人工标注数据集的过程可知,有很多句子的情感较为模糊,一些句子的情感是“悲愤”的,既在表达悲伤的同时,又表达了愤怒,比如“那些小动物真的好可怜,它们实在是太惨了,都怪那些不爱惜环境的人们,他们实在是太可恶了”。
所以以后在进行改进时,可以将情感划分得更加丰富和细致,因为有的句子涵盖的情感其实是多样化的,可以将情感进行“二元化”展示,比如当句子的情感识别成“高兴”和“悲伤”的概率较高时(悲喜交加的语句),识别结果则为“高兴”和“悲伤”两种。
 
 
基于颜色和形状的情感通讯系统是,观察者可以设置自己的颜色-形状基准表来表示不同的情感,发送者发出一段文本,则该文本的情感将映射为相应的颜色-形状组合显示在观察者界面上。比如用户(观察者)可以进行如此基准表设置。
 
则当发送者对用户(观察者)发出一段“高兴”的言论,则用户的界面就会显示如图。
 
如果发送者对用户(观察者)发出一段“恐惧”的言论,则用户的界面就会显示如图。
 
如果发送者对用户(观察者)发出一段“悲伤”的言论,则用户的界面就会显示如图。
这样用户可以避免看到大量文字而直接识别出对方所要表达的情感。同时图形的表达使用户的映像更深刻,带给用户感官上的不同体验。
 
本文将该展示系统进行简化,直接在单个界面上进行操作,系统整体流程如图。
步骤一:用户(观察者)设置颜色和形状的基准表,每一种情感用什么颜色和什么形状进行组合,用户可以选择自己最喜欢的方式。 步骤二:将选择结果(基准表)进行提交。 步骤三:输入一段文本,用上文所建立的模型对文本进行情感识别。 步骤四:以颜色和形状的组合显示在界面上。
 
由于情感识别是采用Python 3.7编写,为了更方便地编写展示系统,所以界面也是采用Python编写,并导入特定的Python界面工具。目前Python界面工具有Tkinter、wxPython、PyGTK等等,本文采用的是PyQt5,PyQt5是Python对跨平台工具集Qt的包装,它既融合了Python简洁的编程语法,又融合了QT强有力的功能,可以开发出漂亮的界面。本文在PyCharm集成开发环境上运行PyQt5。
运行主函数,打开操作界面,如图所示,在界面左边设置个人的颜色-形状基准表。
 
展示系统是采用面向对象编程,封装在自定义类ColorShapeDemo中,该类包含以下函数:
def __init__(self,wordslist,wordsvector)
该函数是构造函数,用来初始化一些变量和调用父类的构造函数,wordslist是词语列表,wordsvector是词语所对应的词向量。
def initUI(self)
该函数用来设计最初始的界面,包含QFrame 控件基类、QLable标签、QPushButton按钮、QComboBox下拉文本框、QTextEdit多行输入文本框以及绘画区域等的放置,以及各个控件的色彩、大小、字体等的风格设置。
def slotBrushColor1(self)
def slotBrushColor4(self)
该函数是用来设置颜色框(QFrame 控件实现)的颜色,当用户点击“颜色”按钮时,会弹出颜色选择界面,用户可以进行颜色设置,如图所示。
 
def slotShape1(self, value)
def slotShape4(self, value)
该函数是用来设置形状,当用户点击下拉文本框(QComboBox控件实现)时,则可以进行相应情感的形状设置,如图所示。
 
def sendbtn(self)
该函数是当用户点击“提交”按钮时,右边会显示相应的控件,一开始右边的控件设置成了隐藏。点击提交后,界面如图所示。
 
右边下方的面板则是绘图区域,在进行情感识别之前首先默认设置成一张图片。绘画区域是用一个自定义类PaintArea来实现,该类传入ColorShapeDemo类中设置的Qpen画笔、QBrush画刷以及形状的值,然后绘画出相应的图形。该PaintArea类构造函数代码如图所示。
 
绘出图形是采用Qt自带的QPainter类,调用该类的drawPixmap()、drawRect()、drawEllipse()、drawPath()等方法来绘制不同的图形。绘画部分代码如图所示,其中“心形”是采用贝塞尔曲线(设定控制顶点坐标)绘制而成。
 
def Emotionbtn_clicked(self)
该函数是当用户在多行文本框输入句子后,点击“进行识别”按钮后,则开始进行情感识别,首先将句子进行jieba分词,然后找到在词向量中的索引,再调用getEmotion()函数将训练好的情感分析模型导入,最后将识别出来的情感以用户自定义的形状和颜色表示在下方。
def getEmotion()
该函数是将之前训练好的模型导入,设置参数、打开会话、调入模型,对句子进行情感识别,将识别出来的情感保存在变量(self.emotion)中。
在输入文本框输入语句进行情感识别,展示如右图所示。
可见模型的效果还是不错的,对情感的分析把握到位,通过界面的可视化,使情感更清晰直观。
 
 
 
 
基于颜色和形状的通讯系统可以应用于两种情况,一是双人聊天界面,二是多人聊天界面。对于双人聊天界面,当发送者发送的文字具有情感性,则观察者的聊天背景会显示相应情感的形状(带有颜色);对于多人聊天界面,当发送者发送的文字具有情感性,则在每个发送者的聊天语句后面会附带相应情感的形状(带有颜色)。对于这两种情况,本文分别给出一个特定场景。
一天,小静约小雯去看电影,但小雯因为某种原因爽约了,针对这件事,两人在网上聊天,小静的颜色-形状基准表的设定如表5.1所示,小静和小雯的聊天记录如下所示: 小静:你知道吗?昨天的电影那么好看,你居然爽约,害得我一个人在电影院看 小雯:对不起对不起,都是我不好,居然没想到昨天还有事,破坏了你的好心情,都是我的错 小静:算了,算了,看你那么忙,原谅你了,下次可不要再这样了 小雯:哈哈哈,谢谢呀,爱死你了,下次不会啦 聊天过程如图所示。
 
一天,公司管理员在多人聊天群里发布了一则消息,管理员的颜色-形状基准表的设定如表5.1所示,然后很多公司职员在聊天群里发表了自己的看法,通过颜色-形状表示,管理员可以快速了解到公司职员针对这则消息的情感以及各种情感的占比,聊天界面如图所示。
由于颜色和简单几何形状是更通用和更基层的展示形式,它比复杂图案的运用更广泛,每个学习认知经历不同的人对复杂图案的理解存在一定的偏差,而这里通过设定个人的颜色-形状基准表,每个人可以更容易更清晰地理解对方所表达的情感。
 
Vestibulum augue ex, finibus sit amet nisi id, maximus ultrices ipsum. Maecenas rhoncus nibh in mauris lobortis, a maximus diam faucibus. In et eros urna. Suspendisse potenti. Pellentesque commodo, neque nec molestie tempus, purus ante feugiat augue.
Sed vitae felis in lorem mollis mollis eget in leo. Donec commodo, ex nec rutrum venenatis, nisi nisl malesuada magna, sed semper ipsum enim a ipsum. Aenean in ante vel mi molestie bibendum. Quisque sit amet lacus in diam pretium faucibus. Cras vel justo lorem.