掌桥专利:专业的专利平台
掌桥专利
首页

评论处理方法、装置、电子设备、存储介质以及程序产品

文献发布时间:2024-04-18 19:58:30


评论处理方法、装置、电子设备、存储介质以及程序产品

技术领域

本申请涉及计算机技术领域,尤其涉及一种评论处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

相关技术中,在对评论进行处理时,大多方案都只能得到相应评论的四元组即评论对象、评论观点、观点属性、以及情感极性,或者采用大量的人工运营,对评论进行人工总结并汇总后,才能确定相应评论归一化后的观点属性短语。如此,则会导致观点属性短语的确定效率以及所确定的观点属性短语的准确性较低。

发明内容

本申请实施例提供一种评论处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高观点属性的确定过程的效率以及准确性。

本申请实施例的技术方案是这样实现的:

本申请实施例提供一种评论处理方法,所述方法包括:

在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词;

分别对各所述评论的关键词进行向量编码,得到各所述评论对应的关键词向量;

获取至少一个聚类中心,所述至少一个聚类中心,通过对各所述评论对应的关键词向量进行聚类所得到;

确定各所述聚类中心指示的针对所述目标内容的观点属性,并将各所述聚类中心指示的针对所述目标内容的观点属性,确定为多条所述评论所综合表达的、针对所述目标内容的观点属性。

本申请实施例提供一种评论处理方法,所述方法包括:

响应于针对目标内容的多条评论的观点分析指令,采用至少一种展示样式,显示所述多条评论综合表达的至少一条观点属性;

其中,所述展示样式,用于指示情感属性,不同的所述展示样式指示不同的情感属性;

响应于针对所述至少一条观点属性中目标观点属性的触发操作,显示归属于所述目标观点属性的至少一条目标评论。

本申请实施例提供一种评论处理装置,所述装置包括:

关键词提取模块,用于在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词;

编码模块,用于分别对各所述评论的关键词进行向量编码,得到各所述评论对应的关键词向量;

获取模块,用于获取至少一个聚类中心,所述至少一个聚类中心,通过对各所述评论对应的关键词向量进行聚类所得到;

确定模块,用于确定各所述聚类中心指示的针对所述目标内容的观点属性,并将各所述聚类中心指示的针对所述目标内容的观点属性,确定为多条所述评论所综合表达的、针对所述目标内容的观点属性。

在上述方案中,所述至少两个提取维度还包括对象属性以及情感属性,所述关键词提取模块,还用于分别在所述观点属性、所述对象属性以及所述情感属性的提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词;其中,所述至少一个关键词,用于指示所述评论针对的评论对象、针对所述评论对象的观点、以及所述观点对应的情感极性中至少之一。

在上述方案中,所述关键词提取模块,还用于分别在所述观点属性及所述对象属性的提取维度,对目标内容的多条评论进行关键词提取,得到用于指示所评论的评论对象的第一关键词、以及用于指示针对所述评论对象的观点的第二关键词;对各所述评论的所述第二关键词进行情感属性分析,得到用于指示所述观点对应的情感极性的第三关键词;将各所述评论的所述第一关键词、所述第二关键词及所述第三关键词,确定为相应所述评论的至少一个关键词。

在上述方案中,所述关键词提取模块,还用于针对目标内容的各所述评论,执行以下处理:通过多个关键词提取模型,在包括观点属性的至少两个提取维度,分别对各所述评论进行关键词提取,得到多个关键词词组,所述关键词词组包括所述评论在所述至少两个提取维度的至少一个关键词,所述关键词词组与所述关键词提取模型存在一一对应关系;从所述多个关键词词组中,选取至少一个目标关键词词组,并将所述目标关键词词组包括的至少一个关键词,作为所述评论的至少一个关键词。

在上述方案中,所述关键词提取模块,还用于获取所述多个关键词组中任意两个关键词组的相似度;当基于任意两个关键词组的相似度,确定所述多个关键词词组中存在相似度大于相似度阈值的第一关键词组及第二关键词组时,分别获取所述第一关键词组及所述第二关键词组所对应关键词提取模型的优先级,并选取高优先级的关键词提取模型所对应的关键词组;将所述高优先级的关键词提取模型所对应的关键词组、所述多个关键词组中除所述第一关键词组及第二关键词组以外的关键词组,确定为所述目标关键词词组。

在上述方案中,所述关键词提取模块,还用于分别对各所述关键词词组进行语义分析,得到语义分析结果;当基于所述语义分析结果,确定所述多个关键词词组中存在互相冲突的第三关键词组及第四关键词组时,分别获取所述第三关键词组及所述第四关键词组所对应关键词提取模型的优先级,并选取高优先级的关键词提取模型所对应的关键词组;将所述高优先级的关键词提取模型所对应的关键词组、所述多个关键词组中除所述第三关键词组及第四关键词组以外的关键词组,确定为所述目标关键词词组。

在上述方案中,所述至少两个提取维度还包括对象属性以及情感属性,所述关键词词组包括:用于指示所述评论针对的评论对象的关键词、用于指示针对所述评论对象的观点的关键词、以及用于指示所述观点对应的情感极性的关键词;所述关键词提取模块,还用于基于所述语义分析结果,确定所述多个关键词词组中所述评论对象及对应所述评论对象的观点均相同的至少两个关键词组;当所述至少两个关键词组中存在情感极性相矛盾的两个关键词组时,确定所述多个关键词词组中存在互相冲突的第三关键词组及第四关键词组。

在上述方案中,所述关键词提取模块,还用于当所述多个关键词词组中不存在相似度大于相似度阈值的关键词词组、且不存在互相冲突的关键词词组时,分别获取各所述关键词词组所对应关键词提取模型的优先级;按照所述优先级由高到低的顺序,对所述多个关键词词组进行排序,得到关键词词组序列;从所述关键词词组序列中第一个关键词词组开始进行关键词词组选取,直至选取目标数量的关键词词组作为所述目标关键词词组;其中,所述目标数量小于或等于所述多个关键词词组的数量。

在上述方案中,所述至少两个提取维度还包括对象属性,所述至少一个关键词包括所述评论针对的评论对象,所述装置还包括映射模块,所述映射模块,用于获取目标映射关系,所述目标映射关系用于指示,所述目标内容的至少一个目标评论对象与各所述目标评论对象所归属的类别间的映射关系;基于所述目标映射关系,对所述评论针对的评论对象进行映射,得到所述评论针对的评论对象所归属的目标类别;将所述目标类别,确定为所述评论所归属的类别。

在上述方案中,所述映射模块,还用于对所述评论对象所对应的关键词进行向量编码,得到所述评论对象对应的对象向量,并获取所述目标评论对象对应的目标对象向量;将所述对象向量与各所述目标对象向量进行相似度匹配;当匹配结果表征相似度大于相似度阈值时,将所述目标对象向量对应的目标评论对象所归属的类别,确定为所述评论针对的评论对象所归属的目标类别。

在上述方案中,所述方法应用于评论处理模型,所述评论处理模型至少包括关键词提取层、编码层、聚类层以及解码层,所述关键词提取模块,还用于通过所述关键词提取层,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词;所述编码模块,还用于通过所述编码层,分别对各所述评论的关键词进行向量编码,得到各所述评论对应的关键词向量;所述获取模块,还用于通过所述聚类层,获取至少一个聚类中心,所述至少一个聚类中心,通过对各所述评论对应的关键词向量进行聚类所得到;所述确定模块,还用于通过所述解码层,确定各所述聚类中心指示的针对所述目标内容的观点属性。

本申请实施例提供一种评论处理装置,所述装置包括:

第一响应模块,用于响应于针对目标内容的多条评论的观点分析指令,采用至少一种展示样式,显示所述多条评论综合表达的至少一条观点属性;其中,所述展示样式,用于指示情感属性,不同的所述展示样式指示不同的情感属性;

第二响应模块,用于响应于针对所述至少一条观点属性中目标观点属性的触发操作,显示归属于所述目标观点属性的至少一条目标评论。

本申请实施例提供一种电子设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的评论处理方法。

本申请实施例提供一种计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的评论处理方法。

本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例提供的评论处理方法。

本申请实施例具有以下有益效果:

在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,然后分别对各评论取到的关键词进行向量编码,得到各评论对应的关键词向量,再获取通过对各评论对应的关键词向量进行聚类所得到至少一个聚类中心,从而确定各聚类中心指示的针对目标内容的观点属性,并将各聚类中心指示的针对目标内容的观点属性,确定为多条评论所综合表达的、针对目标内容的观点属性。如此,在从多个提取维度提取评论对应的关键词、并对关键词进行向量编码后,通过对关键词向量的聚类处理过程,确定多条评论所综合表达的观点属性,不仅提高了观点属性的确定过程的效率,也提高了所确定的观点属性的准确性。

附图说明

图1是本申请实施例提供的评论处理系统100的架构示意图;

图2A是本申请实施例提供的电子设备的结构示意图;

图2B是本申请实施例提供的电子设备的结构示意图;

图3是本申请实施例提供的评论处理方法的流程示意图;

图4是本申请实施例提供的关键词提取的过程的流程示意图;

图5是本申请实施例提供的评论分类分布图;

图6本申请实施例提供的评论处理模型的模型结构的示意图;

图7是本申请实施例提供的评论处理模型的训练方法的流程示意图;

图8是本申请实施例提供的针对目标内容的多条评论的展示图;

图9是本申请实施例提供的针对目标内容的多条评论的展示图;

图10是本申请实施例提供的评论处理方法的流程示意图;

图11是本申请提供的评论处理方法的技术架构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一第二第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一第二第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。

1)客户端(Client),又称用户端,是指与服务器相对应的为用户提供本地服务的程序,除了一些只能在本地运行的应用程序之外,一般安装在普通的客户机上,需要与服务器相互配合运行,即需要网络中有相应的服务器和服务程序来提供相应的服务,这样在客户端和服务器端,需要建立特定的通信连接,来保证应用程序的正常运行。

2)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。

3)评论对象即Aspects,指用户谈论的类别、特征或者主题,是明确出现在给定文本中的观点目标,例如“披萨”在句子“这个披萨很好吃”中为评论对象。

4)情感极性即Sentiments,对特定方面的正/负/中性情感,用于描述情感对类别或观点的方向,通常包括积极、消极和中性。

5)观点即opinion,是观点持有者表达对目标情感的表达方式。例如,“美味”是“这个披萨很好吃”中的观点。

6)类别即category,定义实体的一个独特方面,并属于预定义的每个特定领域的类别集。例如,食品和服务可以归属于餐厅领域这一类别。

7)观点属性即expression,指的是归一化的评论,例如游戏皮肤价格好贵,以及皮肤贵,或者超级贵的皮,都会被归一化成为皮肤价格高。

在一些实施例中,参见图1,图1是本申请实施例提供的评论处理系统100的架构示意图,为实现评论处理的应用场景(例如,评论处理的应用场景可以是在对游戏玩家针对目标游戏所做出的评论进行处理时,提取评论对应的实体也即评论对象、评论对应的观点、以及观点所对应的情感极性,然后基于评论对象、评论对应的观点、以及观点所对应的情感极性,确定评论所综合表达的、针对目标游戏的观点属性),终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,终端400用于供用户使用客户端401,在显示界面(示例性示出了显示界面401-1)显示,终端400和服务器200通过有线或者无线网络相互连接。

其中,服务器200用于,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各评论的至少一个关键词;分别对各评论的关键词进行向量编码,得到各评论对应的关键词向量;获取至少一个聚类中心,至少一个聚类中心,通过对各评论对应的关键词向量进行聚类所得到;确定各聚类中心指示的针对目标内容的观点属性,并将各聚类中心指示的针对目标内容的观点属性,确定为多条评论所综合表达的、针对目标内容的观点属性发送该观点属性至终端400;

终端400用于,接收该观点属性,并响应于针对目标内容的多条评论的观点分析指令,采用至少一种展示样式,显示多条评论综合表达的至少一条观点属性;其中,展示样式,用于指示情感属性,不同的展示样式指示不同的情感属性;响应于针对至少一条观点属性中目标观点属性的触发操作,显示归属于目标观点属性的至少一条目标评论。

一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDeliver Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、机顶盒、智能语音交互设备、智能家电、虚拟现实设备、车载终端、飞行器、以及移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备,智能音箱及智能手表)等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。

接下来对实施本申请实施例提供的评论处理方法的电子设备进行说明。参见图2A以及图2B,图2A是本申请实施例提供的电子设备的结构示意图,图2B是本申请实施例提供的电子设备的结构示意图,以电子设备为图1中的服务器或者终端为例,图2A以及图2B所示的电子设备包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2A以及图2B中将各种总线都标为总线系统440。处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;

呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);

输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2A示出了存储在存储器450的评论处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:关键词提取模块4551、编码模块4552、获取模块4553以及确定模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2B示出了存储在存储器450的评论处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:第一响应模块4551、以及第二响应模块4552,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的评论处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的评论处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。

在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的评论处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如即时通信APP、网页浏览器APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。

基于上述对本申请实施例提供的评论处理系统及电子设备的说明,下面说明本申请实施例提供的评论处理方法。在实际实施时,本申请实施例提供的评论处理方法可以由终端或服务器单独实现,或者由终端及服务器协同实现,以由图1中的服务器200单独执行本申请实施例提供的评论处理方法为例进行说明。参见图3,图3是本申请实施例提供的评论处理方法的流程示意图,下面,将结合图3对示出的步骤进行说明。

步骤101,服务器在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各评论的至少一个关键词。

在实际实施时,在服务器在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各评论的至少一个关键词之前,服务器首先接收到针对目标内容的多条评论的评论处理请求,解析该评论处理请求,从而确定针对目标内容的多条评论,这里,目标内容可以是任意的游戏、APP、以及包括文章、视频、图片中至少之一的媒体信息等。针对目标内容的多条评论可以是预先存储于终端本地的,也可以是终端从外界(如互联网)中获取到的。

需要说明的是,对于解析该评论处理请求,从而确定针对目标内容的多条评论,这里针对目标内容的多条评论可以是评论处理请求携带的,也可以是服务器在接收到终端发送的评论处理请求之后,再通过解析该评论处理请求,从而获取的。

在实际实施时,在获取针对目标内容的多条评论后,首先对各评论进行预处理,得到目标评论,具体地,针对各评论执行以下处理:对评论进行过滤,得到有效评论,其中,有效评论为不包括不可识别字符的评论,也即对评论进行过滤的过程也相当于对评论进行去噪的过程,这里,不可识别字符可以是乱码字符等;然后对有效评论进行归一化处理,得到有效评论文本,例如,将评论中的emoji转化成文字如将大笑的表情转化为“哈哈”、将竖大拇指的表情转化为“棒”,或者除去评论中的mentions(如@XX)、email等;最后对有效评论文本进行分词处理,得到多个分词结果,将该多个分词结果,作为该评论的目标评论,例如,基于词语属性如动词、名词以及形容词,对有效评论文本进行分词处理,得到有效评论文本中的动词、形容词、名词等,从而将有效评论文本中的动词、形容词、名词等,作为该评论的目标评论。

需要说明的是,提取维度用于从评论中想要提取的关键词的属性,其中,基于观点属性这一提取维度所提取的关键词指示评论中的评论观点,例如,当评论为“游戏很棒”时,这里的评论观点可以是“棒”。

在一些实施例中,至少两个提取维度还包括对象属性以及情感属性,其中,基于对象属性这一提取维度所提取的关键词指示评论中的评论对象,基于情感属性这一提取维度所提取的关键词指示评论中针对评论对象的评论观点的情感极性,如积极、消极或中性,接上述示例,当评论为“游戏很棒”时,这里的评论对象可以是“游戏”,而针对评论对象的评论观点的情感极性为“积极”。

基于此,当至少两个提取维度还包括对象属性以及情感属性时,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词的过程,还可以是,分别在观点属性、对象属性以及情感属性的提取维度,对目标内容的多条评论进行关键词提取,得到各评论的至少一个关键词;其中,至少一个关键词,用于指示评论针对的评论对象、针对评论对象的观点、以及观点对应的情感极性中至少之一。

在实际实施时,对于分别在观点属性、对象属性以及情感属性的提取维度,对目标内容的多条评论进行关键词提取,得到各评论的至少一个关键词的过程,具体包括,分别在观点属性及对象属性的提取维度,对目标内容的多条评论进行关键词提取,得到用于指示所评论的评论对象的第一关键词、以及用于指示针对所述评论对象的观点的第二关键词;对各评论的第二关键词进行情感属性分析,得到用于指示观点对应的情感极性的第三关键词;将各评论的第一关键词、第二关键词及第三关键词,确定为相应评论的至少一个关键词。

示例性地,当评论为“游戏很棒”时,分别在观点属性及对象属性的提取维度,对目标内容的多条评论进行关键词提取,得到用于指示所评论的评论对象的第一关键词“游戏”、以及用于指示针对所述评论对象的观点的第二关键词“棒”,然后对第二关键词进行情感属性分析,得到用于指示观点对应的情感极性的第三关键词即“积极”,从而将“游戏”、“棒”及“积极”,确定为相应评论的三个关键词。

需要说明的是,分别在观点属性及对象属性的提取维度,对目标内容的多条评论进行关键词提取,得到用于指示所评论的评论对象的第一关键词、以及用于指示针对所述评论对象的观点的第二关键词时,可能无法提取到第一关键词,也即所提取到的第一关键词为空即“null”,示例性地,当评论为“这是一个bug”时,分别在观点属性及对象属性的提取维度,对目标内容的多条评论进行关键词提取,得到用于指示所评论的评论对象的第一关键词“null”、以及用于指示针对所述评论对象的观点的第二关键词“bug”,然后对第二关键词进行情感属性分析,得到用于指示观点对应的情感极性的第三关键词即“消极”,从而将“null”、“bug”及“消极”,确定为相应评论的三个关键词。

在实际实施时,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词的过程可以通过关键词提取模型所实现,具体地,参见图4,图4是本申请实施例提供的关键词提取的过程的流程示意图,基于图4,步骤101可以通过如下方式实现。

针对目标内容的各评论,执行以下处理:

步骤1011,通过多个关键词提取模型,在包括观点属性的至少两个提取维度,分别对各评论进行关键词提取,得到多个关键词词组,关键词词组包括评论在至少两个提取维度的至少一个关键词,关键词词组与关键词提取模型存在一一对应关系。

需要说明的是,这里的多个关键词提取模型可以是至少两个,多个关键词提取模型中可以包括规则关键词提取模型,其中,规则关键词提取模型为基于包括高频关键词和高频句式的训练样本训练得到的,用于对评论进行解析,从而快速抽取一些常用的关键词。此外,除了规则关键词提取模型,多个关键词提取模型中还可以包括至少一个普通关键词提取模型,其中,普通关键词提取模型为基于包括高频关键词、非高频关键词、高频句式以及非高频句式的训练样本训练得到的,用于对评论进行解析,从而抽取评论的至少一个关键词。

在实际实施时,通过多个关键词提取模型,在包括观点属性的至少两个提取维度,分别对各评论进行关键词提取,得到多个关键词词组得到过程,可以是,通过多个关键词提取模型,在包括观点属性的至少两个提取维度,分别对各评论进行关键词提取,得到评论的至少一个关键词,然后,基于评论的至少一个关键词,生成对应该评论的多个关键词词组,其中,每一个关键词提取模型所进行关键词提取的评论相同,每一个关键词提取模型提取到一个关键词词组。

示例性地,针对一个关键词提取模型,当评论为“游戏很棒”时,分别在观点属性及对象属性的提取维度,对目标内容的多条评论进行关键词提取,得到用于指示所评论的评论对象的第一关键词“游戏”、以及用于指示针对所述评论对象的观点的第二关键词“棒”,然后对第二关键词进行情感属性分析,得到用于指示观点对应的情感极性的第三关键词即“积极”,从而将“游戏”、“棒”及“积极”,确定为相应评论的三个关键词,然后,基于评论的至少一个关键词,生成对应该评论的关键词词组,如[游戏,棒,积极]或[棒,游戏,积极]等。

步骤1012,从多个关键词词组中,选取至少一个目标关键词词组,并将目标关键词词组包括的至少一个关键词,作为评论的至少一个关键词。

需要说明的是,由于每一个关键词提取模型的训练程度不同,因此,每一个关键词提取模型所提取到的关键词词组的准确性不同,因此,当通过多个关键词提取模型提取到多个关键词词组时,还需要对多个关键词词组进行选择,从而从多个关键词词组中,选取至少一个目标关键词词组。具体地,对多个关键词词组执行包括去重复策略、去冲突策略、以及合并策略中至少之一,得到至少一个目标关键词词组。接下来,分别针对去重复策略、去冲突策略、以及合并策略,对从多个关键词词组中,选取至少一个目标关键词词组的过程进行说明。

在一些实施例中,当对多个关键词词组执行去重复策略时,从多个关键词词组中,选取至少一个目标关键词词组的过程,可以是,获取多个关键词组中任意两个关键词组的相似度;当基于任意两个关键词组的相似度,确定多个关键词词组中存在相似度大于相似度阈值的第一关键词组及第二关键词组时,分别获取第一关键词组及第二关键词组所对应关键词提取模型的优先级,并选取高优先级的关键词提取模型所对应的关键词组;将高优先级的关键词提取模型所对应的关键词组、多个关键词组中除第一关键词组及第二关键词组以外的关键词组,确定为目标关键词词组。

需要说明的是,获取多个关键词组中任意两个关键词组的相似度的过程,可以是,对多个关键词组中任意两个关键词组的至少一个关键词进行相似度匹配,从而得到多个关键词组中任意两个关键词组的相似度;而第一关键词组及第二关键词组为,多个关键词词组中相似度大于相似度阈值的任意两个关键词词组。

示例性地,当多个关键词词组为五个即A、B、C、D、E,各关键词词组对应的关键词提取模型的优先级由大到小依次为A、B、C、D、E,其中,AB、AD、BC、CD间的相似度大于相似度阈值,也即关键词词组AB可以是第一关键词词组和第二关键词词组,关键词词组AD可以是第一关键词词组和第二关键词词组,关键词词组BC可以是第一关键词词组和第二关键词词组,关键词词组CD可以是第一关键词词组和第二关键词词组;然后对于关键词词组AB,高优先级的关键词提取模型所对应的关键词组为A,对于关键词词组AD,高优先级的关键词提取模型所对应的关键词组为A,对于关键词词组BC,高优先级的关键词提取模型所对应的关键词组为B,对于关键词词组CD,高优先级的关键词提取模型所对应的关键词组为C,从而,将高优先级的关键词提取模型所对应的关键词组、多个关键词组中除第一关键词组及第二关键词组以外的关键词组,确定为目标关键词词组,也即,将关键词组A、C、E确定为目标关键词词组。

需要说明的是,多个关键词提取模型的优先级可以是预先设定的,例如根据各模型的训练程度来确定模型的优先级,也即模型的训练程度和优先级呈正相关关系,训练程度高的模型的优先级高,从而基于模型的优先级选取关键词词组,提高了所得到的关键词词组的准确性。

在一些实施例中,当对多个关键词词组执行去冲突策略时,从多个关键词词组中,选取至少一个目标关键词词组的过程,可以是,分别对各关键词词组进行语义分析,得到语义分析结果;当基于语义分析结果,确定多个关键词词组中存在互相冲突的第三关键词组及第四关键词组时,分别获取第三关键词组及第四关键词组所对应关键词提取模型的优先级,并选取高优先级的关键词提取模型所对应的关键词组;将高优先级的关键词提取模型所对应的关键词组、多个关键词组中除第三关键词组及第四关键词组以外的关键词组,确定为目标关键词词组。

需要说明的是,第三关键词组及第四关键词组为,多个关键词词组中语义冲突的任意两个关键词词组。示例性地,当多个关键词词组为五个即A、B、C、D、E,各关键词词组对应的关键词提取模型的优先级由大到小依次为A、B、C、D、E,其中,关键词词组AC为存在互相冲突的第三关键词组及第四关键词组,同时,对于关键词词组AC,高优先级的关键词提取模型所对应的关键词组为A,因此,将高优先级的关键词提取模型所对应的关键词组、多个关键词组中除第三关键词组及第四关键词组以外的关键词组,确定为目标关键词词组,也即,将关键词组A、B、D、E确定为目标关键词词组。

在实际实施时,确定多个关键词词组中存在互相冲突的第三关键词组及第四关键词组时,至少两个提取维度还包括对象属性以及情感属性,关键词词组包括:用于指示评论针对的评论对象的关键词、用于指示针对评论对象的观点的关键词、以及用于指示观点对应的情感极性的关键词,从而,基于语义分析结果,确定多个关键词词组中存在互相冲突的第三关键词组及第四关键词组的过程,可以是,基于语义分析结果,确定多个关键词词组中评论对象及对应评论对象的观点均相同的至少两个关键词组;当至少两个关键词组中存在情感极性相矛盾的两个关键词组时,确定多个关键词词组中存在互相冲突的第三关键词组及第四关键词组。

需要说明的是,两个关键词词组相冲突指示两个关键词词组中针对相同对象所做出的相同观点的情感极性相反,例如,当评论为“服务器太绝了”时,多个关键词词组中评论对象及对应评论对象的观点均相同的至少两个关键词组为[服务器,绝,消极]以及[服务器,绝,积极],这里,这两个关键词组中情感极性相矛盾,从而确定多个关键词词组中存在互相冲突的第三关键词组及第四关键词组。

如此,针对具备相反含义的观点,优先级高的模型可以识别观点所表达的真实含义,而优先级低的模型仅能识别观点的字面含义,这样,当多个关键词词组中存在互相冲突的关键词组时,基于相应模型的优先级选取目标关键词词组,提高了所得到的关键词词组的准确性。

在一些实施例中,当对多个关键词词组执行合并策略时,从多个关键词词组中,选取至少一个目标关键词词组的过程,可以是,当多个关键词词组中不存在相似度大于相似度阈值的关键词词组、且不存在互相冲突的关键词词组时,分别获取各关键词词组所对应关键词提取模型的优先级;按照优先级由高到低的顺序,对多个关键词词组进行排序,得到关键词词组序列;从关键词词组序列中第一个关键词词组开始进行关键词词组选取,直至选取目标数量的关键词词组作为目标关键词词组;其中,目标数量小于或等于多个关键词词组的数量。

需要说明的是,当多个关键词词组中不存在相似度大于相似度阈值的关键词词组、且不存在互相冲突的关键词词组时,除了基于模型的优先级对关键词词组进行排序选取之外,还可以直接将多个关键词词组确定为目标关键词词组;或者,也可以从多个关键词词组中随机选取目标数量的关键词词组作为目标关键词词组;其中,目标数量小于或等于多个关键词词组的数量。对此,本申请实施例不做限定。

在实际实施时,还可以对多个关键词词组同时去重复策略、去冲突策略、以及合并策略,接上述示例,多个关键词词组为五个即A、B、C、D、E,各关键词词组对应的关键词提取模型的优先级由大到小依次为A、B、C、D、E,执行完去重复策略以及去冲突策略后,还剩关键词词组A和E,因此,对这两个关键词词组执行合并策略,如可以直接将关键词词组A和E确定为两个目标关键词词组。

在一些实施例中,当评论中包括多个评论对象以及多个观点时,针对该评论,每一个关键词提取模型可以得到至少一个关键词词组,从而,对于多个关键词提取模型,得到多个关键词词组,进而从多个关键词词组中,选取至少一个目标关键词词组,这里,从多个关键词词组中,选取至少一个目标关键词词组的过程,与前述从多个关键词词组中,选取至少一个目标关键词词组的过程相同,对此,本申请实施例不做赘述。

步骤102,分别对各评论的关键词进行向量编码,得到各评论对应的关键词向量。

在实际实施时,当评论的关键词数量为多个时,分别对各评论的关键词进行向量编码,得到各评论对应的关键词向量的过程,可以是,首先对于多个关键词进行拼接,得到拼接关键词,然后对拼接关键词进行向量编码,得到各评论对应的关键词向量。

步骤103,获取至少一个聚类中心,至少一个聚类中心,通过对各评论对应的关键词向量进行聚类所得到。

需要说明的是,对于获取至少一个聚类中心的过程,可以是服务器在得到各评论对应的关键词向量后,对多个关键词向量进行聚类,得到至少一个聚类中心,服务器在得到各评论对应的关键词向量后,将多个关键词向量发送至终端,以使终端对多个关键词向量进行聚类,得到至少一个聚类中心,并将至少一个聚类中心返回至服务器,从而服务器接收到至少一个聚类中心。

步骤104,确定各聚类中心指示的针对目标内容的观点属性,并将各聚类中心指示的针对目标内容的观点属性,确定为多条评论所综合表达的、针对目标内容的观点属性。

在实际实施时,确定各聚类中心指示的针对目标内容的观点属性之前,可以预先设置各聚类中心所对应的针对目标内容的观点属性,如皮肤价格贵,服务器卡顿等常见的观点。从而,在确定各聚类中心指示的针对目标内容的观点属性后,将各聚类中心指示的针对目标内容的观点属性,确定为多条评论所综合表达的、针对目标内容的观点属性,如此,通过对多个关键词向量的聚类处理,将各关键词向量归一化到具体的观点。例如,将评论“游戏皮肤价格好贵”、“皮肤贵”以及“超级贵的皮肤”,都归一化到皮肤价格高。

需要说明的是,在得到各评论对应的关键词向量后,还会对相应评论所对应的关键词向量进行存储,从而当对各聚类中心指示的针对目标内容的观点属性进行修改后,就会修改所有评论所对应的观点属性,避免了直接对相应评论所对应的观点属性进行存储时,当对各聚类中心指示的针对目标内容的观点属性进行修改后,可能展示两条观点属性的情况。

在一些实施例中,除了确定多条评论所综合表达的、针对目标内容的观点属性,还可以对多条评论进行分类,具体地,至少两个提取维度还包括对象属性,至少一个关键词包括所述评论针对的评论对象,从而对多条评论进行分类的过程,可以是,获取目标映射关系,目标映射关系用于指示,目标内容的至少一个目标评论对象与各目标评论对象所归属的类别间的映射关系;基于目标映射关系,对评论针对的评论对象进行映射,得到评论针对的评论对象所归属的目标类别;将目标类别,确定为评论所归属的类别。示例性地,参见图5,图5是本申请实施例提供的评论分类分布图,基于图5,这里包括A-J的10个类别,从而将多条评论分类至这10个类别并进行展示,便于直接对评论进行分析。

需要说明的是,这里的目标映射关系为预先设定的,示例性地,当目标内容为目标游戏时,这里的目标评论对象可以指游戏的界面、游戏中的图像、游戏的模式等,而类别可以是游戏的画面,机制等,从而目标映射关系可以指示,将图像、界面等同义词都可以自动映射到画面,将游戏中单挑或者排位等指示游戏模式的词语都可以自动映射到机制。这样,基于目标映射关系如映射表,对评论针对的评论对象进行映射,得到评论针对的评论对象所归属的目标类别。

在实际实施时,对于基于目标映射关系,对评论针对的评论对象进行映射,得到评论针对的评论对象所归属的目标类别的过程,可以是,对评论对象所对应的关键词进行向量编码,得到评论对象对应的对象向量,并获取目标评论对象对应的目标对象向量;将对象向量与各目标对象向量进行相似度匹配;当匹配结果表征相似度大于相似度阈值时,将目标对象向量对应的目标评论对象所归属的类别,确定为评论针对的评论对象所归属的目标类别。如此,通过对评论对象所对应的关键词的向量进行相似度匹配,避免了需要对所有相似的评论对象所对应的关键词建立与标签间的映射关系,只需通过对评论对象所对应的关键词进行向量编码,得到评论对象对应的对象向量后,就可以将评论对象映射到相对应的类别。

在一些实施例中,还可以会定期对于没有类别映射的对象向量,进行聚类,并且当归属于同一聚类中心的对象向量的数量达到数量阈值时,建立新的类别或更新目标映射关系。

在一些实施例中,还可以通过评论处理模型实现上述评论处理方法,参见图6,图6本申请实施例提供的评论处理模型的模型结构的示意图,基于图6,评论处理模型至少包括关键词提取层、编码层、聚类层以及解码层,从而通过评论处理模型实现上述评论处理方法的过程,可以是,通过关键词提取层,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各评论的至少一个关键词;通过编码层,分别对各评论的关键词进行向量编码,得到各评论对应的关键词向量;通过聚类层,获取至少一个聚类中心,至少一个聚类中心,通过对各评论对应的关键词向量进行聚类所得到;通过解码层,确定各聚类中心指示的针对目标内容的观点属性,从而将各聚类中心指示的针对目标内容的观点属性,确定为多条评论所综合表达的、针对目标内容的观点属性。

在实际实施时,关键词提取层还包括多个第一关键词提取子层以及一个第二关键词提取子层,从而,通过关键词提取层,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各评论的至少一个关键词的过程,可以是,通过多个第一关键词提取子层,在包括观点属性的至少两个提取维度,分别对各评论进行关键词提取,得到多个关键词词组,关键词词组包括评论在至少两个提取维度的至少一个关键词,关键词词组与关键词提取模型存在一一对应关系;通过第二关键词提取子层,从多个关键词词组中,选取至少一个目标关键词词组,并将目标关键词词组包括的至少一个关键词,作为评论的至少一个关键词。

需要说明的是,这里通过多个第一关键词提取子层,在包括观点属性的至少两个提取维度,分别对各评论进行关键词提取,得到多个关键词词组的过程,与前文通过多个关键词提取模型,在包括观点属性的至少两个提取维度,分别对各评论进行关键词提取,得到多个关键词词组的过程相类似,从而,通过第二关键词提取子层,从多个关键词词组中,选取至少一个目标关键词词组,并将目标关键词词组包括的至少一个关键词,作为评论的至少一个关键词的过程,也与前文从多个关键词词组中,选取至少一个目标关键词词组,并将目标关键词词组包括的至少一个关键词,作为评论的至少一个关键词的过程相类似。对此,本申请实施例不做赘述。

在一些实施例中,在通过评论处理模型实现上述评论处理方法之前,还需要对评论处理模型进行训练,具体地,参见图7,图7是本申请实施例提供的评论处理模型的训练方法的流程示意图,基于图7,评论处理模型的训练过程可以通过以下步骤所实现。

步骤201,服务器获取初始评论处理模型、以及针对目标内容的多条评论训练样本;其中,评论训练样本携带第一标签以及第二标签,第一标签用于指示评论训练样本的至少一个真实关键词,第二标签用于指示评论训练样本所综合表达的、针对的目标内容的真实观点属性。

步骤202,通过关键词提取层,在包括观点属性的至少两个提取维度,对目标内容的多条评论训练样本进行关键词提取,得到各评论训练样本的至少一个样本关键词。

步骤203,通过编码层,分别对各评论训练样本的样本关键词进行向量编码,得到各评论训练样本对应的样本关键词向量。

步骤204,通过聚类层,获取至少一个样本聚类中心,至少一个样本聚类中心,通过对各评论训练样本对应的样本关键词向量进行聚类所得到。

步骤205,通过解码层,确定各样本聚类中心指示的针对目标内容的样本观点属性,并将各样本聚类中心指示的针对目标内容的样本观点属性,确定为多条评论训练样本所综合表达的、针对目标内容的样本观点属性。

步骤206,获取至少一个样本关键词与第一标签之间的第一损失、以及样本观点属性以及第二标签之间的第二损失。

步骤207,结合第一损失以及第二损失,更新初始评论处理模型的模型参数,得到评论处理模型。

在一些实施例中,确定各评论训练样本的至少一个样本关键词、以及各样本聚类中心指示的针对目标内容的样本观点属性后,还可以对第一标签以及第二标签进行置信度检测或质量检测,当检测结果表征第一标签以及第二标签存在错误时,对第一标签以及第二标签进行更正,得到目标第一标签以及目标第二标签,从而确定携带目标第一标签以及目标第二标签的评论训练样本,然后对该评论训练样本进行数据增强如词汇替换、基于同义词典的替换、反向翻译等,得到增强评论训练样本,从而基于增强评论训练样本训练评论处理模型。

在一些实施例中,在确定多条评论所综合表达的、针对目标内容的观点属性之后,还可以由图1中的终端400单独执行本申请实施例提供的评论处理方法。具体地,将各聚类中心指示的针对目标内容的观点属性,确定为多条评论所综合表达的、针对目标内容的观点属性之后,还可以,响应于针对目标内容的多条评论的观点分析指令,采用至少一种展示样式,显示多条评论综合表达的至少一条观点属性;其中,展示样式,用于指示情感属性,不同的展示样式指示不同的情感属性;响应于针对至少一条观点属性中目标观点属性的触发操作,显示归属于目标观点属性的至少一条目标评论。

需要说明的是,各目标评论的评论对象、以及针对评论对象的观点的展示样式不同,不同目标评论针对的评论对象的展示样式相同、针对评论对象的观点的展示样式相同。这里,展示样式可以指字体颜色、字体填充色、字体大小或者字形等。例如,可以以不同颜色来展示多个观点属性,如绿色代表好评,红色代表差评,灰色代表中性;当点击某个观点属性词后可以查看具体的评论,并且可以高亮显示各评论所针对的评论对象和评论观点。

作为一个示例,参见图8,图8是本申请实施例提供的针对目标内容的多条评论的展示图,基于图8,801所指示的为包括多个观点属性的观点属性列表,虚线框802所指示的为不同的观点属性,其中,实线框指示好评,虚线框指示差评,803所指示的为包括多个评论的评论列表,响应于针对802中“游戏好”这一观点属性的触发操作,显示归属于该观点属性的、如803中包括的至少一条评论,803所指示的评论列表中,各评论对象以及针对评论对象的观点的展示样式不同,如虚线框804所示,评论对象即“游戏”以及观点即“很棒”的展示样式不同,不同评论中评论对象即“游戏”的展示样式相同、观点即“很棒”和“厉害”的展示样式相同。

作为另一个示例,参见图9,图9是本申请实施例提供的针对目标内容的多条评论的展示图,基于图9,901所指示的为包括多个观点属性的观点属性列表,虚线框902所指示的为不同的观点属性,其中,实线框指示好评,虚线框指示差评,903所指示的为包括多个评论的评论列表,响应于针对902中“游戏差”这一观点属性的触发操作,显示归属于该观点属性的、如903中包括的至少一条评论,903所指示的评论列表中,各评论对象以及针对评论对象的观点的展示样式不同,如虚线框904所示,评论对象即“游戏”以及观点即“不行”的展示样式不同,不同评论中评论对象即“游戏”的展示样式相同、观点的展示样式相同。

下面,继续对本申请实施例提供的评论处理方法进行介绍,参见图10,图10是本申请实施例提供的评论处理方法的流程示意图,这里,本申请实施例提供的评论处理方法由终端、服务器协同实施。

步骤301,客户端响应于针对目标内容的多条评论训练样本的上传操作,获取携带第一标签以及第二标签的针对目标内容的多条评论训练样本;其中,第一标签用于指示评论训练样本的至少一个真实关键词,第二标签用于指示评论训练样本所综合表达的、针对的目标内容的真实观点属性。

在实际实施时,客户端可以是设置于终端的客户端,多条评论训练样本可以由用户基于该客户端的人机交互界面,触发人机交互界面中的上传功能项使客户端在人机交互界面呈现训练样本选择界面,用户(例如可以是在客户端上进行操作的对象或人工智能程序)则基于该训练样本选择界面,从终端上传多条评论训练样本,从而使得客户端获得上传的多条评论训练样本,这里,从终端上传的多条评论训练样本可以是预先存储于终端本地的,也可以是由与终端通信连接的其他设备所发送的,对此,本申请实施例不做限定。

步骤302,客户端发送携带第一标签以及第二标签的针对目标内容的多条评论训练样本至服务器。

步骤303,服务器将接收到的携带第一标签以及第二标签的针对目标内容的多条评论训练样本输入至初始评论处理模型。

步骤304,输出各评论训练样本的至少一个样本关键词、以及多条评论训练样本所综合表达的针对目标内容的样本观点属性。

步骤305,获取至少一个样本关键词与第一标签之间的第一损失、以及样本观点属性以及第二标签之间的第二损失,并结合第一损失以及第二损失,更新初始评论处理模型的模型参数,得到评论处理模型。

在实际实施时,服务器通过迭代上述训练过程,直至损失函数达到收敛,完成对评论处理模型的训练。

步骤306,服务器生成评论处理模型训练完成的提示消息。

步骤307,服务器发送提示消息至客户端。

步骤308,客户端响应于针对目标内容的多条评论的上传操作,获取多条评论。

需要说明的是,多条评论还可以由与终端通信连接的其他设备发送至客户端。

步骤309,客户端响应于针对多条评论的评论处理指令,发送携带多条评论的评论处理请求至服务器。

在实际实施时,多条评论的评论处理指令可以是由与终端通信连接的其他设备发送给客户端,还可以是由用户基于客户端的人机交互界面,触发相应的确认功能项后生成,还可以由一定的触发条件由客户端自动生成,对此,本申请实施例不做限制。

步骤310,服务器将接收到的多条评论输入至评论处理模型,得到多条评论所综合表达的、针对目标内容的观点属性。

步骤311,服务器发送多条评论所综合表达的、针对目标内容的观点属性至客户端。

步骤312,客户端展示多条评论所综合表达的、针对目标内容的观点属性。

在实际实施时,客户端可以在该客户端的人机交互界面中展示多条评论所综合表达的、针对目标内容的观点属性,还可以将多条评论所综合表达的、针对目标内容的观点属性保存至终端本地,还可以将多条评论所综合表达的、针对目标内容的观点属性发送至与终端通信连接的其他设备等。

应用本申请上述实施例,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,然后分别对各评论取到的关键词进行向量编码,得到各评论对应的关键词向量,再获取通过对各评论对应的关键词向量进行聚类所得到至少一个聚类中心,从而确定各聚类中心指示的针对目标内容的观点属性,并将各聚类中心指示的针对目标内容的观点属性,确定为多条评论所综合表达的、针对目标内容的观点属性。如此,在从多个提取维度提取评论对应的关键词、并对关键词进行向量编码后,通过对关键词向量的聚类处理过程,确定多条评论所综合表达的观点属性,不仅提高了观点属性的确定过程的效率,也提高了所确定的观点属性的准确性。

下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。

发明人发现,相关技术中,在对评论进行处理时,主要采用两种方式,第一种是分别对评论进行实体识别、观点抽取、观点类别和情感分类的步骤,得到相应评论的四元组即评论对象、评论观点、观点属性、以及情感极性;第二种是自动抽取评论中的所有属性和情感词、和属性情感词的搭配关系、以及针对不同的属性判断其情感极性,从而确定相应评论归一化后的观点属性短语。

然而,针对上述第一种方法,无法确定相应评论归一化后的观点属性短语;而对于上述第二种方法,虽然能给出观点属性短语,但是需要大量的人工运营,并且不支持多模型扩展,此外,即使将上述两种方法相结合,实体识别模块的错误可能会影响到观点抽取过程的准确性,而且观点属性短语的确定过程也忽略了任务之间的关联性,如实体和观点往往一起出现,如果可以知道观点,那么也能判断出所描述的实体,同时,由于需要对识别出来的实体都要进行观点抽取,以及提取出的观点都要进行分类产生一些无效的匹配对,因此会造成信息冗余,提升观点属性短语的确定过程的错误率;此外,没有自动迭代的能力,无法支持历史数据结果修复,例如数据跑完结果后如果需要更改类别或者归一化的短语,需要重新更新数据,无法快速更新。

基于此,本申请实施例提供一种游戏评论属性提取以及对评论情感和属性词进行提示的方法,能满足观点的自动生成,帮助游戏从业者快速获取玩家对于游戏的主要观点,并且对游戏进行持续的改进,具有灵活的扩展性,同时,在观点的自动生成过程中能实现自动化、快速配置和修复,从而很好地实现玩家游戏观点抽取的过程。

需要说明的是,扩展性用于指示支持规则配置、支持完全匹配库、支持多模型扩展,该框架可以迅速扩展任意模型或者规则结果,极大提升了游戏评论属性抽取的效果的特点;而自动化性用于指示支持打标数据自动扩展、支持错误数据自动导入数据库、支持模型自动训练、能快速迭代模型的特点;快速配置/快速修复用于指示标签配置即时生效、历史数据无需重新跑数据结果,能直接修复历史bad cases的特点。

接下来,从产品侧对本申请的技术方案进行说明。本申请支持属性类别的分析,如图8所示,801所指示的为包括多个观点属性短语的观点属性列表,其中,可以以不同颜色来展示多个观点属性短语,如绿色代表好评,红色代表差评,灰色代表中性,803所指示的为包括多个评论的评论列表;当点击某个观点属性词后可以查看具体的评论,并且可以高亮显示这个观点表达的属性词以及情感词。

通过本申请,可以很容易发现玩家对于目标内容的不同纬度(category)的不同观点表达,并且可以快速了解用户对该类别的某个方面的喜欢或者不喜欢。这种细粒度的情感表达可以快速理解玩家对游戏的多维度观点,不同于单评论的情感分析,可以了解多个不同粒度的情感。

接下来,从技术侧对本申请的技术方案进行说明。参见图11,图11是本申请提供的评论处理方法的技术架构示意图,基于图11,本申请主要包含了6大模块,可以实现对于用户玩家的观点属性的高质量抽取流程以及人工维护支持,同时支持模型的数据增强和全自动更新迭代。

对于预处理模块,在获取针对目标内容的多条评论后,首先对各评论进行预处理,得到目标评论,具体地,针对各评论执行以下处理:对评论进行过滤,得到有效评论,其中,有效评论为不包括不可识别字符的评论,也即对评论进行过滤的过程也相当于对评论进行去噪的过程,这里,不可识别字符可以是乱码字符等;然后对有效评论进行归一化处理,得到有效评论文本,例如,将评论中的emoji转化成文字如将大笑的表情转化为“哈哈”、将竖大拇指的表情转化为“棒”,或者除去评论中的mentions(如@XX)、email等;最后对有效评论文本进行分词处理,得到多个分词结果,将该多个分词结果,作为该评论的目标评论,例如,基于词语属性如动词、名词以及形容词,对有效评论文本进行分词处理,得到有效评论文本中的动词、形容词、名词等,从而将有效评论文本中的动词、形容词、名词等,作为该评论的目标评论。

对于三元组抽取模块,该模块设计的形式为多个关键词提取模型并行调用,具体地,多个关键词提取模型包括了一个规则关键词提取模型、以及至少一个普通关键词提取模型,每个关键词提取模型支持相同的输入和输出,其中,规则关键词提取模型为基于包括高频关键词和高频句式的训练样本训练得到的,用于对评论进行解析,从而快速抽取一些常用的三元组(aspect,opinion,sentiment)。此外,除了规则关键词提取模型,多个关键词提取模型中还可以包括至少一个普通关键词提取模型,其中,普通关键词提取模型为基于包括高频关键词、非高频关键词、高频句式以及非高频句式的训练样本训练得到的,用于对评论进行解析,从而抽取评论的三元组(关键词词组)。

对于选取模块,需要说明的是,由于每一个关键词提取模型的训练程度不同,因此,每一个关键词提取模型所提取到的关键词词组的准确性不同,因此,当通过多个关键词提取模型提取到多个三元组时,还需要对多个三元组进行选择,从而从多个三元组中,选取至少一个目标三元组。具体地,对多个三元组执行包括去重复策略、去冲突策略、以及合并策略中至少之一,得到至少一个目标三元组。这里,每个模型会有一个可配置的优先级,每个三元组记录是哪个模型产生的。

在一些实施例中,当对多个三元组执行去重复策略时,获取多个三元组中任意两个三元组的相似度;当基于任意两个三元组的相似度,确定多个三元组中存在相似度大于相似度阈值的三元组时,基于各三元组所对应关键词提取模型的优先级,选取高优先级的关键词提取模型所对应的三元组,确定为目标三元组。

在一些实施例中,当对多个三元组执行去冲突策略时,分别对各三元组进行语义分析,得到语义分析结果;当基于语义分析结果,确定多个三元组中存在互相冲突的三元组时,基于各三元组所对应关键词提取模型的优先级,选取高优先级的关键词提取模型所对应的三元组,确定为目标三元组。

在一些实施例中,当对多个三元组执行合并策略时,当多个三元组中不存在相似度大于相似度阈值的三元组、且不存在互相冲突的三元组时,直接将多个三元组确定为目标三元组。

需要说明的是,还可以直接使用配置的方式多个关键词提取模型的数量进行修改。

对于标签类别映射模块,具体地,是根据三元组的输出结果,映射到固定的游戏类别,例如aspect(评论对象)为多人排位时,将该aspect映射到类别为组队。这里,对于每个标签,建立了一个aspect到标签的映射表(目标映射关系)。对于每个抽取出来的三元组,基于映射表,对三元组的aspect和标签进行匹配,具体地,对aspect所对应的三元组进行向量编码,得到对应的向量;基于映射表,将对象向量与映射表中的各aspect对应的对象向量进行相似度匹配;当匹配结果表征相似度大于相似度阈值时,将映射表中相应aspect所归属的类别,确定为三元组中aspect所归属的目标类别。

在一些实施例中,还可以会定期对于没有类别映射的对象向量,进行聚类,并且当归属于同一聚类中心的对象向量的数量达到数量阈值时,建立新的映射表或更新映射表。

对于观点属性短语生成模块,具体地,用于归一化抽取出来的三元组,例如,将评论“游戏皮肤价格好贵”、“皮肤贵”以及“超级贵的皮肤”,都归一化到皮肤价格高。具体地,分别对各评论的三元组中的关键词进行拼接,得到拼接关键词,然后对拼接关键词进行向量编码,得到各评论对应的关键词向量。然后,对多个关键词向量进行聚类,得到至少一个聚类中心,然后确定各聚类中心指示的针对目标内容的观点属性短语(观点属性),并将各聚类中心指示的针对目标内容的观点属性短语,确定为多条评论所综合表达的、针对目标内容的观点属性短语

在实际实施时,确定各聚类中心指示的针对目标内容的观点属性短语之前,可以预先设置各聚类中心所对应的针对目标内容的观点属性短语,如皮肤价格贵,服务器卡顿等常见的观点。从而,在确定各聚类中心指示的针对目标内容的观点属性短语后,将各聚类中心指示的针对目标内容的观点属性短语,确定为多条评论所综合表达的、针对目标内容的观点属性短语,如此,通过对多个关键词向量的聚类处理,将各关键词向量归一化到具体的观点。

需要说明的是,在得到各评论对应的关键词向量后,还会对相应评论所对应的关键词向量进行存储,从而当对各聚类中心指示的针对目标内容的观点属性短语进行修改后,就会修改所有评论所对应的观点属性短语,避免了直接对相应评论所对应的观点属性短语进行存储时,当对各聚类中心指示的针对目标内容的观点属性短语进行修改后,可能展示两条观点属性短语的情况。

对于自动化训练迭代模块,确定各评论训练样本的至少一个样本三元组、以及各样本聚类中心指示的针对目标内容的样本观点属性后,还可以对评论训练样本的标签进行置信度检测或质量检测,当检测结果表征标签存在错误时,对标签进行更正,得到目标标签,从而确定携带目标标签的评论训练样本,然后对该评论训练样本进行数据增强如词汇替换、基于同义词典的替换、反向翻译等,得到增强评论训练样本,从而基于增强评论训练样本训练评论处理模型。

如此,通过本申请,支持大规模的评论观点总结,并且能够支持高性能,快速效果优化,以及快速解决错误案例。

应用本申请上述实施例,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,然后分别对各评论取到的关键词进行向量编码,得到各评论对应的关键词向量,再获取通过对各评论对应的关键词向量进行聚类所得到至少一个聚类中心,从而确定各聚类中心指示的针对目标内容的观点属性,并将各聚类中心指示的针对目标内容的观点属性,确定为多条评论所综合表达的、针对目标内容的观点属性。如此,在从多个提取维度提取评论对应的关键词、并对关键词进行向量编码后,通过对关键词向量的聚类处理过程,确定多条评论所综合表达的观点属性,不仅提高了观点属性的确定过程的效率,也提高了所确定的观点属性的准确性。

下面继续说明本申请实施例提供的评论处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2A所示,存储在存储器450的评论处理装置455中的软件模块可以包括:

关键词提取模块4551,用于在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词;

编码模块4552,用于分别对各所述评论的关键词进行向量编码,得到各所述评论对应的关键词向量;

获取模块4553,用于获取至少一个聚类中心,所述至少一个聚类中心,通过对各所述评论对应的关键词向量进行聚类所得到;

确定模块4554,用于确定各所述聚类中心指示的针对所述目标内容的观点属性,并将各所述聚类中心指示的针对所述目标内容的观点属性,确定为多条所述评论所综合表达的、针对所述目标内容的观点属性。

在一些实施例中,所述至少两个提取维度还包括对象属性以及情感属性,所述关键词提取模块4551,还用于分别在所述观点属性、所述对象属性以及所述情感属性的提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词;其中,所述至少一个关键词,用于指示所述评论针对的评论对象、针对所述评论对象的观点、以及所述观点对应的情感极性中至少之一。

在一些实施例中,所述关键词提取模块4551,还用于分别在所述观点属性及所述对象属性的提取维度,对目标内容的多条评论进行关键词提取,得到用于指示所评论的评论对象的第一关键词、以及用于指示针对所述评论对象的观点的第二关键词;对各所述评论的所述第二关键词进行情感属性分析,得到用于指示所述观点对应的情感极性的第三关键词;将各所述评论的所述第一关键词、所述第二关键词及所述第三关键词,确定为相应所述评论的至少一个关键词。

在一些实施例中,所述关键词提取模块4551,还用于针对目标内容的各所述评论,执行以下处理:通过多个关键词提取模型,在包括观点属性的至少两个提取维度,分别对各所述评论进行关键词提取,得到多个关键词词组,所述关键词词组包括所述评论在所述至少两个提取维度的至少一个关键词,所述关键词词组与所述关键词提取模型存在一一对应关系;从所述多个关键词词组中,选取至少一个目标关键词词组,并将所述目标关键词词组包括的至少一个关键词,作为所述评论的至少一个关键词。

在一些实施例中,所述关键词提取模块4551,还用于获取所述多个关键词组中任意两个关键词组的相似度;当基于任意两个关键词组的相似度,确定所述多个关键词词组中存在相似度大于相似度阈值的第一关键词组及第二关键词组时,分别获取所述第一关键词组及所述第二关键词组所对应关键词提取模型的优先级,并选取高优先级的关键词提取模型所对应的关键词组;将所述高优先级的关键词提取模型所对应的关键词组、所述多个关键词组中除所述第一关键词组及第二关键词组以外的关键词组,确定为所述目标关键词词组。

在一些实施例中,所述关键词提取模块4551,还用于分别对各所述关键词词组进行语义分析,得到语义分析结果;当基于所述语义分析结果,确定所述多个关键词词组中存在互相冲突的第三关键词组及第四关键词组时,分别获取所述第三关键词组及所述第四关键词组所对应关键词提取模型的优先级,并选取高优先级的关键词提取模型所对应的关键词组;将所述高优先级的关键词提取模型所对应的关键词组、所述多个关键词组中除所述第三关键词组及第四关键词组以外的关键词组,确定为所述目标关键词词组。

在一些实施例中,所述至少两个提取维度还包括对象属性以及情感属性,所述关键词词组包括:用于指示所述评论针对的评论对象的关键词、用于指示针对所述评论对象的观点的关键词、以及用于指示所述观点对应的情感极性的关键词;所述关键词提取模块4551,还用于基于所述语义分析结果,确定所述多个关键词词组中所述评论对象及对应所述评论对象的观点均相同的至少两个关键词组;当所述至少两个关键词组中存在情感极性相矛盾的两个关键词组时,确定所述多个关键词词组中存在互相冲突的第三关键词组及第四关键词组。

在一些实施例中,所述关键词提取模块4551,还用于当所述多个关键词词组中不存在相似度大于相似度阈值的关键词词组、且不存在互相冲突的关键词词组时,分别获取各所述关键词词组所对应关键词提取模型的优先级;按照所述优先级由高到低的顺序,对所述多个关键词词组进行排序,得到关键词词组序列;从所述关键词词组序列中第一个关键词词组开始进行关键词词组选取,直至选取目标数量的关键词词组作为所述目标关键词词组;其中,所述目标数量小于或等于所述多个关键词词组的数量。

在一些实施例中,所述至少两个提取维度还包括对象属性,所述至少一个关键词包括所述评论针对的评论对象,所述装置还包括映射模块,所述映射模块,用于获取目标映射关系,所述目标映射关系用于指示,所述目标内容的至少一个目标评论对象与各所述目标评论对象所归属的类别间的映射关系;基于所述目标映射关系,对所述评论针对的评论对象进行映射,得到所述评论针对的评论对象所归属的目标类别;将所述目标类别,确定为所述评论所归属的类别。

在一些实施例中,所述映射模块,还用于对所述评论对象所对应的关键词进行向量编码,得到所述评论对象对应的对象向量,并获取所述目标评论对象对应的目标对象向量;将所述对象向量与各所述目标对象向量进行相似度匹配;当匹配结果表征相似度大于相似度阈值时,将所述目标对象向量对应的目标评论对象所归属的类别,确定为所述评论针对的评论对象所归属的目标类别。

在一些实施例中,所述方法应用于评论处理模型,所述评论处理模型至少包括关键词提取层、编码层、聚类层以及解码层,所述关键词提取模块,还用于通过所述关键词提取层,在包括观点属性的至少两个提取维度,对目标内容的多条评论进行关键词提取,得到各所述评论的至少一个关键词;所述编码模块,还用于通过所述编码层,分别对各所述评论的关键词进行向量编码,得到各所述评论对应的关键词向量;所述获取模块4553,还用于通过所述聚类层,获取至少一个聚类中心,所述至少一个聚类中心,通过对各所述评论对应的关键词向量进行聚类所得到;所述确定模块,还用于通过所述解码层,确定各所述聚类中心指示的针对所述目标内容的观点属性。

在另一些实施例中,如图2B所示,存储在存储器450的评论处理装置455中的软件模块可以包括:

第一响应模块4551,用于响应于针对目标内容的多条评论的观点分析指令,采用至少一种展示样式,显示所述多条评论综合表达的至少一条观点属性;其中,所述展示样式,用于指示情感属性,不同的所述展示样式指示不同的情感属性;

第二响应模块4552,用于响应于针对所述至少一条观点属性中目标观点属性的触发操作,显示归属于所述目标观点属性的至少一条目标评论。

本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本申请实施例上述的评论处理方法,例如,如图3示出的评论处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的评论处理方法,例如,如图3示出的评论处理方法。

在一些实施例中,计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随即存储器(Random Access Memory,RAM)、可擦写可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。

需要说明的是,在本申请实施例中,涉及到获取评论等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获取相应的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

综上所述,通过本申请实施例具有以下有益效果:

(1)在从多个提取维度提取评论对应的关键词、并对关键词进行向量编码后,通过对关键词向量的聚类处理过程,确定多条评论所综合表达的观点属性,不仅提高了观点属性的确定过程的效率,也提高了所确定的观点属性的准确性。

(2)针对具备相反含义的观点,优先级高的模型可以识别观点所表达的真实含义,而优先级低的模型仅能识别观点的字面含义,这样,当多个关键词词组中存在互相冲突的关键词组时,基于相应模型的优先级选取目标关键词词组,提高了所得到的关键词词组的准确性。

以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

相关技术
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 一种应用程序处理方法、装置、电子设备及可读存储介质
  • 应用程序异常处理方法、装置、电子设备及存储介质
  • 评论提示方法、装置、电子设备、存储介质和程序产品
  • 文案处理方法、装置、电子设备、存储介质及程序产品
技术分类

06120116501916