掌桥专利:专业的专利平台
掌桥专利
首页

评论信息的识别方法、介质、装置和计算设备

文献发布时间:2023-06-19 11:35:49


评论信息的识别方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及信息识别技术领域,更具体地,本发明的实施方式涉及评论信息的识别方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

目前,相关技术在进行评论信息的识别时,通常会将评论文本通过至少一种方式转化为特征向量,以及获取评论信息的相关特征。通过评论识别模型进行评论的预测。然而,相关技术存在着识别评论信息所依赖的对象单一,以及训练评论识别模型所需的样本标注成本高等缺陷。

发明内容

本发明期望提供一种评论信息的识别方法和装置。

在本发明实施方式的第一方面中,提供了一种评论信息的识别方法,包括:

获取待识别的评论信息以及对应于该评论信息的评论回复信息;

将所述待识别的评论信息以及所述评论回复信息送入预先训练的评论识别模型中进行识别,以确定对应于所述待识别的评论信息的识别结果;

其中,所述评论识别模型通过评论信息样本和对应于所述评论信息样本的评论回复信息样本训练获得。

在本发明的一个实施例中,将所述待识别的评论信息以及所述评论回复信息送入预先训练的评论识别模型中进行识别,包括:

对所述待识别的评论信息进行特征提取,以获得对应于所述待识别的评论信息的第一特征向量;

对所述评论回复信息进行特征提取,以获得对应于所述评论回复信息的第二特征向量;

将所述第一特征向量和所述第二特征向量融合为最终特征向量,基于该最终特征向量确定对应于所述待识别的评论信息的识别结果。

在本发明的一个实施例中,对所述待识别的评论信息进行特征提取,以获得对应于所述评论信息的第一特征向量,包括:

利用第一特征提取模型,对所述待识别的评论信息进行特征提取,以获得对应于所述待识别的评论信息的第一特征向量;

所述第一特征提取模型是预先利用评论信息样本训练的。

在本发明的一个实施例中,对所述评论回复信息进行特征提取,以获得对应于所述评论回复信息的第二特征向量,包括:

利用第二特征提取模型,对所述评论回复信息进行特征提取,以获得对应于所述评论回复信息的第二特征向量;

所述第二特征提取模型是预先利用评论回复信息样本训练的。

在本发明的一个实施例中,将所述第一特征向量和所述第二特征向量融合为最终特征向量,包括:

利用特征向量拼接、计算特征向量的均值或特征向量池化中的任意一种方式,将所述第一特征向量和所述第二特征向量融合为最终特征向量。

在本发明的一个实施例中,评论回复信息的确定方式,包括:

获取对所述待识别的评论信息直接进行回复的候选评论回复信息;

在所述候选评论回复信息的数量不少于对应阈值的情况下,将所述候选评论回复信息按照预定规则进行排序;

根据所述排序,从所述候选评论回复信息中筛选出预定数量的评论回复信息。

在本发明的一个实施例中,将所述候选评论回复信息按照预定规则进行排序,包括:

分别确定每条所述候选评论回复信息所属用户的标识;

利用所述标识,确定每个用户的用户画像;

根据所述待识别的评论信息对应的评论对象与所述用户画像的关联性,对所述候选评论回复信息进行排序。

在本发明的一个实施例中,评论回复信息的确定方式,包括:

获取对所述待识别的评论信息直接进行回复的候选评论回复信息;

在所述候选评论回复信息的数量少于对应阈值的情况下,计算所述候选评论回复信息的数量与所述对应阈值的差值;

根据所述差值,设置对应数量的替代评论回复信息;

将所述候选评论回复信息和所述对应数量的替代评论回复信息作为评论回复信息。

在本发明的一个实施例中,评论识别模型的训练方式,包括:

将所述评论信息样本和所述对应于所述评论信息样本的评论回复信息样本输入待训练的评论识别模型,得到所述评论信息样本的预测识别结果;

根据所述评论信息样本的预测识别结果及所述评论信息样本对应的真实识别结果,调整所述待训练的评论识别模型的参数,直至所述预测识别结果与所述真实识别结果的误差在允许范围内。

在本发明的一个实施例中,还包括:

利用所述预测识别结果,筛选高置信的评论信息样本;

提取所述高置信的评论信息样本中的关键词;

将所述关键词按照类别进行标注,将具有相同标注结果的关键词组成关键词集合;所述标注结果对应所述真实识别结果;

利用所述关键词集合和所述关键词集合的标注结果,对未识别的评论信息进行标注;

利用标注后未识别的评论信息,以及对应于所述标注后未识别的评论信息的评论回复信息,对所述评论信息样本和所述对应于所述评论信息样本的评论回复信息样本进行扩充。

在本发明的一个实施例中,利用所述关键词集合和所述关键词集合的标注结果,对未识别的评论信息进行标注,包括:

分别在未识别的各评论信息中确定第一关键词;

根据所述第一关键词与所述关键词集合中所包含的关键词的相似性,在所述未识别的各评论信息中筛选出预定数量的待标注评论信息;

利用所述关键词集合的标注结果,对所述待标注评论信息进行标注。

在本发明的一个实施例中,利用所述关键词集合的标注结果,对所述待标注评论信息进行标注,包括:

按照预定比例,将所述预定数量的待标注评论信息划分为第一待标注评论信息集合和第二待标注评论信息集合;

对所述第一待标注评论信息集合中的所述第一关键词进行替换处理,得到处理后的第一待标注评论信息集合;

利用所述关键词集合的标注结果,对所述第二待标注评论信息集合和所述处理后的第一待标注评论信息集合进行标注。

在本发明的一个实施例中,还包括:

利用所述预测识别结果,筛选低置信的评论信息样本;

获取所述低置信的评论信息样本的更新后的标注结果;

利用更新标注结果的评论信息样本,以及对应于所述更新标注结果的评论信息样本的评论回复信息,对所述评论信息样本和所述评论信息样本的回复信息样本进行扩充。

在本发明的一个实施例中,对应于所述待识别的评论信息的识别结果包括:所述待识别的评论信息对应的低质量评论的类别。

在本发明实施方式的第二方面中,提供了一种评论信息的识别装置,包括:

评论回复信息获取模块,用于获取待识别的评论信息以及对应于该评论信息的评论回复信息;

识别结果确定模块,用于将所述待识别的评论信息以及所述评论回复信息送入预先训练的评论识别模型中进行识别,以确定对应于所述待识别的评论信息的识别结果;

其中,所述评论识别模型通过评论信息样本和对应于所述评论信息样本的评论回复信息样本训练获得。

在本发明的一个实施例中,识别结果确定模块,包括:

第一特征向量获取子模块,用于对所述待识别的评论信息进行特征提取,以获得对应于所述待识别的评论信息的第一特征向量;

第二特征向量获取子模块,用于对所述评论回复信息进行特征提取,以获得对应于所述评论回复信息的第二特征向量;

特征向量融合子模块,用于将所述第一特征向量和所述第二特征向量融合为最终特征向量,基于该最终特征向量确定对应于所述待识别的评论信息的识别结果。

在本发明的一个实施例中,第一特征向量获取子模块具体用于:

利用第一特征提取模型,对所述待识别的评论信息进行特征提取,以获得对应于所述待识别的评论信息的第一特征向量;

所述第一特征提取模型是预先利用评论信息样本训练的。

在本发明的一个实施例中,第二特征向量获取子模块具体用于:

利用第二特征提取模型,对所述评论回复信息进行特征提取,以获得对应于所述评论回复信息的第二特征向量;

所述第二特征提取模型是预先利用评论回复信息样本训练的。

在本发明的一个实施例中,特征向量融合子模块具体用于:

利用特征向量拼接、计算特征向量的均值或特征向量池化中的任意一种方式,将所述第一特征向量和所述第二特征向量融合为最终特征向量。

在本发明的一个实施例中,评论回复信息获取模块,包括:

候选评论回复信息获取子模块,用于获取对所述待识别的评论信息直接进行回复的候选评论回复信息;

排序子模块,用于在所述候选评论回复信息的数量不少于对应阈值的情况下,将所述候选评论回复信息按照预定规则进行排序;

评论回复信息确定子模块,用于根据所述排序,从所述候选评论回复信息中筛选出预定数量的评论回复信息。

在本发明的一个实施例中,排序子模块,包括:

用户标识确定单元,用于分别确定每条所述候选评论回复信息所属用户的标识;

用户画像确定单元,用于利用所述标识,确定每个用户的用户画像;

排序执行单元,用于根据所述待识别的评论信息对应的评论对象与所述用户画像的关联性,对所述候选评论回复信息进行排序。

在本发明的一个实施例中,评论回复信息获取模块,包括:

候选评论回复信息获取子模块,用于获取对所述待识别的评论信息直接进行回复的候选评论回复信息;

数量差异确定子模块,用于在所述候选评论回复信息的数量少于对应阈值的情况下,计算所述候选评论回复信息的数量与所述对应阈值的差值;

替代评论回复信息设置子模块,用于根据所述差值,设置对应数量的替代评论回复信息;

评论回复信息确定子模块,用于将所述候选评论回复信息和所述对应数量的替代评论回复信息作为评论回复信息。

在本发明的一个实施例中,还包括评论识别模型训练模块,所述评论识别模型训练模块,包括:

预测识别结果确定子模块,用于将所述评论信息样本和所述对应于所述评论信息样本的评论回复信息样本输入待训练的评论识别模型,得到所述评论信息样本的预测识别结果;

评论识别模型训练执行子模块,用于根据所述评论信息样本的预测识别结果及所述评论信息样本对应的真实识别结果,调整所述待训练的评论识别模型的参数,直至所述预测识别结果与所述真实识别结果的误差在允许范围内。

在本发明的一个实施例中,评论识别模型训练模块,还包括:

高置信的评论信息样本筛选子模块,用于利用所述预测识别结果,筛选高置信的评论信息样本;

关键词提取子模块,用于提取所述高置信的评论信息样本中的关键词;

关键词集合确定子模块,用于将所述关键词按照类别进行标注,将具有相同标注结果的关键词组成关键词集合;所述标注结果对应所述真实识别结果;

标注子模块,用于利用所述关键词集合和所述关键词集合的标注结果,对未识别的评论信息进行标注;

样本扩充子模块,用于利用标注后未识别的评论信息,以及对应于所述标注后未识别的评论信息的评论回复信息,对所述评论信息样本和所述对应于所述评论信息样本的评论回复信息样本进行扩充。

在本发明的一个实施例中,标注子模块,包括:

第一关键词确定单元,用于分别在未识别的各评论信息中确定第一关键词;

待标注评论信息筛选单元,用于根据所述第一关键词与所述关键词集合中所包含的关键词的相似性,在所述未识别的各评论信息中筛选出预定数量的待标注评论信息;

标注执行单元,用于利用所述关键词集合的标注结果,对所述待标注评论信息进行标注。

在本发明的一个实施例中,标注执行单元,包括:

待标注评论信息集合确定子单元,用于按照预定比例,将所述预定数量的待标注评论信息划分为第一待标注评论信息集合和第二待标注评论信息集合;

第一关键词替换子单元,用于对所述第一待标注评论信息集合中的所述第一关键词进行替换处理,得到处理后的第一待标注评论信息集合;

标注子单元,用于利用所述关键词集合的标注结果,对所述第二待标注评论信息集合和所述处理后的第一待标注评论信息集合进行标注。

在本发明的一个实施例中,评论识别模型训练模块,还包括:

低置信评论信息样本筛选子模块,用于利用所述预测识别结果,筛选低置信的评论信息样本;

新标注结果获取子模块,用于获取所述低置信的评论信息样本的更新后的标注结果;

样本扩充子模块,用于利用更新标注结果的评论信息样本,以及对应于所述更新标注结果的评论信息样本的评论回复信息,对所述评论信息样本和所述评论信息样本的回复信息样本进行扩充。

在本发明的一个实施例中,对应于所述待识别的评论信息的识别结果包括:所述待识别的评论信息对应的低质量评论的类别。

在本发明实施方式的第三方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现上述评论信息的识别方法的步骤。

在本发明实施方式的第四方面中,提供了一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现评论信息的识别方法的步骤。

根据本发明实施方式的评论信息的识别方法和装置,可以根据评论信息,以及对应于该评论信息的评论回复信息等多类对象对待识别的评论信息进行识别。从而可以克服单纯依赖评论信息本身进行识别而造成的识别结果准确性偏差的问题,达到提高识别的准确度的效果。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1示意性地示出了根据本发明一实施方式的评论信息的识别方法实现流程图一;

图2示意性地示出了根据本发明一实施方式的评论信息的识别方法中,步骤S102的一种实现流程图;

图3示意性地示出了根据本发明一实施方式的评论信息的识别方法中,评论回复信息的确定方式的流程图一;

图4示意性地示出了根据本发明一实施方式的评论信息的识别方法中,评论回复信息的确定方式的流程图二;

图5示意性地示出了根据本发明一实施方式的评论信息的识别方法中,评论回复信息的确定方式的流程图三;

图6示意性地示出了根据本发明一实施方式的评论信息的识别方法中,评论识别模型的训练的流程图一;

图7示意性地示出了根据本发明一实施方式的评论信息的识别方法中,评论识别模型的训练的流程图二;

图8示意性地示出了根据本发明一实施方式的对未识别的评论信息进行标注的流程图一;

图9示意性地示出了根据本发明一实施方式的对未识别的评论信息进行标注的流程图二;

图10示意性地示出了根据本发明一实施方式的评论信息的识别方法中,评论识别模型的训练的流程图三;

图11示意性地示出了根据本发明一实施方式的用于评论信息的识别方法的介质示意图;

图12示意性地示出了根据本发明一实施方式的的用于评论信息的识别装置结构示意图;

图13示意性地示出了根据本发明一实施方式的计算设备的结构示意图。

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

根据本发明的实施方式,提出了一种评论信息的识别方法、介质、装置和计算设备。

在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。

本发明人发现,现有的评论信息的识别技术中,往往只依赖于对评论信息本身特征的提取。在评论信息是反话正说、或评论信息包含某些特定圈子的术语和表达、以及评论信息包含最新流行的网络用语等的情况下,仅依赖评论信息的特征对其进行识别,便容易对识别结果的准确性的偏差。

有鉴于此,本发明提供一种评论信息的识别方法和装置,可以根据评论信息,以及对应于该评论信息的评论回复信息等多类对象对评论信息进行识别。从而可以克服单纯依赖评论信息进行识别所造成的识别结果准确性偏差的问题,达到提高识别的准确度的效果。

在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。

下面参考图1来描述根据本发明示例性实施方式的评论信息的识别方法。

如图1所示,本发明实施例的评论信息的识别方法包括以下步骤:

S101:获取待识别的评论信息以及对应于该评论信息的评论回复信息;

S102:将待识别的评论信息以及评论回复信息送入预先训练的评论识别模型中进行识别,以确定对应于待识别的评论信息的识别结果;

其中,评论识别模型通过评论信息样本和对应于评论信息样本的评论回复信息样本训练获得。

本申请的上述方案的执行主体可以是具有社交属性的应用程序,或者可以是上述应用程序的服务器等。

示例性地,应用程序可以是具有社交属性的音乐类应用程序。待识别的评论信息可以是用户对歌手或者乐曲等内容的评论信息。当前用户的评论信息可以被其他用户浏览及回复。

对于待识别的评论信息的识别,可以依赖于评论信息,以及对应于该评论信息的评论回复信息。具体而言,可以将待识别的评论信息以及评论回复信息送入预先训练的评论识别模型中进行识别,由评论识别模型输出待识别的评论信息的类别。例如,待识别的评论信息的类别可以是正面类别或是负面类别。以正面类别为例,可以包括推荐类别、赞美类别或鼓励类别等。以负面为例,可以包括辱骂类别、色情类别或广告类别等。

在当前实施方式中,可以仅以负面类别为最终识别结果。评论识别模型可以输出带评论的评论信息属于不同负面类别的概率。例如,输出辱骂类别的概率为a%,色情类别的概率为b%,广告类别的概率为c%。其中,a%+b%+c%=100%。

评论识别模型可以预先利用评论信息样本和对应于评论信息样本的评论回复信息样本训练获得。例如,可以预先对评论信息样本和对应于评论信息样本的评论回复信息样本进行标注。标注结果可以对应于不同类别的标签。从而可以将评论信息样本和对应于评论信息样本的评论回复信息样输入待训练的评论识别模型,根据待训练的评论识别模型输出的预测结果与标注结果的差异,对待训练的评论识别模型进行训练。

通过上述过程,本发明实施例可以根据评论信息,以及对应于该评论信息的评论回复信息等多类对象对评论信息进行识别。从而可以克服单纯依赖评论信息进行识别所造成的识别结果准确性偏差的问题,提高对于评论信息识别的准确度。

如图2所示,在一种可能的实施方式中,步骤S102可以进一步包括:

S201:对待识别的评论信息进行特征提取,以获得对应于待识别的评论信息的第一特征向量;

S202:对评论回复信息进行特征提取,以获得对应于评论回复信息的第二特征向量;

S203:将第一特征向量和第二特征向量融合为最终特征向量,基于该最终特征向量确定对应于待识别的评论信息的识别结果。

对于待识别的评论信息的特征提取可以包括以下过程:首先可以利用词嵌入(Word Embedding)技术或词向量(Word2vec)技术等,以向量形式表征待识别的评论信息。其次,对向量形式表征的待识别的评论信息进行不同维度的特征提取,例如包括词性、语义等维度,以获得对应于待识别的评论信息的第一特征向量。

同理,可以对评论回复信息进行特征提取,以获得对应于评论回复信息的第二特征向量。

在得到第一特征向量和第二特征向量的情况下,可以对第一特征向量和第二特征向量进行融合处理,得到融合结果。对于第一特征向量和第二特征向量的具体融合过程会在后文进行详述。

融合结果对应最终特征向量,从而可以基于该最终特征向量确定对应于待识别的评论信息的识别结果。

通过上述过程,可以分别提取待识别的评论信息,以及评论回复信息的特征向量。利用融合处理的方式,可以得到特征向量的合并结果,即,可以融合待识别的评论信息以及评论回复信息。

在一种可能的实施方式中,步骤S201可以具体包括:

利用第一特征提取模型,对待识别的评论信息进行特征提取,以获得对应于待识别的评论信息的第一特征向量;

第一特征提取模型是预先利用评论信息样本训练的。

在一种可能的实施方式中,步骤S201可以具体包括:

利用第二特征提取模型,对评论回复信息进行特征提取,以获得对应于评论回复信息的第二特征向量;

第二特征提取模型是预先利用评论回复信息样本训练的。

一般情况下,评论信息和评论回复信息的句式、文字长度以及表达方式等会存在差异。因此,若采用相同训练样本训练的特征提取模型同时对评论信息和评论回复信息进行特征提取,可能会造成精度的下降。

通过上述过程,可以分别采用不同样本对第一特征提取模型和第二特征提取模型进行训练。以使训练后的第一特征提取模型可以更准确的提取出评论信息的特征,以及使训练后的第二特征提取模型可以更准确的提取出评论回复信息的特征。

在一种可能的实施方式中,步骤S203中涉及的融合过程具体可以包括:

利用特征向量拼接、计算特征向量的均值或特征向量池化中的任意一种方式,将第一特征向量和第二特征向量融合为最终特征向量。

特征向量拼接可以是将第一特征向量和第二特征向量置于同一特征向量集合中,以实现特征向量的融合。

由于特征向量可以是以编码形式表示的,因此可以利用数学的方式,计算特征向量的均值。例如,第一特征向量和第二特征向量可以包括词性、语义等多个维度的特征向量。对于每个维度,可以分别计算出对应的特征向量的均值。

特征向量池化可以将多个维度的特征向量进行降维处理,输出单一维度或固定维度的特征向量。例如,池化的方式可以采用全局平均池化或全局最大池化等。

通过上述过程,可以使第一特征向量和第二特征向量实现融合。

如图3所示,在一种可能的实施方式中,评论回复信息的确定方式可以包括以下步骤:

S301:获取对待识别的评论信息直接进行回复的候选评论回复信息;

S302:在候选评论回复信息的数量不少于对应阈值的情况下,将候选评论回复信息按照预定规则进行排序;

S303:根据排序,从候选评论回复信息中筛选出预定数量的评论回复信息。

评论回复信息可以包括一级评论回复信息和二级评论回复信息。示例性地,一级评论回复信息可以是对待识别的评论信息直接进行回复的评论回复信息。二级评论回复信息可以是对一级评论回复信息进行回复的评论回复信息。在进行评论信息的识别时,可以只参考一级评论回复信息,也可以同时参考一级评论回复信息和二级评论回复信息。

在当前实施方式中,以只参考一级评论回复信息为例进行说明。获取对待识别的评论信息直接进行回复的候选评论回复信息。在候选评论回复信息的数量不少于对应阈值的情况下,表示可供选择的候选评论回复信息的数量足够多。基于此,可以利用预定规则对候选评论回复信息进行排序。

例如,预定规则可以是根据回复时间进行排序,选择最近回复的预定数量的候选评论回复信息。

又例如,预定规则可以是根据关注度进行排序,选择关注度最高的预定数量的候选评论回复信息。关注度可以从候选评论回复信息的二级评论回复信息的数量、候选评论回复信息的点赞量、候选评论回复信息的阅读量等维度确定。

还例如,预定规则可以是发出评论回复信息的用户与评论信息所评论对象的相关度进行排序,选择相关度最高的预定数量的候选评论回复信息。

或者,预定规则还可以结合上述不同排序方式。例如,为不同排序方式设定权重,根据计算权重和的方式筛选出预定数量的评论回复信息。

通过上述过程,在候选评论回复信息的数量足够多的情况下,可以对其进行筛选,从而选择出参考性更高的候选评论回复信息。

如图4所示,在一种可能的实施方式中,步骤S302可以进一步包括以下子步骤:

S401:分别确定每条候选评论回复信息所属用户的标识;

S402:利用标识,确定每个用户的用户画像;

S403:根据待识别的评论信息对应的评论对象与用户画像的关联性,对候选评论回复信息进行排序。

用户的标识可以是用户名、注册账号等信息。利用用户的标识,可以获取到对应用户的历史信息,例如历史评论信息、历史评论回复信息,歌曲收听历史等。

通过对历史信息的识别,可以确定该用户的用户画像。例如,用户对爵士音乐的收听时长占总收听时长的50%以上,可以确定该用户是爵士乐乐迷。或者,根据用户的历史评论信息、历史评论回复信息可以确定,该用户是歌手A,以及乐队B的歌迷,且该用户不喜欢歌手C。

在待识别的评论信息对应的评论对象为爵士乐或爵士乐手,且候选评论回复信息所属用户的用户画像包括爵士乐迷的情况下,可以认为具有关联性,因此可以将爵士乐迷的评论回复信息的排序靠前。

另一种方式,在待识别的评论信息对应的评论对象为歌手C,且候选评论回复信息所属用户的用户画像包括不喜欢歌手C的情况下,可以认为不喜欢歌手C的用户的评论回复信息不具有客观性,因此可以将不喜欢歌手C的评论回复信息的排序靠后。

或者,在确定出关联性的情况下,利用标识还可以确定出用户是否为会员用户、是否为实名制用户、以及是否为网络水军用户等。对应的,可以将会员用户、实名制用户的评论回复信息排序靠前,将网络水军的评论回复信息删除等。

通过上述过程,可以使选择出的候选评论信息的真实性有所提升。

如图5所示,在一种可能的实施方式中,评论回复信息的确定方式还可以包括以下步骤:

S501:获取对待识别的评论信息直接进行回复的候选评论回复信息;

S502:在候选评论回复信息的数量少于对应阈值的情况下,计算候选评论回复信息的数量与对应阈值的差值;

S503:根据差值,设置对应数量的替代评论回复信息;

S504:将候选评论回复信息和对应数量的替代评论回复信息作为评论回复信息。

当前实施方式可以针对候选评论回复信息的数量较少的情况。例如,候选评论回复信息的数量为M,对应阈值为N,且M<N。在此情况下可以计算M与N的差值。

进一步的,可以设置M与N的差值对应数量的替代评论回复信息。替代评论回复信息可以是不包含语义的文字,或者可以是由空格表示的空字符等。

将候选评论回复信息和对应数量的替代评论回复信息作为评论回复信息。

一般情况下,评论识别模型的训练是通过规定数量的评论信息样本以及对应于该评论信息的规定数量的评论回复信息样本训练的。例如,每次训练可以利用1条评论信息样本,以及对应于该评论信息的50条评论回复信息样本一起对待训练的评论识别模型进行训练。在出现候选评论回复信息的数量不足50条的情况下,如果直接将1条评论信息和少于50条的候选评论回复信息输入评论识别模型,可能会造成评论识别模型输出结果失真的情况。

通过上述过程,通过对候选评论回复信息的数量进行补足,可以克服评论识别模型输出结果失真的情况,保证评论识别模型输出结果的准确度。

如图6所示,在一种可能的实施方式中,评论识别模型的训练可以包括以下步骤:

S601:将评论信息样本和对应于评论信息样本的评论回复信息样本输入待训练的评论识别模型,得到评论信息样本的预测识别结果;

S602:根据评论信息样本的预测识别结果及评论信息样本对应的真实识别结果,调整待训练的评论识别模型的参数,直至预测识别结果与真实识别结果的误差在允许范围内。

可以预先对评论信息样本和对应于评论信息样本的评论回复信息样本进行标注。标注结果可以对应真实识别结果。例如,对于第一评论信息样本以及第一评论信息样本的评论回复信息样本,标注结果为色情。对于第二评论信息样本以及第二评论信息样本的评论回复信息样本,标注结果为广告。

将评论信息样本和对应于评论信息样本的评论回复信息样本输入待训练的评论识别模型,得到评论信息样本的预测识别结果。例如,结果可以是色情的概率为a%,广告的概率为b%,地域黑的概率为c%。则,可以根据色情的概率为a%与100%的差异,调整待训练的评论识别模型的参数,直至预测识别结果与真实识别结果的误差在允许范围内。

通过上述过程,可以实现对于待训练的评论识别模型的训练。

如图7所示,在一种可能的实施方式中,还可以包括以下步骤:

S701:利用预测识别结果,筛选高置信的评论信息样本;

S702:提取高置信的评论信息样本中的关键词;

S703:将关键词按照类别进行标注,将具有相同标注结果的关键词组成关键词集合;标注结果对应真实识别结果;

S704:利用关键词集合和关键词集合的标注结果,对未识别的评论信息进行标注;

S705:利用标注后未识别的评论信息,以及对应于标注后未识别的评论信息的评论回复信息,对评论信息样本和对应于评论信息样本的评论回复信息样本进行扩充。

对于已经开始训练,但实际效果还未达到最佳的评论识别模型,可以持续扩充训练样本,以提高训练质量。扩充训练样本可以采用自动化标注的方式进行,以节省人力成本。具体的,可以采用以下方式:

高置信的评论信息样本可以是评论识别模型输出的概率值较高的样本。可以预先设置对应的阈值,示例性地,可以是90%。

例如,评论识别模型输出色情概率为95%,高于对应的阈值。基于此,可以将色情概率为95%所对应的评论信息,以及对应该评论信息的评论回复信息作为高置信的评论信息样本。

可以利用关键词提取算法(TF-IDF,Term Frequency-inverse DocumentFrequency),从高置信的评论信息样本中提取关键词。对于提取出的关键词,可以利用输出结果进行标注。或者,也可以采用词义识别模型或人工等其他方式进行标注。

不难理解,由于评论识别模型输出的结果包括多个。因此对于提取出的关键词,可以按照与输出结果对应的类别进行标注。最终,可以将相同类别的关键词组成关键词集合。示例性地,不同类别可以包括色情、广告、地域黑、反动、人身攻击等。上述类别可以作为关键词集合的标注结果。

可以利用关键词集合的标注结果,对包含关键词集合中的关键词的评论信息,以及对应该评论信息的评论回复信息进行标注。具体标注过程将在后文进行详述。

通过上述过程,可以实现训练样本的自动化扩充。

如图8所示,在一种可能的实施方式中,步骤S704可以具体包括以下步骤:

S801:分别在未识别的各评论信息中确定第一关键词;

S802:根据第一关键词与关键词集合中所包含的关键词的相似性,在未识别的各评论信息中筛选出预定数量的待标注评论信息;

S803:利用关键词集合的标注结果,对待标注评论信息进行标注。

利用关键词集合,可以对未识别的评论信息进行搜索,以查询出含有同一类关键词的评论信息。

以色情类关键词集合为例,关键词集合中包括第1色情关键词至第N色情关键词。

对未识别的评论信息进行分词,以得到未识别的评论信息的分词集合。分词集合中的各个词语可以作为第一关键词。

可以将第一关键词分别与第1至第N任意色情关键词进行比较。例如,在第一关键词与任意色情关键词相同的情况下,可以确定出待标注评论信息。或者,还可以进行相似性判断,例如,可以将第一关键词与任意色情关键词输入相似性模型,得到二者的相似性。在相似性超过对应阈值的情况下,可以确定出待标注评论信息。

相似性模型可以是预先训练的,用于检测不同词句之间相似性的模型。具体训练过程不再赘述。

对于待标注评论信息,以及对应该评论信息的评论回复信息,可以标注为色情。从而可以实现对于色情类评论信息样本以及评论回复信息样本的扩充。

同理,可以用相似的方式,对广告类、地域黑类、反动类、人身攻击类等其他类的评论信息样本以及评论回复信息样本的扩充。

如图9所示,在一种可能的实施方式中,步骤S704还可以具体包括以下步骤:

S901:按照预定比例,将预定数量的待标注评论信息划分为第一待标注评论信息集合和第二待标注评论信息集合;

S902:对第一待标注评论信息集合中的第一关键词进行替换处理,得到处理后的第一待标注评论信息集合;

S903:利用关键词集合的标注结果,对第二待标注评论信息集合和处理后的第一待标注评论信息集合进行标注。

在确定出待标注评论信息的情况下,可以将其划分为第一待标注评论信息集合和第二待标注评论信息集合。示例性地,第一待标注评论信息集合与第二待标注评论信息集合的比例可以是9:1。

仍以色情类关键词集合为例。第一待标注评论信息集合和第二待标注评论信息集合中的各评论信息,均包含有与第1至第N任意色情关键词相同或相似的第一关键词。可以对第一待标注评论信息集合中的第一关键词进行替换处理。替换处理的方式可以利用空格字符替换,也可以利用马赛克(MASK)字符替换等。

利用关键词集合的标注结果(色情),对第二待标注评论信息集合和处理后的第一待标注评论信息集合进行标注。

通过上述过程,利用关键词替换的方式,可以避免评论识别模型训练的过拟合情况,即,避免评论识别模型仅对有限的关键词具有较高的识别性。通过关键词替换的方式,可以提高评论识别模型的泛化能力。

如图10所示,在一种可能的实施方式中,还可以包括以下步骤:

S1001:利用预测识别结果,筛选低置信的评论信息样本;

S1002:获取低置信的评论信息样本的更新后的标注结果;

S1003:利用更新标注结果的评论信息样本,以及对应于更新标注结果的评论信息样本的评论回复信息,对评论信息样本和评论信息样本的回复信息样本进行扩充。

在预测识别结果为多种类型,且各类型的概率差异在对应阈值范围内的情况下,可以确定为低置信的评论信息样本。示例性地,预测识别结果为色情类的概率为35%,广告类的概率为30%,人身攻击类的概率为35%。则可以确定为低置信的评论信息样本。

出现上述情况,可以表示评论识别模型对上述评论信息的识别能力较差。基于此,可以利用人工等方式,对低置信的评论信息样本进行重新标注。利用更新标注结果的评论信息样本,以及对应于更新标注结果的评论信息样本的评论回复信息,对评论信息样本和评论信息样本的回复信息样本进行扩充,可以提高评论识别模型对不同评论信息的识别能力。

在一种可能的实施方式中,对应于待识别的评论信息的识别结果包括:待识别的评论信息对应的低质量评论的类别。

色示例性地,低质量评论的类别可以包括色情、广告、地域黑、反动和人身攻击中的至少一种。

在介绍了本发明示例性实施方式的方法之后,接下来,参考图11对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中,本发明的每个方面还可以实现为一种计算机可读介质,其上存储有程序,当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的评论信息的识别方法中的步骤。

具体地,上述处理器执行上述程序时用于实现如下步骤:获取待识别的评论信息以及对应于该评论信息的评论回复信息;

将待识别的评论信息以及评论回复信息送入预先训练的评论识别模型中进行识别,以确定对应于待识别的评论信息的识别结果;

其中,评论识别模型通过评论信息样本和对应于所述评论信息样本的评论回复信息样本训练获得。

需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图11所示,描述了根据本发明的实施方式的介质110,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序,并可以在设备上运行。然而,本发明不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

在介绍了本发明示例性实施方式的介质之后,接下来,参考图12对本发明示例性实施方式的装置进行说明。

如图12所示,本发明实施例的评论信息的识别装置可以包括:

评论回复信息获取模块1201,用于获取待识别的评论信息以及对应于该评论信息的评论回复信息;

识别结果确定模块1202,用于将所述待识别的评论信息以及所述评论回复信息送入预先训练的评论识别模型中进行识别,以确定对应于所述待识别的评论信息的识别结果;

其中,所述评论识别模型通过评论信息样本和对应于所述评论信息样本的评论回复信息样本训练获得。

在一种可能的实施方式中,识别结果确定模块1202可以包括:

第一特征向量获取子模块12021,用于对所述待识别的评论信息进行特征提取,以获得对应于所述待识别的评论信息的第一特征向量;

第二特征向量获取子模块12022,用于对所述评论回复信息进行特征提取,以获得对应于所述评论回复信息的第二特征向量;

特征向量融合子模块12023,用于将所述第一特征向量和所述第二特征向量融合为最终特征向量,基于该最终特征向量确定对应于所述待识别的评论信息的识别结果。

在一种可能的实施方式中,第一特征向量获取子模块12021具体可以用于:

利用第一特征提取模型,对所述待识别的评论信息进行特征提取,以获得对应于所述待识别的评论信息的第一特征向量;

所述第一特征提取模型是预先利用评论信息样本训练的。

在一种可能的实施方式中,第二特征向量获取子模块12022具体可以用于:

利用第二特征提取模型,对所述评论回复信息进行特征提取,以获得对应于所述评论回复信息的第二特征向量;

所述第二特征提取模型是预先利用评论回复信息样本训练的。

在一种可能的实施方式中,特征向量融合子模块1203具体可以用于:

利用特征向量拼接、计算特征向量的均值或特征向量池化中的任意一种方式,将所述第一特征向量和所述第二特征向量融合为最终特征向量。

在一种可能的实施方式中,评论回复信息获取模块1201可以包括:

候选评论回复信息获取子模块12011,用于获取对所述待识别的评论信息直接进行回复的候选评论回复信息;

排序子模块12012,用于在所述候选评论回复信息的数量不少于对应阈值的情况下,将所述候选评论回复信息按照预定规则进行排序;

评论回复信息确定子模块12013,用于根据所述排序,从所述候选评论回复信息中筛选出预定数量的评论回复信息。

在一种可能的实施方式中,排序子模块12012可以包括:

用户标识确定单元120121,用于分别确定每条所述候选评论回复信息所属用户的标识;

用户画像确定单元120122,用于利用所述标识,确定每个用户的用户画像;

排序执行单元120123,用于根据所述待识别的评论信息对应的评论对象与所述用户画像的关联性,对所述候选评论回复信息进行排序。

在一种可能的实施方式中,评论回复信息获取模块1201可以包括:

候选评论回复信息获取子模块12011,用于获取对所述待识别的评论信息直接进行回复的候选评论回复信息;

数量差异确定子模块12014,用于在所述候选评论回复信息的数量少于对应阈值的情况下,计算所述候选评论回复信息的数量与所述对应阈值的差值;

替代评论回复信息设置子模块12015,用于根据所述差值,设置对应数量的替代评论回复信息;

评论回复信息确定子模块12013,用于将所述候选评论回复信息和所述对应数量的替代评论回复信息作为评论回复信息。

在一种可能的实施方式中,还包括评论识别模型训练模块1203,评论识别模型训练模块1203可以包括:

预测识别结果确定子模块12031,用于将所述评论信息样本和所述对应于所述评论信息样本的评论回复信息样本输入待训练的评论识别模型,得到所述评论信息样本的预测识别结果;

评论识别模型训练执行子模块12032,用于根据所述评论信息样本的预测识别结果及所述评论信息样本对应的真实识别结果,调整所述待训练的评论识别模型的参数,直至所述预测识别结果与所述真实识别结果的误差在允许范围内。

在一种可能的实施方式中,评论识别模型训练模块1203还可以包括:

高置信的评论信息样本筛选子模块12033,用于利用所述预测识别结果,筛选高置信的评论信息样本;

关键词提取子模块12034,用于提取所述高置信的评论信息样本中的关键词;

关键词集合确定子模块12035,用于将所述关键词按照类别进行标注,将具有相同标注结果的关键词组成关键词集合;所述标注结果对应所述真实识别结果;

标注子模块12036,用于利用所述关键词集合和所述关键词集合的标注结果,对未识别的评论信息进行标注;

样本扩充子模块12037,用于利用标注后未识别的评论信息,以及对应于所述标注后未识别的评论信息的评论回复信息,对所述评论信息样本和所述对应于所述评论信息样本的评论回复信息样本进行扩充。

在一种可能的实施方式中,标注子模块12036可以包括:

第一关键词确定单元120361,用于分别在未识别的各评论信息中确定第一关键词;

待标注评论信息筛选单元120362,用于根据所述第一关键词与所述关键词集合中所包含的关键词的相似性,在所述未识别的各评论信息中筛选出预定数量的待标注评论信息;

标注执行单元120363,用于利用所述关键词集合的标注结果,对所述待标注评论信息进行标注。

在一种可能的实施方式中,标注执行单元120363可以包括:

待标注评论信息集合确定子单元1203631,用于按照预定比例,将所述预定数量的待标注评论信息划分为第一待标注评论信息集合和第二待标注评论信息集合;

第一关键词替换子单元1203632,用于对所述第一待标注评论信息集合中的所述第一关键词进行替换处理,得到处理后的第一待标注评论信息集合;

标注子单元1203633,用于利用所述关键词集合的标注结果,对所述第二待标注评论信息集合和所述处理后的第一待标注评论信息集合进行标注。

在一种可能的实施方式中,评论识别模型训练模块1203还可以包括:

低置信评论信息样本筛选子模块12038,用于利用所述预测识别结果,筛选低置信的评论信息样本;

新标注结果获取子模块12039,用于获取所述低置信的评论信息样本的更新后的标注结果;

样本扩充子模块12037,用于利用更新标注结果的评论信息样本,以及对应于所述更新标注结果的评论信息样本的评论回复信息,对所述评论信息样本和所述评论信息样本的回复信息样本进行扩充。

在一种可能的实施方式中,对应于所述待识别的评论信息的识别结果包括:所述待识别的评论信息对应的低质量评论的类别。

在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图13对本发明示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解,本发明的每个方面可以实现为系统、方法或程序产品。因此,本发明的每个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中,根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的评论信息的识别方法中的步骤。

下面参照图13来描述根据本发明的这种实施方式的计算设备130。图13显示的计算设备130仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示,计算设备130以通用计算设备的形式表现。计算设备130的组件可以包括但不限于:上述至少一个处理单元1301、上述至少一个存储单元1302,连接不同系统组件(包括处理单元1301和存储单元1302)的总线1303。

总线1303包括数据总线、控制总线和地址总线。

存储单元1302可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)13021和/或高速缓存存储器13022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)13023。

存储单元1302还可以包括具有一组(至少一个)程序模块13024的程序/实用工具13025,这样的程序模块13024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备130也可以与一个或多个外部设备1304(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1305进行。并且,计算设备130还可以通过网络适配器1306与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图13所示,网络适配器1306通过总线1303与计算设备130的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了评论信息的识别装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

相关技术
  • 评论信息的识别方法、介质、装置和计算设备
  • 电子书中评论信息的展现方法、计算设备及存储介质
技术分类

06120112985515