掌桥专利:专业的专利平台
掌桥专利
首页

对话文本的行为倾向识别方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:54:11


对话文本的行为倾向识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域,尤其涉及一种对话文本的行为倾向识别方法、装置、设备及存储介质。

背景技术

网络社交媒体日益深刻地影响着人们的生活,个人的行为倾向很大程度地能在网络行为或言论上反映出来,通过网络言论识别用户的行为倾向能帮助平台进行智能监控和风险预警等,是网络环境规范化的重要技术手段。

现有的行为倾向识别技术中,大多是基于关键词识别,通过预先设置的关键词库,通过文本识别技术对待检测的文本进行关键词匹配,对于匹配度高的文本,便判定其为具有对应的行为倾向的言论,例如暴力倾向或恐怖主义倾向等。但是,单凭关键词的匹配而忽略了文本中的情感色彩和文本表达者的特征属性,并不能准确地识别出文本中包含的行为倾向,可见,现有的行为倾向识别技术存在准确率不高的技术问题。

发明内容

本发明的主要目的在于解决现有的行为倾向识别不够全面而导致识别准确率不高的技术问题。

本发明第一方面提供了一种对话文本的行为倾向识别方法,包括:

实时获取对话文本数据;

将所述对话文本数据输入预置行为倾向识别模型进行识别,输出所述对话文本数据对应的行为倾向置信度;

将所述对话文本数据传入预置随机森林模型进行决策树分类,得到所述对话文本数据具有的行为倾向分类结果;

根据所述行为倾向置信度及所述行为倾向分类结果,计算所述对话文本数据对应的行为倾向综合概率;

根据所述行为倾向综合概率,对所述对话文本数据进行行为倾向预警。

可选的,在本发明第一方面的第一种实现方式中,在所述实时获取对话文本数据之前,还包括:

获取带行为倾向标注的对话文本数据作为样本数据,并提取所述样本数据中的多条属性特征指标;

采用分类决策树算法,以各所述属性特征指标作为特征选择,构建各所述样本数据对应的第一决策树;

合并各所述第一决策树,得到由多个所述第一决策树组成的随机森林模型。

可选的,在本发明第一方面的第二种实现方式中,在所述将所述对话文本数据输入预置行为倾向识别模型进行识别之前,还包括:

对所述对话文本数据进行数据清洗,并对清洗后的数据进行分词处理,得到所述对话文本数据对应的多个关键词;

所述将所述对话文本数据输入预置行为倾向识别模型进行识别,输出所述对话文本数据对应的行为倾向置信度包括:

将所述多个关键词输入所述行为倾向识别模型的BERT层进行矩阵化处理,得到第一目标矩阵;

将所述第一目标矩阵输入所述行为倾向识别模型的卷积层进行特征提取,得到所述第一目标矩阵中各特征对应的多个第二目标矩阵;

将所述多个第二目标矩阵输入所述行为倾向识别模型的激活层进行非线性映射,得到所述多个第二目标矩阵加权运算后的多个第三目标矩阵;

对所述多个第三目标矩阵输入所述行为倾向识别模型的全连接层进行行为倾向概率分类,输出所述对话文本数据对应的行为倾向置信度。

可选的,在本发明第一方面的第三种实现方式中,所述将所述对话文本数据传入预置随机森林模型进行决策树分类,得到所述对话文本数据具有的行为倾向分类结果包括:

根据所述对话文本数据的属性特征指标,构建所述对话文本数据对应的第二决策树;

将所述第二决策树输入所述随机森林模型进行属性特征指标匹配,得到匹配结果,并根据所述匹配结果计算各所述第一决策树与所述第二决策树的属性特征指标相似度;

分别判断各所述属性特征指标相似度是否大于预置相似度;

若是,则将大于所述预置相似度的各所述属性特征指标相似度对应的所述第一决策树作为所述对话文本数据具有的行为倾向分类结果。

可选的,在本发明第一方面的第四种实现方式中,所述根据所述行为倾向置信度及所述行为倾向分类结果,计算所述对话文本数据对应的行为倾向综合概率包括:

计算所述行为倾向分类结果对应的各所述属性特征指标相似度的平均值,并将所述平均值作为行为倾向值;

根据所述随机森林模型对应的第一预置权重系数以及所述行为倾向识别模型对应的第二预置权重系数,分别计算所述行为倾向值及所述行为倾向置信度的权重得分,得到所述对话文本数据对应的行为倾向综合概率。

可选的,在本发明第一方面的第五种实现方式中,所述根据所述行为倾向综合概率,对所述对话文本数据进行行为倾向预警包括:

实时判断所述行为倾向综合概率是否满足预置预警机制触发条件;

若是,则触发所述行为倾向综合概率对应等级的预警机制,并按所述对应等级的预警机制对应的预警形式进行预警。

可选的,在本发明第一方面的第六种实现方式中,在所述根据所述行为倾向综合概率,对所述对话文本数据进行行为倾向预警之后,还包括:

根据所述行为倾向综合概率,对所述对话文本数据的识别结果进行标注并存入预置样本库;

定期将所述样本库中的样本数据输入所述行为倾向识别模型进行模型训练,以对所述行为倾向识别模型的参数进行优化。

本发明第二方面提供了一种对话文本的行为倾向识别装置,包括:

获取模块,用于实时获取对话文本数据;

识别模块,用于将所述对话文本数据输入预置行为倾向识别模型进行识别,输出所述对话文本数据对应的行为倾向置信度;

分类模块,用于将所述对话文本数据传入预置随机森林模型进行决策树分类,得到所述对话文本数据具有的行为倾向分类结果;

计算模块,用于根据所述行为倾向置信度及所述行为倾向分类结果,计算所述对话文本数据对应的行为倾向综合概率;

预警模块,用于根据所述行为倾向综合概率,对所述对话文本数据进行行为倾向预警。

可选的,在本发明第二方面的第一种实现方式中,所述对话文本的行为倾向识别装置还包括:

提取模块,用于获取带行为倾向标注的对话文本数据作为样本数据,并提取所述样本数据中的多条属性特征指标;

构建模块,用于采用分类决策树算法,以各所述属性特征指标作为特征选择,构建各所述样本数据对应的第一决策树;

合并模块,用于合并各所述第一决策树,得到由多个所述第一决策树组成的随机森林模型。

可选的,在本发明第二方面的第二种实现方式中,所述对话文本的行为倾向识别装置还包括:

分词模块,用于对所述对话文本数据进行数据清洗,并对清洗后的数据进行分词处理,得到所述对话文本数据对应的多个关键词;

所述识别模块具体用于:

将所述多个关键词输入所述行为倾向识别模型的BERT层进行矩阵化处理,得到第一目标矩阵;

将所述第一目标矩阵输入所述行为倾向识别模型的卷积层进行特征提取,得到所述第一目标矩阵中各特征对应的多个第二目标矩阵;

将所述多个第二目标矩阵输入所述行为倾向识别模型的激活层进行非线性映射,得到所述多个第二目标矩阵加权运算后的多个第三目标矩阵;

对所述多个第三目标矩阵输入所述行为倾向识别模型的全连接层进行行为倾向概率分类,输出所述对话文本数据对应的行为倾向置信度。

可选的,在本发明第二方面的第三种实现方式中,所述分类模块具体用于:

根据所述对话文本数据的属性特征指标,构建所述对话文本数据对应的第二决策树;

将所述第二决策树输入所述随机森林模型进行属性特征指标匹配,得到匹配结果,并根据所述匹配结果计算各所述第一决策树与所述第二决策树的属性特征指标相似度;

分别判断各所述属性特征指标相似度是否大于预置相似度;

若是,则将大于所述预置相似度的各所述属性特征指标相似度对应的所述第一决策树作为所述对话文本数据具有的行为倾向分类结果。

可选的,在本发明第二方面的第四种实现方式中,所述计算模块具体用于:

计算所述行为倾向分类结果对应的各所述属性特征指标相似度的平均值,并将所述平均值作为行为倾向值;

根据所述随机森林模型对应的第一预置权重系数以及所述行为倾向识别模型对应的第二预置权重系数,分别计算所述行为倾向值及所述行为倾向置信度的权重得分,得到所述对话文本数据对应的行为倾向综合概率。

可选的,在本发明第二方面的第五种实现方式中,所述预警模块具体用于:

实时判断所述行为倾向综合概率是否满足预置预警机制触发条件;

若是,则触发所述行为倾向综合概率对应等级的预警机制,并按所述对应等级的预警机制对应的预警形式进行预警。

可选的,在本发明第二方面的第一种实现方式中,所述对话文本的行为倾向识别装置还包括:

标注模块,用于根据所述行为倾向综合概率,对所述对话文本数据的识别结果进行标注并存入预置样本库;

优化模块,用于定期将所述样本库中的样本数据输入所述行为倾向识别模型进行模型训练,以对所述行为倾向识别模型的参数进行优化。

本发明第三方面提供了一种对话文本的行为倾向识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述对话文本的行为倾向识别设备执行上述的对话文本的行为倾向识别方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的对话文本的行为倾向识别方法。

本发明提供的技术方案中,为了提高行为倾向检测的及时性,实时地获取对话文本数据,而为了进一步地提高行为倾向检测的准确率,分别将实时获取到的对话文本数据输入到行为倾向识别模型和随机森林模型进行行为倾向识别和分类,其中,行为倾向识别模型是基于神经网络构建的模型,随机森林模型是基于决策树构建的模型,二者分别输出行为倾向的检测结果,再综合二者的检测结果,计算综合结果,这样能够避免过于依赖单模型的检测结果,还能根据二者检测的准确率,调整综合结果的计算方式,从而使最终的结果更接近于真实结果。最后根据综合结果进行行为倾向预警,以达到智能监测的目的。本发明实现了对话文本中行为倾向的实时检测,提高了检测速度与准确率,同时还能对相关行为倾向及时进行智能预警。

附图说明

图1为本发明实施例中对话文本的行为倾向识别方法的第一个实施例示意图;

图2为本发明实施例中对话文本的行为倾向识别方法的第二个实施例示意图;

图3为本发明实施例中对话文本的行为倾向识别装置的第一个实施例示意图;

图4为本发明实施例中对话文本的行为倾向识别装置的第二个实施例示意图;

图5为本发明实施例中对话文本的行为倾向识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种对话文本的行为倾向识别方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中对话文本的行为倾向识别方法的第一个实施例包括:

101、实时获取对话文本数据;

可以理解的是,本发明的执行主体可以为对话文本的行为倾向识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中,对话文本数据可以是基于人机对话的文本数据,也可以是真人聊天过程中的对话文本数据,例如医生线上问诊过程中的对话文本数据,或者是智能机器人在的人机问答过程中的对话文本数据,本发明是基于实时对话过程中的行为倾向识别方法,能够实时地识别对话过程中每一条消息的行为倾向,时效性较高。

本实施例中,对话文本数据中不仅包括了对话文本,还包括了对话文本相关的特征属性,例如在医生线上问诊过程中,对话文本数据中包括了对话文本、文本发送者所咨询的科室、文本的发送时间、文本发送者的病历等信息,是判断用户行为倾向的重要指标参数。

可选的,在步骤101之前,还包括:

获取带行为倾向标注的对话文本数据作为样本数据,并提取所述样本数据中的多条属性特征指标;

采用分类决策树算法,以各所述属性特征指标作为特征选择,构建各所述样本数据对应的第一决策树;

合并各所述第一决策树,得到由多个所述第一决策树组成的随机森林模型。

本可选实施例中,为了更好地对用户行为倾向进行分析,构建随机森林模型用于智能生成行为倾向预警策略,首先,对历史对话文本数据进行行为倾向标注,并将标注好的对话文本数据作为样本数据,提取每条样本数据中的属性特征值,其中,属性特征指标为根据具体的应用场景和具体的目标检测行为倾向预设的参数,例如,在线上问诊对话中,科室信息、文本发送时间、文本发送者的病历等信息能够作为行为倾向识别的属性特征指标,那么,则分别提取各样本数据中的各属性特征指标,用于生成决策树,进而做待检测文本数据的特征匹配。

本可选实施例中,分类决策树是一种基于特征对实例进行划分的树形结构,每一条分支对应一条自上而下的路径,表示一个条件概率分布,决策树的每一个节点代表一个属性特征指标,每一条分支代表节点上的属性特征指标的分类结果。决策树的学习目标就是从训练数据集中学习到这一组的分类规则,使得能够对实例进行正确的分类。因此,在构建决策树之前,还包括在样本集中进行采样,本实施例采用的是有放回的随机采样法,经过一轮有放回的随机采样之后,会得到一个采样集,而经过多轮采样之后,会得到多个采样集,其中每一个采样集将会对应生成一棵决策树,用于后续的行为倾向分类。

本可选实施例中,随机森林指的是利用多棵树对样本进行训练并预测的一种分类器,是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。本可选实施例中,通过带标注的样本数据生成了众多的决策树,进而组成了用于行为倾向分类的随机森林模型。

102、将所述对话文本数据输入预置行为倾向识别模型进行识别,输出所述对话文本数据对应的行为倾向置信度;

本实施例中,行为倾向识别模型是基于神经网络模型的改进模型,具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的信息处理问题,特别是在基于文本的情感识别方面具有广泛应用和卓越成效。本实施例中,行为倾向识别模型包括了BERT层、卷积层、激活层和全连接层,分别对对话文本数据进行多神经元的运算,最终得到对应的行为倾向的置信度。

本实施例中,行为倾向置信度是指具有某种行为倾向的可信程度或可靠程度,是模型对行为倾向的预测结果,是对应的对话文本数据具有某种行为倾向的概率值。由于模型的准确率很大程度上会受到训练样本集的影响,所以在训练行为倾向识别模型时使用的是带标注的历史对话文本数据,在初始模型的预测结果上判断收敛函数是否收敛,再对模型的参数进行微调,直到模型的预测结果更接近真实的标注结果。另外,可以通过本发明的最终行为倾向综合概率值对对话文本数据进行标注,并将标注好的对话文本数据作为行为倾向识别模型的样本数据,定期对模型进行训练,从而达到自学习的良性循环。

103、将所述对话文本数据传入预置随机森林模型进行决策树分类,得到所述对话文本数据具有的行为倾向分类结果;

本实施例中,随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。具体来讲,传统决策树在选择划分属性时,在当前节点的属性集合(假设有d个属性)中选择一个最优属性;而在随机森林中,对决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性的引入程度。若令k=d,则决策树的构建与传统决策树相同;若令k=1,则是随机选择一个属性用于划分。

可选的,在一实施例中,步骤103具体包括:

根据所述对话文本数据的属性特征指标,构建所述对话文本数据对应的第二决策树;

将所述第二决策树输入所述随机森林模型进行属性特征指标匹配,得到匹配结果,并根据所述匹配结果计算各所述第一决策树与所述第二决策树的属性特征指标相似度;

分别判断各所述属性特征指标相似度是否大于预置相似度;

若是,则将大于所述预置相似度的各所述属性特征指标相似度对应的所述第一决策树作为所述对话文本数据具有的行为倾向分类结果。

本可选实施例中,是随机森林模型决策树匹配的其中一个实施例,可以理解的是,第二决策树是待检测的对话文本数据的实例,构建方法与第一决策树相同,采用的属性特征指标也相同,因此,第一决策树和第二决策树相当于在同一个维度,使两者之间产生可比性。这两者的属性特征指标匹配实际上是随机森林模型对第二决策树投票的过程,匹配到的特征指标越多,那么得分就越高,两者之间的属性特征指标相似度也越高,例如第二决策树与某一个第一决策树的匹配到的属性特征指标有5个,而属性特征指标的总数为10,那么这两个决策树的属性特征指标相似度为5/10=1/2。因此,需要一个阈值,来确定真正匹配的决策树有哪些,这个阈值为预置的相似度最小值,只要大于这个相似度,都判定为匹配的决策树。最后根据匹配到的第一决策树对应的行为倾向,确定最终的行为倾向分类结果。

104、根据所述行为倾向置信度及所述行为倾向分类结果,计算所述对话文本数据对应的行为倾向综合概率;

本实施例中,为了提高行为倾向识别的准确率,综合了随机森林模型和行为倾向识别模型的结果,计算最终的综合概率。综合概率的计算方法可以是根据这两个模型的权重进行计算,也可以采用其它的算法,在此不做具体限定。

可选的,在一实施例中,步骤104具体包括:

计算所述行为倾向分类结果对应的各所述属性特征指标相似度的平均值,并将所述平均值作为行为倾向值;

根据所述随机森林模型对应的第一预置权重系数以及所述行为倾向识别模型对应的第二预置权重系数,分别计算所述行为倾向值及所述行为倾向置信度的权重得分,得到所述对话文本数据对应的行为倾向综合概率。

本可选实施例中,采用权重法计算行为倾向综合概率,经过实际的测试发现,随机森林模型对于行为倾向的识别结果更接近于真实结果,因此,为随机森林模型的识别结果赋予更高的权重,使整体的准确率进一步提高,作为一组可选值,第一预置权重系数为0.75,第二预置权重系数为0.25,假设某一实例在行为倾向识别模型的识别结果为0.6,在随机森林的识别结果为0.3,那么行为倾向综合概率为0.3*0.75+0.6*0.25=0.225+0.15=0.375,说明综合识别结果偏向于不具有目标检测行为倾向。

105、根据所述行为倾向综合概率,对所述对话文本数据进行行为倾向预警。

本实施例中,根据行为倾向综合概率,确定是否触发预警机制,进而对文本数据所包含的行为倾向进行预警监测。例如,在线上问诊的过程中,检测用户发送的文本数据是否具有自杀倾向,如果自杀倾向综合概率达到了预警值,就触发相关的预警机制,为医生进一步采取干预提供了智能监控功能和预测功能。

本发明实施例中,为了提高行为倾向检测的及时性,实时地获取对话文本数据,而为了进一步地提高行为倾向检测的准确率,分别将实时获取到的对话文本数据输入到行为倾向识别模型和随机森林模型进行行为倾向识别和分类,其中,行为倾向识别模型是基于神经网络构建的模型,随机森林模型是基于决策树构建的模型,二者分别输出行为倾向的检测结果,再综合二者的检测结果,计算综合结果,这样能够避免过于依赖单模型的检测结果,还能根据二者检测的准确率,调整综合结果的计算方式,从而使最终的结果更接近于真实结果。最后根据综合结果进行行为倾向预警,以达到智能监测的目的。本发明实现了对话文本中行为倾向的实时检测,提高了检测速度与准确率,同时还能对相关行为倾向及时进行智能预警。

请参阅图2,本发明实施例中对话文本的行为倾向识别方法的第二个实施例包括:

201、实时获取对话文本数据;

202、将所述对话文本数据输入预置行为倾向识别模型进行识别,输出所述对话文本数据对应的行为倾向置信度;

可选的,在一实施例中,步骤202之前,还包括:

对所述对话文本数据进行数据清洗,并对清洗后的数据进行分词处理,得到所述对话文本数据对应的多个关键词;

步骤202具体包括:

将所述多个关键词输入所述行为倾向识别模型的BERT层进行矩阵化处理,得到第一目标矩阵;

将所述第一目标矩阵输入所述行为倾向识别模型的卷积层进行特征提取,得到所述第一目标矩阵中各特征对应的多个第二目标矩阵;

将所述多个第二目标矩阵输入所述行为倾向识别模型的激活层进行非线性映射,得到所述多个第二目标矩阵加权运算后的多个第三目标矩阵;

对所述多个第三目标矩阵输入所述行为倾向识别模型的全连接层进行行为倾向概率分类,输出所述对话文本数据对应的行为倾向置信度。

本可选实施例中,行为倾向识别模型是基于神经网络模型构建的多元处理模型,其中至少包括了BERT层、卷积层、激活层和全连接层,是一种多隐层以及多层感知器的结构,其中BERT层是一个双向编码模型,能够将文本(词语)转化为向量表示,从而进一步将句子转化为矩阵;卷积层是一种特殊的深层的神经网络模型,它的神经元连接是非全连接的,并且同一层中某些神经元之间的连接的权重是共享的(即相同的),能够在多个空间位置上共享参数;激活层也称激励层,是采用激励函数进行非线性映射层,本实施例的激励函数采用的是Relu函数,由于Relu函数只需要判断输入是否大于0,因此其计算速度非常快,很适合本发明对实时性要求高的使用场景;全连接层在整个行为倾向识别模型中起到“分类器”的作用,全连接层中的每一层是由许多神经元组成的,用这些神经元去卷积激活函数的输出,得到的结果就是一个神经元的输出,这个输出就是一个值,也就是分类结果。

203、将所述对话文本数据传入预置随机森林模型进行决策树分类,得到所述对话文本数据具有的行为倾向分类结果;

204、根据所述行为倾向置信度及所述行为倾向分类结果,计算所述对话文本数据对应的行为倾向综合概率;

205、根据所述行为倾向综合概率,对所述对话文本数据进行行为倾向预警;

可选的,在一实施例中,步骤205具体包括:

实时判断所述行为倾向综合概率是否满足预置预警机制触发条件;

若是,则触发所述行为倾向综合概率对应等级的预警机制,并按所述对应等级的预警机制对应的预警形式进行预警。

本可选实施例中,是对实时对话的预警监测,当得到行为倾向综合概率之后,实时判断这个概率是否满足各预置预警机制触发条件,若满足,则触发对应等级的预警机制,并按对应的预警形式进行预警。其中,预警机制触发条件可以是多条不同等级的触发条件,例如,最高等级的触发条件为“行为倾向综合概率>0.95”,最低等级的触发条件为“行为倾向综合概率>0.8”,也就是说,只要行为倾向综合概率值大于80%,就会触发预警机制,发出预警。

本可选实施例中,不同等级的预警机制有不同的预警形式,可以包括但不限于发送预警短信给预警对象、拨打预警电话给预警对象、在平台/其它社交媒体上发送预警消息给预警对象等等,具体的预警机制可以在可视化界面中进行个性化的配置,包括预警机制对应的预警对象。例如,在线上问诊过程中,在人机对话过程中或暂未分配医生时收到来自患者的实时消息,经过行为倾向智能预测发现患者具有自杀倾向的概率为90%,那么立即触发相应等级的预警机制,例如是拨打预警电话给值班医生,通知其介入对话,并对患者进行及时的开导,必要时提醒患者到医院就医。

206、根据所述行为倾向综合概率,对所述对话文本数据的识别结果进行标注并存入预置样本库;

207、定期将所述样本库中的样本数据输入所述行为倾向识别模型进行模型训练,以对所述行为倾向识别模型的参数进行优化。

本实施例中,通过智能识别的行为倾向综合概率可以作为当前对话文本数据的标注信息,为模型的离线分析和优化提供了数据资源。由于模型的识别准确率很大程度上依赖样本的量级,为了使模型具有自学能力且减少人工标注的工作量,对已经具有识别能力的模型进行持续的优化和改进,使得本发明的识别准确率持续地提升,且该过程无需人工干预,机器自行完成。

本实施例中,对于当前对话文本数据的标注需要依据行为倾向综合概率值,在标注之前,先判断综合概率是否达到预置的正向样本标注阈值,也就是当前对话文本数据是否具有目标行为倾向,若具有,则标注为正向样本,否则为负向样本。

本发明实施例中,为了使行为倾向识别模型具有自学能力,对当前检测的对话文本数据进行行为倾向标注,标注的依据是行为倾向综合概率值,在已经具有识别能力的模型基础上对模型进行持续的优化,使模型越来越适合于具体的应用场景,且进入越用越智能的良性循环。本发明实施例能够对行为倾向识别模型进行离线分析和持续优化,使模型的识别准确率越来越高。

上面对本发明实施例中对话文本的行为倾向识别方法进行了描述,下面对本发明实施例中对话文本的行为倾向识别装置进行描述,请参阅图3,本发明实施例中对话文本的行为倾向识别装置第一个实施例包括:

获取模块301,用于实时获取对话文本数据;

识别模块302,用于将所述对话文本数据输入预置行为倾向识别模型进行识别,输出所述对话文本数据对应的行为倾向置信度;

分类模块303,用于将所述对话文本数据传入预置随机森林模型进行决策树分类,得到所述对话文本数据具有的行为倾向分类结果;

计算模块304,用于根据所述行为倾向置信度及所述行为倾向分类结果,计算所述对话文本数据对应的行为倾向综合概率;

预警模块305,用于根据所述行为倾向综合概率,对所述对话文本数据进行行为倾向预警。

可选的,所述对话文本的行为倾向识别装置还包括:

提取模块306,用于获取带行为倾向标注的对话文本数据作为样本数据,并提取所述样本数据中的多条属性特征指标;

构建模块307,用于采用分类决策树算法,以各所述属性特征指标作为特征选择,构建各所述样本数据对应的第一决策树;

合并模块308,用于合并各所述第一决策树,得到由多个所述第一决策树组成的随机森林模型。

可选的,所述分类模块303具体用于:

根据所述对话文本数据的属性特征指标,构建所述对话文本数据对应的第二决策树;

将所述第二决策树输入所述随机森林模型进行属性特征指标匹配,得到匹配结果,并根据所述匹配结果计算各所述第一决策树与所述第二决策树的属性特征指标相似度;

分别判断各所述属性特征指标相似度是否大于预置相似度;

若是,则将大于所述预置相似度的各所述属性特征指标相似度对应的所述第一决策树作为所述对话文本数据具有的行为倾向分类结果。

可选的,所述计算模块304具体用于:

计算所述行为倾向分类结果对应的各所述属性特征指标相似度的平均值,并将所述平均值作为行为倾向值;

根据所述随机森林模型对应的第一预置权重系数以及所述行为倾向识别模型对应的第二预置权重系数,分别计算所述行为倾向值及所述行为倾向置信度的权重得分,得到所述对话文本数据对应的行为倾向综合概率。

本发明实施例中,为了提高行为倾向检测的及时性,实时地获取对话文本数据,而为了进一步地提高行为倾向检测的准确率,分别将实时获取到的对话文本数据输入到行为倾向识别模型和随机森林模型进行行为倾向识别和分类,其中,行为倾向识别模型是基于神经网络构建的模型,随机森林模型是基于决策树构建的模型,二者分别输出行为倾向的检测结果,再综合二者的检测结果,计算综合结果,这样能够避免过于依赖单模型的检测结果,还能根据二者检测的准确率,调整综合结果的计算方式,从而使最终的结果更接近于真实结果。最后根据综合结果进行行为倾向预警,以达到智能监测的目的。本发明实现了对话文本中行为倾向的实时检测,提高了检测速度与准确率,同时还能对相关行为倾向及时进行智能预警。

请参阅图4,本发明实施例中对话文本的行为倾向识别装置的第二个实施例包括:

获取模块301,用于实时获取对话文本数据;

识别模块302,用于将所述对话文本数据输入预置行为倾向识别模型进行识别,输出所述对话文本数据对应的行为倾向置信度;

分类模块303,用于将所述对话文本数据传入预置随机森林模型进行决策树分类,得到所述对话文本数据具有的行为倾向分类结果;

计算模块304,用于根据所述行为倾向置信度及所述行为倾向分类结果,计算所述对话文本数据对应的行为倾向综合概率;

预警模块305,用于根据所述行为倾向综合概率,对所述对话文本数据进行行为倾向预警。

可选的,所述对话文本的行为倾向识别装置还包括:

分词模块309,用于对所述对话文本数据进行数据清洗,并对清洗后的数据进行分词处理,得到所述对话文本数据对应的多个关键词;

所述识别模块302具体用于:

将所述多个关键词输入所述行为倾向识别模型的BERT层进行矩阵化处理,得到第一目标矩阵;

将所述第一目标矩阵输入所述行为倾向识别模型的卷积层进行特征提取,得到所述第一目标矩阵中各特征对应的多个第二目标矩阵;

将所述多个第二目标矩阵输入所述行为倾向识别模型的激活层进行非线性映射,得到所述多个第二目标矩阵加权运算后的多个第三目标矩阵;

对所述多个第三目标矩阵输入所述行为倾向识别模型的全连接层进行行为倾向概率分类,输出所述对话文本数据对应的行为倾向置信度。

可选的,所述预警模块305具体用于:

实时判断所述行为倾向综合概率是否满足预置预警机制触发条件;

若是,则触发所述行为倾向综合概率对应等级的预警机制,并按所述对应等级的预警机制对应的预警形式进行预警。

可选的,所述对话文本的行为倾向识别装置还包括:

标注模块310,用于根据所述行为倾向综合概率,对所述对话文本数据的识别结果进行标注并存入预置样本库;

优化模块311,用于定期将所述样本库中的样本数据输入所述行为倾向识别模型进行模型训练,以对所述行为倾向识别模型的参数进行优化。

本发明实施例中,为了使行为倾向识别模型具有自学能力,对当前检测的对话文本数据进行行为倾向标注,标注的依据是行为倾向综合概率值,在已经具有识别能力的模型基础上对模型进行持续的优化,使模型越来越适合于具体的应用场景,且进入越用越智能的良性循环。本发明实施例能够对行为倾向识别模型进行离线分析和持续优化,使模型的识别准确率越来越高。

上面图3和图4从模块化功能实体的角度对本发明实施例中的对话文本的行为倾向识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中对话文本的行为倾向识别设备进行详细描述。

图5是本发明实施例提供的一种对话文本的行为倾向识别设备的结构示意图,该对话文本的行为倾向识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对对话文本的行为倾向识别设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在对话文本的行为倾向识别设备500上执行存储介质530中的一系列指令操作。

对话文本的行为倾向识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的对话文本的行为倾向识别设备结构并不构成对对话文本的行为倾向识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种对话文本的行为倾向识别设备,所述对话文本的行为倾向识别设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述对话文本的行为倾向识别方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述对话文本的行为倾向识别方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 对话文本的行为倾向识别方法、装置、设备及存储介质
  • 基于点餐对话文本的意图识别方法、装置、电子设备
技术分类

06120113098645