掌桥专利:专业的专利平台
掌桥专利
首页

一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法

文献发布时间:2023-06-19 09:35:27



技术领域

本发明涉及文本规范性检测技术领域,更具体而言,涉及一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法。

背景技术

目前,网络评论的规范性检测主要采用文本关键字屏蔽检测和简单的文本语义检测。这两种检测方式中,文本关键字屏蔽检测只能对涉及关键字的文本进行处理,处理范围有限,并且容易错误处理;现有的文本语义检测算法检测范围有限,无法通过对上下文语义的分析,对目标文本进行有效的情绪检测。因此,这两种方式均无法有效地屏蔽一些不涉及关键字的反动、讽刺、仇恨等评论,且会屏蔽一些并不违反规范的文本。

发明内容

为克服上述现有技术中存在的不足,本发明提供了一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法。对原文文本及评论数据的分析,进行了注意力权重的附加,对文本情感的分类进行了更深层的分析,可以更加有效的分析文本蕴含情感。

为解决上述技术问题,本发明所采取的技术方案为:

一种基于Bi-LSTM神经网络的文本规范性检测系统,包括数据采集整理模块、数据标注模块、数据转换处理模块、数据集构建模块和数据文本规范性检测模块,所述数据采集整理模块与数据标注模块通信连接,所述数据标注模块与数据转换处理模块通讯连接,所述数据转换处理模块与数据集构建模块通讯连接,所述数据集构建模块与数据文本规范性检测模块通讯连接。

所述数据文本规范性检测模块包括Bi-LSTM层和全连接层,所述Bi-LSTM层包括第一Bi-LSTM层、第二Bi-LSTM层和第三Bi-LSTM层,所述全连接层包括第一全连接层、第二全连接层、第三全连接层和第四全连接层,所述数据集构建模块分别与第一Bi-LSTM层、第二Bi-LSTM层和第三Bi-LSTM层通讯连接。

所述数据集构建模块中输出的信息包括原文数据、评论数据和待识别评论,所述原文数据、评论数据和待识别评论分别通讯连接至第一Bi-LSTM层、第二Bi-LSTM层和第三Bi-LSTM层,所述第一Bi-LSTM层和第二Bi-LSTM层分别与第一全连接层、第二全连接层通讯连接,所述第一全连接层、第二全连接层与第三Bi-LSTM层通讯连接,所述第三Bi-LSTM层与第三全连接层和第四全连接层通讯连接。

所述第三全连接层用于输出情感蕴含的分类信息,所述第四全连接层用于输出违规判别信息。

该系统还包括评价指标模块,所述评价指标模块与数据文本规范性检测模块通讯连接,用于对情感蕴含分类准确率与违规/合规二分类进行综合分析。

所述数据转换处理模块用于对文本信息进行Word2vec编码。

一种基于Bi-LSTM神经网络的文本规范性检测方法,包括以下步骤:

S1、通过数据采集整理模块,从各个社交网站中爬取文本信息,并从文本信息中整理出文本原文数据及其相应的评论数据;评论数据包括高权重评论数据和歧义评论数据;

S2、通过数据标注模块,对文本原文数据、高权重评论数据和歧义评论数据进行情感标注,并判断标注是否违规;

S3、通过数据转换处理模块,对文本信息进行Word2vec编码,将文本信息映射为文本向量;并限制文本向量的长度,按照预设长度对文本向量进行补零或切割操作;文本向量包括原文文本向量、评论数据文本向量和歧义评论文本向量;

S4、通过数据集构建模块,根据原文文本向量及其对应的情感标注标签构建文本原文数据集,根据评论数据文本向量及其对应的情感标注标签构建评论数据集,根据歧义评论文本向量及其对应的情感标注标签构建待识别数据集;

S5、通过数据文本规范性检测模块,基于Bi-LSTM网络模型根据文本原文数据、评论数据和待识别数据分析待识别评论蕴含情感的分类信息与违规判别信息;

S6、通过评价指标模块,对情感蕴含分类准确率与违规/合规二分类进行综合分析。

所述步骤S3中,对文本信息进行Word2vec编码时,将文本字符串由数字字符串w

所述步骤S6中,对情感蕴含分类准确率与违规/合规二分类进行综合分析,综合准确率ACC如下:

ACC=0.3PT+0.7RT

其中,PT表示情感蕴含分类准确率,RT表示违规/合规二分类准确率。

与现有技术相比,本发明所具有的有益效果为:

本发明提供了一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法,系统包括数据采集整理模块、数据标注模块、数据转换处理模块、数据集构建模块、数据文本规范性检测模块和评价指标模块,通过对原文文本及评论数据的分析,对文本情感进行了注意力权重的附加,对文本情感的分类进行了更深层的分析,不再仅局限于文本表面的描述,可以更加有效的分析文本蕴含情感,对文本是否合规进行判别。

附图说明

图1为本发明模块连接示意图;

图2为本发明数据文本规范性检测模块部分内部模块连接示意图;

图3为本发明网络模型训练示意图;

图4为本发明检测方法流程示意图;

图中:1为数据采集整理模块、2为数据标注模块、3为数据转换处理模块、4为数据集构建模块、5为数据文本规范性检测模块、6为评价指标模块、7为第一Bi-LSTM层、8为第二Bi-LSTM层、9为第三Bi-LSTM层、10为第一全连接层、11为第二全连接层、12为第三全连接层、13为第四全连接层。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1至图4所示,一种基于Bi-LSTM神经网络的文本规范性检测系统,包括数据采集整理模块1、数据标注模块2、数据转换处理模块3、数据集构建模块4和数据文本规范性检测模块5,数据采集整理模块1与数据标注模块2通信连接,数据标注模块2与数据转换处理模块3通讯连接,数据转换处理模块3与数据集构建模块4通讯连接,数据集构建模块4与数据文本规范性检测模块5通讯连接。

优选的,数据文本规范性检测模块5包括Bi-LSTM层和全连接层,Bi-LSTM层包括第一Bi-LSTM层7、第二Bi-LSTM层8和第三Bi-LSTM层9,全连接层包括第一全连接层10、第二全连接层11、第三全连接层12和第四全连接层13,数据集构建模块4分别与第一Bi-LSTM层7、第二Bi-LSTM层8和第三Bi-LSTM层9通讯连接。

优选的,数据集构建模块4中输出的信息包括原文数据、评论数据和待识别评论,原文数据、评论数据和待识别评论分别通讯连接至第一Bi-LSTM层7、第二Bi-LSTM层8和第三Bi-LSTM层9,第一Bi-LSTM层7和第二Bi-LSTM层8分别与第一全连接层10、第二全连接层11通讯连接,第一全连接层10、第二全连接层11与第三Bi-LSTM层9通讯连接,第三Bi-LSTM层9与第三全连接层12和第四全连接层13通讯连接。

优选的,第三全连接层12用于输出情感蕴含的分类信息,第四全连接层13用于输出违规判别信息。

优选的,该系统还包括评价指标模块6,评价指标模块6与数据文本规范性检测模块5通讯连接,用于对情感蕴含分类准确率与违规/合规二分类进行综合分析

优选的,数据转换处理模块3用于对文本信息进行Word2vec编码。

Bi-LSTM网络模型的训练包括:

将文本原文数据、评论数据和待识别数据共同作为网络的输入,文本原文数据和评论数据对应的Bi-LSTM层,用于得到其各类情感类别权重信息;

根据待识别数据对应的Bi-LSTM层、各类情感类别权重信息和待识别评论,对待识别数据进行情感蕴含分类及违规/合规二分类处理;

通过参数的不断迭代,待到模型损失稳定不再下降时,停止模型训练,保存模型。

一种基于Bi-LSTM神经网络的文本规范性检测方法,包括以下步骤:

S1、通过数据采集整理模块1,从各个社交网站中爬取文本信息,并从文本信息中整理出文本原文数据及其相应的评论数据;评论数据包括高权重评论数据和歧义评论数据,具体地,从社交网站微博等中爬取文本数据,爬取内容包括原文及其评论,用于注意力分配及蕴含检测。对爬取得到的数据进行整理,分为3部分,分别为原文、评论数据10条与歧义评论1条,原文及被评论文章原文,评论数据即点赞等较多的评论,歧义评论即易产生歧义的评论;

S2、通过数据标注模块2,对文本原文数据、高权重评论数据和歧义评论数据进行情感标注,并判断标注是否违规,情感包括兴奋、悲伤、讽刺等n种情感与无情感共计n+1种,使用0-n对情感进行标识,对歧义评论进行情感标注标注方式同上与是否违规标注,若违规则则标注1,不违规则标注0;

S3、通过数据转换处理模块3,对文本信息进行Word2vec编码,将文本信息映射为文本向量;并限制文本向量的长度,按照预设长度对文本向量进行补零或切割操作;文本向量包括原文文本向量、评论数据文本向量和歧义评论文本向量,深度学习识别网络无法对中文文本进行处理,故对文本数据进行Word2vec编码,将文本字符串由数字字符串w

S4、通过数据集构建模块4,根据原文文本向量及其对应的情感标注标签构建文本原文数据集,根据评论数据文本向量及其对应的情感标注标签构建评论数据集,根据歧义评论文本向量及其对应的情感标注标签构建待识别数据集,将处理完成的原文文本向量、评论数据文本向量与歧义评论文本向量与其对应标签分别构建数据集,构成原文数据集,评论数据集,待识别数据集三个数据集;

S5、通过数据文本规范性检测模块5,基于Bi-LSTM网络模型根据文本原文数据、评论数据和待识别数据分析待识别评论蕴含情感的分类信息与违规判别信息;

S6、通过评价指标模块6,对情感蕴含分类准确率与违规/合规二分类进行综合分析。

优选的,步骤S3中,对文本信息进行Word2vec编码时,将文本字符串由数字字符串w

优选的,步骤S6中,对情感蕴含分类准确率与违规/合规二分类进行综合分析,综合准确率ACC如下:

ACC=0.3PT+0.7RT

其中,PT表示情感蕴含分类准确率,RT表示违规/合规二分类准确率。

基于Bi-LSTM神经网络的文本规范性检测系统,对社交网站如微博爬取数据,所爬取的数据包括原文、评论。爬取完毕后对爬取数据进行整理,分为原文数据、高权重评论数据、歧义评论数据。之后对原文、评论数据与歧义评论进行蕴含标注。之后对所有文本进行词嵌入处理。完成处理后,将所有文本向量按照规定的长度进行扩充或缩减,完成数据集的构建。将数据集数据输入搭建好的基于注意力机制的Bi-LSTM网络进行训练,待到模型损失稳定,保存模型,测试其蕴含识别效果。基于Bi-LSTM神经网络的文本规范性检测方法,通过对原文文本及评论数据的分析,对文本情感进行了注意力权重的附加,对文本情感的分类进行了更深层的分析,不再仅局限于文本表面的描述,可以更加有效的分析文本蕴含情感,对文本是否合规进行判别。

上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

相关技术
  • 一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法
  • 基于Bi-LSTM和文本相似性的漏洞检测方法
技术分类

06120112225665