掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及人工智能、信息安全技术领域,可用于金融领域,尤其涉及一种交流平台的敏感文本智能检测方法和装置。

背景技术

由于银行业务存在一定的机密性,因此,在日常办公中银行员工往往通过内部交流平台的方式进行业务沟通、业务协作。在内部交流平台上,行内各机构员工上传业务资料,搜寻相关业务问题的答案,并针对自身熟悉领域的业务问题进行解答。在交流过程中经常会出现如下问题:非敏词汇被误定义为敏感词,员工在交流过程中常出现无关词语被误定义为敏感词汇的情况,而导致资料上传失败、提问失败以及回答失败,如输入文字“红色图片”因包含“色图”而被提示涉及敏感词,造成误检率提升。

发明内容

有鉴于此,本发明提供一种交流平台的敏感文本智能检测方法和装置,以解决上述提及的至少一个问题。

为了实现上述目的,本发明采用以下方案:

根据本发明的第一方面,提供一种交流平台的敏感文本智能检测方法,所述方法包括:利用文本分类模型对交流平台中的待检测文本进行领域分类,得到所述待检测文本所属的领域信息;根据所述领域信息获取所述待检测文本所对应的领域敏感词库;对所述待检测文本进行分词得到分词结果;将所述分词结果和所述领域敏感词库中的敏感词进行匹配得到所述待检测文本的敏感关键词检测结果;利用敏感句分类模型对所述待检测文本进行检测得到敏感句检测结果;基于所述敏感关键词检测结果及所述敏感句检测结果判断所述待检测文本是否属于敏感文本。

根据本发明的第二方面,提供一种交流平台的敏感文本智能检测装置,所述装置包括:领域分类单元,用于利用文本分类模型对交流平台中的待检测文本进行领域分类,得到所述待检测文本所属的领域信息;词库获取单元,用于根据所述领域信息获取所述待检测文本所对应的领域敏感词库;分词单元,用于对所述待检测文本进行分词得到分词结果;敏感词匹配单元,用于将所述分词结果和所述领域敏感词库中的敏感词进行匹配得到所述待检测文本的敏感关键词检测结果;敏感句检测单元,用于利用敏感句分类模型对所述待检测文本进行检测得到敏感句检测结果;敏感性判断单元,用于基于所述敏感关键词检测结果及所述敏感句检测结果判断所述待检测文本是否属于敏感文本。

根据本发明的第三方面,提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现上述方法的步骤。

根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

根据本发明的第五方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述方法的步骤。

由上述技术方案可知,本发明提供的一种交流平台的敏感文本智能检测方法和装置,可以充分考虑到各个领域的差异性,先确定待检测文本所属领域,然后针对所属领域进行敏感词检测,敏感词检测更为准确,另外本申请通过配合敏感句检测还可以从句子的上下文语义进行分析,而不是仅局限于单个词语的内容,因此可以较好的弥补由敏感词匹配导致的错误判定问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是本申请实施例提供的一种交流平台的敏感文本智能检测方法的流程示意图;

图2是本申请实施例提供的文本分类模型的训练流程示意图;

图3是本申请实施例提供的敏感句检测的流程示意图;

图4是本申请实施例提供的交流平台敏感文本智能检测方法的原理示意图;

图5是本申请实施例提供的一种交流平台的敏感文本智能检测装置的结构示意图;

图6是本申请实施例提供的电子设备的系统构成示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

如图1所示为本申请实施例提供的一种交流平台的敏感文本智能检测方法的流程示意图,该方法包括如下步骤:

步骤S101:利用文本分类模型对交流平台中的待检测文本进行领域分类,得到所述待检测文本所属的领域信息。

在本实施例中,预先要针对不同领域的收集不同领域的敏感词库,因此要收集较多领域的敏感词。比如在本实施例中可以收集的领域有体育、娱乐、家居、彩票、房产、教育、时尚、时政、星座、游戏、社会、科技、股票、财经、生活、其他等16个领域的敏感词数据,当然,本申请对此不加以限制,领域的划分可以根据需求进行划分。

这里的文本分类模型可以将输入的待检测文本进行领域分类,从而输出该待检测文本所属领域信息。

优选的,如图2所示,该文本分类模型可以通过如下步骤训练得到:

步骤S1011:从互联网中获取多个领域的相关文本数据来构建领域文本分类数据集。在本实施例中,可以从互联网中获取体育、娱乐、家居、彩票、房产、教育、时尚、时政、星座、游戏、社会、科技、股票、财经、生活、其他等16个领域相关文本数据,每个领域比如可以获取10万多的文本数据,用于构建领域文本分类数据集。这里的文本数据有的包含敏感词,有的并不包含敏感词,但和领域有一定的相关性。

步骤S1012:利用所述文本分类数据集对深度学习中的文本分类模型进行训练,得到能够基于输入的文本信息获取文本分类结果的文本分类模型。

在本实施例中可以采用深度学习T5网络结构来构建文本分类模型,具体来说,即利用上述文本分类数据集对深度学习中的文本分类模型进行训练,首先利用预训练的T5模型作为初始化的网络参数,设置训练过程中的学习率和迭代次数,其中较佳的,学习率可以设置为1×10e

上述过程可以用下式表示:

class

其中class

优选的,由于各个领域的关键词可能会出现重复现象,为了得到较为可靠的领域信息,可以将待检测文本作为文本分类模型的输入,经文本分类模型的量化及权值计算后输出所述待检测文本在多个领域的置信度概率信息,然后选择最大概率的一类领域作为所述待检测文本所属的领域信息。

步骤S102:根据所述领域信息获取所述待检测文本所对应的领域敏感词库。

由于本申请预先构建了多种领域的敏感词库,因此根据上述文本分类模型得到的领域信息,就可以得到待检测文本所对应的领域敏感词库。

步骤S103:对所述待检测文本进行分词得到分词结果。

本实施例可以采用jieba分词工具对交流平台的待检测文本进行分词,当然本申请也可以使用其他的分词工具,本发明不做限制,具体的计算过程如下式;

Segm

其中,表示Segm

需要指出的是,本步骤和步骤S101及步骤对待检测文本进行领域分类操作是可以顺序进行,也可以同步进行的,本申请对它们的执行顺序并不加以限定。

步骤S104:将所述分词结果和所述领域敏感词库中的敏感词进行匹配得到所述待检测文本的敏感关键词检测结果。

在本实施例中可以采用BM25方法进行领域敏感词库的信息匹配,最终得到该待检测文本中可能存在的敏感关键词,该过程可以表示为下式:

res

其中res

步骤S105:利用敏感句分类模型对所述待检测文本进行检测得到敏感句检测结果。

在本实施例中,为了提升对交流平台中敏感词的审核性能,同时避免对于正常文本的误识别,本实施例进一步采用敏感句分类模型来判断交流平台的待检测文本内容是否合规,该过程需要收集大量包含敏感词信息的句子以及没有包含敏感词信息的正常句子,比如在本实施例中包含敏感词和未包含敏感词的句子收集了各50万,用于敏感句分类模型的训练。

优选的,该敏感句分类模型可以通过如下方式训练得到:获取包含敏感词的句子以及不包含敏感词的句子作为敏感句训练数据集;利用敏感句训练数据集对敏感句分类模型进行训练:首先利用预训练的Bert模型作为初始化的网络参数,设置训练过程中学习率和迭代次数,其中较佳的,学习率可以设置为1×10e

进一步优选的,如图3所示,本步骤进一步可以包括如下子步骤:

步骤S1051:将待检测文本作为敏感句分类模型的输入,经文本量化和权重计算后输出所述待检测文本属于敏感句及非敏感句的概率值。

步骤S1052:判断敏感句的概率值是否大于非敏感句的概率值,若是,则进入步骤S1053,否则进入步骤S1054。

步骤S1053:敏感句检测结果判定为敏感。

步骤S1054:敏感句检测结果判断为非敏感。

步骤S106:基于所述敏感关键词检测结果及所述敏感句检测结果判断所述待检测文本是否属于敏感文本。通过对敏感关键词检测结果及敏感句检测结果进行综合判断,来确定所述待检测文本是否属于敏感文本,可以大幅提升敏感文本判定的准确率。

优选的,本步骤对于敏感关键词检测结果及敏感句检测结果的判断可以包括如下四种情况:

一、当敏感关键词检测结果识别到敏感词并且敏感句检测结果判定为敏感,则认定所述待检测文本属于敏感文本。

二、当敏感关键词检测结果识别到敏感词,但敏感句检测结果判定为非敏感,则认定所述待检测文本属于疑似敏感文本,提示进行人工审核。

三、当敏感关键词检测结果未识别到敏感词,但敏感句检测结果判定为敏感,则认定所述待检测文本属于疑似敏感文本,提示进行人工审核。

四、当敏感关键词检测结果未识别到敏感词并且敏感句检测结果判定为非敏感,则认定所述待检测文本不属于敏感文本。

如图4所示为本申请实施例提供的关于上述方法流程的原理示意图,由图4可见,对于交流平台的待检测文本来说,可以对文本进行领域分类、分词和敏感句分类检测操作,其中领域分类结果和分词结果相结合,进行领域关键词匹配得到领域关键词匹配结果,然后将领域关键词匹配结果与敏感句检测结果进行融合分析,从而得到敏感文本的判定结果。

由上述技术方案可知,本发明提供的一种交流平台的敏感文本智能检测方法,可以充分考虑到各个领域的差异性,先确定待检测文本所属领域,然后针对所属领域进行敏感词检测,敏感词检测更为准确,另外本申请通过配合敏感句检测还可以从句子的上下文语义进行分析,而不是仅局限于单个词语的内容,因此可以较好的弥补由敏感词匹配导致的错误判定问题,而且在一定程度上提升了交流平台用户的体验。再者采用领域敏感词匹配和敏感句分类的方式,可以在内部网络生态中提升敏感词的识别范围,提升敏感词的覆盖率。

如图5所示为本申请实施例提供的一种交流平台的敏感文本智能检测装置的结构示意图,该装置包括:领域分类单元510、词库获取单元520、分词单元530、敏感词匹配单元540、敏感句检测单元550和敏感性判断单元560,其中词库获取单元520分别和领域分类单元510及敏感词匹配单元540相连,敏感词匹配单元540还分别和分词单元530及敏感性判断单元560相连,敏感句检测单元550和敏感性判断单元560相连。

领域分类单元510用于利用文本分类模型对交流平台中的待检测文本进行领域分类,得到所述待检测文本所属的领域信息。

词库获取单元520用于根据所述领域信息获取所述待检测文本所对应的领域敏感词库。

分词单元530用于对所述待检测文本进行分词得到分词结果。

敏感词匹配单元540用于将所述分词结果和所述领域敏感词库中的敏感词进行匹配得到所述待检测文本的敏感关键词检测结果。

敏感句检测单元550用于利用敏感句分类模型对所述待检测文本进行检测得到敏感句检测结果。

敏感性判断单元560用于基于所述敏感关键词检测结果及所述敏感句检测结果判断所述待检测文本是否属于敏感文本。

优选的,上述文本分类模型通过如下方式训练得到:从互联网中获取多个领域的相关文本数据来构建领域文本分类数据集;利用所述文本分类数据集对深度学习中的文本分类模型进行训练,得到能够基于输入的文本信息获取文本分类结果的文本分类模型。

优选的,上述文本分类模型采用深度学习T5网络结构,其中利用所述文本分类数据集对深度学习中的文本分类模型进行训练,得到能够基于输入的文本信息获取文本分类结果的文本分类模型包括:利用预训练的T5模型作为初始化的网络参数,设置训练过程中的学习率和迭代次数,其中较佳的,学习率可以设置为1×10e

优选的,上述领域分类单元510利用文本分类模型对交流平台中的待检测文本进行领域分类,得到所述待检测文本所属的领域信息包括:将待检测文本作为文本分类模型的输入,经所述文本分类模型的量化及权值计算后输出所述待检测文本在多个领域的置信度概率信息,选择最大概率的一类领域作为所述待检测文本所属的领域信息。

优选的,上述敏感句分类模型通过如下方式训练得到:获取包含敏感词的句子以及不包含敏感词的句子作为敏感句训练数据集;利用敏感句训练数据集对敏感句分类模型进行训练:首先利用预训练的Bert模型作为初始化的网络参数,设置训练过程中学习率和迭代次数,其中较佳的,学习率可以设置为1×10e

优选的,上述敏感句检测单元550具体用于:将待检测文本作为敏感句分类模型的输入,经文本量化和权重计算后输出所述待检测文本属于敏感句及非敏感句的概率值;若敏感句的概率值大于非敏感句的概率值,则敏感句检测结果判定为敏感,否则敏感句检测结果判断为非敏感。

优选的,敏感性判断单元560具体用于:当敏感关键词检测结果识别到敏感词并且敏感句检测结果判定为敏感,则认定所述待检测文本属于敏感文本;当敏感关键词检测结果识别到敏感词,但敏感句检测结果判定为非敏感,则认定所述待检测文本属于疑似敏感文本,提示进行人工审核;当敏感关键词检测结果未识别到敏感词,但敏感句检测结果判定为敏感,则认定所述待检测文本属于疑似敏感文本,提示进行人工审核;当敏感关键词检测结果未识别到敏感词并且敏感句检测结果判定为非敏感,则认定所述待检测文本不属于敏感文本。

由上述技术方案可知,本发明提供的一种交流平台的敏感文本智能检测装置,可以充分考虑到各个领域的差异性,先确定待检测文本所属领域,然后针对所属领域进行敏感词检测,敏感词检测更为准确,另外本申请通过配合敏感句检测还可以从句子的上下文语义进行分析,而不是仅局限于单个词语的内容,因此可以较好的弥补由敏感词匹配导致的错误判定问题,而且在一定程度上提升了交流平台用户的体验。再者采用领域敏感词匹配和敏感句分类的方式,可以在内部网络生态中提升敏感词的识别范围,提升敏感词的覆盖率。

本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述方法。

本发明实施例还提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述方法的步骤。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有执行上述方法的计算机程序。

如图6所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理器130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图6中所示的所有部件;此外,电子设备600还可以包括图6中没有示出的部件,可以参考现有技术。

如图6所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。

该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术分类

06120115867578