一种变体敏感词提取方法、装置、电子设备及存储介质
文献发布时间:2024-04-18 19:58:21
技术领域
本发明涉及敏感词提取技术领域,尤其涉及一种变体敏感词提取方法、装置、电子设备及存储介质。
背景技术
在互联网场景中,文字是承载信息的主要方式之一,而在通过互联网传播文字的过程中,经常会出现敏感文字的情况,因此,需要对用户发布的内容进行审核。
然而,在实际场景中,用户为了规避敏感词审核,往往会采用敏感词的变体来发布相关文字,而敏感词变体会让文字浏览者联系到相关的敏感词,使得敏感信息得以散布。
有鉴于此,现有技术提出了一种音近敏感词的扩展方法来扩展敏感词的数量,具体过程包括:对合法拼音表中的拼音两两组合;获取每个两两组合结果的编辑距离,并根据编辑距离提取得到音近拼音组,构建得到拼音-音近拼音表;基于拼音-音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换,并基于拼音-汉字表,将替换的任意字拼音映射成文字,构建得到候选音近次;对候选音近词进行预判断,实现对敏感词数据库的补充扩展。通过使用已有敏感词库和音近词表,推测黑产可能会使用的敏感词的音近字变体,来前置的解决整个环节的漏放可能性大、耗时长等特性,进而提高所提取关键词的有效性。
然而,上述方式是使用衍生链的方式来筛选出音近敏感词,其音近敏感词往往无法贴近实际应用场景,导致敏感词提取不准确的问题。
发明内容
本发明提供了一种变体敏感词提取方法、装置、电子设备及存储介质,用于解决音近敏感词往往无法贴近实际应用场景,导致敏感词提取不准确的技术问题。
本发明提供了一种变体敏感词提取方法,包括:
构建基础敏感词库;所述基础敏感词库包括多个基础敏感词;
获取所述基础敏感词的敏感词拼音;
采用所述敏感词拼音从预设语料库中获取候选变体敏感词;
计算所述候选变体敏感词的违规概率;
根据所述违规概率从所述候选变体敏感词中提取变体敏感词。
可选地,所述采用所述敏感词拼音从预设语料库中获取候选变体敏感词的步骤,包括:
获取所述预设语料库中的语句;
将所述语句中所述敏感词拼音对应的汉字片段作为候选词;
判断所述候选词中的所述敏感词拼音是否为完整拼音;
若是,则将所述候选词作为候选变体敏感词。
可选地,所述计算所述候选变体敏感词的违规概率的步骤,包括:
计算各候选变体敏感词在所述预设语料库中的出现次数;
计算各候选变体敏感词的审核不通过次数;
计算各候选变体敏感词的审核不通过次数和出现次数的比值,作为各候选变体敏感词的违规概率。
可选地,所述计算所述候选变体敏感词的违规概率的步骤,包括:
计算各候选变体敏感词在所述预设语料库中的出现次数;
获取各候选变体敏感词的被举报语句数;
计算各候选变体敏感词的被举报语句数和出现次数的比值,作为各候选变体敏感词的违规概率。
可选地,所述根据所述违规概率从所述候选变体敏感词中提取变体敏感词的步骤,包括:
提取违规概率大于预设概率阈值的候选变体敏感词作为变体敏感词。
可选地,所述根据所述违规概率从所述候选变体敏感词中提取变体敏感词的步骤之后,还包括:按照文字结构对所述变体敏感词进行拆分,得到变体拆分敏感词。
本发明还提供了一种变体敏感词提取装置,包括:
基础敏感词库构建模块,用于构建基础敏感词库;所述基础敏感词库包括多个基础敏感词;
敏感词拼音获取模块,用于获取所述基础敏感词的敏感词拼音;
候选变体敏感词获取模块,用于采用所述敏感词拼音从预设语料库中获取候选变体敏感词;
违规概率计算模块,用于计算所述候选变体敏感词的违规概率;
变体敏感词提取模块,用于根据所述违规概率从所述候选变体敏感词中提取变体敏感词。
可选地,所述候选变体敏感词获取模块,包括:
语句获取子模块,用于获取所述预设语料库中的语句;
候选词获取子模块,用于将所述语句中所述敏感词拼音对应的汉字片段作为候选词;
判断子模块,用于判断所述候选词中的所述敏感词拼音是否为完整拼音;
候选变体敏感词获取子模块,用于若是,则将所述候选词作为候选变体敏感词。
本发明还提供了一种电子设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上任一项所述的变体敏感词提取方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的变体敏感词提取方法。
从以上技术方案可以看出,本发明具有以下优点:本发明通过构建基础敏感词库;基础敏感词库包括多个基础敏感词;获取基础敏感词的敏感词拼音;采用敏感词拼音从预设语料库中获取候选变体敏感词;计算候选变体敏感词的违规概率;根据违规概率从候选变体敏感词中提取变体敏感词。从而提高了敏感词提取的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种变体敏感词提取方法的步骤流程图;
图2为本发明另一实施例提供的一种变体敏感词提取方法的步骤流程图;
图3为本发明实施例提供的一种变体敏感词提取装置的结构框图。
具体实施方式
本发明实施例提供了一种变体敏感词提取方法、装置、电子设备及存储介质,用于解决音近敏感词往往无法贴近实际应用场景,导致敏感词提取不准确的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的一种变体敏感词提取方法的步骤流程图。
本发明提供的一种变体敏感词提取方法,具体可以包括以下步骤:
步骤101,构建基础敏感词库;基础敏感词库包括多个基础敏感词;
在本发明实施例中,可以根据常见敏感词构建基础敏感词库。其中,基础敏感词库中包括有多个基础敏感词。
步骤102,获取基础敏感词的敏感词拼音;
在生成了基础敏感词库后,可以获取基础敏感词库中各个敏感词的敏感词拼音。
步骤103,采用敏感词拼音从预设语料库中获取候选变体敏感词;
语料(Corpus,复数corpora),通常是一定数量和规模的文本资源集合。语料规模可大可小,大至千万,甚至数亿句或更大,小至几百句。互联网本身就是一个巨大庞杂的语料库。语料根据不同标准可以有很多分类。比如,语料可以是单语语料,也可以是多语种语料。
在本发明实施例中,可以预先设置语料库,然后采用各个基础敏感词的敏感词拼音在预设语料库中查找候选变体敏感词。
其中预设语料库中的数据可以通过爬虫从网络上爬取信息后得到,也可以从互联网上的敏感内容的评论区抓取得到,本发明实施例对预设语料库的数据来源不作具体限制。
步骤104,计算候选变体敏感词的违规概率;
步骤105,根据违规概率从候选变体敏感词中提取变体敏感词。
在获取到候选变体敏感词后,可以计算各个候选变体敏感词的违规概率,从而根据违规概率从候选变体敏感词中提取变体敏感词。
本发明通过构建基础敏感词库;基础敏感词库包括多个基础敏感词;获取基础敏感词的敏感词拼音;采用敏感词拼音从预设语料库中获取候选变体敏感词;计算候选变体敏感词的违规概率;根据违规概率从候选变体敏感词中提取变体敏感词。从而提高了敏感词提取的准确性。
请参阅图2,图2为本发明另一实施例提供的一种变体敏感词提取方法的步骤流程图。具体可以包括以下步骤:
步骤201,构建基础敏感词库;基础敏感词库包括多个基础敏感词;
在本发明实施例中,可以根据常见敏感词构建基础敏感词库。其中,基础敏感词库中包括有多个基础敏感词。
步骤202,获取基础敏感词的敏感词拼音;
在生成了基础敏感词库后,可以获取基础敏感词库中各个敏感词的敏感词拼音。
步骤203,获取预设语料库中的语句;
在本发明实施例中,可以预先设置语料库,然后采用各个基础敏感词的敏感词拼音在预设语料库中查找候选变体敏感词。
在一个示例中,语料库可以分为两部分,一部分为人工审核标注为违规的语料集,一部分为人工审核标注为正常的语料集。
在获取到语料库后,可以获取语料库中的各语句。
步骤204,将语句中敏感词拼音对应的汉字片段作为候选词;
步骤205,判断所述候选词中的所述敏感词拼音是否为完整拼音;
步骤206,若是,则将所述候选词作为候选变体敏感词;
在获取到语料库中的语句后,可以采用各个基础敏感词的敏感词拼音在各语句中查找候选词。
然后判断候选词中各个敏感词拼音是否为完整拼音,即敏感词拼音是否对应候选词中的具体汉字,而不是候选词中某一个汉字的部分拼音。若敏感词拼音为完整拼音,则将该候选词作为候选变体敏感词。
步骤207,计算候选变体敏感词的违规概率;
在获取到候选变体敏感词后,可以计算各个候选变体敏感词的违规概率,从而根据违规概率从候选变体敏感词中提取变体敏感词。
在一个示例中,计算候选变体敏感词的违规概率的步骤,可以包括以下子步骤:
S11,计算各候选变体敏感词在预设语料库中的出现次数;
S12,计算各候选变体敏感词的审核不通过次数;
S13,计算各候选变体敏感词的审核不通过次数和出现次数的比值,作为各候选变体敏感词的违规概率。
在具体实现中,可以计算各候选变体敏感词在预设语料库中的出现次数,以及预设语料库中该候选变体敏感词没有通过人工审核的审核不通过次数,从而根据候选变体敏感词的出现次数和审核不通过次数,来计算各候选变体敏感词的违规概率。
例如,假设一个候选变体敏感词在预设语料库中的出现次数为5次,而审核人员联系这个候选变体敏感词在5次出现时的上下文判定其中有3次不通过审核,则可以判定该候选变体敏感词的违规概率为0.6。
在另一个示例中,计算候选变体敏感词的违规概率的步骤,可以包括以下子步骤:
S21,计算各候选变体敏感词在预设语料库中的出现次数;
S22,获取各候选变体敏感词的被举报语句数;
S23,计算各候选变体敏感词的被举报语句数和出现次数的比值,作为各候选变体敏感词的违规概率。
在具体实现中,还可以计算各候选变体敏感词在预设语料库中的出现次数,以及计算各候选变体敏感词在该语料库中涉及到的相应的语句中被举报的语句的数量(被举报语句数),然后采用各候选变体敏感词在预设语料库中的出现次数和被举报语句数来计算违规概率。
步骤208,根据违规概率从候选变体敏感词中提取变体敏感词。
在计算出各候选变体敏感词的违规概率后,可以根据违规概率从候选变体敏感词中提取变体敏感词。
在一个示例中,根据违规概率从候选变体敏感词中提取变体敏感词的步骤,可以包括:提取违规概率大于预设概率阈值的候选变体敏感词作为变体敏感词。
在具体实现中,违规概率较小的候选变体敏感词可能是被误当做候选变体敏感词,故需要将其过滤掉。在实际操作中,可以设置一个概率阈值,将违规概率不大于概率阈值的候选变体敏感词过滤掉,保留违规概率大于概率阈值的候选变体敏感词作为变体敏感词。
进一步地,根据违规概率从候选变体敏感词中提取变体敏感词的步骤之后,还包括:按照文字结构对所述变体敏感词进行拆分,得到变体拆分敏感词。
在通过拼音匹配得到变体敏感词后,还可以通过拆字算法将变体敏感词扩大为变体拆分敏感词,以扩展敏感词的覆盖范围。
具体拆分方式可以为按照偏旁部首进行拆分,并考虑各个偏旁部首的形近字。
本发明通过构建基础敏感词库;基础敏感词库包括多个基础敏感词;获取基础敏感词的敏感词拼音;采用敏感词拼音从预设语料库中获取候选变体敏感词;计算候选变体敏感词的违规概率;根据违规概率从候选变体敏感词中提取变体敏感词。从而提高了敏感词提取的准确性。
请参阅图3,图3为本发明实施例提供的一种变体敏感词提取装置的结构框图。
本发明实施例提供了一种变体敏感词提取装置,包括:
基础敏感词库构建模块301,用于构建基础敏感词库;基础敏感词库包括多个基础敏感词;
敏感词拼音获取模块302,用于获取基础敏感词的敏感词拼音;
候选变体敏感词获取模块303,用于采用敏感词拼音从预设语料库中获取候选变体敏感词;
违规概率计算模块304,用于计算候选变体敏感词的违规概率;
变体敏感词提取模块305,用于根据违规概率从候选变体敏感词中提取变体敏感词。
在本发明实施例中,候选变体敏感词获取模块303,包括:
语句获取子模块,用于获取预设语料库中的语句;
候选词获取子模块,用于将语句中敏感词拼音对应的汉字片段作为候选词;
判断子模块,用于判断所述候选词中的所述敏感词拼音是否为完整拼音;
候选变体敏感词获取子模块,用于若是,则将所述候选词作为候选变体敏感词。
在本发明实施例中,违规概率计算模块304,包括:
第一出线次数计算子模块,用于计算各候选变体敏感词在预设语料库中的出现次数;
审核不通过次数计算子模块,用于计算各候选变体敏感词的审核不通过次数;
第一违规概率计算子模块,用于计算各候选变体敏感词的审核不通过次数和出现次数的比值,作为各候选变体敏感词的违规概率。
在本发明实施例中,违规概率计算模块304,包括:
第二出现次数计算子模块,用于计算各候选变体敏感词在预设语料库中的出现次数;
被举报语句数获取子模块,用于获取各候选变体敏感词的被举报语句数;
第二违规概率计算子模块,用于计算各候选变体敏感词的被举报语句数和出现次数的比值,作为各候选变体敏感词的违规概率。
在本发明实施例中,变体敏感词提取模块305,包括:
变体敏感词提取子模块,用于提取违规概率大于预设概率阈值的候选变体敏感词作为变体敏感词。
在本发明实施例中,还包括:
拆分模块,用于按照文字结构对所述变体敏感词进行拆分,得到变体拆分敏感词。
本发明实施例还提供了一种电子设备,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行本发明实施例的变体敏感词提取方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本发明实施例的变体敏感词提取方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
- 数据提取方法、数据提取装置、存储介质和电子设备
- 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
- 身份信息提取方法、装置、电子设备与存储介质
- 一种数据特征提取方法、系统及电子设备和存储介质
- 一种漆面识别方法、装置、存储介质及电子设备
- 一种敏感词匹配方法、装置、电子设备及存储介质
- 一种敏感词过滤方法、装置、存储介质及电子设备