掌桥专利:专业的专利平台
掌桥专利
首页

一种敏感词自动处理方法和系统

文献发布时间:2023-06-19 11:22:42


一种敏感词自动处理方法和系统

技术领域

本发明涉及内容识别及自动控制领域,尤其涉及一种敏感词自动处理的方法和系统。

背景技术

网站每天都有成百上千条评论以及帖子需要审核,其字数甚至可达到百万级别。由于各方要求,网站又必须对特定的词汇进行屏蔽、筛选等操作。这些词汇总量又高达上万条。人工审核力度有限,靠肉眼一字一句的进行筛选判断效率低且无法抱枕准确性,需要一套快速且准确的方法来辨别出这些敏感词汇。

现有的技术就是将所需的词汇列举出来,通过遍历,定位评论或帖子内容中对应的部分。但是该方法并不能完成网站需求。

一是信息量过大,目前已有超过2万的敏感词需要判别,而且数量还在不断增加中。一次需要过滤的评论及帖子又是几十篇。后台进行处理的时间过长,经常性的卡顿影响审核人员的工作效率。

二是作用不明显,在这个数量级下,光是将敏感词定位出来依然需要审核人员运用大量的时间根据上下文以及主题等内容来进行人工判断。所以目前所有的技术并不能增加对这些敏感词审核的效率。

因此,本领域的技术人员致力于开发一种对敏感词自动处理的方法和系统。

发明内容

目前对于敏感词的后台处理,止于对敏感词的过滤,没有系统自动处理,也就是把评论或帖子内容中的敏感词予以高亮显示后提供给审核员人工审查,以此来减少审核员查找敏感词的时间以及提高审核员的重视度。但由于不断更新的敏感词库,对于篇幅较长的文章,章节间会出现许多敏感词,审核员基本需要做到通篇阅读才能完成对该篇文章的敏感词审核,这样消耗的时间非常大。而且由于字数多,容易发生漏查、错查等现象,导致即便将敏感词高亮显示也容易出现审查失误。

有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何提升敏感词的处理效率,以及如何减少漏查、错查等审查失误。

为了解决上述问题,本发明提供了一种敏感词自动处理方法和系统来解决时间过长,效率不高的问题。

为实现上述目的,本发明提供了一种敏感词自动处理方法,包括以下步骤:添加敏感词;添加针对敏感词的处理信息;通过敏感词过滤待审核内容;以及对待审核内容中包含的敏感词进行自动处理。

在本发明的较佳实施方式中,如果满足自动处理规则,则进行自动处理;以及如果不满足自动处理规则,则交由人工审核。

在本发明的较佳实施方式中,根据所添加的敏感词提供敏感词参数,并根据待审核的帖子或评论内容提供待审核内容,以通过敏感词过滤待审核内容。

在本发明的较佳实施方式中,根据所添加的针对敏感词的处理信息,提供自动处理规则,以对待审核内容中包含的敏感词进行自动处理。

在本发明的较佳实施方式中,敏感词分为普通敏感词、高级敏感词和超级敏感词;其中,当待审核内容与普通敏感词匹配时,待审核内容会被直接否决;当待审核内容与高级敏感词匹配时,进一步根据与高级敏感词相对应的处理信息来进行相应的自动处理,其中,高级敏感词具有至少一项相对应的处理信息;以及当待审核内容与超级敏感词匹配时,如果存在与超级敏感词相对应的处理信息,则进行相应的自动处理;以及如果不存在与超级敏感词相对应的处理信息,或者如果不满足处理信息中的要求,则转为人工审核。

在本发明的较佳实施方式中,处理信息包括自动处理类型和替换内容,自动处理类型包括否决、通过、替换文字;其中,如果自动处理类型只有否决,则在条件不满足时自动予以通过处理;如果自动处理类型只有通过,则在条件不满足时自动进行否决处理;以及如果自动处理类型为替换文字,则在条件满足时使用替换内容替换敏感词。

在本发明的较佳实施方式中,如果自动处理类型同时包括否决、通过、替换文字中的两种或更多种,且同时满足条件,则处理优先顺序依次为否决、替换文字、通过。

另一方面,本发明还提供一种敏感词自动处理系统,包括:敏感词添加模块,敏感词添加模块被配置为能够向系统中添加敏感词;处理信息添加模块,处理信息添加模块被配置为能够向系统中添加针对敏感词的处理信息;内容过滤模块,内容过滤模块被配置为能够通过敏感词过滤待审核内容;以及自动处理模块,自动处理模块被配置为能够对待审核内容中包含的敏感词进行自动处理。

在本发明的较佳实施方式中,自动处理模块进一步被配置为能够当满足自动处理规则时,对待审核内容进行自动处理;以及当不满足自动处理规则时,将待审核内容交由人工审核。

在本发明的较佳实施方式中,内容过滤模块进一步被配置为能够通过敏感词添加模块获取敏感词的敏感词参数,以及能够通过后台获取待审核的帖子或评论内容作为待审核内容,从而通过敏感词过滤待审核内容;以及自动处理模块进一步被配置为能够通过处理信息添加模块获取针对敏感词的自动处理规则,从而根据自动处理规则对待审核内容中包含的敏感词进行自动处理。

本发明提供的方法和系统至少具有以下技术效果:大幅度增加后台在数据量庞大时对敏感词的处理速度,同时可以大幅地减少人工干预次数,实现自动化处理,并有效地减少了漏查、错查等审查失误。

由于将敏感词分类以及提供审核员预设自动处理方式,可以大大节省对于敏感词的处理时间。对于普通敏感词以及高级敏感词,审核员可以做到基本不用再去人为处理,只有当超级敏感词的对应的自动处理信息不满足时才会需要审核人员进行人工审核,这也只是一小部分了。

同时对于篇幅较长的文章,审核员也不用对其中一个敏感词再去费事上下文的阅读来做人工审核。同时对于敏感词较多的文章,还可以防止审核员漏查,错查,或者人为干预过程中输入错别字的失误,大大的提高了敏感词处理的准确性。而且系统处理的记录都会非常清楚的一一留下,不同于人工处理完只能留下一个操作人信息,系统自动处理可以清楚的留下对于文章的哪里进行了什么操作。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明中敏感词自动处理方法的一个较佳实施例的步骤流程示意图;

图2是本发明中用于储存敏感词基本数据的表的一个较佳实施例的示意图;

图3是本发明中自动处理信息表的一个较佳实施例的示意图;

图4是本发明中计算机装置、设备或终端的一个较佳实施例的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

为了阐释的目的而描述了本发明的一些示例性实施例,需要理解的是,本发明可通过附图中没有具体示出的其他方式来实现。

图1是本发明中敏感词自动处理方法的一个较佳实施例的步骤流程示意图,如图1所示,本发明的一种敏感词自动处理方法,可以包括以下步骤:

步骤一,添加敏感词。在一些实施例中,可以通过后台添加敏感词,在数据库中创建一张表用来储存敏感词基本数据。敏感词本身主要通过网信办要求或是审核员需求而定。审核员可以通过网站管理后台会有界面让其手动进行增删改。

步骤二,添加针对敏感词的处理信息。在一些实施例中,可以通过后台添加敏感词处理信息。

步骤三,通过敏感词过滤待审核内容。在一些实施例中,待审核内容为帖子或评论,由后台提供帖子或评论内容。根据所添加的敏感词提供敏感词参数,并根据待审核的帖子或评论内容提供待审核内容,以通过敏感词过滤待审核内容。

步骤四,对待审核内容中包含的敏感词进行自动处理。在一些实施例中,对匹配的敏感词进行自动处理,根据所添加的针对敏感词的处理信息,提供自动处理规则,以对待审核内容中包含的敏感词进行自动处理。如果满足自动处理规则,则进行自动处理;以及如果不满足自动处理规则,则交由人工审核。

在一些实施例中,敏感词可以分为普通敏感词、高级敏感词和超级敏感词;其中,当待审核内容与普通敏感词匹配时,待审核内容会被直接否决;当待审核内容与高级敏感词匹配时,进一步根据与高级敏感词相对应的处理信息来进行相应的自动处理,其中,高级敏感词具有至少一项相对应的处理信息;以及当待审核内容与超级敏感词匹配时,如果存在与超级敏感词相对应的处理信息,则进行相应的自动处理;以及如果不存在与超级敏感词相对应的处理信息,或者如果不满足处理信息中的要求,则转为人工审核。

在一些实施例中,处理信息可以包括自动处理类型和替换内容,自动处理类型包括否决、通过、替换文字;其中,如果自动处理类型只有否决,则在条件不满足时自动予以通过处理;如果自动处理类型只有通过,则在条件不满足时自动进行否决处理;以及如果自动处理类型为替换文字,则在条件满足时使用替换内容替换敏感词。

在一些实施例中,如果自动处理类型同时包括否决、通过、替换文字中的两种或更多种,且同时满足条件,则处理优先顺序依次为否决、替换文字、通过。

在一些实施例中,可以在后台创建可供审核员增删改的敏感词库,也就是在数据库中创建一张表。表中除了主键ID还需要收入的信息有,敏感词、敏感词分级。然后再创建一张自动处理信息表,对于不同敏感词,收集对这种敏感词需要处理的信息,表中除了主键ID还包含自动处理种类、自动处理判断类型、特殊处理相关信息。一个敏感词可以对应多条特殊处理信息。

这个敏感词库不仅提供了给系统进行过滤的敏感词内容,同时给予本发明自动处理逻辑中需要的信息。

敏感词分级目前分为普通敏感词,高级敏感词和超级敏感词。处理顺序为普通高于高级高于超级。这使得自动处理可以对这三种不同等级的敏感词进行三套不一样的处理方案。处于第一级的普通敏感词就是一些显而易见需要屏蔽的次,对于这类系统会自动进行直接屏蔽,如果是文章内容则是删去段落并留存处理记录,如果是评论则是直接不予以通过,不需要提供特殊处理信息。高级敏感词的话必须在敏感词特殊处理种类中选择是否决、通过、或者替换文字,同时可以选择特殊处理判断类型以及相关信息。

这里涉及的敏感词特殊处理判断类型分为,上下文关联程度、标题相关程度、话题相关程度、评论对应的父评论内容相关程度。这些相关程度通过特殊处理相关信息中填入对应的文字内容来决定。特殊处理相关信息则是由数组转换成的 json字符串,如果是一个数组内的,那必须同时满足条件才会进行相关自动处理,如果分开不在一个数组内,那么只要有其中一个判断条件符合就会进行自动处理。

最后是超级敏感词,由于这类敏感词最需要注重,审核员可以选择填入特殊处理信息,分类同高级敏感词,如果不填写,则会转为人工处理。

作为一个示例,本发明提供一种对敏感词自动处理的系统。首先在数据库中创建一张表用来储存敏感词基本数据。敏感词本身主要通过网信办要求或是审核员需求而定。审核员通过网站管理后台会有界面让其手动进行增删改。

图2是本发明中用于储存敏感词基本数据的表的一个实施例的示意图。如图2所示,表中id为主键,自动增加。word为敏感词。level为敏感词等级。敏感词等级的区分主要根据审核员对该敏感词的处理需求。1为普通敏感词,该级别敏感词不需要审核员额外添加相关处理信息,完全自动处理,只要匹配中,该条评论或者帖子会被直接否决。针对是评论还是帖子则是后台会在提供过滤内容时提供一个参数以示区分。2为高级敏感词,该级别敏感词依然也是完全自动处理,不过必须需要审核员额外提供相对应的处理信息来进行不同的自动处理,这些信息会放在后面陈述的自动处理信息表中。3为超级敏感词,该级别敏感词审核员也可以添加处理信息来进行自动处理,不过为选填,如果不满足这些信息中的要求或是不添加处理信息则在匹配后会转为人工审核。

然后再创建一张自动处理信息表,一个敏感词可以对应表中多条数据。图3是本发明中自动处理信息表的一个实施例的示意图,如图3所示,表中id为该表主键,自动增加。wid为之前创建的敏感词表中的主键id,用于关联对应敏感词。

type为自动处理的类型,可以包括3种。1为否决,2为通过,3为替换文字。对于高级敏感词,如果只有type为否决的处理信息,那么在不满足时会自动予以通过处理。反之如果只有type为通过的处理信息,那么不满足时会自动进行否决处理。type为替换文字时,替换的文字存在info中。当条件不满足时,自动进行否决处理。如果三者有同时满足的情况,处理优先顺序依次为否决、替换文字、通过。对于超级敏感词,基本处理方式与高级敏感词相同,当没有任何满足条件时,不会自动予以通过或否决处理,会转为人工审核。

judge为该处理需要进行判断的范围,0为无条件,1为上下文,2为标题,3 为话题,4为该评论对应的父评论(该选项如果是针对帖子的话则依然作为上下文来进行处理)。

info则是对范围内进行判断依据提供关键字,为二元数组转化成的json字符串格式,同一个数组内的内容为并处理,不同数组内的内容为或处理,数组以一对方括号[]进行表示及区分。但如果type为替换文字,那么只会让审核员填入一个替换的词,最终存储结果为[[“xxx”]]。

judge为无条件时,那么会在匹配时直接进行type中选择的操作,该选项只有对高级敏感词进行操作时才会出现,只有当type为替换文字时才需输入info 信息提供对应的替换文字,否则info为空字符串。

judge为上下文时,则会对敏感词匹配位置对应的上一个逗号、句号或换行符直至下一个逗号、句号、换行符中间的内容根据info中的内容进行文字的正则匹配,满足条件了才会执行type中的操作。比如表中id为6的这条信息,就是当“内容01”这个敏感词匹配到时,对这个词的上一个逗号、句号或换行符知道下一个逗号、句号或者换行符中间的内容进行正则匹配,如果同时包含“内容02”和“内容03”这两个词,那么会进行type中的通过处理,或者有包含“内容04”这个词,也会进行通过处理。这个词作为超级敏感词,如果不满足并且没有别的处理信息满足条件,那么会转由人工审核。

judge为标题时,则是对帖子的标题或者评论对应的帖子的标题进行正则匹配,匹配信息也是由info中的内容提供。judge为话题是,则是判断帖子或是评论对应的帖子中包不包含info中提供的话题。这里的话题则是我们后台系统中另外已经存好的话题库,在info中只记录话题的id,例如表中第二条记录则是判断,当帖子或者评论对应的帖子包含id为213或222或333的话题时,给予通过。

judge为评论对应的父评论时,则会对父评论内容进行正则匹配,父评论内容会通过系统自动向后台进行查询,返回内容后再进行正则匹配。如果满足条件则进行type中的操作。

所有的操作都会在满足条件时进行记录,针对哪一条评论或者帖子中的哪个词因为满足了哪一条处理信息进行了什么处理。

当普通敏感词、高级敏感词、超级敏感词三者间的过滤及处理顺序,首先进行普通敏感词处理,将出现了的直接否决掉以减少过滤效率。然后是高级敏感词,如果出现否决的操作,则直接进行处理不在进行接下来的过滤及其他处理,如果有匹配通过及替换文字处理,都是先保留进行之后的过滤和其他处理,替换文字会在满足条件时直接先替换掉。最后是超级敏感词,当没有条件满足时会转入人工审核,在人工审核时,之前保留的所有记录都会同时显示出来,以供审核人员参考。

以下通过若干具体的实施例对本发明提供的敏感词自动处理方法和系统进行更详细地说明。

例如现在有一条评论包含“www.xxx.org”,其中“www.xxx.org”作为普通敏感词,那么这条评论则会直接不通过。

再例如有这么两条评论:“看看内容05的内容06活动越演越烈,这全都拜内容07及其代表的内容08所赐。”,以及“来人啊,赶紧组织一波内容06活动啦”。

其中“内容06”是高级敏感词,并且在词库中对它有一条处理信息为通过,判断范围是上下文关,信息info的json字符串中有“内容08”、“内容05”在一个数组内,以及“内容07”在一个数组内,那么第一句满足上下文同时满足有“内容08”与“内容05”字样,并且下文也满足拥有“内容07”字样,那么这句评论则会被通过。反之如第二条评论不满足这个要求,那么这条评论则会被否决。

再例如有篇文章中有以下内容:

“从新闻报道时间线看,昨天就内容01问题的发言,应该是内容09先发言,然后是内容10(中间可能有间隔)”

其中“内容09”是高级敏感词,有一条处理时替换,没有判断条件,对应的自动处理相关信息只有一个词“内容11”。然后“内容01”是一个超级敏感词,没有对应自动处理信息。那么这段文字中的“内容09”会被替换成“内容11”,然后因为存在超级敏感词“内容01”,“内容01”两次会被高亮后再被转由人工审核。

再来一例标题为《以动物园方式看待内容16》的帖子中包含动物世界的话题并有以下内容“……主席台上的人如同内容12……”,“内容12”作为一个高级敏感词,它有两条处理信息,一条是通过,判断范围是话题,在或条件范围内包含多个数组,其中一个数组中只有一个对应话题id指向动物世界,那么这条应该是可以通过的,但是“内容12”还有一条处理信息为否决,判断依据是标题,info 中包含的关键字只有一个为“内容16”,那么这条需要被否决,虽然前面有满足通过的处理信息,不过因为处理优先级否决大于通过,所以这篇帖子最终还是会被否决的。

然后,所有的自动处理都会被保存记录,对应到哪一篇文章或者评论中的哪一个敏感词,由于满足哪一条自动处理判断条件,进行了处理。比如针对上段文字就会记录下这篇文章ID,对应的“内容09”敏感词,然后记录下相对应处理在自动处理信息在表中的主键ID。并且在人工审核时可以显示在页面上提供参考。

本发明提供了一种敏感词自动处理方法和系统,在数据库中添加用于敏感词管理的数据表,同时在后台建设用于审核管理员交互的敏感词库界面。审核管理员需要提供敏感词,敏感词分级以及预设操作等内容。在管理员提交的同时,后台会首先将整个敏感词库排序分类,然后通过迭代的方式,将整个词库提炼出一张用于实际过滤时用的词干表,词干表中包含提炼出的词干以及词干对应的敏感词合集。

在进行敏感词过滤后,通过布尔模型再将本身对应的敏感词还原出来,并且获取其所对应的分级以及所需操作。根据审核员需求,对不同敏感词的等级进行相对应的自动处理,在自动处理时再根据所需需求进行特殊操作。不满足条件的再交由审核员人工审核。

本发明提供了一种敏感词自动处理方法和系统,可以有效地解决审核时间过长、效率不高等问题。首先创建一套可供人为进行增删改操作的敏感词库系统。在此基础上,加设敏感词分级以及预设操作,并根据分级以及所需操作,完善一套可供匹配时所进行自动处理的逻辑。在对敏感词进行保存后,立刻对敏感词库进行过滤,在类似的敏感词中提取词干,创建一套用于实际检索敏感词时使用的配对表,以减少后台过滤的次数。如有匹配,再通过布尔模型还原敏感词,并且通过预设的敏感词分级以及预设操作自动对评论或者帖子进行屏蔽,替换或是交由人工处理的处理。

本发明的发明构思是:在现有技术上,压缩整合大量的敏感词以减少所需过滤的次数,同时采用新的过滤方式来提高后台处理效率。并且构建一个可供管理的敏感词系统,首先在后台对敏感词进行分类。通过预设的操作以及定位,减少人工审核的压力。

本发明还提供一种敏感词过滤方法,采用多种敏感词过滤方法的组合,对信息进行敏感词匹配,以过滤掉信息中的敏感词。进一步地,为增强垃圾信息拦截效果,在没有直接出现的敏感词时,根据汉语语法特征对信息进行语法特征分析,拦截出可能是垃圾信息的误导信息,以供管理员参考。本发明在敏感词过滤过程中,能够将过滤到的特殊敏感词进行分析和存储,实现了敏感词库的自主学习,增强了过滤准确度和过滤速度。同时,本发明还在用户输入的信息为网址信息时,对网站内部信息进行敏感词匹配和语法特征分析,以分辨该网址是否为恶意网址。另外,本发明的方案还提供了日志记录功能,辅助管理员进行网站安全黑名单的设置;提供的统计分析功能,帮助管理员从侧面了解网站的活跃度和访问量。

本发明公开了一种敏感词过滤方法:采用多种敏感词过滤方法的组合,对信息进行敏感词匹配;其中,多种敏感词过滤方法的组合包括:敏感词直接过滤方法,敏感词转换敏感字过滤方法,敏感词步长分析过滤方法,敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。

其中,采用多种敏感词过滤方法的组合,对信息进行敏感词匹配具体包括以下步骤:

步骤A、对信息进行敏感词直接过滤,如果匹配到敏感词,则过滤掉该敏感词;如果匹配不成功,则,

执行步骤B、进行敏感词转换敏感字过滤,将敏感词拆分成敏感字数组,判断数组中的所有元素是否同时出现在该信息中,如果是,则,

执行步骤C、进行敏感词步长分析过滤,在敏感词步长不大于预设的敏感词步长阈值时,

执行步骤D、进行敏感字上下文重组过滤,如果上下文重组过滤后的词为敏感词,则将上下文重组过滤前的词作为类敏感词保存到敏感词库中;如果上下文重组过滤后的词不是敏感词,则,

执行步骤E、进行无效信息去除重组过滤,将信息中的乱码、符号和特殊字符过滤后,判断是否为敏感词,如果是,则过滤掉该敏感词。

进一步地,步骤B在进行敏感词转换敏感字过滤时,判断数组中的所有元素并不同时出现在该信息中,则进行语法特征分析,在语法特征分析无法通过时,确认所述信息为垃圾信息进行拦截,否则,发布所述信息;所述语法特征分析包括重复信息占比分析,读音相近热词替换分析和歧义词分析。

进一步地,步骤E在进行无效信息去除重组过滤时,将信息中的乱码、符号和特殊字符过滤后,判断不是敏感词,则进行语法特征分析;在语法特征分析无法通过时,确认所述信息为垃圾信息进行拦截,否则,发布所述信息;所述语法特征分析包括重复信息占比分析,读音相近热词替换分析和歧义词分析。

进一步地,步骤C在进行敏感词步长分析过滤时,如果敏感词步长大于预设的敏感词步长阈值时,直接执行步骤E。

进一步地,一般网址信息全部是字母和数字,不包含汉字,所以,如果预先确认输入的信息为网址信息,该方法还包括:建立网址链接,并获取网站内部信息,过滤掉网站内部信息中无效的标签信息和版本信息;对经过过滤的网站内部信息进行敏感词匹配和语法特征分析。

优选地,为辅助管理员优化自己的网站,本发明的方案还包括:

对信息中出现的敏感词,以及垃圾信息的出现时间和IP地址进行记录;

对所记录的信息进行统计,得到普通信息和垃圾信息的比率,垃圾信息的IP 列表,以及敏感词的出现频度;

将统计得到的信息以图表形式进行显示。

所述敏感词保存在敏感词库中,为确保敏感词删除的有效性,该方法还包括:为敏感词库中的每个敏感词设置不同等级,在对信息进行敏感词匹配时,如果匹配到的敏感词等级达到过滤等级,则将信息中的该敏感词过滤掉;否则,保留该敏感词。

为清楚说明本发明,下面列举具体场景进行说明。需要说明的是,发送到论坛或者留言板上的信息往往是一段话,可以是一句话,也可以是几句话,因此本发明的方案就是将这段话中的敏感词过滤掉,或者将这段话作为垃圾信息拦截。

例如,“通过计算机程序开发领域的设计模式”,其中,“开发”作为敏感词保存在敏感词库中。

在切词处理之后,进行敏感词直接过滤,与敏感词库逐条匹配,当匹配到“开发”时,即匹配到敏感词,将该敏感词“开发”过滤掉,结束分析。此时,过滤掉敏感词“开发”的方式有多种,可以选择将信息中的敏感词“开发”用“**”代替。

再例如,“汉字序顺不一定影响阅读”,其中,“顺序”作为敏感词保存在敏感词库中。

1)对信息进行切词处理,假设切词之后为“汉字|序顺|不一定|影响|阅读”,进行敏感词直接过滤,与敏感词库逐条匹配,没有匹配到“顺序”,则,

2)进行敏感词转换敏感字过滤,将敏感词“顺序”拆分成敏感字数组,该敏感词是包含两个元素分别为“顺”和“序”的一个数组,判断这两个元素是否同时出现在该信息中,如果是,则,

3)进行敏感词步长分析过滤,首先判断敏感词步长是否大于敏感词步长阈值,假设敏感词步长阈值为5,“序”和“顺”之间没有汉字,则敏感词步长为0,小于阈值5,则

4)进行敏感字上下文重组过滤,将“序顺”进行上下文重组,得到“顺序”,由于“顺序”是敏感词,则将“序顺”作为类敏感词保存到敏感词库中。如此,当信息中有“序顺”这个词时,通过敏感词过滤很容易找到,可以更大限度地降低发布的信息中含有敏感词的风险。而且,通过将敏感词主动加入到敏感词库,从而丰富了敏感词库,提升了敏感词过滤的准确性和便捷性。

再例如,敏感字之间的文本中的乱码、符号、特殊字符。一部分垃圾信息,是采用特殊符号占位,如“今###天###天###气”。在步骤E、进行无效信息去除重组过滤,就是将信息中的特殊字符“###”过滤后,判断“今天天气”是否为敏感词,如果是,则过滤掉该敏感词。

再例如,“今点天点天点气”这类的形式,上下文是不能形成词组的,语法特征分析会根据句子长度及重复字占比进行分析是否存在垃圾信息,即,重复字“点”的占比如果超过阈值的话,则认为该信息是垃圾信息进行拦截,由管理员进一步确认是否发布该信息。

需要说明的是,语法特征分析是对信息中不直接包含敏感词时的进一步分析,不仅包括重复信息占比分析,还包括读音相近热词替换分析和歧义词分析。进行语法特征分析时,可以上述三种分析方法依次执行,在执行任意一种方法无法通过时,都认为是垃圾信息进行拦截。如此,敏感词过滤和语法特征分析相结合,能够更加有效地拦截垃圾信息。

在一些实施例中,部分垃圾信息不直接显示内容,而是采取隐晦的提示信息诱导用户进入自己发出的非法网站。这种信息从敏感词和语法特征都不能准确分析,因此采取网址信息主动探测的方式,通过使用java语言的网络特性,直接建立网址链接,并获取网站内部信息,过滤掉网站内部信息中无效的标签信息和版本信息;对经过过滤的网站内部信息进行敏感词匹配和语法特征分析。如果匹配到敏感词则屏蔽该网址,如果没有匹配到敏感词,但经过语法特征分析后拦截出可能是垃圾信息的误导信息,以供管理员参考。

需要说明的是,对经过过滤的网站内部信息进行敏感词匹配和语法特征分析,就是说从步骤A开始执行,直至步骤E。“经过过滤的网站内部信息”相当于流程图中的“信息”。

在一些实施例中,基础信息平台主要用于提供系统的核心数据-敏感词库,并支持敏感词同步更新,提升敏感词的识别度和匹配度。

除此之外,基础信息平台还提供了日志记录功能,能够对信息中出现的敏感词进行记录,还记录垃圾信息的来源和时间等信息。基础信息平台提供的统计分析功能能够将以上信息进行汇总,得到普通信息和垃圾信息的比率信息,垃圾信息IP列表,敏感词出现频度等,并且以折线图,病状图,柱状图的方式呈现给管理员。从而辅助网站管理员优化自己的网站。

另外,基础信息平台支持敏感词库的等级设置,部分敏感词,音近词可以不需要自动过滤时,通过初始等级设置就可以完成。

本发明的有益效果至少还包括:

一、本发明能够有效的增强垃圾信息拦截的效果,提升网络环境的良性发展。采用链式结构的垃圾信息过滤方式能够显著的增强拦截层数提升安全性,并极易扩展,快速适应更新的垃圾信息过滤形式。

二、通过将敏感词主动加入到敏感词库,从而丰富了敏感词库,提升了敏感词过滤的准确性和便捷性。

三、敏感词过滤和语法特征分析相结合,能够更加有效地拦截垃圾信息。

四、本发明采用独立线程进行网址内容获取和分析,并分析是否为不良网站。

五、能够符合多种应用场景及网络环境,系统提供了运行日志负责记录垃圾信息的IP地址,辅助管理员进行网站安全黑名单的设置,从另一个方面提升了网站的安全性。

六、另外,系统提供了统计分析功能,帮助管理员从侧面了解网站的活跃度和访问量。

如上所述,本发明提供了一种敏感词过滤方法,该方法包括:采用多种敏感词过滤方法的组合,对信息进行敏感词匹配;其中,多种敏感词过滤方法的组合包括:敏感词直接过滤方法,敏感词转换敏感字过滤方法,敏感词步长分析过滤方法,敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。

本发明实施例提供的敏感词过滤方法,将多种敏感词过滤手段以链式组合,形成敏感词过滤链并逐个执行。如此,本发明的方案能够更全面彻底地过滤各种经过干扰、修饰过的敏感词,大大增强垃圾信息的拦截效果。

本发明还提供一种敏感词编辑器,包含:敏感词过滤器与文本编辑器。其中,敏感词过滤器中包含有预设的敏感词包,预设的敏感词包中包含的敏感词与用户输入的文本内容属于相同或相关领域,针对性强,检索量小,检测效率高。

优选地,敏感词包的格式采用文本文档(TXT),所占资源少、启动快、可以被绝大多数文档处理软件支持,可在任何一台机器上运行,适用性强。

敏感词过滤器,用于根据敏感词对文本编辑器中进行编辑的文本进行敏感词检测,并提示用户进行修改替换。敏感词过滤器可以随着用户的输入对文本编辑器中编辑的文本进行敏感词检测,即用户输入编辑的文本的同时进行敏感词检测,直至用户结束输入文本,这样,用户可以及时发现文本中的敏感词,并对其进行修改替换。

其中,敏感词过滤器包含:提示模块、显示模块与替换模块,下面对这3个模块进行详细的介绍:

提示模块,用于将检测到的敏感词通过突显方式进行标记,以提示用户进行修改。比如,通常编辑页面是以黑色字体颜色为主,“亮色系列”(如红色、绿色、蓝色、黄色等)的文字相对于黑色字体颜色较为醒目。所以,在本实施方式中,优选地,将检测到的敏感词进行红色显示,以引起用户的注意,进而起到提示作用,避免用户漏改敏感词而影响信息发布,提高信息发布的效率。

显示模块,用于在用户选定检测到的敏感词时,通过下拉菜单显示与该敏感词对应的非敏感同义替换词,以供用户选择替换。在本实施方式中,当用户将鼠标移动至红色显示的敏感词处时,视为选定了该敏感词,同时,显示模块通过下拉菜单显示与该敏感词对应的非敏感同义替换词,以供用户选择替换。例如,中国文化中,在公共场合,人们将谈论“厕所”的有关话题视为不雅之事,在文化版块发布信息时可能会将“厕所”视为敏感词,若用户发布的信息中出现“厕所”时,提示模块将“厕所”二字进行红色标记,以提醒用户进行替换,当用户的鼠标移动至“厕所”二字处,则视为选定了该敏感词,显示模块便通过下拉菜单显示非敏感同义替换词“洗手间、盥洗室、茅房、东厮”,具体如图2所示,以供用户选择替换。

替换模块,用于将用户选定的敏感词替换为用户选择的非敏感同义替换词。用户从下拉菜单中选择敏感词的非敏感同义替换词,替换模块将用户选定的敏感词替换为用户选择的非敏感同义替换词。例如,当用户从下拉下单中选择了“盥洗室”时,替换模块就将文本中“厕所”二字替换为“盥洗室”。采用显示模块显示用户选定的敏感词的非敏感同义替换词,一方面,节约了用户寻找非敏感同义替换词的时间,特别是不容易想到的替换词,另一方面,避免用户自行提供的替换词还是敏感词,总之,节约了用户的时间,进一步提高了用户在网络上发布信息的效率。

文本编辑器,用于编辑用户输入的文本,并输出用户根据敏感词检测结果编辑后的文本。文本编辑器是现有成熟的技术,在此不作赘述。

另外,在实际应用中,还可以在用户将编辑的文本全部输入后,再对输入文本中的敏感词进行检测,这样,可以集中时间在对文本中的敏感词进行替换,避免输入编辑文本的过程中不停地替换出现的敏感词而打断用户的思路,避免影响用户发布信息的效率。

另外,在实际应用中,检测到的敏感词还可以以其他突显方式进行显示,如闪烁显示、加粗显示、红色加粗显示、蓝色闪烁显示等。而且,用户可以根据自身习惯与喜好选择敏感词的突显方式,增加了本发明实施方式的人性化,有利于提升用户体验。

另外,在实际应用中,预设的敏感词包可以为1个综合的敏感词包,该敏感词包包含经济、政治、文化、军事、体育等领域中涉及的敏感词。只采用1个包含所有敏感词的敏感词包作为预设的敏感词包,对敏感词进行检测,这样,无论用户编辑的文本涉及哪个领域,都可以检测出文本中包含的敏感词,适用性强。

另外,在实际应用中,显示模块还可以通过弹出替换列表的方式显示非敏感同义替换词,保证了本发明实施方式的多样性与灵活性。

另外,敏感词包的格式还可以为以下任意一种:便携文档格式(PDF)、电子表格(EXCEL)或者逗号分隔值(CSV),保证了本发明实施方式的多样性与灵活性。

与现有技术相比,是利用敏感词过滤器对文本编辑器中用户编辑的文字进行敏感词检测,在用户输入文本时就迅速锁定文本中包含的敏感词,以供用户根据敏感词检测结果对编辑的文本进行修改,避免使用敏感词,这样,能够使用户在网络上发布信息时更加便利和高效。

本发明的另一种实施方式涉及一种敏感词编辑器,主要改进之处在于:在本发明第二实施方式中,敏感词过滤器包含导入模块,用户可以根据自身需求与敏感词包上的标识符选择并导入需要的敏感词包,以减小敏感词编辑器所占的资源。

具体地说,导入模块,用于导入若干个敏感词包;其中,敏感词包上设有标识符,该标识符用于指示该敏感词包所属的领域。即,用户可以根据自身涉猎的领域与敏感词包上的标识符选择需求的敏感词包,这样,可以减小敏感词编辑器所占的资源,提高敏感词编辑器的速度。

本发明的另一种实施方式涉及一种敏感词编辑器,主要改进之处在于:在本发明第三实施方式中,敏感词过滤器包含选择模块,这样,用户可以根据输入的文本内容从若干个导入的敏感词包中选择一个或多个与输入的文本内容领域相关的敏感词包作为预设的敏感词包,针对性强,并增加了本发明实施方式的的灵活性。

具体地说,敏感词过滤器除了包含:提示模块、显示模块与替换模块,还包含选择模块。其中,提示模块、显示模块、替换模块与上述实施方式中的相似,在此不做赘述。

选择模块,用于供用户根据输入的文本内容的领域与敏感词包上的标识符,从若干个敏感词包中选择一个或多个敏感词包作为预设的敏感词包。比如,若用户输入的文本内容的领域属于政治领域,则用户利用选择模块选择标识符为“政治”的敏感词包作为预设的敏感词包,对用户输入的文本进行敏感词检测;用户输入的文本内容的领域涉及政治与经济领域,则用户采用选择模块选择标识符为“政治”与“经济”的敏感词包作为预设的敏感词包,对用户输入的文本进行敏感词检测。这样,用户可以根据输入的文本内容自主地选择敏感词包,对输入的文本进行敏感词检测,针对性强,误选率低。

其中,预设的敏感词包为有效的敏感词包,即对输入的文本进行敏感词检测的敏感词包,也就是,只有当用户将导入的敏感词包预先设置为有效的敏感词包,才能在敏感词检测时,采用有效的敏感词包中的敏感词对输入的文本进行检测。这样,针对性强,检索量小,检测效率高。

本发明的另一种实施方式涉及一种敏感词编辑器,主要改进之处在于:在本发明第四实施方式中,敏感词过滤器包含检测模块与选择模块,这样,可以根据用户输入的文本内容所属领域与敏感词包上的标识符智能地选择敏感词包,而且只采用与用户输入的文本内容属于相同领域的敏感词包作为预设的敏感词包,对用户输入的文本内容进行敏感词检测,针对性强,检索量小,检测效率高。

具体地说,敏感词过滤器除了包含:提示模块、显示模块与替换模块,还包含检测模块与选择模块。其中,提示模块、显示模块、替换模块与上述实施方式中的相同,在此不做赘述。

检测模块,用于检测用户输入的文本内容的领域;选择模块,用于根据检测模块的检测结果与标识符,选择与用户输入的文本内容的领域匹配的敏感词包作为预设的敏感词包。比如,检测模块若检测到用户输入的文本内容的领域属于政治领域,则选择模块则选择标识符为“政治”的敏感词包作为预设的敏感词包,对用户输入的文本进行敏感词检测;检测模块若检测到用户输入的文本内容的领域涉及政治与经济领域,则选择模块则选择标识符为“政治”与“经济”的敏感词包作为预设的敏感词包,对用户输入的文本进行敏感词检测。这样,智能化程度高,针对性强,效率高。

本发明另一种实施方式涉及一种网页插件,内嵌于网页上,包含上述的敏感词编辑器。本实施方式中的网页插件,是利用敏感词过滤器对文本编辑器中用户编辑的文字进行敏感词检测,迅速锁定文本中包含的敏感词,以供用户根据敏感词检测结果对编辑的文本进行修改,避免使用敏感词,这样,能够使用户在网络上发布信息时更加便利和高效;同时,用户不用自己再安装敏感词编辑器,方便用户发布信息

在这个网络时代,每个人都可以并经常在互联网上发布自己的信息和表达观点,但是,现在各网站对于用户发布的信息都有敏感词的审核,这样,经常造成用户发送消息失败,并且用户在收到发布失败的消息时很难定位究竟是由哪个敏感词造成,这降低了广大网民发布信息的效率,并给广大网民发布信息带来一定的困扰。本发明提供的敏感词编辑器,可以在用户编辑信息时就迅速定位敏感词,使用户在网络上发布信息时更加便利和高效。

在一些实施例中,本发明还提供一种计算机装置、设备或终端,其一个实施例的内部结构可以如图4所示。该计算机装置、设备或终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,处理器用于提供计算和控制能力,存储器包括非易失性存储介质、内存储器。非易失性存储介质存储有操作系统和计算机程序。内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。网络接口用于与外部的终端通过网络连接通信。计算机程序被处理器执行时以实现本发明公开的各种方法、流程、步骤,或者处理器执行计算机程序时实现本发明公开的实施例中各个模块或单元的功能。显示屏可以是液晶显示屏或者电子墨水显示屏,输入装置可以是显示屏上覆盖的触摸层,也可以是外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

示例性的,计算机程序可以被分割成一个或多个模块或单元,这些模块或单元被存储在存储器中,并可由处理器执行,以实现本发明的技术方案。这些模块或单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在装置、设备或终端中的执行过程。

上述的装置、设备或终端可以是桌上型计算机、笔记本、移动电子设备、掌上电脑及云端服务器等计算设备。本领域技术人员应当理解,图中所示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的装置、设备或终端的限定,具体的装置、设备或终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

处理器可以是中央处理单元(Central Processing Unit,CPU),也可以是其他通用或专用的处理器、微处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器是上述的装置、设备或终端的控制中心,利用各种接口和线路连接装置、设备或终端的各个部分。

存储器可用于存储计算机程序、模块和数据,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置、设备或终端的各种功能。存储器可主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;数据存储区可存储根据应用所创建的各类数据(比如多媒体数据、文档、操作历史记录等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程 ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上述的装置或终端设备集成的模块和单元,如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质中。基于这样的理解,本发明实现所公开的各种方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

在一些实施例中,本发明公开的各种方法、流程、模块、装置、设备或系统可以在一个或多个处理装置(例如,数字处理器、模拟处理器、被设计成用于处理信息的数字电路、被设计成用于处理信息的模拟电路、状态机、计算设备、计算机和/或用于以电子方式处理信息的其他机构)中被实现或执行。该一个或多个处理装置可以包括响应于以电子方式存储在电子存储介质上的指令来执行方法的一些或所有操作的一个或多个装置。该一个或多个处理装置可以包括通过硬件、固件和/或软件被配置而专门设计成用于执行方法的一项或多项操作的一个或多个装置。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

本发明的实施方式可以在硬件、固件、软件或其各种组合中进行,还可以作为存储在机器可读介质上的且可以使用一个或多个处理装置读取和执行的指令来实现。在一些实施方式中,机器可读介质可以包括用于存储和/或传输呈机器(例如,计算装置)可读形式的信息的各种机构。例如,机器可读存储介质可以包括只读存储器、随机存取存储器、磁盘存储介质、光存储介质、快闪存储器装置以及用于存储信息的其他介质,并且机器可读传输介质可以包括多种形式的传播信号(包括载波、红外信号、数字信号)以及用于传输信息的其他介质。虽然在执行某些动作的特定示例性方面和实施方式的角度可以在以上公开内容中描述固件、软件、例程或指令,但将明显的是,这类描述仅出于方便目的并且这类动作实际上由机器设备、计算装置、处理装置、处理器、控制器、或执行固件、软件、例程或指令的其他装置或机器产生。

在本申请的权利要求书和说明书中,用来执行指定功能的模块或者使用功能性特征描述的模块,意在涵盖能够执行该功能的任何方式,例如:执行该功能的电路元件的组合,用来执行或实现该功能的软件,或者任何形式的软件、固件、代码及其与适当电路的组合。由各种模块提供的功能被以权利要求书所主张的方式组合在一起,由此应当认为,是可以提供这些功能的任何模块、部件、元件都等价或等效于权利要求书中限定的模块。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

相关技术
  • 一种敏感词自动处理方法和系统
  • 一种敏感词自动过滤管理系统
技术分类

06120112900950