掌桥专利:专业的专利平台
掌桥专利
首页

审核文本的方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 10:48:02


审核文本的方法、装置、电子设备和存储介质

本发明专利申请是申请日为2018年3月26日、申请号为201810253141.2、名称为“审核文本的方法、装置、电子设备和存储介质”的中国发明专利申请的分案申请。

技术领域

本发明实施例涉及文本信息处理技术领域,尤其涉及一种审核文本的方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的不断发展,人们越来越依赖互联网进行各种信息的传播。网络信息传播的一个重要载体便是文本,但是如今网络中充斥了各式各样的不文明用语,遍布于文章、标题、公告、昵称以及弹幕等文本信息中。

由于不同的文本信息所需审核的内容以及审核的严苛程度不同,因此,现有技术中对文章、标题、公告、昵称以及弹幕等文本信息配置了独立且不同的审核流程,且一般针对一种文本信息的审核流程一般不适用于对其他文本信息进行审核。

发明人在实现本发明的过程中,发现现有技术存在如下缺陷:由于对不同的文本信息分别配置独立且不同的审核流程,使得在文本信息的审核过程中,软硬件资源占用率高、工作量大、工作重复率高。

发明内容

有鉴于此,本发明实施例提供了一种审核文本的方法、装置、电子设备和存储介质,以优化现有的文本审核方式,提高对至少两种类型的文本的审核效率。

在第一方面,本发明实施例提供了一种审核文本的方法,包括:

获取两个或两个以上审核需求方发送的文本信息,所述文本信息中包括审核需求方标识和文本内容;

确定所述文本内容中是否包括所述审核需求方标识对应词库中的词语;

如果所述文本内容中包括所述审核需求方标识对应词库中的词语,则执行与所述词库的属性匹配的信息处理策略。

在第二方面,本发明实施例提供了一种审核文本的装置,包括:

信息获取模块,用于获取两个或两个以上审核需求方发送的文本信息,所述文本信息中包括审核需求方标识和文本内容;

内容确定模块,用于确定所述文本内容中是否包括所述审核需求方标识对应词库中的词语;

信息处理策略执行模块,用于如果所述文本内容中包括所述审核需求方标识对应词库中的词语,则执行与所述词库的属性匹配的信息处理策略。

在第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例所述的审核文本的方法。

在第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任一实施例所述的审核文本的方法。

本发明实施例提供了一种审核文本的方法、装置、电子设备和存储介质,通过首先获取两个或两个以上审核需求方发送的文本信息,然后确定获取的文本内容是否包括对应的审核需求方标识对应词库中的词语,如果包括,则执行与词库的属性匹配的信息处理策略,解决了现有技术中使用不同的文本审核方法对不同类型的文本进行审核,导致的在文本审核过程中,软硬件资源占用率高、工作量大以及工作重复率高的技术缺陷,实现了使用同一审核流程对不同类型的文本信息进行高效、准确地审核,大大提高了文本审核的工作效率、减小了文本审核过程中软硬件资源的占用率。

附图说明

图1是本发明实施例一提供的一种审核文本的方法的流程图;

图2是本发明实施例二提供的一种审核文本的方法的流程图;

图3a是本发明实施例三提供的一种审核文本的方法的流程图;

图3b是本发明实施例三提供的一种处罚模板的示意图;

图3c是本发明实施例三提供的一种第一数据格式的示意图;

图4是本发明实施例四提供的一种审核文本的装置的结构图;

图5是本发明实施例五提供的一种电子设备的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。

另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种审核文本的方法的流程图,本实施例的方法可以由审核文本的装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于进行文本审核的电子设备中。本实施例的方法具体包括:

S101、获取两个或两个以上审核需求方发送的文本信息,所述文本信息中包括审核需求方标识和文本内容。

在本实施例中,审核需求方具体是指有文本信息审核需求的业务系统,典型的可以是视频播放类APP(应用程序)、微博平台等。文本信息具体是指包括待审核的文本内容以及审核需求方标识的信息。其中,待审核的文本内容具体可以是弹幕、文章的标题、用户的昵称以及文章内容等。

在本实施例中,审核需求方标识可以用来唯一标识一个审核需求方,也可以用来唯一标识一个审核需求方以及该审核需求方对应的一种待审核文本类型。典型的,所述审核需求方标识可以是审核需求方的名称或审核需求方的编码等。可以理解的是,一个审核需求方对应的待审核文本内容既可以是仅为一种类型的文本内容,也可以是多种类型的文本内容。那么当一个审核需求方对应的待审核文本内容仅为一种类型的文本内容时,该审核需求方一般只对应一组词库,此时,审核需求方标识只需用来唯一标识一个对应的审核需求方即可,在确定审核需求方之后,就可确定对待审核文本内容进行审核时应使用的词库;当一个审核需求方对应的待审核文本内容为多种类型的文本内容时,该审核需求方可能会对应多组词库,每一种词库对应一种待审核文本类型,此时,审核需求方标识需要用来同时标识该审核需求方以及该审核需求方对应的一种待审核文本类型,在确定审核需求方以及当前待审核文本内容的类型之后,才可确定对待审核文本内容进行审核时应使用的词库。当然,如果一个审核需求方所对应的多种待审核文本类型所对应的词库均相同,那么此时,审核需求方标识只需用来唯一标识一个审核需求方即可。

在本实施例中,所获取的文本信息是两个或两个以上的审核需求方发送的,该文本信息既可以是相同类型的文本信息,也可以是不同类型的文本信息,也就是说,本实施例中的审核文本的方法可以同时与两个或两个以上的审核需求方对接进行文本审核,且可以同时审核两种或两种以上不同类型的文本内容。

S102、确定文本内容中是否包括审核需求方标识对应词库中的词语。

在本实施例中,词库具体是指与一个审核需求方标识相对应的,或与一个审核需求方标识对应的一种待审核文本类型相对应的词语的集合,词库中的词语具体用于对审核需求方发送的文本信息中的文本内容进行审核。与一个审核需求方标识或一个审核需求方标识对应的一种待审核文本类型相对应的词库具体可以是一个词库,也可以是一组词库。当与一个审核需求方标识或一个审核需求方标识对应的一种待审核文本类型相对应的词库为一组词库时,该一组词库中的任意两个词库不会包括有相同的词语。另外,不同的审核需求方标识对应的词库既可以相同,也可以不同。

进一步地,在本实施例中,词库具有自身的属性,词库的属性用于确定包括该词库中词语的文本内容的处理方式。举例而言,如果词库的属性为拦截,那么包括该词库中词语的文本内容应进行拦截;如果词库的属性为审核,那么包括该词库中词语的文本内容应进行进一步审核。

进一步地,如果与一个审核需求方标识或一个审核需求方标识对应的一种待审核文本类型相对应的词库为一组词库,即多个词库,那么该多个词库一般来说应具有不同的属性。与一个审核需求方标识对应的多种待审核文本类型相对应的词库的属性可以相同。

在本实施例中,确定文本内容中是否包括审核需求方标识对应词库中的词语的方法具体可以是将文本内容与审核需求方标识对应词库中的词语一一进行匹配,如果审核需求方标识对应的词库为一组词库时,可以按照任意顺序选取该一组词库中的不同词库与文本内容进行匹配,也可以按照与词库属性对应的设定顺序依次选取该一组词库中的不同词库与文本内容进行匹配。

S103、如果文本内容中包括审核需求方标识对应词库中的词语,则执行与词库的属性匹配的信息处理策略。

在本实施例中,当文本内容包括审核需求方标识对应词库中的词语时,则会依据与词库的属性匹配的信息处理策略对文本内容进行处理。举例而言,当词库的属性为拦截时,则会向审核需求方发送与该文本内容对应的拦截指令;当词库的属性为审核时,则会对该文本内容进行进一步审核,具体可以是进行人工审核等。

本发明实施例一提供了一种审核文本的方法,通过首先获取两个或两个以上审核需求方发送的文本信息,然后确定获取的文本内容是否包括对应的审核需求方标识对应词库中的词语,如果包括,则执行与词库的属性匹配的信息处理策略,解决了现有技术中使用不同的文本审核方法对不同类型的文本进行审核,导致的在文本审核过程中,软硬件资源占用率高、工作量大以及工作重复率高的技术缺陷,实现了使用同一审核流程对不同类型的文本信息进行高效、准确地审核,大大提高了文本审核的工作效率、减小了文本审核过程中软硬件资源的占用率。

实施例二

图2是本发明实施例二提供的一种审核文本的方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,给出了一种将信息处理策略细化为审核或者拦截,将文本信息进一步包括用户举报标识时的审核文本的具体实施方式。

相应的,本实施例的方法具体包括:

S201、通过预先构造的标准接口获取两个或两个以上审核需求方发送的文本信息。

在本实施例中,标准接口具体是指可同时与两个或两个以上的审核需求方进行数据通讯的数据传输协议,标准接口与两个或两个以上审核需求方相关联,且在标准接口中预先定义统一数据传输标准。

可以理解的是,如果与不同的审核需求方进行通讯是所使用的数据传输协议不同,那么不但会增加软硬件的开发和使用成本,同时还不利于提高数据传输效率,因此,本实施例中预先构造了该标准接口,实现了在提高文本信息传输效率的同时,降低软硬件的开发和使用成本。

在本实施例中,文本信息不但包括审核需求方标识和文本内容,同时还包括用户举报标识,该用户举报标识用于表明该文本信息中的文本内容是否已被用户举报。一般来说,审核需求方对信誉较好的用户所发送的文本内容可能不会全部发送至审核文本的装置进行审核,以此来降低运营成本,那么,当信誉较好的用户发送的文本内容中出现不良内容时,该不良内容有可能未经审核就进行了显示,此时,当其他用户发现此不良内容时可能会及时上报审核需求方,此时,审核需求方就会将被其他用户举报的内容发送至审核文本的装置进行审核。

S202、根据用户举报标识确定文本信息是否为用户举报信息,若是,则执行步骤204,若否,则执行步骤203。

在本实施例中,文本内容与审核需求方标识对应的词库的匹配方式是根据包括该文本内容的文本信息中的用户举报标识确定的。

S203、确定文本内容中是否包括审核需求方标识对应的属性为拦截的词库中的词语,若包括,则执行步骤207,若不包括,则执行步骤204。

当根据用户举报标识确定文本信息不是用户举报信息,则先将文本内容与审核需求方标识对应的属性为拦截的词库进行匹配,判断文本内容中是否包括该拦截词库中的词语。

需要说明的是,该属性为拦截的词库应是与审核需求方标识对应的且同时与该文本内容的类型对应的属性为拦截的词库,同样的,步骤204中的属性为审核的词库应是与审核需求方标识对应的且同时与该文本内容的类型对应的属性为审核的词库,本实施例以及其他各实施例中均是如此。

S204、确定文本内容中是否包括审核需求方标识对应的属性为审核的词库中的词语,若是,则执行步骤205,若否,则执行步骤206。

当根据用户举报标识确定文本信息是用户举报信息,则直接将文本内容与审核需求方标识对应的属性为审核的词库进行匹配,判断文本内容中是否包括该审核词库中的词语。

另外,当非用户举报的文本信息中的文本内容不包括与审核需求方标识对应的属性为拦截的词库中的词语时,则进一步将该非用户举报的文本信息中的文本内容与审核需求方标识对应的属性为审核的词库进行匹配,判断该文本内容中是否包括给审核词库中的词语。

S205、显示文本内容,用于工作人员审核文本内容并将审核结果反馈至审核需求方。

在本实施例中,当文本内容包括审核需求方标识对应的属性为审核的词库中的词语时,会将该文本内容进行显示,以使工作人员对该文本内容进行审核。具体而言,在显示文本内容时,可以对文本内容中所包括的审核需求方标识对应的属性为审核的词库中的词语进行标注,例如将该词语标红,或在该词语下面增加下划线等,以使工作人员对该文本内容有更加直观的了解,进而做出更加快速、准确的审核判断。

进一步地,在工作人员对文本内容审核完成之后,会通过标准接口将与文本内容对应的文本信息的审核结果发送至审核需求方,以使审核需求方依据审核结果对该文本信息进行处理操作。

S206、执行与审核需求方标识对应的文本处理方式。

在本实施例中,当文本内容不包括与审核需求方标识对应的任一词库中的词语时,则执行与审核需求方标识对应的文本处理方式。其中,文本处理方式为生成显示指令发送至审核需求方,或显示文本内容,用于工作人员审核文本内容并将审核结果反馈至审核需求方。当审核需求方接收到显示指令之后,即会对该文本内容进行显示。

S207、生成拦截指令发送至审核需求方。

在本实施例中,当确定文本内容中包括审核需求方标识对应的属性为拦截的词库中的词语时,则会生成拦截指令并发送至审核需求方,以使审核需求方对该文本内容进行拦截操作。

本发明实施例提供了一种审核文本的方法,具体化了与词库的属性匹配的信息处理策略,依据词库的属性可以确定文本内容的处理方式为拦截、人工审核或显示,实现了快速、简便、准确地确定文本内容的处理方式,还具体化了文本信息的获取方式,通过预先构造的标准接口获取文本信息,提高了数据的传输效率、降低了软硬件的开发和使用成本,还具体增加了用户举报标识,依据用户举报标识确定文本内容与词库的匹配过程,使得文本内容的审核流程更加合理、有效。

实施例三

图3a是本发明实施例三提供的一种审核文本的方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,给出了一种先获取并通过公共词库和审核需求词库存储审核需求方对应的原始词库,对文本内容先分词再与以第一数据格式存储在缓存中的词库进行匹配,以及根据审核需求方对应的处罚模板确定文本内容的处罚等级的审核文本的具体实施方式。

相应的,本实施例的方法具体包括:

S301、获取两个或两个以上审核需求方标识对应的原始词库。

可以理解的是,用于对文本内容进行审核的词库内容一般是由审核需求方确定的,审核需求方根据自身的业务类型、业务需求、词语严谨程度的控制的因素来确定词库的内容。

因此,在本实施例中,需要先获取两个或两个以上审核需求方标识对应的原始词库,简言之就是从审核需求方处获取审核需求方自身的词库。

S302、将获取的审核需求方标识对应的原始词库中,所属的词语的类别以及所属的词库的属性均相同的词语存储至公共词库,将获取的审核需求方标识对应的原始词库中未存储至公共词库的词语,存储至与所属的审核需求方标识对应的审核需求词库。

在本实施例中,步骤301所获取的各个原始词库并不是分开独立进行存储的,由于这些词库中会有很大一部分词语是多次重复的,因此,为了节省存储空间,在本实施例中设置了一个公共词库。

首先需要说明的是,在本实施例中,对词库中的词语进行了分类,即一个词库中的所有词语可以属于不同的类别,当然也可以全部属于相同的类别。不同属性的词库可以包括相同的词语类别。

在本实施例中,将获取的所有原始词库(即各个审核需求方标识对应的所有的原始词库)中,所属的词语的类别以及所属的词库的属性均相同的词语存储至公共词库,当然在公共词库中,对所有的词语会按照不同词库属性以及不同词语类别进行分类存储。例如,公共词库中可以对词库属性为拦截,词语类别为封建迷信的所有词语进行整体存储;对词库属性为拦截,、词语类别为一般广告的所有词语进行整体存储;对词库属性为审核,词语类别为封建迷信的所有词语进行整体存储等。

在本实施例中,将获取的审核需求方标识对应的原始词库中未存储至公共词库的词语,存储至与所属的审核需求方标识对应的审核需求词库。与一个审核需求方标识对应的审核需求词库的数量跟该审核需求方标识对应的原始词库的数量是一致的,且是一一对应的。但是,当一个审核需求方标识对应的一个原始词库中的所有词语均划入公共词库时,那么此时该审核需求方标识对应的审核需求词库的数量少于该审核需求方标识对应的原始词库的数量。

S303、获取与两个或两个以上审核需求方标识分别对应的处罚模板。

在本实施例中,审核需求方标识还对应有处罚模板,处罚模板包括与不同处罚等级对应的处罚策略。处罚模板具体用于存储属性为审核的词库中各个词语类别对应的不同的处罚等级和处罚方式,因此,在本实施例中,可以根据词语所属的词语类别确定词语的处罚等级和处罚方式。

图3b为处罚模板的示意图。如图3b所示,处罚模板对应的是审核需求方对应的视频弹幕这一类型的文本内容,处罚模板中未示出词语类别,仅将词语类别对应的违规程度(即处罚等级)进行了显示,图中违规程度为“严重”,该处罚模板同时还对“是否清空”、“是否禁言”等内容进行了一一设定。

可以理解的是,包括词库中词语的文本内容的处罚方式一般是由审核需求方根据自身情况确定的。因此,在本实施例中,处罚模板也是从审核需求方获取的。

S304、获取两个或两个以上审核需求方发送的文本信息。

在本实施例中,审核需求方标识对应的原始词库、处罚模板以及审核需求方发送的文本信息,都可以通过预先设定的标准接口获取,也可以通过不同的接口获取,不同的接口与不同的审核需求方对应。

S305、根据公共词库以及审核需求词库,按照第一数据格式将审核需求方、审核需求方标识对应词库、审核需求方标识对应词库中的词语、词语的类别以及词语的标识之间的关联关系,以及审核需求方标识对应词库中的词语和词语的标识预先存储于缓存空间中。

在本实施例中,在将文本内容与词库中的词语进行匹配之前,会先将词库中的词语以第一数据格式存储至缓存中,以提高词语匹配的速度和效率。

其中,第一数据格式为hash结构的redis缓存格式,包含了审核需求方、审核需求方标识对应词库、审核需求方标识对应词库中的词语、词语的类别以及词语的标识之间的关联关系,以及审核需求方标识对应词库中的词语和词语的标识,以第一数据格式存储的一组数据与审核需求方标识对应的一个词库中的一种类别的词语相对应。其中,词语的标识用来唯一标识一个词语,这里需要注意的是,如果一个词语同时属于公共词库和审核需求词库,或同时属于不同的审核需求词库,那么该词语会具有多个标识,根据不同的标识可以准确确定该词语所属的词语类别和词库属性。

如图3c所示,在第一数据格式中,审核需求方标识、审核需求方标识对应词库的标识以及审核需求方标识对应词库中的词语的类别标识为hash结构的redis缓存格式的key值;与审核需求方标识、审核需求方标识对应词库的标识以及审核需求方标识对应词库中的词语的类别标识对应的所有词语和该所有词语的标识分别为hash结构的redis缓存格式的field值和value值。

S306、使用分词词库对文本内容进行分词处理。

在本实施例中,在文本内容与词库中的词语匹配之前,会先使用分词词库对文本内容进行分词处理。其中,分词词库包括与两个或两个以上审核需求方标识对应的全部词库,分词词库中词语的类型包括中文词、中文词组、英文单词、英文词组和英文缩写。可见,分词词库中的词语不包括单独的中文字或者单独的英文字母,因此,根据分词词库对文本内容进行分词的分词结果中所包括的单独的中文字或者单独的英文字母均不是分词词库中的词语。

进一步地,在对文本内容进行分词之前也可以将分词词库存储至缓存中,然后直接调取缓存中存储的分词词库中的词语对文本内容进行分词处理,这样可以大大提高分词的速度。

S307、确定文本内容的分词结果中,词语类型与分词词库中词语的类型相同的分词结果是否包括以第一数据格式存储的审核需求方标识对应的属性为拦截的词库中的词语,若包括,则执行步骤312,若不包括,则执行步骤308。

以审核需求方发送的文本信息为中文为例。基于步骤306中的内容可知,在本实施例中,文本内容的分词结果中除了单独的中文字,其余词语的类型均应与分词词库中词语的类型相同。因此,本步骤实际上是确定文本内容的分词结果中,除单独的中文字以外的词语是否包括以第一数据格式存储的审核需求方标识对应的属性为拦截的词库中的词语。也就是说,本实施例中,不会将分词结果中单独的中文字与词库中的词语进行匹配,大大提高了匹配的效率和速度。

在本实施例中,文本内容的分词结果与以第一数据格式存储的审核需求方标识对应的属性为拦截的词库中的词语进行匹配的过程为:首先查找以第一数据格式存储的且满足以下两个条件的各组数据,第一个条件为审核需求方标识与该文本内容对应的审核需求方标识相同的,第二个条件为词库的标识属于属性为审核的词库的标识;然后,将文本内容的分词结果中一个非单独中文字的分词结果与所选取的一组数据中的词语逐一进行匹配,若没有匹配到相同的词语,则继续与所选取的另一组数据中词语逐一进行匹配,直至匹配到相同的词语,或直至完成与所有选取的数据的匹配。

S308、确定文本内容的分词结果中,词语类型与分词词库中词语的类型相同的分词结果是否包括以第一数据格式存储的审核需求方标识对应的属性为审核的词库中的词语,若包括,则执行步骤309,若不包括,则执行步骤311。

同样地,在本实施例中,确定文本内容的分词结果中,词语类型与分词词库中词语的类型相同的分词结果是否包括以第一数据格式存储的审核需求方标识对应的属性为审核的词库中的词语,就是确定文本内容的分词结果中,除单独的中文字和单独的英文字母以外的词语是否包括以第一数据格式存储的审核需求方标识对应的属性为审核的词库中的词语。步骤S08中的匹配过程与步骤307中的匹配过程相似,在此不再进行详细阐述。

S309、根据文本内容中所包括的词库中的词语的类别以及审核需求方标识对应的处罚模板,确定与文本内容对应的处罚等级。

在本实施例中,当文本内容的分词结果中包括审核需求方标识对应的属性为审核的词库中的词语时,则可以根据文本内容的分词结果中所包括的审核需求方标识对应的属性为审核的词库中的词语的类别以及审核需求方标识对应的处罚模板,确定与文本内容对应的处罚等级。

示例性的,文本内容的分词结果为“你,好,XX”,其中,“XX”一词与审核需求方标识对应的属性为审核的词库中的词语“XX”相同,并且“XX”一词的类别属于侮辱性用语,与该审核需求方标识对应的处罚模板中“侮辱性用语”这一词语类别对应的处罚等级为“严重”,则确定“你好XX”的处罚等级为“严重”。

S310、将文本内容中所包括的词库中的词语、文本内容以及文本内容对应的处罚等级进行显示,用于工作人员审核文本内容并将审核结果反馈至审核需求方。

在本实施例中,在将文本内容显示给工作人员进行审核,会同时将文本内容中所包括的词库中的词语、文本内容以及文本内容对应的处罚等级进行显示,以帮助审核人员做出正确的审核决定。

S311、执行与审核需求方标识对应的文本处理方式。

S312、生成拦截指令发送至审核需求方。

本发明实施例提供了一种审核文本的方法,具体增加了对文本内容的分词过程,并将文本内容与词库的匹配过程具体化为文本内容的分词结果与词库的匹配过程,同时还具体增加了以第一数据格式将与审核需求方标识对应的词库存储至缓存的过程,大幅提高了文本内容与词库匹配速度和效率,还具体增加了原始词库的获取和存储过程,使得在实现同时对多个审核需求方发送的文本信心进行有效审核的同时,尽量提高自身数据的存储效率,还具体化了工作人员审核时显示的内容,同时增加了处罚模板的获取过程,使得工作人员可以更好地掌握文本内容的违规情况。

实施例四

图4是本发明实施例四提供的一种审核文本的装置的结构图。如图4所示,所述装置包括:信息获取模块401、内容确定模块402以及信息处理策略执行模块403,其中:

信息获取模块401,用于获取两个或两个以上审核需求方发送的文本信息,文本信息中包括审核需求方标识和文本内容;

内容确定模块402,用于确定文本内容中是否包括审核需求方标识对应词库中的词语;

信息处理策略执行模块403,用于如果文本内容中包括审核需求方标识对应词库中的词语,则执行与词库的属性匹配的信息处理策略。

本发明实施例提供了一种审核文本的装置,该装置先通过信息获取模块401获取两个或两个以上审核需求方发送的文本信息,然后通过内容确定模块402确定文本内容中是否包括审核需求方标识对应词库中的词语,如果文本内容中包括审核需求方标识对应词库中的词语,则最后通过信息处理策略执行模块403执行与词库的属性匹配的信息处理策略。

该审核文本的装置,解决了现有技术中使用不同的文本审核方法对不同类型的文本进行审核,导致在文本审核过程中,软硬件资源占用率高以及工作量大、工作重复率高的技术缺陷,实现了使用同一审核流程对不同类型的文本信息进行高效、准确地审核,大大提高了文本审核的工作效率、减小了文本审核过程中软硬件资源的占用率。

在上述各实施例的基础上,信息处理策略执行模块403可以包括:

审核策略执行单元,用于如果文本内容中包括词库中的词语,且词库的属性为审核,则显示文本内容,用于工作人员审核文本内容并将审核结果反馈至审核需求方;

拦截策略执行单元,用于如果文本内容中包括词库中的词语,且词库的属性为拦截,则生成拦截指令发送至审核需求方;

设定策略执行单元,用于如果所述文本内容中不包括所述词库中的词语,则执行与所述审核需求方标识对应的文本处理方式;其中,所述文本处理方式为生成显示指令发送至所述审核需求方,或显示所述文本内容,用于所述工作人员审核所述文本内容并将审核结果反馈至所述审核需求方。

在上述各实施例的基础上,信息获取模块401具体可以用于:

通过预先构造的标准接口获取两个或两个以上审核需求方发送的文本信息;

其中,标准接口与两个或两个以上审核需求方相关联,且在标准接口中预先定义统一数据传输标准。

在上述各实施例的基础上,文本信息中还可以包括:用户举报标识;

审核文本的装置,还可以包括:

用户举报信息确定模块,用于在确定文本内容中是否包括审核需求方标识对应词库中的词语之前,根据用户举报标识确定文本信息是否为用户举报信息;

内容确定模块402可以包括:

第一内容确定单元,用于如果文本信息不是用户举报信息,则首先确定文本内容中是否包括审核需求方标识对应的属性为拦截的词库中的词语,若文本内容中不包括审核需求方标识对应的属性为拦截的词库中的词语,则继续确定文本内容中是否包括审核需求方标识对应的属性为审核的词库中的词语;

第二内容确定单元,用于如果文本信息是用户举报信息,则仅确定文本内容中是否包括审核需求方标识对应的属性为审核的词库中的词语。

审核文本的装置,还可以包括:

分词模块,用于在确定文本内容中是否包括审核需求方标识对应词库中的词语之前,使用分词词库对文本内容进行分词处理,其中,分词词库包括与两个或两个以上审核需求方标识对应的全部词库,分词词库中词语的类型包括中文词、中文词组、英文单词、英文词组和英文缩写;

内容确定模块402具体可以用于:

确定文本内容的分词结果中,词语类型与分词词库中词语的类型相同的分词结果是否包括审核需求方标识对应词库中的词语。

审核文本的装置,还可以包括:

数据存储模块,用于在确定文本内容中是否包括审核需求方标识对应词库中的词语之前,按照第一数据格式将审核需求方、审核需求方标识对应词库、审核需求方标识对应词库中的词语、词语的类别以及词语的标识之间的关联关系,以及审核需求方标识对应词库中的词语和词语的标识预先存储于缓存空间中,以第一数据格式存储的一组数据与审核需求方标识对应的一个词库中的一种类别的词语相对应;

其中,第一数据格式为hash结构的redis缓存格式,审核需求方标识、审核需求方标识对应词库的标识以及审核需求方标识对应词库中的词语的类别标识为hash结构的redis缓存格式的key值;与审核需求方标识、审核需求方标识对应词库的标识以及审核需求方标识对应词库中的词语的类别标识对应的所有词语和该所有词语的标识分别为hash结构的redis缓存格式的field值和value值;

内容确定模块402具体可以用于:

确定文本内容的分词结果中,词语类型与分词词库中词语的类型相同的分词结果是否包括以第一数据格式存储的审核需求方标识对应词库中的词语。

审核文本的装置,还可以包括:

词库获取模块,用于在获取两个或两个以上审核需求方发送的文本信息之前,获取两个或两个以上审核需求方标识对应的原始词库;

词库存储模块,用于将获取的审核需求方标识对应的原始词库中,所属的词语的类别以及所属的词库的属性均相同的词语存储至公共词库;将获取的审核需求方标识对应的词库中未存储至公共词库的词语,存储至与所属的审核需求方标识对应的审核需求词库;

数据存储模块具体可以用于:

根据公共词库以及审核需求词库,按照第一数据格式将审核需求方、审核需求方标识对应词库、审核需求方标识对应词库中的词语、词语的类别以及词语的标识之间的关联关系,以及审核需求方标识对应词库中的词语和词语的标识预先存储于缓存空间中。

审核策略执行单元可以包括:

处罚等级确定子单元,用于如果文本内容中包括词库中的词语,且词库的属性为审核,则根据文本内容中所包括的词库中的词语的类别以及审核需求方标识对应的处罚模板,确定与文本内容对应的处罚等级;

审核数据显示子单元,用于将文本内容中所包括的词库中的词语、文本内容以及文本内容对应的处罚等级进行显示,用于工作人员审核文本内容并将审核结果反馈至审核需求方;

其中,处罚模板包括与不同处罚等级对应的处罚策略。

审核文本的装置,还可以包括:

处罚模板获取模块,用于在获取两个或两个以上审核需求方发送的文本信息之前,获取与两个或两个以上审核需求方标识分别对应的处罚模板。

本发明实施例所提供的审核文本的装置可用于执行本发明任意实施例提供的审核文本的方法,具备相应的功能模块,实现相同的有益效果。

实施例五

图5为本发明实施例五提供的一种电子设备的结构示意图,如图5所示,该电子设备包括处理器50、存储器51、输入装置52和输出装置53;电子设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;电子设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的审核文本的方法对应的模块(例如,信息获取模块401、内容确定模块402以及信息处理策略执行模块403)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的审核文本的方法。

存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种审核文本的方法,该方法包括:

获取两个或两个以上审核需求方发送的文本信息,所述文本信息中包括审核需求方标识和文本内容;

确定所述文本内容中是否包括所述审核需求方标识对应词库中的词语;

如果所述文本内容中包括所述审核需求方标识对应词库中的词语,则执行与所述词库的属性匹配的信息处理策略。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的审核文本的方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述审核文本的装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

相关技术
  • 文本审核方法、装置、电子设备及存储介质
  • 审核文本的方法、装置、电子设备和存储介质
技术分类

06120112685621