一种内容审核方法、装置和设备

文献发布时间：2023-06-19 11:05:16

技术领域

本申请涉及内容审核技术领域，尤其涉及一种内容审核方法、装置和设备。

背景技术

随着当今网络环境的发展，工作、生活重心的偏移，繁杂的信息充斥于绝大多数网络服务。正面的内容对业务正常运转必不可少，但负面或违规的内容，不仅可能影响正常业务运转，甚至可能造成严重信安风险，遭受监管部门处罚。内容审核，对于绝大部分互联网服务是必不可少的过滤器与防火墙。内容审核能力可以保障正常业务有序运转，信息交互稳定展开；也能禁止风险信息传播，避免违禁内容渗透污染。

现有技术通常通过后台审核人员对待审核内容进行人工审核，在审核量较大时，审核速度慢。因此，提供一种高效的内容审核方法是本领域技术人员亟需解决的技术问题。

发明内容

本申请提供了一种内容审核方法、装置和设备，用于解决现有技术采用人工审核方法，存在审核速度慢的技术问题。

有鉴于此，本申请第一方面提供了一种内容审核方法，包括：

获取到待审核内容中的待审核文件后，计算所述待审核文件的MD5值；

将所述待审核文件的MD5值与预置MD5库中的MD5值进行匹配，将所述待审核文件的MD5值匹配到的所述预置MD5库中的MD5值对应的审核结果作为所述待审核文件的第一审核结果，通过AI审核模型对匹配失败的所述待审核文件进行审核，得到第二审核结果；

当所述第一审核结果或所述第二审核结果为疑似时，通过人工审核疑似的所述待审核文件得到第三审核结果。

可选的，所述通过AI审核模型对匹配失败的所述待审核文件进行审核，得到第二审核结果，包括：

通过AI审核模型对匹配失败的所述待审核文件进行审核，得到匹配失败的所述待审核文件的违规类别和违规置信度分数；

根据所述违规类别、所述违规置信度分数和所述AI审核模型的审核阈值确定匹配失败的所述待审核文件的第二审核结果。

可选的，所述当所述第一审核结果或所述第二审核结果为疑似时，通过人工审核疑似的所述待审核文件得到第三审核结果，之后还包括：

获取当前审核周期内的所述待审核文件的审核结果，所述审核结果包括所述第一审核结果、所述第二审核结果和所述第三审核结果；

根据所述审核结果计算当前审核周期内的违规文件量波动信息；

根据所述违规文件量波动信息判断是否收缩所述AI审核模型的审核阈值，若是，则根据预置紧缩比例对所述AI审核模型的审核阈值进行收缩。

可选的，所述方法还包括：

当所述AI审核模型处于审核阈值收缩期间时，对当前审核周期内的所述违规文件量波动信息进行取样，根据得到的取样信息判断是否延长所述AI审核模型的审核阈值的收缩时间。

可选的，所述方法还包括：

在当前审核周期内的所述待审核文件的数量超过预置数量阈值时，修改所述待审核文件的超时时间；

当所述待审核文件超时后，将超时的所述待审核文件的审核状态设置为先发后审状态，直至当前审核周期内的所述待审核文件的数量不超过所述预置数量阈值，对超时的所述待审核文件进行审核。

本申请第二方面提供了一种内容审核装置，包括：

计算单元，用于获取到待审核内容中的待审核文件后，计算所述待审核文件的MD5值；

匹配单元，用于将所述待审核文件的MD5值与预置MD5库中的MD5 值进行匹配，将所述待审核文件的MD5值匹配到的所述预置MD5库中的 MD5值对应的审核结果作为所述待审核文件的第一审核结果，通过AI审核模型对匹配失败的所述待审核文件进行审核，得到第二审核结果；

审核单元，用于当所述第一审核结果或所述第二审核结果为疑似时，通过人工审核疑似的所述待审核文件得到第三审核结果。

可选的，还包括：

获取单元，用于获取当前审核周期内的所述待审核文件的审核结果，所述审核结果包括所述第一审核结果、所述第二审核结果和所述第三审核结果；

第二计算单元，用于根据所述审核结果计算当前审核周期内的违规文件量波动信息；

判断单元，用于根据所述违规文件量波动信息判断是否收缩所述AI审核模型的审核阈值，若是，则根据预置紧缩比例对所述AI审核模型的审核阈值进行收缩。

可选的，还包括：

取样单元，用于当所述AI审核模型处于审核阈值收缩期间时，对当前审核周期内的所述违规文件量波动信息进行取样，根据得到的取样信息判断是否延长所述AI审核模型的审核阈值的收缩时间。

可选的，还包括：

修改单元，用于在当前审核周期内的所述待审核文件的数量超过预置数量阈值时，修改所述待审核文件的超时时间；

设置单元，用于当所述待审核文件超时后，将超时的所述待审核文件的审核状态设置为先发后审状态，直至当前审核周期内的所述待审核文件的数量不超过所述预置数量阈值，对超时的所述待审核文件进行审核。

本申请第三方面提供了一种内容审核设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的内容审核方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种内容审核方法，包括：获取到待审核内容中的待审核文件后，计算待审核文件的MD5值；将待审核文件的MD5值与预置MD5 库中的MD5值进行匹配，将待审核文件的MD5值匹配到的预置MD5库中的MD5值对应的审核结果作为待审核文件的第一审核结果，通过AI审核模型对匹配失败的待审核文件进行审核，得到第二审核结果；当第一审核结果或第二审核结果为疑似时，通过人工审核疑似的待审核文件得到第三审核结果。

本申请中，在获取到待审核文件后，计算待审核文件的MD5值，以与预置MD5库进行匹配，以快速过滤掉已经审核过的类似的文件，减少人工审核的待审核文件数量，提高审核速度；对于匹配失败的待审核文件通过AI审核模型进行自动审核，进一步提高审核速度；对于审核结果为疑似的待审核文件，再进行人工审核，以保证审核结果的准确性，解决了现有技术采用人工审核方法，存在审核速度慢的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种内容审核方法的一个流程示意图；

图2为本申请实施例提供的一种审核阈值划分示意图；

图3为本申请实施例提供的一种风险态势调节过程的一个示意图；

图4为本申请实施例提供的一种压力态势调节过程的一个示意图；

图5为本申请实施例提供的一种各文件类型的超时时长图；

图6为本申请实施例提供的一种内容审核装置的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种内容审核方法的一个实施例，包括：

步骤101、获取到待审核内容中的待审核文件后，计算待审核文件的MD5 值。

待审核内容可以为第三方主动送审的，也可以是用户上传的。审核内容可以分为图片、文本、视频音频、可执行文件、压缩包、其他文件等多种类型。在获取到待审核内容中的待审核文件后，可以通过MD5信息摘要算法计算待审核文件的MD5值，MD5信息摘要算法(MD5 Message-DigestAlgorithm) 为一种被广泛使用的密码散列函数，可以产生出一个128位(16字节)的散列值(hash value)，即MD5值，用于确保信息传输完整一致。

步骤102、将待审核文件的MD5值与预置MD5库中的MD5值进行匹配，将待审核文件的MD5值匹配到的预置MD5库中的MD5值对应的审核结果作为待审核文件的第一审核结果，通过AI审核模型对匹配失败的待审核文件进行审核，得到第二审核结果。

将待审核文件的MD5值与预置MD5库中的MD5值进行匹配，当匹配成功时，将待审核文件的MD5值匹配到的预置MD5库中的MD5值对应的审核结果作为待审核文件的第一审核结果，通过MD5值判定多个文件是否为同一文件的副本，将重复的待审核文件自动处理而不展示给人工审核，减少人工审核工作量，以提高审核速度。

当匹配失败时，通过AI审核模型对匹配失败的待审核文件进行审核，得到第二审核结果。具体的，通过AI审核模型对匹配失败的待审核文件进行审核，得到匹配失败的待审核文件的违规类别和违规置信度分数；根据违规类别、违规置信度分数和AI审核模型的审核阈值确定匹配失败的待审核文件的第二审核结果。

在本申请实施例中，通过AI审核模型对匹配失败的待审核文件进行审核，得到匹配失败的待审核文件的违规类别和违规置信度分数，审核结果包括通过、疑似和不通过。AI审核模型可以为深度学习模型，AI审核模型主要用于审核图片。

在本申请实施例中，AI审核模型的审核阈值划分可以参考图2，当某待审核文件的违规置信度分数处于区间[0，0.45)时，则该待审核文件通过审核；当某待审核文件的违规置信度分数处于区间[0.45，0.8)时，则该待审核文件为疑似违规，需要进一步进行人工审核；当某待审核文件的违规置信度分数处于区间[0.8，1]时，则该待审核文件不通过审核，即该待审核文件为违规文件。其中，AI审核模型的审核阈值可以根据实际情况进行设置。

步骤103、当第一审核结果或第二审核结果为疑似时，通过人工审核疑似的待审核文件得到第三审核结果。

当第一审核结果或第二审核结果为疑似时，通过审核人员人工审核疑似的待审核文件，得到第三审核结果。当然，对于MD5算法和AI审核模型无法审核的待审核文件，也通过人工审核。

进一步，通过AI审核模型和人工审核后得到的审核结果后，可以将待审核文件的MD5值和待审核文件的审核结果存入到预置MD5库中，以更新预置图片MD5库。

本申请实施例中，在获取到待审核文件后，计算待审核文件的MD5值，以与预置MD5库进行匹配，以快速过滤掉已经审核过的类似的文件，减少人工审核的待审核文件数量，提高审核速度；对于匹配失败的待审核文件通过 AI审核模型进行自动审核，进一步提高审核速度；对于审核结果为疑似的待审核文件，再进行人工审核，以保证审核结果的准确性，解决了现有技术采用人工审核方法，存在审核速度慢的技术问题。

以上为本申请提供的一种内容审核方法的一个实施例，以下为本申请提供的一种内容审核方法的另一个实施例。

本申请实施例提供的一种内容审核方法，包括：

步骤201、获取到待审核内容中的待审核文件后，计算待审核文件的MD5 值。

步骤202、将待审核文件的MD5值与预置MD5库中的MD5值进行匹配，将待审核文件的MD5值匹配到的预置MD5库中的MD5值对应的审核结果作为待审核文件的第一审核结果，通过AI审核模型对匹配失败的待审核文件进行审核，得到第二审核结果。

步骤203、当第一审核结果或第二审核结果为疑似时，通过人工审核疑似的待审核文件得到第三审核结果。

步骤201至203的具体内容与前述步骤101至103的具体内容一致，在此不再进行赘述。

步骤204、获取当前审核周期内的待审核文件的审核结果，根据审核结果进行审核态势调节。

在本申请实施例中，获取当前审核周期内的待审核文件的审核结果，审核结果包括第一审核结果、第二审核结果和第三审核结果。可以将各个审核结果统一提交至审核流水数据表中，可以采用定时任务每隔预置时间段查询前预置时间段内审核数据信息(如每隔10分钟查询前10分钟内审核数据信息)，通过数据计算，得到当前势态分析情况。具体的，本申请实施例在获取当前审核周期内的待审核文件的审核结果后，对其进行分析，包括审核量分析和违规量分析两种。

1、审核量分析数据：根据审核量信息，分析当前正常内容审核量、MD5 规则触发量、AI审核各标签触发量、整体送审调用量、各文件类型调用量、平均文件送审量、文件送审量波动占比。

2、违规量分析数据：根据审核结果为违规的数据，分析各文件类型违规量、各种违规标签量、违规数量占比信息。具体如下：

整体送审量＝时间段内提交至平台流水量(近似)；

正常内容量＝结果为正常的审核文件量；

违规内容量＝结果为违规的审核文件量；

违规标签数量＝审核结果为违规，审核标签为各种违规标签的审核文件量；

MD5规则触发量＝审核来源为MD5的审核文件量；

AI审核标签触发量＝审核来源为AI审核的审核文件量；

人工审核标签触发量＝审核来源为人工审核的审核文件量；

文件类型调用量＝区分文件类型(图片、文本、视频、压缩包、系统文件、可执行文件等)调用量，如果第三方提供送审文件类型参数，则直接统计，如未提供，则根据文件下载信息获取文件后缀名，根据后缀名分类文件类型；

文件类型违规信息＝不同文件类型违规量；

文件类型违规占比＝文件类型违规量/文件审核总量；

平均审核量＝前240小时内10分钟审核量平均值；

文件波动比例＝当前10分钟内文件送审量/平均送审量；

文件类型违规占比均值＝前240小时内10分钟各文件类型违规占比平均值；

文件类型违规波动值＝当前10分钟内文件类型违规占比/文件类型违规占比均值。

通过前述分析得到当前势态分析情况，进而进行审核态势调节。审核态势调节包括风险态势调节，风险态势调节的具体过程可以参考图3。具体的，根据审核结果计算当前审核周期内的违规文件量波动信息；根据违规文件量波动信息判断是否收缩AI审核模型的审核阈值，若是，则根据预置紧缩比例对AI审核模型的审核阈值进行收缩。

可以根据审核结果、同类违规文件量变化情况计算各种类型违规文件量变化平均值；然后计算当前审核周期内的违规文件量波动信息(包括MD5违规文件波动、AI违规文件波动、人工审核文件违规波动和文件类别违规量波动，可参考文件类型违规波动的计算过程)，进而根据违规文件量波动信息判断是否收缩AI审核模型的审核阈值，若是，则根据预置紧缩比例对AI审核模型的审核阈值进行收缩。具体的判断依据为：MD5违规文件波动值大于1.1、 AI违规文件波动值大于1.5、人工审核文件违规波动值大于2或文件类别违规量波动值大于1.5，只要符合其中一种情况即收缩AI审核模型的审核阈值。

当判断到需要收缩AI审核模型的审核阈值时，可以在1小时内将其设置为紧缩的审核阈值。具体的，紧缩的审核阈值可以通过AI审核模型的当前审核阈值乘以预置紧缩比例计算得到，紧缩比例默认设置为0.6，紧缩时间默认为1小时。

进一步，当AI审核模型处于审核阈值收缩期间时，对当前审核周期内的违规文件量波动信息进行取样，根据得到的取样信息判断是否延长AI审核模型的审核阈值的收缩时间，判断依据同上，在此不再进行赘述。

例如，系统10分钟平均审核量为8000(含机审过滤)，机审过滤比为75％，图片占分享文件40％，违规占比均值5％；用户大量分享疑似违规文件，在1 小时内分享了300张违规图片。该用户在10分钟内提交超过50张违规内容，人工审核每10分钟审核图片量为8000*75％*40％＝800，正常情况下违规量为 800*5％＝40，用户提交违规内容如果均未被MD5或AI识别，违规图片人工审核违规率将变成11％，违规占比波动大于2，触发调整机制收缩AI审核模型的审核阈值，将审核上下限阈值从0.8/0.45调整为0.8/0.27。

风险态势调节通过态势信息，调节AI审核模型的审核阈值，以实现在某一类型违规内容增加场合自动收缩审核放行阈值，降低漏报风险；当人工审核违规率降低时，增加AI审核放行阈值范围，减少人工审核量。

在审核过程，可能因种种原因不能保证立即审核完成(如突然受到大量待审核内容)，为了保障业务继续运行，需要将部分待审核文件转移审核状态为先发后审。将超过一段时间未审核的文件预先返回审核通过(暂定)标签，并移除待审核列表，等到审核人员度过审核高峰期后，重新执行审核，即实现超时处理功能。

超时处理功能可以将待审核文件移除出待审列表，但这样的操作可能将部分需要审核的文件同样移除。从业务性考虑，不同文件所需的审核时间是不同的；从安全性考虑，如果在短时间内，系统受到恶意攻击，分享大量相似文件，会导致对正常用户提交审核的内容无法及时处理。因此，本申请实施例为不同文件类型的待审核文件设置不同超时时间，具体可以参考图5，且接受审核态势调节功能进行调节，使得不同类型文件具有不同超时时间，最大限度保证正常待审核内容及时审核。

进一步，审核态势调节还包括压力态势调节，压力态势调节的具体过程可以参考图4。具体的，在当前审核周期内的待审核文件的数量超过预置数量阈值时，修改待审核文件的超时时间；当待审核文件超时后，将超时的待审核文件的审核状态设置为先发后审状态，直至当前审核周期内的待审核文件的数量不超过预置数量阈值，对超时的待审核文件进行审核。

本申请实施例通过压力态势调节来解决用户提交大量垃圾文件，影响正常文件审核时效的问题。具体的，检查当前平均调用量信息及当前时段超时调用量信息；如果文件大量并发送审，则修改此类文件超时时间，其中，当前送审量超过平均送审量300％，默认修改超时文件时间有效期为30分钟。文件超时后将从待审核列表中移除，并对业务系统发送暂缓审核，先发后审的消息；如果审核人员发现违规内容提交，启动封堵流程，通过账号等信息封禁账号；如果为正常审核量增加现象，等待高峰期结束后继续审核超时的待审核文件。

进一步，本申请实施例通过势态分析来分辨违规内容的时空聚集性，以及外部恶意攻击的攻击来源风向，主动调整AI审核模型及人工审核各项配置参数，保障正常审核业务的有序运转以及风险内容的高效识别。

以上为本申请提供的一种内容审核方法的另一个实施例，以下为本申请提供的一种内容审核装置的一个实施例。

请参考图6，本申请实施例提供的一种内容审核装置，包括：

计算单元，用于获取到待审核内容中的待审核文件后，计算待审核文件的MD5值；

匹配单元，用于将待审核文件的MD5值与预置MD5库中的MD5值进行匹配，将待审核文件的MD5值匹配到的预置MD5库中的MD5值对应的审核结果作为待审核文件的第一审核结果，通过AI审核模型对匹配失败的待审核文件进行审核，得到第二审核结果；

审核单元，用于当第一审核结果或第二审核结果为疑似时，通过人工审核疑似的待审核文件得到第三审核结果。

可选的，还包括：

获取单元，用于获取当前审核周期内的待审核文件的审核结果，审核结果包括第一审核结果、第二审核结果和第三审核结果；

第二计算单元，用于根据审核结果计算当前审核周期内的违规文件量波动信息；

判断单元，用于根据违规文件量波动信息判断是否收缩AI审核模型的审核阈值，若是，则根据预置紧缩比例对AI审核模型的审核阈值进行收缩。

可选的，还包括：

取样单元，用于当AI审核模型处于审核阈值收缩期间时，对当前审核周期内的违规文件量波动信息进行取样，根据得到的取样信息判断是否延长AI 审核模型的审核阈值的收缩时间。

可选的，还包括：

修改单元，用于在当前审核周期内的待审核文件的数量超过预置数量阈值时，修改待审核文件的超时时间；

设置单元，用于当待审核文件超时后，将超时的待审核文件的审核状态设置为先发后审状态，直至当前审核周期内的待审核文件的数量不超过预置数量阈值，对超时的待审核文件进行审核。

本申请实施例还提供了一种内容审核设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述方法实施例中的内容审核方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：冯天行;周伟祥;吴凯迪;许超;陈培实;李敬昭;
专利申请人：世纪龙信息网络有限责任公司;

上一篇：一种基于计算机控制的电力施工系统
下一篇：一种实现在远程浏览器系统的高速渲染方法