掌桥专利:专业的专利平台
掌桥专利
首页

一种内容检测方法、系统、存储介质和电子设备

文献发布时间:2024-04-18 20:01:23


一种内容检测方法、系统、存储介质和电子设备

技术领域

本申请涉及计算机技术领域,特别涉及一种内容检测方法、系统、存储介质和电子设备。

背景技术

互联网上每日发布海量内容,随着时代发展和AIGC(Artificial IntelligenceGenerated Content,指利用人工智能技术生成内容的能力)的兴起,在传统的图文内容以上,音视频、直播、弹幕等内容形式的兴起,对于内容审核的挑战日益增大。

在风险和用户体验双重重压之下,仅依赖人工审核很难覆盖当前海量内容检测,使用机器审核并初步过滤风险内容才是最优的选择。但当前机器审查的审查标准单一,且随着用户内容不断试图规避审查,审查准确度较低。

发明内容

本申请的目的是提供一种内容检测方法、系统、存储介质和电子设备,应用不同业务场景对应的机器检测策略,结合适配不同供应商的供应商处理器以及内容类型处理器,能适配不同场景下的内容审核,提高问题排查效率。

为解决上述技术问题,本申请提供一种内容检测方法,具体技术方案如下:

获取客户端上传的包含业务场景的用户内容信息;

确定所述业务场景对应的机器检测策略;

构建所述机器检测策略对应的内容类型处理器和供应商处理器;

调用所述内容类型处理器和所述供应商处理器向供应商的算法接口发起对所述用户内容信息的检测请求;

在所述供应商返回检测结果后,基于所述机器检测策略中的阈值组装各所述检测结果,得到内容识别结果。

可选的,所述确定所述业务场景对应的机器检测策略包括:

利用扩展预留接口和多级缓存确定所述业务场景对应的机器检测策略。

可选的,所述构建所述机器检测策略对应的内容类型处理器和供应商处理器包括:

对所述机器检测策略在内存中进行解析转换,创建对应的内容类型处理器;

读取所述机器检测策略中各所述供应商的算法能力,根据所述算法能力创建对应的供应商处理器。

可选的,所述构建所述机器检测策略对应的内容类型处理器和供应商处理器之后,还包括:

编排各所述供应商处理器,形成处理器链条;

利用适配器封装各所述供应商处理器对应的请求参数;所述请求参数用于向所述供应商的算法接口发起对所述用户内容信息的检测请求。

可选的,基于所述机器检测策略中的阈值组装各所述检测结果,得到内容识别结果包括:

确定所述检测结果中的标签和分数;所述标签为所述用户内容信息的类别标签,所述分数用于反馈所述用户内容信息属于对应标签的可能性;

取满足所述机器检测策略中的阈值中的最大分数对应的标签作为所述用户内容信息的判定类别,作为内容识别结果。

可选的,在所述供应商返回检测结果后,基于所述机器检测策略中的阈值组装各所述检测结果,得到内容识别结果之后,还包括:

将所述内容识别结果异步发送至存储服务;所述存储服务用于将所述内容识别结果实时写入至搜索数据分析引擎;所述搜索数据分析引擎用于提供实时内容检测结果。

可选的,将所述内容识别结果异步发送至存储服务时,还包括:

将所述内容识别结果离线发送至数据组;所述数据组用于执行所述用户内容信息和所述内容识别结果之间映射关系的标注和模型训练。

本申请还提供一种内容检测系统,包括:

内容获取模块,用于获取客户端上传的包含业务场景的用户内容信息;

检测策略确定模块,用于确定所述业务场景对应的机器检测策略;

处理器构建模块,用于构建所述机器检测策略对应的内容类型处理器和供应商处理器;

内容检测模块,用于调用所述内容类型处理器和所述供应商处理器向供应商的算法接口发起对所述用户内容信息的检测请求;

内容识别模块,用于在所述供应商返回检测结果后,基于所述机器检测策略中的阈值组装各所述检测结果,得到内容识别结果。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种内容检测方法,包括:获取客户端上传的包含业务场景的用户内容信息;确定所述业务场景对应的机器检测策略;构建所述机器检测策略对应的内容类型处理器和供应商处理器;调用所述内容类型处理器和所述供应商处理器向供应商的算法接口发起对所述用户内容信息的检测请求;在所述供应商返回检测结果后,基于所述机器检测策略中的阈值组装各所述检测结果,得到内容识别结果。

本申请通过引入机器检测策略,可适配不同的业务场景,能够支撑多种复杂的业务场景。同时,可实现机器检测策略的自动化配置,无需开发重复投入人力,可快速完成模型和业务的快速接入。结合内容类型处理器和供应商处理器,可引入多个第三方供应商辅助进行内容识别,可提供多家外部供应商以及多内容类型的自研算法的快速接入能力。

本申请还提高一种内容检测系统、存储介质和电子设备,具有上述有益效果,此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种内容检测方法的流程图;

图2为本申请实施例所提供的一种内容检测系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参考图1,图1为本申请实施例所提供的一种内容检测方法的流程图,该方法包括:

S101:获取客户端上传的包含业务场景的用户内容信息;

S102:确定所述业务场景对应的机器检测策略;

S103:构建所述机器检测策略对应的内容类型处理器和供应商处理器;

S104:调用所述内容类型处理器和所述供应商处理器向供应商的算法接口发起对所述用户内容信息的检测请求;

S105:在所述供应商返回检测结果后,基于所述机器检测策略中的阈值组装各所述检测结果,得到内容识别结果。

本申请实施例作为机审系统的服务层,可包含内容识别、离线/实时数据处理的存储服务,以及音频视频等异步处理任务的回调服务,由于各项服务的请求流量较大,为了保证容错性,服务层可分别部署在不同的服务器上。同时,本申请实施例亦可以作为一个内容检测模型部署在不同服务器上,以实现用户内容检测。

首先需要获取客户端上传的用户内容信息。该客户端主要为用户终端,例如手机、平板,也可以为电脑端。该用户内容信息主要包含帖子、图文等信息,需要说明的是,为了适配后文的机器检测策略,该用户内容信息中至少包含其业务场景。该业务场景指用户内容信息的发布场景,包括但不限于动态发布、评论,以及私聊、聊天室等场景。

此后需要进一步确定业务场景对应的机器检测策略。具体的,在确定用户内容信息对应的业务场景后,即可读取相应业务场景下的机器检测策略。本实施例默认在执行机器检测前,已生成相应的机器检测策略。而对于机器检测策略的具体生成方式和存储信息不作限定。例如,可以从数据库或者缓存中读取机器检测策略。

一种可行的执行方式中,为了适配大流量场景下快速读取机器检测策略的需求,可以利用扩展预留接口和多级缓存确定所述业务场景对应的机器检测策略。例如,可以通过Spring框架提供的扩展点机制,以及借助Redis和Caffiene组件自定义的多级缓存。扩展点机制指可用于二次开发的预留接口,便于快速获取机器检测策略。多级缓存可以在数据初次读取时,会优先从一级缓存(本地缓存-Caffiene)读取数据,若获取到直接返回;若获取失败,再从二级缓存(Redis)读取数据,若获取到直接返回;若获取失败,从数据库读取数据,然后更新一级缓存和二级缓存,进行业务操作。同时在数据更新时,采用消息队列,异步更新数据,以保证数据库数据和缓存数据的数据一致性。

此后,需要构建内容类型处理器和供应商处理器,具体的,可以对机器检测策略在内存中进行解析转换,创建对应的内容类型处理器。通过读取机器检测策略中各所述供应商的算法能力,根据所述算法能力创建对应的供应商处理器。内容类型处理器和供应商处理器之间并无既定的构建顺序关系,在本申请的其他实施例中,可以采用其他构建顺序,并不影响本申请实施例的技术效果。需要注意的是,本实施例中的内容类型处理器和供应商处理器,并非为实体硬件,而分别是对业务和供应商的抽象概念。例如,每检测到一个事件类型,可构建一个对应内容类型处理器,此后即可基于该内容类型处理器对该类型事件的用户内容信息进行快速识别。而供应商处理器可以适配不同供应商推出的内容检测引擎,以解决单一内容检测引擎检测精度不足的缺陷。

一种可行的实施方式中,为了整理所构建的供应商处理器,可以编排各所述供应商处理器,形成处理器链条,再利用适配器封装各所述供应商处理器对应的请求参数。该请求参数用于向供应商的算法接口发起对所述用户内容信息的检测请求。同理,也可以整理内容类型处理器,生成另一条处理器链条。也可以同时整理内容类型处理器和供应商处理器,生成一条处理器链条。通过形成处理器链条,便于对构建得到的内容类型处理器和供应商处理器进行管理,此后在进行内容检测识别时,可直接将用户内容信息发送至处理器链条,在处理器链条内依次由各处理器进行处理、识别。

供应商处理器用于向供应商的算法接口发起对所述用户内容信息的检测请求,需要说明的是,该供应商指所有可提供内容检测引擎的企业、机构等,亦包含构建机审系统的服务层的公司本身。且执行内容检测时,可以经由至少一个供应商处理器处理。具体的,可先由内容类型处理器进行内容类型识别检测,并根据各供应商处理器的擅长处理的内容类型判定所采用的处理器供应商。或者根据内容类型处理器识别的内容类型,交由供应商处理器进行内容类型参考,以提高内容检测效率。

每个供应商处理器向供应商的算法接口发起对所述用户内容信息的检测请求后,均可以得到一个相应的检测结果。该检测结果主要包含标签和分数。标签为用户内容信息的类别标签,分数用于反馈所述用户内容信息属于对应标签的可能性。

此后,根据业务场景对应的机器检测策略中的阈值对各检测结果进行组装。组装过程中主要用于剔除不满足阈值的检测结果。此时取满足机器检测策略中的阈值中的最大分数对应的标签作为用户内容信息的判定类别,作为内容识别结果。容易理解的是,不同业务场景下,对应的机器检测策略不同,其对应的阈值相应也可存在差异。

可见,本申请实施例通过引入机器检测策略,适配不同的业务场景,能够支撑多种复杂的业务场景,特别是涉及图片,文本,音频,视频,音频流,视频流常见6种内容类型以及多内容类型混合送审的情况。同时,可实现机器检测策略的自动化配置,无需开发重复投入人力,可快速完成模型和业务的快速接入。结合内容类型处理器和供应商处理器,可引入多个第三方供应商辅助进行内容识别,可提供多家外部供应商以及多内容类型的自研算法的快速接入能力。

此外,若利用扩展预留接口和多级缓存确定所述业务场景对应的机器检测策略,引入多级缓存,可保证用户内容信息执行内容检测过程中的中间数据稳定流转,以满足大流量场景下快速读取机器检测策略的应用需求。

在上述实施例的基础上,本申请实施例进一步对如何配置机器检测策略进行说明。

本实施例可应用于机审系统的平台层。平台层主要包括机审能力超市、机器检测策略配置和机审记录等,可以安装在一台服务器上。机审能力超市指可以采用的机审方式,包括但不限于C-V模型、机审规则、敏感词检测、NLP模型等等。

在接入业务时,对业务场景进行增删改查,并配置机器检测策略。在此过程中,可生成风险标签。具体,可以根据业务场景、渠道、模型标识、模型标签和机审结果生成风险标签。渠道指本公司或者其他供应商提供的渠道,以实现内容检测,模型标识指http接口的编码,模型标签指对风险事件的打标,包括但不限于色情、暴恐等。机审结果主要包含通过、嫌疑和拒绝,作为对内容检测的结果。

此外,在平台层,还可以进行算法能力的编排等功能性需求,和数据多级缓存非功能性需求。

特别的,在配置机器检测策略前,接入不同供应商的机器检测算法,可实现风险标签的自动生成,编排不同机器检测算法形成的多算法能力的构成甘道夫。甘道夫指依赖于其他模型的能力形成由自身新创建的能力。

为了适配不同业务场景,配置机器检测策略时,还可以进一步根据业务场景的流量实现机器检测策略的流量配比。

在上述实施例的基础上,在得到内容识别结果后,可以将所述内容识别结果异步发送至存储服务。存储服务用于将内容识别结果实时写入至搜索数据分析引擎,以提供实时内容检测结果。同时,还可以将内容识别结果离线发送至数据,以执行用户内容信息和所述内容识别结果之间映射关系的标注和模型训练。

具体的,将最终的内容识别结果,通过Kafka和RocketMQ异步的将消息发送给存储服务,在存储服务中,通过消费消息,进行消息内容的再加工,然后将数据实时的写入到ElasticSearch中,并基于写入到ElasticSearch的数据,提供实时的机审记录查询功能。

在实时记录写入ElasticSearch的同时,也会在通过Kafka发送一份数据到数据组,进行离线存储,可用于后续自研模型的训练,数据标注,业务回查。

本实施例实现了业务接入即完成送审的用户内容信息的处理记录存储,提供离线+实时数据双引擎,提高问题排查效率,降低人耗。通过在线存储和离线存储可完成百亿级的数据积累,辅以大屏,报表,趋势波动增强风险感知能力。而离线存储可以方便模型接入后的效果评估,可进一步提供数据反哺优化内容检测模型。

下面对本申请实施例提供的内容检测系统进行介绍,下文描述的内容检测系统与上文描述的内容检测方法可相互对应参照。

参见图2,图2为本申请实施例所提供的一种内容检测系统结构示意图,本申请还提供一种内容检测系统,包括:

内容获取模块,用于获取客户端上传的包含业务场景的用户内容信息;

检测策略确定模块,用于确定所述业务场景对应的机器检测策略;

处理器构建模块,用于构建所述机器检测策略对应的内容类型处理器和供应商处理器;

内容检测模块,用于调用所述内容类型处理器和所述供应商处理器向供应商的算法接口发起对所述用户内容信息的检测请求;

内容识别模块,用于在所述供应商返回检测结果后,基于所述机器检测策略中的阈值组装各所述检测结果,得到内容识别结果。

基于上述实施例,作为优选的实施例,检测策略确定模块为用于利用扩展预留接口和多级缓存确定所述业务场景对应的机器检测策略的模块。

基于上述实施例,作为优选的实施例,处理器构建模块包括:

内容处理器构建单元,用于对所述机器检测策略在内存中进行解析转换,创建对应的内容类型处理器;

供应商处理器构建单元,用于读取所述机器检测策略中各所述供应商的算法能力,根据所述算法能力创建对应的供应商处理器。

基于上述实施例,作为优选的实施例,还包括:

处理器编排模块,用于编排各所述供应商处理器,形成处理器链条;利用适配器封装各所述供应商处理器对应的请求参数;所述请求参数用于向所述供应商的算法接口发起对所述用户内容信息的检测请求。

基于上述实施例,作为优选的实施例,内容识别模块包括:

结果识别单元,用于确定所述检测结果中的标签和分数;所述标签为所述用户内容信息的类别标签,所述分数用于反馈所述用户内容信息属于对应标签的可能性;

阈值检测单元,用于取满足所述机器检测策略中的阈值中的最大分数对应的标签作为所述用户内容信息的判定类别,作为内容识别结果。

基于上述实施例,作为优选的实施例,还包括:

在线存储模块,用于将所述内容识别结果异步发送至存储服务;所述存储服务用于将所述内容识别结果实时写入至搜索数据分析引擎;所述搜索数据分析引擎用于提供实时内容检测结果。

基于上述实施例,作为优选的实施例,还包括:

离线存储模块,用于将所述内容识别结果离线发送至数据组;所述数据组用于执行所述用户内容信息和所述内容识别结果之间映射关系的标注和模型训练。

本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

技术分类

06120116551191