掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明实施例涉及通信技术领域,尤其涉及一种违规数据的检测方法及装置。

背景技术

为净化网络环境,需建立一套不良信息告警分析处置系统,用于加强对网络空间违规内容的监测监管,确保及时对互联网的视频、图文等新媒体内容进行管理,为社会发展营造更加清朗的网络空间。

一般,可通过采用全人工审核的方式对网络空间违规内容进行监测,但根据目前IDC机房数据量,每日图片文字数据约48T,去重后视频数据约为6T,数据量庞大,因此,采用人工审核的方式,需要大量的人力资源进行审核,且时效性非常低。或者,可基于肤色不良信息的检测并结合人工审核方式,对网络空间违规内容进行管理,但由于基于肤色的监测误判率比较高,因此,人工审核量比较大,同样时效性有限,从而无法及时采取相应措施对不良信息进行阻止。

发明内容

本发明实施例提供一种违规数据的检测方法及装置,以解决现有技术中通过人工审核方式对网络违规内容进行管理而导致人工审核量大、时效性低的问题。

为解决上述技术问题,本发明是这样实现的:

第一方面,提供一种违规数据的检测方法,包括:

采集目标检测数据;

将所述目标检测数据输入至数据检测模型,以确定所述目标检测数据是否存在违规数据,所述数据检测模型基于样本检测数据和样本检测数据对应的标签训练得到,所述标签包括违规标签和/或非违规标签;

当预测所述目标检测数据存在违规数据时,对所述目标检测数据进行复审,以基于复审的结果确定所述目标检测数据是否违规。

第二方面,提供一种违规数据的检测装置,包括:

采集单元,用于采集目标检测数据;

检测单元,用于将所述目标检测数据输入至数据检测模型,以确定所述目标检测数据是否存在违规数据,所述数据检测模型基于样本检测数据和样本检测数据对应的标签训练得到,所述标签包括违规标签和/或非违规标签;

复审单元,用于当预测所述目标检测数据存在违规数据时,对所述目标检测数据进行复审,以基于复审的结果确定所述目标检测数据是否违规。

第三方面,还提供一种终端设备,其包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。

在本发明实施例中,违规数据的检测方法通过将采集的目标检测数据输入至数据检测模型中,以通过数据检测模型的输出结果预测该目标检测模型是否存在违规数据,并在预测目标检测数据存在违规数据时,对目标检测数据进行复审,以根据复审的结果确定该目标检测模型是否违规。如此,本发明实施例的检测方法无需通过人工审核的方式对大量数据进行审核,通过将检测数据输入至数据检测模型即可预测该数据是否为违规数据,并且,由于数据检测模型是基于大量样本检测数据和样本检测数据对应的标签训练得到,其检测的准确率很高,可以大大减轻复审的工作量,因此,可以解决现有技术中通过人工审核方式对网络违规内容进行管理而导致人工审核量大、时效性低,从而无法及时做出相应措施对违规内容进行阻止的问题。

附图说明

图1是根据本发明一个实施例的一种违规数据的检测方法的示意性流程图;

图2是根据本发明另一个实施例的一种违规数据的检测方法的示意性流程图;

图3是根据本发明再一个实施例的一种违规数据的检测方法的示意性流程图;

图4是根据本发明一个实施例的获取海量检测数据的示意性原理图;

图5是根据本发明再一个实施例的一种违规数据的检测方法的示意性流程图;

图6是根据本发明一个实施例的分布式文件系统的示意性结构图;

图7是根据本发明一个具体实施例的一种违规数据的检测方法的示意性流程图;

图8是根据本发明一个实施例的一种违规数据的检测装置的示意性结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

以下结合附图,详细说明本发明各实施例提供的技术方案。

一般来说,为净化网络环境,可采用全人工审核方式对网络空间的内容进行监管,但是,根据目前IDC机房数据量,每日的图片文字数据约48T,去重后视频数据约为6T,数据量庞大,因此,若采用人工审核方式对网络空间的内容进行审核,则需要大量的人力资源,且时效性非常低。

也有通过基于肤色的不良信息检测并结合人工审核的方式对网络空间的内容进行监管。具体而言,根据肤色图像在不同颜色空间(RGB、YCbCr、HSV)下的颜色特征,将原始彩色图从RGB色彩空间转换到上述色彩空间中,选取大量不良信息图片肤色样本在具体的色彩空间中通过实验建立肤色模型,利用得到的特征对不良信息的图像进行检测,以识别不良信息,然后再通过人工审核的方式对识别结果进行审核。由于基于肤色的不良信息检测,检测误判率比较高,由此,人工审核量仍然比较大,同样时效性有限,无法及时采取拦截措施对不良信息进行阻止。

为解决上述技术问题,本发明实施例提出一种违规数据的检测方法,如图1所示,该方法可包括:

步骤102.采集目标检测数据。

比如,以网页数据来说,可在产生网页数据时,开始采集目标检测数据(比如数据流中的图片、文本和视频等内容),并去重相同URL的内容。

步骤104.将目标检测数据输入至数据检测模型,以预测目标检测数据是否存在违规数据,数据检测模型基于样本检测数据和样本检测数据对应的标签训练得到,标签包括违规标签和/或非违规标签。

将采集去重后的目标检测数据存入缓存服务器,通过在内网部署的检测集群,对目标检测数据进行内容识别,利用人工智能技术找出疑似违规数据。

数据检测模型利用人工智能、深度学习算法对目标检测数据进行检测,通过海量的样本检测数据训练出数据检测模型,数据检测模型的识别包括但不限于:色情检测、暴恐检测,数据检测模型是通过组合低层特征形成更加抽象的高层特征,然后通过大量的人工标注的特征图片使机器学习到训练数据的特征,当新数据输入模型时,机器将这些特征进行组合检测新输入的数据,得出相应的评分值,然后可根据输入内容监测的评分值,判别违规情况。

其中,数据检测模型与目标检测数据对应的类型相对应,目标检测数据对应的类型可包括文字、视频以及图片中的至少一种。

步骤106.当预测目标检测数据存在违规数据时,对目标检测数据进行复审,以基于复审的结果确定目标检测数据是否违规。

由于本发明实施例的违规数据的检测方法通过将采集的目标检测数据输入至数据检测模型中,以通过数据检测模型的输出结果预测该目标检测模型是否存在违规数据,并在预测目标检测数据存在违规数据时,对目标检测数据进行复审,以根据复审的结果确定该目标检测模型是否违规。如此,本发明实施例的检测方法无需通过人工审核的方式对大量数据进行审核,通过将检测数据输入至数据检测模型即可预测该数据是否为违规数据,并且,由于数据检测模型是基于大量样本检测数据和样本检测数据对应的标签训练得到,其检测的准确率很高,可以大大减轻复审的工作量,因此,可以解决现有技术中通过人工审核方式对网络违规内容进行管理而导致人工审核量大、时效性低,从而无法及时做出相应措施对违规内容进行阻止的问题。

在上述实施例中,在对目标检测数据进行复审之前,可包括:若预测目标检测数据存在违规数据,则封堵目标检测数据。

应理解,在通过数据检测模型预测出目标检测数据存在违规数据时,先封堵目标检测数据,然后再对封堵的数据进行复审,如此,可避免疑似不良数据由于封堵不及时而无法对疑似不良数据进行阻止的问题发生。

在上述进一步的实施例中,如图2所示,违规数据的检测方法还可包括:

步骤108.若基于复审的结果确定目标检测数据未违规,则解封目标检测数据。

根据数据检测模型输出的结果,对于正常的数据,将相关信息发给存储服务器,存储为正常数据;对于违规数据,可先将违规URL进行封堵,然后再进行复审,如为误判,则向ISP提交解封指令,如根据复审结果确定目标检测数据为违规数据,则提交存储服务器,存储为违规数据。如此,通过复审,可进一步降低误判率,并及时将误判的数据解封,不影响用户的正常使用。

在上述任一项实施例中,如图3所示,违规数据的检测方法还可包括:

步骤302.将采集的历史检测数据标记为有序样本集。

考虑到IDC机房海量数据的情况,需要提高数据检测模型检测违规数据的准确率,以减轻复审工作量,而提高数据检测模型的检测准确率最好的方法是增加更多的训练数据,更多的数据可允许数据进行“自我表达”。数据越多,数据检测模型越准确,从而检测违规数据的准确率越高。其中,可运用网络爬虫技术,从网上爬取了约1亿的训练样本图片。

具体而言,在海量数据情况下,存在着很多相同重复的数据。结合图4进行说明,为提高系统的识别效率,让重复的数据只识别一次,系统在数据爬取时实现高效的数据去重,在去重算法SimHash的基础上优化改进,实现亿级数据毫秒级别的快速去重。在系统资源方面,采用Celery分布式任务队列,对采集的数据统一分发到不同的服务器处理,类似生成消费者模式,对系统整体结构解耦,让任务管理更为方便。同时通过服务器资源来调整任务并发数,可最大化利用服务器资源。

在相关数据(历史检测数据)已准备充分的情况下,将历史检测数据同步到云端,由于通过采集的海量历史检测数据本是无序(即各种不同类型的数据混合在一起)的,因此,可将无需的历史检测数据分布式标记为有序样本集,也就是说,将历史检测数据依据数据类型进行分类,以形成有序样本集。

其中,分布式标记为有序样本集的步骤具体可包括:标记任务的制作;标记任务的安排;兼职人员的管理。即通过人工标记的方式将历史检测数据依据数据类型进行归类,以形成有序样本集。

步骤304.基于训练参数,对有序样本集进行训练,以得到数据检测模型。

具体而言,可选择训练样本集,并且根据所选的样本集类别设置各个训练参数(如:深度学习的框架、神经网络模型的算法等参数),以建模训练得到数据检测模型。

步骤306.基于数据检测模型,标记有序样本集中识别错误的目标样本集。

步骤308.基于目标样本集更新有序样本集,以基于训练参数对更新后的有序样本集进行训练,得到优化后的数据检测模型。

在步骤302中将采集的历史检测数据标记为有序样本集时,可将有序样本集划分为训练样本集、测试样本集、验证样本集,并可弹性划分三者间的比例,在通过训练样本集进行训练得到数据检测模型后,可通过测试样本集和验证样本集对模型进行验证,即可标记识别错误的目标样本集,并将目标样本集更正至云端的有序样本集中(标记任务的检查;标记流程的优化),追加新已标记的样本集,回至步骤304中进行训练,以得到优化后的数据检测模型。然后再循环步骤306和步骤308,直到训练出最合适的数据检测模型。

其中,二次使用已标记的样本,可减少建模前数据搜集的工作量,并且通过深度学习分布式标记样本的方法,可大大减少人工标记的工作量,更多的训练数据可提高数据检测模型的准确率。

在AI识别方面,系统基于MXNET训练出鉴别违规数据的深度学习模型,以实现在海量数据以及现有运营商硬件资源的运行环境下达到最优状态。数据检测模型的网络结构在GooleNet的基础上进行优化精简,从原先的22层网络结构简化到18层,最终训练出的模型体积仅仅40M。采用了Inception模块,训练出来的模型要比没有采用Inception模块的同样架构的网络快2~3倍,在使用1080TI的GPU时一秒能识别600多张图片,在无GPU且使用Intel Xeon E7 24核心的CPU时一秒可识别32张,效率极高。在训练方面,基于1亿张的违规数据图片样本集迭代训练,最终得出的模型在随机10万张样本集中测试通过,准确率高达99.6%。

也就是说,传统基于肤色的不良信息监测并结合人工审核的方式对网络空间进行监管,由于基于肤色的监测误判率比较高,导致人工的审核量比较大,同样时效性有限,因此,在大数据的情况下,既浪费时间又浪费人力,还无法及时采取拦截措施对违规数据进行阻止。而本发明实施例的深度学习是面向未来的机器学习方法,长期跟进深度学习技术发展,利用深度学习迭代训练生成的数据检测模型对违规数据进行检测,可极大提高检测的准确率,以极大降低误判率。

如此,通过深度学习方式建立数据检测模型,可提高对目标检测数据中违规数据检测的准确率,可以大大减轻复审的工作量,因此,可以解决现有技术中通过人工审核方式对网络违规内容进行管理而导致人工审核量大、时效性低,从而无法及时做出相应措施对违规内容进行阻止的问题。

如图5所示,违规数据的检测方法还包括:

步骤502.若基于复审的结果确定目标检测数据违规,则标记目标检测数据;

步骤504.基于标记后的目标检测数据更新样本检测数据;

步骤506.基于更新后的样本检测数据以及更新后的样本检测数据对应的标签,训练得到更新后的数据检测模型。

应理解,当根据复审的结果确定目标检测数据违规时,可将目标检测数据添加至样本检测数据中,并对更新后的样本检测数据再进行训练,得到更新后的数据检测模型,以进一步提高数据检测模型的准确性,从而提高数据检测模型对目标检测数据检测是否存在违规数据的准确率,大大减轻复审的工作量,因此,可以解决现有技术中通过人工审核方式对网络违规内容进行管理而导致人工审核量大、时效性低,从而无法及时做出相应措施对违规内容进行阻止的问题。

由于数据量过于庞大,存储方面需要充分考虑冗余备份、负载均衡、线性扩容等机制,如图6所示,可搭建FastDFS分布式文件系统作为存储系统。

对于AI检测(数据检测模型)的输出结果为正常的数据,将正常数据(分为图片、文本和视频三类)存储于存储系统中,存储时间可以为7天左右。对于复审结果为违规的数据,将违规数据(分为图片、文本和视频三类)存储于存储系统中,存储时间可以为180天左右,以备查证。

结合图7进行说明,本发明实施例的违规数据的检测方法的实现过程可以为:

首先,采集目标检测数据,该目标检测数据的类型可以为图片、文本、视频等中的一种或多种。

其次,将目标检测数据输入至数据检测模型(即图7中的AI检测模,以预测目标检测数据是否存在违规数据。

再者,当预测目标检测数据存在违规数据时,封堵目标检测数据,然后对目标检测数据进行复审。

最后,基于复审的结果确定目标检测数据违规时标记并存储目标检测数据,即确定目标检测数据为违规数据,对误判的数据进行解封。

如此,通过人工智能深度学习技术,对文字、图像和视频等数据是否违规进行判断,发现违规数据后自动去重并提交ISP封堵,再对违规或者疑似违规的数据进行复审,对误判的数据进行解封,标签归类违规内容,最终确定为不良信息,从而达到实现对违规数据的发现、封堵等目的。

在上述任一项实施例所述的检测方法中,由于不良信息(即违规数据)监测系统与封堵系统是两套独立系统,现有的不良信息监测系统效率比较低,无法直接与封堵系统进行对接。基于本发明实施例的检测方法,可以快速实现不良信息的检测,并将相应url及时上报给封堵系统,由于准确率比较高,可以采用先封堵,后复审的方式,对于个别误判的url,在复审确认后进行解封,从而可以极大提升封堵效率,及时净化网络环境。

如图8所示,本发明实施例还提供一种违规数据的检测装置,其包括:采集单元802,用于采集目标检测数据;检测单元804,用于将目标检测数据输入至数据检测模型,以预测目标检测数据是否存在违规数据,数据检测模型基于样本检测数据和样本检测数据对应的标签训练得到,标签包括违规标签和/或非违规标签;复审单元806,用于当预测目标检测数据存在违规数据时,对目标检测数据进行复审,以基于复审的结果确定目标检测数据是否违规。

由于本发明实施例的违规数据的检测装置800通过检测单元804将采集单元802采集的目标检测数据输入至数据检测模型中,以通过数据检测模型的输出结果预测该目标检测模型是否存在违规数据,并在预测目标检测数据存在违规数据时,通过复审单元806对目标检测数据进行复审,以根据复审的结果确定该目标检测模型是否违规。如此,本发明实施例的检测装置800无需通过人工审核的方式对大量数据进行审核,通过将检测数据输入至数据检测模型即可预测该数据是否为违规数据,并且,由于数据检测模型是基于大量样本检测数据和样本检测数据对应的标签训练得到,其检测的准确率很高,可以大大减轻复审的工作量,因此,可以解决现有技术中通过人工审核方式对网络违规内容进行管理而导致人工审核量大、时效性低,从而无法及时做出相应措施对违规内容进行阻止的问题。

在上述实施例中,违规数据的检测装置800还包括封堵单元808,用于在预测目标检测数据存在违规数据时,封堵目标检测数据。即在通过数据检测模型预测出目标检测数据存在违规数据时,先封堵目标检测数据,然后再对封堵的数据进行复审,如此,可避免疑似不良数据由于封堵不及时而无法对疑似不良数据进行阻止的问题发生。

违规数据的检测装置800还包括解封单元810,用于在基于复审的结果确定目标检测数据未违规时,解封目标检测数据。即根据数据检测模型输出的结果,对于正常的数据,将相关信息发给存储服务器,存储为正常数据;对于违规数据,可先将违规URL进行封堵,然后再进行复审,如为误判,则向ISP提交解封指令,如根据复审结果确定目标检测数据为违规数据,则提交存储服务器,存储为违规数据。如此,通过复审,可进一步降低误判率,并及时将误判的数据解封,不影响用户的正常使用。

在上述进一步的实施例中,违规数据的检测装置800包括:第一标记单元812,用于将采集的历史检测数据标记为有序样本集;模型训练单元814,用于基于训练参数,对有序样本集进行训练,以得到数据检测模型;第二标记单元816,用于基于数据检测模型,标记有序样本集中识别错误的目标样本集;更新单元818,用于基于目标样本集更新有序样本集,以基于训练参数对更新后的有序样本集进行训练,得到优化后的数据检测模型。

如此,通过深度学习方式建立数据检测模型,可提高对目标检测数据中违规数据检测的准确率,可以大大减轻复审的工作量,因此,可以解决现有技术中通过人工审核方式对网络违规内容进行管理而导致人工审核量大、时效性低,从而无法及时做出相应措施对违规内容进行阻止的问题。

在上述任一项实施例中,违规数据的检测装置800包括:第三标记单元820,用于若基于复审的结果确定目标检测数据违规,则标记目标检测数据;更新单元818用于基于标记后的目标检测数据,更新样本检测数据;模型训练单元814用于基于更新后的样本检测数据以及更新后的样本检测数据对应的标签,训练得到更新后的数据检测模型。

应理解,当根据复审的结果确定目标检测数据违规时,可将目标检测数据添加至样本检测数据中,并对更新后的样本检测数据再进行训练,得到更新后的数据检测模型,以进一步提高数据检测模型的准确性,从而提高数据检测模型对目标检测数据检测是否存在违规数据的准确率,大大减轻复审的工作量,因此,可以解决现有技术中通过人工审核方式对网络违规内容进行管理而导致人工审核量大、时效性低,从而无法及时做出相应措施对违规内容进行阻止的问题。

本发明实施例还提供一种终端设备,其可包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述图1至图3、图5所示的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图1至图3、图5所示的方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

相关技术
  • 财务数据违规检测方法、装置、计算机设备及存储介质
  • 违规数据的检测方法及装置
技术分类

06120112158898