掌桥专利:专业的专利平台
掌桥专利
首页

一种基于取证数据的黑灰产广告识别方法和系统

文献发布时间:2023-06-19 11:29:13


一种基于取证数据的黑灰产广告识别方法和系统

技术领域

本发明涉及计算机网络技术领域,尤其是一种基于取证数据的黑灰产广告识别方法和系统。

背景技术

网络诈骗,特别是网贷、理财和刷单类诈骗,往往需要在网络中寻找目标,因而就需要在网络中进行广告推广活动。而网络推广空间主要在社交领域,比如:论坛、微博、直播和群聊中。群聊作为推广的空间,主要推广形式是文本广告,目标对象是相关群中的群成员。

目前网络诈骗已经在诈骗案件中占比超过50%,而且有越来越多的趋势。所以识别出这些为诈骗开展广告推广的黑灰产链条,一方面有利于找出发布广告的嫌疑人及广告宿主的嫌疑线索——网站域名、APP、电话、银行卡等,同时有利于收集广告样本,以供人工智能训练,完善识别模型,以便智能识别更多的可疑广告,可以给相关网络服务商进行广告拦截。

目前涉案推广广告的识别一般是针对互联网公开数据开展的,需要应用搜索引擎进行关键字搜索,数据源只能是一些公开的网络空间,而且数据样本比较杂乱,这些都约束了样本的数量与质量。

发明内容

针对现有技术中应用搜索引擎进行关键字搜索导致数据源只能是一些公开的网络空间,并且数据样本杂乱,导致样本的数量与质量收到约束的技术难题,本发明提出了一种基于取证数据的黑灰产广告识别方法和系统,用以解决上述技术问题。

根据本发明的一个方面一种基于取证数据的黑灰产广告识别方法,包括:

根据确定的广告涉案类型获取涉案群名关键词和涉案广告关键词,利用涉案群名关键词获取涉案群聊数据;

基于涉案广告关键词获取涉案群聊数据中的涉案广告样本,利用涉案广告样本进行人工智能训练建立涉案广告识别模型;

基于涉案广告识别模型对目标群聊数据进行计算分析,输出可疑广告样本和发布广告样本的嫌疑虚拟身份。

在具体的实施例中,涉案群名关键词和涉案广告关键词从关键词知识库中选择。

在具体的实施例中,在建立和更新涉案广告识别模型时将新获取的关键词更新至关键词知识库中。

在具体的实施例中,涉案广告样本为利用涉案广告关键词对群聊数据中疑似广告聊天内容进行匹配后的结果。

在具体的实施例中,疑似广告聊天内容为在群聊数据中重复发布次数超过第一阈值,内容字数大于第二阈值的聊天内容。

在具体的实施例中,第一阈值为5,第二阈值为100。

在具体的实施例中,关键词知识库包括字段内容为:案件类别、关键词、是否适合标题搜索、是否适合内容搜索、是否为正则表达式和是否必要条件。

在具体的实施例中,群聊数据包括应用类型、宿主ID、群ID、发言方ID、发言时间、发言类型、发言内容、附件名称。

在具体的实施例中,还包括群属性数据和群成员数据,群属性数据包括应用类型、宿主ID、群ID、群名称、群创建人ID、群创建人昵称、创建时间和成员数量;群成员数据包括应用类型、宿主ID、群ID、群名称、群创建人ID、群创建人昵称、创建时间和成员数量。

在具体的实施例中,计算分析后输出的内容还包括涉案URL、涉案APP、涉案电话和涉案银行卡号。

根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时上述方法。

根据本发明的第三方面,提出了一种基于取证数据的黑灰产广告识别系统,该系统包括:

群聊数据获取单元:配置用于根据确定的广告涉案类型获取涉案群名关键词和涉案广告关键词,利用涉案群名关键词获取涉案群聊数据;

涉案广告识别模型构建单元:配置用于基于涉案广告关键词获取涉案群聊数据中的涉案广告样本,利用涉案广告样本进行人工智能训练建立涉案广告识别模型;

输出单元:配置用于基于涉案广告识别模型对群聊数据进行计算分析,输出可疑广告样本和发布广告样本的嫌疑虚拟身份。

本发明不是着眼于全量数据,而是着眼于相对特殊群体——群,从而缩小目标范围,提高效率。群是个相对有个共同目的或共同特征的成员构成的,所以其中适合发布广告推广,而且广告又是相对有目的和方向的,这些都有利于通过关键词的方式锁定目标,提高方法的准确性。基于电子取证数据中比较隐私的群聊数据,是公开渠道无法获取的;而且取证数据是已经经过取证工具解析与清洗,相对结构化,容易分析,效率高。其中关键词知识库可以通过人工维护开展初步筛选工作,然后找出样本后,经过人工训练可以发现新的关键词以补充知识库,从而不断完善知识库的内容,从而形成一个闭环。关键词还可区分针对群名称和群聊内容两者,从而更具备准确性与适用性。同时关键词可以是普通字符串匹配,也可以设置正则表达式匹配,因而十分灵活,可以针对不同的案件类别,比如涉黄广告、涉赌广告、网贷诈骗广告、刷单诈骗广告等,有广泛的适用性和扩展性。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请的一个实施例的基于取证数据的黑灰产广告识别方法的流程图;

图2是本申请的一个具体的实施例的基于取证数据的黑灰产广告识别方法的流程图;

图3是本申请的一个具体的实施例的推广广告涉案识别的流程图;

图4是本申请的一个实施例的基于取证数据的黑灰产广告识别系统的框架图;

图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

根据本申请的一个实施例的基于取证数据的黑灰产广告识别方法,图1示出了根据本申请的实施例的基于取证数据的黑灰产广告识别方法的流程图。如图1所示,该方法包括以下步骤:

S101:根据确定的广告涉案类型获取涉案群名关键词和涉案广告关键词,利用涉案群名关键词获取涉案群聊数据。涉案类型包括涉黄广告、涉赌广告、网贷诈骗广告、刷单诈骗广告等,具体根据应用需求进行选择。

S102:基于涉案广告关键词获取涉案群聊数据中的涉案广告样本,利用涉案广告样本进行人工智能训练建立涉案广告识别模型。

在具体的实施例中,案群名关键词和涉案广告关键词从关键词知识库中选择,且在建立和更新涉案广告识别模型时将新获取的关键词更新至关键词知识库中,关键词知识库可以通过人工维护开展初步筛选工作,然后找出样本后,经过人工训练可以发现新的关键词以补充知识库,从而不断完善知识库的内容,从而形成一个闭环。关键词还可区分针对群名称和群聊内容两者,从而更具备准确性与适用性。同时关键词可以是普通字符串匹配,也可以设置正则表达式匹配,因而十分灵活,可以针对不同的案件类别,比如涉黄广告、涉赌广告、网贷诈骗广告、刷单诈骗广告等,有广泛的适用性和扩展性。

其中,涉案广告样本为利用涉案广告关键词对群聊数据中疑似广告聊天内容进行匹配后的结果,疑似广告聊天内容为在群聊数据中重复发布次数超过第一阈值,内容字数大于第二阈值的聊天内容,优选的,第一阈值为5,第二阈值为100。

S103:基于涉案广告识别模型对目标群聊数据进行计算分析,输出可疑广告样本和发布广告样本的嫌疑虚拟身份。

该方法是基于电子取证数据中比较隐私的群聊数据,是公开渠道无法获取的;而且取证数据是已经经过取证工具解析与清洗,相对结构化,容易分析,效率高。该方法区别于现有技术具有以下特点:

聚焦数据:不是着眼于全量数据,而是着眼于相对特殊群体——群,从而缩小目标范围,提高效率。群是个相对有个共同目的或共同特征的成员构成的,所以其中适合发布广告推广,而且广告又是相对有目的和方向的,这些都有利于通过关键词的方式锁定目标,提高方法的准确性;

关键词知识库闭环:可人工维护关键词库,关键词库的配置灵活,易于扩展,同时获取样本后,通过人工智能训练,可发现新关键词,补充到知识库中,形成闭环;

广告搜索的准确性:通过广告重复发布的特性,结合关键词来判定特定涉案类别的广告;

拓展线索:群是由群成员构成的,群成员有群成员ID及群成员备注等信息,从而有利用查找出发布涉案广告的嫌疑线索。

图2示出了本申请的一个具体的实施例的基于取证数据的黑灰产广告识别方法的流程图。该方法具体包括以下步骤:

201:关键字搜索获取群聊数据。利用人工收集的不同涉案类别的关键词知识库,在电子数据中根据关键词进行群名称搜索,从而获取目标群聊数据。

202:输入推广广告涉案识别模型。利用推广广告涉案识别模型进行计算分析。

203:输出广告样本。204:输出嫌疑线索。最终输出可疑广告样本和发布广告的嫌疑虚拟身份。

在具体的实施例中,上述模型实现的数据来源包括:

1.群属性数据,包括字段内容有:应用类型、宿主ID、群ID、群名称、群创建人ID、群创建人昵称、创建时间、成员数量。

2.群成员数据,包括字段内容有:应用类型、宿主ID、群ID、成员ID、成员昵称、成员备注、角色、年龄、性别、地址、邮箱。

3.群聊数据,包括字段内容有:应用类型、宿主ID、群ID、发言方ID、发言时间、发言类型、发言内容、附件名称。

4.关键词知识库,包括字段内容有:案件类别、关键词、是否适合标题搜索、是否适合内容搜索、是否为正则表达式、是否必要条件。举例网贷关键词知识库如下表:

在具体的实施例中,图3示出了本申请的一个具体的实施例的推广广告涉案识别的流程图,如图3所示,包括:

301:载入关键词知识库。

302:确定识别广告涉案类型。基于载入的关键词知识库中的关键词确定识别广告的涉案类型。比如需要识别涉黄广告、涉赌广告、网贷诈骗广告、刷单诈骗广告等。

303:获取涉案群名关键词;313:获取涉案广告关键词;从载入的关键词知识库中的获取涉案群名关键词和涉案广告关键词。

304:载入群属性数据。

305:获取涉案群ID。根据步骤303中的群名关键词在步骤304载入的群属性数据中获取涉案群ID。

306:载入群聊数据。

307:获取涉案相关群聊数据。根据步骤305中的涉案群ID在步骤306中的群聊数据中获取涉案相关群聊数据。

308:获取聊天内容重复n次以上,字数>m个。获取疑似广告的聊天内容,条件是重复发布过n次(一般n取值为5),内容字数大于m个(一般m取值为100)。

309:获取涉案广告。利用步骤313中获取的涉案广告关键词和步骤308中的疑似广告聊天内容确定涉案广告。

310:获取涉案广告发布者ID。针对步骤309中获得的涉案广告,可以获取发布广告对应的人员虚拟身份,利用获取的虚拟身份,应用开源情报的收集方法,还能获取更多的嫌疑线索,比如涉案URL、涉案APP、涉案电话、涉案银行卡号等。

311:人工智能训练。步骤309中获取的涉案广告作为广告样本,进一步开展人工智能训练,以便丰富和完善涉案广告智能识别模型314;同时获取新的关键词312,能够丰富到关键词知识库中。

上述方法利用电子取证的数据资源,利用人工收集的不同涉案类别的关键词知识库进行关键词搜索QQ、微信等群名称,然后在对应的群聊数据中应用广告识别模型找出可疑广告,输出黑灰产广告样本,以供人工智能训练获取更多关键词和完善广告识别人工智能模型;还输出发布广告虚拟身份线索,以供开源情报方法获取更多的诈骗线索。

图4示出了根据本申请的一个实施例的基于取证数据的黑灰产广告识别系统的框架图。该系统具体包括群聊数据获取单元401、涉案广告识别模型构建单元402和输出单元403。

在具体的实施例中,群聊数据获取单元401配置用于根据确定的广告涉案类型获取涉案群名关键词和涉案广告关键词,利用涉案群名关键词获取涉案群聊数据;涉案广告识别模型构建单元402配置用于基于涉案广告关键词获取涉案群聊数据中的涉案广告样本,利用涉案广告样本进行人工智能训练建立涉案广告识别模型;输出单元403配置用于基于涉案广告识别模型对群聊数据进行计算分析,输出可疑广告样本和发布广告样本的嫌疑虚拟身份。

本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。

该系统基于电子取证数据,通过关键词知识库在群聊中搜索涉案广告。由于数据来源相对特殊,因而只能应用在公安机关相关系统中,可应用于包含有取证数据或类似群聊数据的系统中,将产生更好的社会效果。目前已经应用于取证数据相关系统中,正在实战中完善效果。目前对于涉黄、涉赌、网贷诈骗和刷单诈骗等类型都有着较高的准确性。

下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。

需要说明的是,本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Sma l lta lk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一确定单元、第二确定单元、生成单元、第一提取单元和第一存储单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一确定单元还可以被描述为“确定预设的事件信息列表中是否存在新增的事件信息的单元”。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:根据确定的广告涉案类型获取涉案群名关键词和涉案广告关键词,利用涉案群名关键词获取涉案群聊数据;基于涉案广告关键词获取涉案群聊数据中的涉案广告样本,利用涉案广告样本进行人工智能训练建立涉案广告识别模型;基于涉案广告识别模型对目标群聊数据进行计算分析,输出可疑广告样本和发布广告样本的嫌疑虚拟身份。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 一种基于取证数据的黑灰产广告识别方法和系统
  • 基于商品产废识别大数据的商品消费产废识别方法及系统
技术分类

06120112939569