掌桥专利:专业的专利平台
掌桥专利
首页

网页内容安全处理方法、装置、电子设备及存储介质

文献发布时间:2024-01-17 01:21:27


网页内容安全处理方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术领域,尤其涉及一种网页内容安全处理方法、装置、电子设备及存储介质。

背景技术

网页内容安全是网络安全领域的一个重要分支,随着信息技术的不断发展与进步,为促进网络安全,亟需对网页内容进行安全处理。

传统的网页内容安全处理方法,通常是先基于智能设备中固化的安全处理规则对网页内容进行初步内容安全处理;然后,再基于人工对网页内容进行精准化地进行内容安全处理,进而确定网页内容的安全性。但是,这种结合智能设备和人工的半自动化网页内容安全处理方法,依然需要投入大量的人力,导致处理效率低下。

发明内容

本发明提供一种网页内容安全处理方法、装置、电子设备及存储介质,用以解决现有技术中结合智能设备和人工对网页内容进行安全处理,依然需要投入大量的人力,处理效率低下缺陷,实现减少人工参与,提高网页内容安全处理效率。

本发明提供一种网页内容安全处理方法,包括:

获取目标网页的目标内容文件;

基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件;

根据所述目标安全处理文件中的内容安全处理策略,对所述目标内容文件进行内容安全处理,得到所述目标网页的内容安全处理结果;

其中,所述知识图谱至少包括第一实体和第二实体;所述第一实体是对各样本网页的样本内容文件进行实体抽取得到的,所述第二实体是对所述各样本网页的样本内容文件对应的安全处理文件进行实体抽取得到的。

根据本发明提供的一种网页内容安全处理方法,所述知识图谱是基于如下步骤构建的:

获取所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件;

对所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件进行预处理;所述预处理包括数据特征提取、数据清洗、数据格式转换和数据整合中的一种或多种组合;

对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的所述第一实体;

对预处理后的各样本网页的样本内容文件对应的安全处理文件进行实体抽取,得到所述各样本网页对应的所述第二实体;

根据所述样本内容文件的文件内容,获取所述样本内容文件对应的业务类别,以及根据所述安全处理文件的文件内容,获取所述安全处理文件对应的业务类别;

根据所述样本内容文件对应的业务类别和所述安全处理文件对应的业务类别之间的关联关系,确定所述各样本网页对应的所述第一实体和所述第二实体之间的实体关系;

根据所述各样本网页对应的所述第一实体、所述第二实体以及所述实体关系,构建所述知识图谱。

根据本发明提供的一种网页内容安全处理方法,所述对所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件进行预处理,包括:

对于所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件中的任一文件,在所述任一文件中存在非结构化数据的情况下,基于第一数据结构转换模型,将所述非结构化数据转换为半结构化数据;

基于第二数据结构转换模型,将所述半结构化数据转换为结构化数据;

对所述任一文件中的结构化数据进行预处理。

根据本发明提供的一种网页内容安全处理方法,所述对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的所述第一实体,包括:

基于预设专家知识库中的实体抽取规则,对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的第一候选实体;

基于预先训练的实体抽取模型,对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的第二候选实体;

对所述第一候选实体和所述第二候选实体进行融合,得到所述各样本网页对应的所述第一实体。

根据本发明提供的一种网页内容安全处理方法,所述基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件,包括:

基于所述知识图谱,确定与所述目标内容文件匹配的第一实体对应的第二实体;

对匹配的第一实体对应的第二实体对应的安全处理文件进行融合,得到所述目标安全处理文件。

根据本发明提供的一种网页内容安全处理方法,所述基于所述知识图谱,确定与所述目标内容文件匹配的第一实体对应的第二实体,包括:

在所述知识图谱中存在与所述目标内容文件匹配的第一实体的情况下,在所述知识图谱中,确定匹配的第一实体对应的第二实体。

根据本发明提供的一种网页内容安全处理方法,所述基于所述知识图谱,确定与所述目标内容文件匹配的第一实体对应的第二实体,包括:

在所述知识图谱中不存在与所述目标内容文件匹配的第一实体的情况下,对所述目标内容文件进行实体抽取,得到与所述目标内容文件匹配的第一实体;

将与所述目标内容文件匹配的第一实体作为所述知识图谱的新增第一实体,对所述知识图谱进行聚合更新;

在更新后的知识图谱中,确定匹配的第一实体对应的第二实体。

本发明还提供一种网页内容安全处理装置,包括:

获取单元,用于获取目标网页的目标内容文件;

确定单元,用于基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件;

处理单元,用于根据所述目标安全处理文件中的内容安全处理策略,对所述目标内容文件进行内容安全处理,得到所述目标网页的内容安全处理结果;

其中,所述知识图谱至少包括第一实体和第二实体;所述第一实体是对各样本网页的样本内容文件进行实体抽取得到的,所述第二实体是对所述各样本网页的样本内容文件对应的安全处理文件进行实体抽取得到的。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网页内容安全处理方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网页内容安全处理方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述网页内容安全处理方法。

本发明提供的网页内容安全处理方法、装置、电子设备及存储介质,通过基于各样本网页的样本内容文件进行实体抽取得到第一实体以及基于与各样本网页的样本内容文件对应的各种安全处理文件进行实体抽取得到第二实体,并根据第一实体和第二实体构建的三元组,生成知识图谱,使得知识图谱可灵活建立各内容文件与各种场景下的安全处理文件之间的关联关系,进而依据具体的目标网页的目标内容文件即可灵活地生成可融合各种安全处理文件的目标安全处理文件,以根据目标安全处理文件对目标网页进行内容安全处理,实现在提高安全处理文件的配置灵活性的基础上,还可以实现将部分人工处理转变为全自动化的智能设备处理,有效提高网页内容安全处理效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的网页内容安全处理方法的流程示意图之一;

图2是本发明提供的知识图谱构建的流程示意图;

图3是本发明提供的网页内容安全处理方法的流程示意图之二;

图4是本发明提供的网页内容安全处理方法的流程示意图之三;

图5是本发明提供的网页内容安全处理方法的流程示意图之四;

图6是本发明提供的网页内容安全处理装置的结构示意图;

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目标大部分互联网产品、APP(Application,应用程序)、WEB(World Wide Web,全球广域网)网站等均面临网页内容安全问题。因此,如何对网页内容进行安全处理是目前亟需研究的重要课题。

随着人工智能技术的发展,尤其是视觉技术的发展,内容安全处理除了防篡改之外增加了内容分析的能力,使得企业在内容安全方面的技术选择越来越多。通常网页内容安全处理包括防篡改、网页内容安全审核以及审核知识积累等;而此处理过程中,不仅需要智能设备采用本地固化处理规则,参与网页内容安全处理,而对于本地固化处理规则无法实现的处理部分,还要依赖人工参与处理。例如,对于网页内容的篡改和修改判断,需要先通过智能设备,对网页内容的前后版本比对,然后,将差异内容交由人工审核。此种场景下,智能设备本身不负责正确性校验,只是避免了重复人工审核,对于网页内容变化频率较低的场景可以使用该方法,但在网页内容频繁修改的场景,就需要投入大量的人力,导致网页内容安全处理时间长,效率低下。

针对上述问题,本实施例提供一种网页内容安全处理方法,通过知识图谱,组合数据库中显性的安全处理策略以及用户输入的隐性的安全处理策略,再通过重新组合显性的安全处理策略以及隐性的安全处理策略,显性化地生成符合当前网页的内容安全处理策略,进而根据生成的处理策略,自动对当前网页的内容文件进行内容安全处理,实现全自动化地进行网页内容安全处理,最大程度地避免人工参与内容安全处理,有效提高处理效率。

需要说明的是,该方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机、上网本或者个人数字助理等,非移动电子设备可以为服务器、网络附属存储器、个人计算机等,本发明不作具体限定。

下面结合图1-图5描述本发明的网页内容安全处理方法。

如图1所示,为本实施例提供的网页内容安全处理方法的流程示意图之一,该方法包括如下步骤:

步骤101,获取目标网页的目标内容文件;

其中,目标网页为需要进行内容安全处理的网页,包括但不限于互联网产品、APP、WEB网站等的网页。

目标内容文件的类型可以是视频文件、图片文件或文本文件等,目标内容文件中的内容包括但不限于主题、业务关系、业务需求等内容。目标网页的目标内容文件可以是第三方软件、第三方客户端或云端等传输的,也可是在本端实时加载的,本实施例对此不作具体地限定。

步骤102,基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件;其中,所述知识图谱至少包括第一实体和第二实体;所述第一实体是对各样本网页的样本内容文件进行实体抽取得到的,所述第二实体是对所述各样本网页的样本内容文件对应的安全处理文件进行实体抽取得到的;所述安全处理文件包括第一安全处理文件和/或第二安全处理文件,所述第一安全处理文件是预先存储在数据库的安全处理文件;所述第二安全处理文件是用户输入的安全处理文件。

其中,安全处理文件包括一种或多种安全处理策略,还可以包括各安全处理策略的执行流程等。第一安全处理文件可以是以结构化数据预先存储在数据库,以便智能设备可直接执行的网页内容安全处理文件,也即可由计算机直接执行的内容安全处理文件;第二安全处理文件是用户以语音和报告等形式在输入的非结构化的,不能由计算机直接执行的网页内容安全处理文件,也即规则随时可变的内容安全处理文件。

安全处理文件与内容文件之间根据各自的业务类别预先构建关联关系,如网页内容文件为贷款账单,也即其业务类别为贷款业务,相应地,其对应的安全处理文件包括对申请贷款的用户进行资质审核、贷款接收账户进行安全审核等与贷款业务相关的安全处理策略。

知识图谱是一种语义网络,其结点代表实体或者概念,结点之间的边代表实体或概念之间的各种关联关系。

此处的知识图谱是基于三元组预先构建的;其中,三元组包含头实体、尾实体,以及头实体和尾实体之间的实体关系,具体可以表示为(头实体,实体关系,尾实体);示例性地,此处的头实体是对各样本网页的样本内容文件进行实体抽取得到的第一实体,尾实体是可以是基于与各样本网页的样本内容文件对应的安全处理文件进行实体抽取得到的第二实体。此处的安全处理文件包括第一安全处理文件和/或第二安全处理文件,也即知识图谱可以是基于数据库的安全处理文件以及用户输入的安全处理文件共同构建得到,具体如图2所示。

因此,知识图谱包含有各实体之间的实体关系,如各网页的内容文件与安全处理文件之间的关联关系。

可选地,在获取到目标网页的目标内容文件之后,可以是基于知识图谱中包含的各网页的内容文件与安全处理文件之间的关联关系,确定目标网页的目标内容文件对应的目标安全处理文件;或者,可以是基于知识图谱,确定与目标内容文件对应的第二实体,以根据第二实体对应的安全处理文件,适应性地推理出目标安全处理文件。

其中,确定与目标内容文件对应的第二实体的方式,可以是在知识图谱中确定与目标内容文件匹配的第一实体,将第一实体关联的第二实体作为目标内容文件对应的第二实体;或者,对目标内容文件进行实体抽取,以基于抽取的第一实体对知识图谱进行更新,在更新后的知识图谱中确定目标内容文件对应的第二实体。

通常现有技术中,由于智能设备在进行网页内容安全处理的过程中,仅能依赖本端存储的固定的网页内容安全处理文件,通过大量的固有逻辑判断内容本身是否正常,并不关心内容的来源,仅能适用于固定场景下的网页内容安全处理;在面临大量随时可变的处理场景时,仅能完成部分的内容安全处理,而其余未完成部分交由人工进行处理。但是,由于安全公司的服务团队不可能只针对某一个企业进行服务,且安全处理流程复杂,所以处理时间较长,时效性差。

而针对上述问题,本实施例结合知识图谱,建立内容文件与各种场景下的安全处理文件之间的关联关系,以依据具体网页的内容文件灵活性地生成适用于该网页场景下的融合第一安全处理文件和/或第二安全处理文件的目标安全处理文件,可使得知识图谱根据不同处理场景适应地配置生成不同的安全处理文件,也即安全处理规则,实现在提高安全处理文件的配置灵活性以及知识图谱的适用性的基础上,便于后续基于知识图谱实现不同处理场景下的智能审核、趋势预测等提供准确高效的决策支持,以实现将部分人工处理转变为全自动化的智能设备处理,有效提高网页内容安全处理效率。

进一步地,在获取目标内容文件对应的目标安全处理文件之后,还可对目标内容文件以及目标安全处理文件进行实体抽取,以基于抽取的实体,对知识图谱进行更新,不断更新维护知识图谱,进而实现不断维护更新内容安全处理数据库,实现在满足内容安全处理文件的自动生成的同时,还可满足对审核点的全面覆盖、以及审核时效性提升的要求。

步骤103,根据所述目标安全处理文件中的内容安全处理策略,对所述目标内容文件进行内容安全处理,得到所述目标网页的内容安全处理结果;

可选地,在获取到目标安全处理文件之后,可从目标安全处理文件中获取相应的内容安全处理策略;以根据相应的内容安全处理策略,对目标内容文件进行内容安全处理,进而得到目标网页的内容安全处理结果。

此处的内容安全处理包括但不限于安全类别识别、安全趋势预测,以及针对安全风险防控等,本实施例对此不作具体地限定。

安全类别可以粗划分为安全或不安全;或者再针对不安全类别细化分为黑客入侵、链路劫持、网络服务器群(CDN server,Content Delivery Network)篡改、DNS(DomainName System,域名系统)劫持、内部人员渗透和假篡改等,本实施例对此不作具体地限定。

安全风险防控是针对上述不安全类别进行的安全风险防控,用于恢复网页异常内容,提高网页安全管理。

本实施例提供的网页内容安全处理方法,通过基于各样本网页的样本内容文件进行实体抽取得到第一实体以及基于与各样本网页的样本内容文件对应的各种安全处理文件进行实体抽取得到第二实体,并根据第一实体和第二实体构建的三元组,生成知识图谱,使得知识图谱可灵活建立各内容文件与各种场景下的安全处理文件之间的关联关系,进而依据具体的目标网页的目标内容文件即可灵活地生成可融合各种安全处理文件的目标安全处理文件,以根据目标安全处理文件对目标网页进行内容安全处理,实现在提高安全处理文件的配置灵活性的基础上,还可以实现将部分人工处理转变为全自动化的智能设备处理,有效提高网页内容安全处理效率。

在一些实施例中,所述知识图谱是基于如下步骤构建的:

获取所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件;

对所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件进行预处理;所述预处理包括数据特征提取、数据清洗、数据格式转换和数据整合中的一种或多种组合;

对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的所述第一实体;

对预处理后的各样本网页的样本内容文件对应的安全处理文件进行实体抽取,得到所述各样本网页对应的所述第二实体;

根据所述样本内容文件的文件内容,获取所述样本内容文件对应的业务类别,以及根据所述安全处理文件的文件内容,获取所述安全处理文件对应的业务类别;

根据所述样本内容文件对应的业务类别和所述安全处理文件对应的业务类别之间的关联关系,确定所述各样本网页对应的所述第一实体和所述第二实体之间的实体关系;

根据所述各样本网页对应的所述第一实体、所述第二实体以及所述实体关系,构建所述知识图谱。

如图3所示,在执行步骤102之前,也即在应用知识图谱之前,需要预先构建知识图谱。

如图4所示,构建知识图谱的步骤具体包括:

步骤301,接入数据;具体获取各种类型下的各样本网页的样本内容文件,以及从数据库和前端用户输入信息中采集各样本网页的样本内容文件对应的安全处理文,得到多源异构数据。

步骤302,数据预处理,也即针对多源异构数据进行预处理;预处理包括但不限于数据特征提取、数据清洗、数据格式转换和数据整合中的一种或多种组合,以将分散、零乱、标准不统一的源头数据整合到一起,也即对多源异构数据进行规范化和消除多源异构数据中的冗余数据,进而得到更加有效和规范的数据,以便提高后续构建的知识图谱的性能。

此处,数据特征提取可以是直接基于进行数据特征提取;也可以针对不同的数据结构设置有不同的数据提取方式,如对于结构化数据直接进行数据特征提取,对于非结构化数据可以先转换成结构化数据之后再进行数据特征提取,对于半结构化数据可以先转换成结构化数据之后再进行数据特征提取。

对于特征提取模型,针对不同源数据或不同类型的数据设置有不同的特征提取模型;示例性地,对于同源且同类型的数据可采用同一特征提取模型进行数据特征提取;对于不同源数据、不同类型的数据采用不同的特征提取模型进行数据特征提取;对于增量数据可以先判断其源头和类型等,再选择相应的特征提取模型进行特征提取。此处,同源是指数据来源于同一类型数据系统,增量数据是指对各源头中变化的数据的增量添加。

其中,数据清洗可以是去除多源异构数据中的无效值和缺失值等。

数据格式转换可以是将数据转换为统一的格式;

数据整合可以是对相同数据进行合并,不同数据进行汇总。

步骤303,构建知识图谱;基于专家知识库中的实体抽取规则和/或预先构建的实体抽取模型对预处理后的各样本网页的样本内容文件进行实体抽取,以及对预处理后的各样本网页的样本内容文件对应的安全处理文件进行实体抽取,得到各样本网页对应的第一实体和第二实体;然后确定样本内容文件对应的业务类别,以及安全处理文件对应的业务类别,根据两者对应的业务类别之间的关联关系,确定第一实体和第二实体之间的关联关系,也即确定实体关系,进而根据第一实体、第二实体以及实体关系构建三元组,以根据三元组中各实体之间的实体关系,生成知识图谱。

此处的业务类别确定方式,可以是将样本内容文件的文件内容和安全处理文件的文件内容分别输入至分类模型中,由分类模型识别分别输出应的业务类别以及安全处理文件对应的业务类别;分类模型可以是由各种内容文件以及各种处理文件,及其对应的业务类别标签进行训练得到的;或者是分别从样本内容文件和安全处理文件中抽取目标字段,以将目标字段与预设字段进行匹配,根据匹配的目标字段对应的业务类别,确定样本内容文件对应的业务类别和安全处理文件对应的业务类别,本实施例对此不做具体地限定。

其中,目标字段可以根据业务需求进行配置,如对于样本内容文件,目标字段可以是主题名称和业务内容等;对于安全处理文件,目标字段可以是处理策略内容和功能实现说明内容等。在生成知识图谱之后,即可执行步骤304,对知识图谱进行应用,以针对目标网页进行内容安全分类、内容安全趋势预测以及内容安全风险防控等处理。

通常现有的内容安全处理方法只能处理少部分安全管理任务,对于基于智能设备的内容安全处理来说,仅能利用其内部固化的处理规则,而其在内容安全处理过程中存在的问题是面临大量随时可变的处理规则,无法满足实时响应的要求;另外,智能设备的处理规则的数量有限,尚有大量隐喻和类比的处理规则,不能枚举所有的处理策略,依然需要依赖人工进行适应性地安全处理,导致安全处理的全面性以及效率较差。

针对此现有技术,本实施例提供的方法,从多数据源、多应用场景获取多源异构数据进行三元组构建,并基于各三元组中的各实体之间的关联关系,进行实体合并,得到知识图谱,提高了知识图谱的准确度、针对性以及普适性,进而提高了网页内容安全处理的准确度、针对性以及普适性。

在一些实施例中,对所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件进行预处理,包括:

对于所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件中的任一文件,在所述任一文件中存在非结构化数据的情况下,基于第一数据结构转换模型,将所述非结构化数据转换为半结构化数据;

基于第二数据结构转换模型,将所述半结构化数据转换为结构化数据;

对所述任一文件中的结构化数据进行预处理。

其中,半结构化数据是结构化数据的一种形式,它并不符合以关系型数据库或数据表的形式关联起来的数据模型结构,但包含相关标记,该标记用来分隔语义元素以及对记录和字段进行分层,包括但不限于表格、邮件、HTML和资源库。

非结构化数据是数据结构不规则或不完整,没有预定义的数据,包括但不限于文本、图片、办公文档、图像、音频和视频信息。

可选地,由于各样本内容文件和以及各安全处理文件属于多源异构数据,不同来源的数据具有不同的数据结构,为了实现对不同结构的数据处理,可以先将不同的数据结构转换为同一数据结构,然后再对其进行预处理,以提高预处理的效率和精准性。

如图5所示,在对于各样本网页的样本内容文件和各安全处理文件中的任一文件,若该文件中存在非结构化数据,如用户输入的第二安全处理文件为零散和模糊的非结构化数据,为打通用户语言与计算机语言之间的语言壁垒,则可先基于第一数据结构转换模型,对其进行处理,以将非结构化数据转换为半结构化数据,然后再基于第二数据结构转换模型,对其进行处理,以将半结构化数据转换为适用于机器的结构化数据;然后,再对转换后的文件进行预处理。

其中,第一数据结构转换模型可以是基于语言模型构建生成,用于将非结构化数据转换为半结构化数据;第二数据结构转换模型可以是基于神经网络模型构建生成,用于将半结构化数据转换为结构化数据。

若该文件仅包含结构化数据,如预先存储在数据库的第一安全处理文件,则可以直接对其进行预处理;

若该文件中存在半结构化数据,如样本网页的样本内容文件,先基于第二数据结构转换模型,将半结构化数据转换为结构化数据,然后,再对转换后的文件进行预处理。

本实施例提供的方法,通过对不同的文件采用不同的预处理方法,以提高文件处理的针对性、准确性和专业性,进而提高知识图谱构建的准确性。

在一些实施例中,所述对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的所述第一实体,包括:

基于预设专家知识库中的实体抽取规则,对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的第一候选实体;

基于预先训练的实体抽取模型,对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的第二候选实体;

对所述第一候选实体和所述第二候选实体进行融合,得到所述各样本网页对应的所述第一实体。

如图5所示,在实体抽取过程中,可以联合预设专家知识库中的实体抽取规则,以及实体抽取模型进行实体抽取,并对两者提取的实体进行融合,以得到最终的实体,确保实体抽的完备性和准确性,以提高知识图谱构建的准确性,进而提高网页内容安全处理的准确性。

可选地,对于第一实体抽取,可以基于预设专家知识库中的实体抽取规则,抽取得到第一候选实体,基于实体抽取模型抽取得到第二候选实体,将第一候选实体与第二候选实体进行融合,以得到最终的第一实体;此处融合方式,可以是对第一候选实体和第二候选实体中的重复实体进行合并。

同理,对于第二实体抽取,也可以参照第一实体抽取的步骤进行抽取,此处不再赘述。

在一些实施例中,步骤102中所述基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件的步骤,进一步包括:

基于所述知识图谱,确定与所述目标内容文件匹配的第一实体对应的第二实体;

对匹配的第一实体对应的第二实体对应的安全处理文件进行融合,得到所述目标安全处理文件。

可选地,在确定目标安全处理文件的过程中,需要先基于预先构建的知识图谱,获取到与目标内容文件匹配的第一实体;然后,根据第一实体,进一步获取与第一实体对应的第二实体;然后,对目标内容文件对应的第二实体对应的所有安全处理文件进行融合,即可得到目标安全处理文件。

其中,目标内容文件对应的第二实体可以是一个或多个,每一第二实体对应的安全处理文件可以包括第一安全处理文件和/或第二安全处理文件,也即目标安全处理文件可以是基于同一第二实体对应的第一安全处理文件和/或第二安全处理文件确定的,也可以是基于多个第二实体对应的第一安全处理文件和/或第二安全处理文件确定的。

此处,确定目标安全处理文件的方式,可以是按照执行优先等级对至少一个第一安全处理文件和/或至少一个第二安全处理文件进行融合;或者将所有安全处理文件输入至融合模型中进行融合,本实例对此不作具体地限定。

本实施例中,通过知识图谱中各第一实体与第二实体之间的实体关系,即可快速确定与目标内容文件对应的第二实体,进而通过对与目标内容文件对应的第二实体对应的安全处理文件进行融合,即可适应性地得到与目标网页的目标内容文件相适配的目标安全处理文件,以便基于目标安全处理文件对目标内容文件进行全自动化地进行内容安全处理,一方面提高了网页内容安全处理的灵活性,另一方面提高了网页内容安全处理的效率。

在一些实施例中,所述基于所述知识图谱,确定与所述目标内容文件匹配的第一实体对应的第二实体,包括:

在所述知识图谱中存在与所述目标内容文件匹配的第一实体的情况下,在所述知识图谱中,确定匹配的第一实体对应的第二实体。

可选地,在确定目标内容文件对应的第二实体的过程中,需要先将目标内容文件与知识图谱中各第一实体对应的内容文件进行匹配,以在获取到与目标内容文件匹配的内容文件的情况下,将匹配的内容文件对应的第一实体作为与目标内容文件匹配的第一实体。

然后,在知识图谱中,确定与目标内容文件匹配的第一实体所属的三元组,以在三元组中获取与第一实体对应的第二实体;或者,在知识图谱中,确定与目标内容文件匹配的第一实体对应的实体关系,以根据实体关系,获取目标内容文件对应的第二实体。

本实施例中,通过预先构建的知识图谱中的各实体以及实体关系,即可便捷地确定目标内容文件对应的第二实体,进而灵活自动地推理生成与目标网页的目标内容文件相适配的目标安全处理文件,以便基于目标安全处理文件对目标内容文件进行全自动化地进行内容安全处理,也即可以根据实际的业务场景,提供准确的内容安全处理策略,有效提高网页内容安全处理的适用性,提高了网页内容安全处理的效率。

在一些实施例中,所述基于所述知识图谱,确定与所述目标内容文件匹配的第一实体对应的第二实体,包括:

在所述知识图谱中不存在与所述目标内容文件匹配的第一实体的情况下,对所述目标内容文件进行实体抽取,得到与所述目标内容文件匹配的第一实体;

将与所述目标内容文件匹配的第一实体作为所述知识图谱的新增第一实体,对所述知识图谱进行聚合更新;

在更新后的知识图谱中,确定匹配的第一实体对应的第二实体。

可选地,在确定目标内容文件对应的第二实体的过程中,若将目标内容文件与知识图谱中各第一实体对应的内容文件进行匹配的过程中,不存在与目标内容文件匹配的内容文件的情况下,也即不存在与目标内容文件匹配的第一实体,此时需要对目标内容文件进行实体抽取,以从中获取目标内容文件对应的第一实体。

然后,将目标内容文件对应的第一实体作为新增第一实体添加至知识图谱中,采用神经网络模型学习目标内容文件对应的第一实体与知识图谱中各第二实体之间的实体关系,进而根据实体关系对知识图谱进行聚合更新;

然后,在更新后的知识图谱中,确定目标内容文件对应的第一实体所属的三元组,以在三元组中获取与目标内容文件对应的第二实体;或者,在更新后的知识图谱中,确定目标内容文件对应的第一实体对应的实体关系,以根据实体关系,获取与目标内容文件对应的第二实体。

通常现有技术中,针对防篡改的安全处理,采用CDN(Content Delivery Network,内容分发网络)架构中部署基于硬件的防篡改方案。而于WAF(Web Application Firewall,网站应用级入侵防御系统)对页面实现防篡改的方案很多,这种方案一方面是需要与发布系统进行一定的结合,否则操作非常麻烦;另一方面在页面更改频繁的环境中,时效性也很难解决,效率低下。对于文件保护的安全处理,通过网关机设备如WAF对文件进行保护,每次更新需要很高权限,导致安全处理困难,这种方案适用于节点较少、更新不频繁的技术架构。

而本实施例中,即使出现新增网页内容文件,也可以通过对知识图谱进行聚合更新,以根据聚合更新后的知识图谱,灵活自动地生成与目标网页的目标内容文件相适配的目标安全处理文件,进而基于目标安全处理文件对目标内容文件进行全自动化地进行内容安全处理,提高了内容安全处理的适配性、灵活性,以及提高了网页内容安全处理的效率。

下面对本发明提供的网页内容安全处理装置进行描述,下文描述的网页内容安全处理装置与上文描述的网页内容安全处理方法可相互对应参照。

如图6所示,本实施例提供一种网页内容安全处理装置,该装置包括:

获取单元601用于获取目标网页的目标内容文件;

确定单元602用于基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件;

处理单元603用于根据所述目标安全处理文件中的内容安全处理策略,对所述目标内容文件进行内容安全处理,得到所述目标网页的内容安全处理结果;

其中,所述知识图谱至少包括第一实体和第二实体;所述第一实体是对各样本网页的样本内容文件进行实体抽取得到的,所述第二实体是对所述各样本网页的样本内容文件对应的安全处理文件进行实体抽取得到的。

本实施提供的网页内容安全处理装置,通过基于各样本网页的样本内容文件进行实体抽取得到第一实体以及基于与各样本网页的样本内容文件对应的各种安全处理文件进行实体抽取得到第二实体,并根据第一实体和第二实体构建的三元组,生成知识图谱,使得知识图谱可灵活建立各内容文件与各种场景下的安全处理文件之间的关联关系,进而依据具体的目标网页的目标内容文件即可灵活地生成可融合各种安全处理文件的目标安全处理文件,以根据目标安全处理文件对目标网页进行内容安全处理,实现在提高安全处理文件的配置灵活性的基础上,还可以实现将部分人工处理转变为全自动化的智能设备处理,有效提高网页内容安全处理效率。

在一些实施例中,该装置还包括构建单元,具体用于:

获取所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件;

对所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件进行预处理;所述预处理包括数据特征提取、数据清洗、数据格式转换和数据整合中的一种或多种组合;

对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的所述第一实体;

对预处理后的各样本网页的样本内容文件对应的安全处理文件进行实体抽取,得到所述各样本网页对应的所述第二实体;

根据所述样本内容文件的文件内容,获取所述样本内容文件对应的业务类别,以及根据所述安全处理文件的文件内容,获取所述安全处理文件对应的业务类别;

根据所述样本内容文件对应的业务类别和所述安全处理文件对应的业务类别之间的关联关系,确定所述各样本网页对应的所述第一实体和所述第二实体之间的实体关系;

根据所述各样本网页对应的所述第一实体、所述第二实体以及所述实体关系,构建所述知识图谱。

在一些实施例中,构建单元,还用于:

对于所述各样本网页的样本内容文件和所述各样本网页的样本内容文件对应的安全处理文件中的任一文件,在所述任一文件中存在非结构化数据的情况下,基于第一数据结构转换模型,将所述非结构化数据转换为半结构化数据;

基于第二数据结构转换模型,将所述半结构化数据转换为结构化数据;

对所述任一文件中的结构化数据进行预处理。

在一些实施例中,构建单元,还用于:

基于预设专家知识库中的实体抽取规则,对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的第一候选实体;

基于预先训练的实体抽取模型,对预处理后的各样本网页的样本内容文件进行实体抽取,得到所述各样本网页对应的第二候选实体;

对所述第一候选实体和所述第二候选实体进行融合,得到所述各样本网页对应的所述第一实体。

在一些实施例中,确定单元602,具体用于:

基于所述知识图谱,确定与所述目标内容文件匹配的第一实体对应的第二实体;

对匹配的第一实体对应的第二实体对应的安全处理文件进行融合,得到所述目标安全处理文件。

在一些实施例中,确定单元602,还用于:

在所述知识图谱中存在与所述目标内容文件匹配的第一实体的情况下,在所述知识图谱中,确定匹配的第一实体对应的第二实体。

在一些实施例中,确定单元602,还用于:

在所述知识图谱中不存在与所述目标内容文件匹配的第一实体的情况下,对所述目标内容文件进行实体抽取,得到与所述目标内容文件匹配的第一实体;

将与所述目标内容文件匹配的第一实体作为所述知识图谱的新增第一实体,对所述知识图谱进行聚合更新;

在更新后的知识图谱中,确定匹配的第一实体对应的第二实体。

图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行网页内容安全处理方法,该方法包括:获取目标网页的目标内容文件;基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件;根据所述目标安全处理文件中的内容安全处理策略,对所述目标内容文件进行内容安全处理,得到所述目标网页的内容安全处理结果;其中,所述知识图谱至少包括第一实体和第二实体;所述第一实体是对各样本网页的样本内容文件进行实体抽取得到的,所述第二实体是对所述各样本网页的样本内容文件对应的安全处理文件进行实体抽取得到的。

此外,上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的网页内容安全处理方法,该方法包括:获取目标网页的目标内容文件;基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件;根据所述目标安全处理文件中的内容安全处理策略,对所述目标内容文件进行内容安全处理,得到所述目标网页的内容安全处理结果;其中,所述知识图谱至少包括第一实体和第二实体;所述第一实体是对各样本网页的样本内容文件进行实体抽取得到的,所述第二实体是对所述各样本网页的样本内容文件对应的安全处理文件进行实体抽取得到的。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的网页内容安全处理方法,该方法包括:获取目标网页的目标内容文件;基于预先构建的知识图谱,确定所述目标内容文件对应的目标安全处理文件;根据所述目标安全处理文件中的内容安全处理策略,对所述目标内容文件进行内容安全处理,得到所述目标网页的内容安全处理结果;其中,所述知识图谱至少包括第一实体和第二实体;所述第一实体是对各样本网页的样本内容文件进行实体抽取得到的,所述第二实体是对所述各样本网页的样本内容文件对应的安全处理文件进行实体抽取得到的。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120116158104