掌桥专利:专业的专利平台
掌桥专利
首页

内容风控知识库构建方法、装置、设备及存储介质

文献发布时间:2023-06-19 19:33:46


内容风控知识库构建方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域,具体涉及一种内容风控知识库构建方法、装置、设备及存储介质。

背景技术

面对互联网内容数据量的增长和内容安全的监管要求,以技术为主要工具的内容风控系统服务持续扩大。然而,传统的内容风控知识库多为文献库,不能提供结构化、体系化的风控知识,难以满足内容风控领域的应用需求。随着人工智能和知识图谱技术的快速进步,具备知识推理和知识更新能力的内容风控知识库需求日益迫切,具有十分重要的应用空间。

发明内容

鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的内容风控知识库构建方法、装置、设备及存储介质。

根据本申请的一个方面,提供了一种内容风控知识库构建方法,包括:

根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;

根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;

根据抽取的实体关系和实体构建内容风控知识库。

根据本申请的另一个方面,提供了一种内容风控知识库构建装置,包括:

建模模块,用于根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;

知识抽取模块,用于根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;

知识库构建模块,用于根据抽取的实体关系和实体构建内容风控知识库。

根据本申请的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请所述的内容风控知识库构建方法对应的操作。

根据本申请的另一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行本申请所述的内容风控知识库构建方法对应的操作。

根据本申请公开的内容风控知识库构建方法、设备及存储介质,通过根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;根据抽取的实体关系和实体构建内容风控知识库。这样通过本体设计形成内容风控知识,构建面向内容风控的领域知识库,为基于知识图谱的内容风控技术服务提供知识支持,并为计算机进行语言理解和知识推理提供可靠的内容风控知识库,提高智能审核的准确性和可靠性。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本申请实施例一提供的一种内容风控知识库构建方法的流程示意图;

图2示出了根据本申请实施例一提供的一种内容风控知识库构建方法中的本体建模示意图;

图3示出了根据本申请实施例一提供的一种内容风控知识库构建方法中的实体关系抽取和实体抽取流程示意图;

图4示出了根据本申请实施例二提供的一种内容风控知识库构建方法中NARRE双塔模型建模过程示意图;

图5示出了根据本申请实施三提供的一种内容风控知识库构建装置的结构示意图;

图6示出了根据本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。

实施例一

图1示出了根据本申请实施例一提供的一种内容风控知识库构建方法的流程示意图。如图1所示,该方法包括:

步骤S11,根据预设语料数据对内容风控领域本体进行建模;其中,建模包括本体概念建模和本体关系建模。

其中,预设语料数据可以提前获取,例如,可以为句子、词语等。具体的,可以以主流媒体官网首页为准,采取以点及面、逐层深入的模式,通过网络链接,深度解析超文本标记语言(Hyper Text Markup Language,HTML)标记语言,对HTML标记内容定时进行获取和解析,得到原始语料数据。原始语料数据获取后会对原始语料数据进行预处理,包括对多来源的原始语料数据去重和去除文本中的标签和特殊字符等。在特征提取过程中,本实施例综合利用词语的主题相关度来计算关键词权重,进而提取文本特征,结合相关的相似度算法得到数据语义相似程度,整合快速聚类算法,得到最终的语义相似度,实现原始语料数据去重,得到预设语料数据。

其中,本体是一种重要的知识库,表示主题领域的词汇的基本术语和关系。内容风控领域本体是包括内容风控术语、术语间的规范关系及说明的体系。本实施例采用多策略融合的方法抽取本体术语,对预设语料数据基于停用词、数词、量词、日期、地点名词拆解、词性分析、分词后词性分析,命名实体识别低频人名、人工筛选关键词等要素设计领域术语过滤算法,对初始术语多轮过滤,以滤除术语中无明显意义、语法结构混乱或者语义接近的词汇,最终获得内容风控领域本体术语。

步骤S12,根据建模后的本体概念和本体关系进行内容风控知识抽取;其中,内容风控知识抽取包括实体关系抽取和实体抽取。

具体的,首先采用分类任务的微调预训练语言模型进行实体关系抽取,然后融合实体关系信息及预训练语言模型进行实体抽取。

步骤S13,根据抽取的实体关系和实体构建内容风控知识库。

具体的,可以采用RDF(Resource Description Framework,资源框架系统)存储系统,将内容风控知识作为图数据进行存储,使用关系型数据库作为底层存储。

由此可见,本实施例通过根据预设语料数据对内容风控领域本体进行建模;其中,建模包括本体概念建模和本体关系建模;根据建模后的本体概念和本体关系进行内容风控知识抽取;其中,内容风控知识抽取包括实体关系抽取和实体抽取;根据抽取的实体关系和实体构建内容风控知识库。这样通过本体设计形成内容风控知识,构建面向内容风控的知识库,为基于知识图谱的内容风控技术服务提供知识支持,并为计算机进行语言理解和知识推理提供可靠的内容风控知识库,提高智能审核的准确性和可靠性。

在一个可选实施例中,所述本体概念建模,包括:

根据预设语料数据获取内容风控领域本体术语;计算内容风控领域本体术语的词嵌入特征,并对词嵌入特征进行多级聚类;根据内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为人物、机构、事件和领域特征词表。

其中,5W要素包括何时(when)、何地(where)、何事(what)、何因(why)、何人(who)。具体的,本实施例可以采用词嵌入特征,通过Directional Skip-Gram(DSG)算法计算每个术语的词嵌入特征,并辅以k-均值算法对术语的词嵌入特征进行多级聚类。如图2所示,结合内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为:人物、机构、事件和领域特征词表。

在一个可选实施例中,所述本体关系建模,包括:

当内容风控领域本体术语间的关系为层次关系时,采用专家预设的模板、基于语言规则和聚类方法多策略方式抽取;当内容风控领域本体术语间的关系为非层次关系时,采用自然语言处理技术对语料数据进行分析,识别每个句子中的核心动词,结合上下文寻找与核心动词紧邻的术语,构建两个术语之间的关系。

其中,本体术语间的关系分为层次关系、非层次关系。层次关系的抽取可以采用专家预设的模板、基于语言规则、和聚类方法多策略方式抽取,如人物与机构的关系分为:组建/成立、任职、参观/走访和其他,人物与人物之间的关系为:亲属、同事/上下级等。非层次关系的抽取则采用基于深层的自然语言处理技术,对语料进行句法分析、语义依存分析,识别每个句子中的核心动词,然后结合上下文,寻找与该核心词紧邻的术语,构建两个术语之间的关系。

在一个可选实施例中,所述实体关系抽取,包括:

给定一个句子,将句子送入编码器获得对应的词向量;通过模拟词向量的重要程度及之间的相关性实现实体信息的隐编码,并加入平均池化操作获取句子的实体嵌入特征;将实体嵌入向量与词向量进行拼接,并通过神经网络进行分类从而获取整个句子的实体关系表示。

具体的,句子中的实体关系抽取任务是基于语言模型的隐藏层嵌入,实现句子级别的文本分类。如图3所示,给定一个句子第五届进博会在上海开幕记为S

在一个可选实施例中,所述实体抽取,包括:

根据实体关系表示获得关系提示信息的连续表示;将连续表示与词向量进行融合,使用条件随机场识别出实体,得到每个词在实体分类阶段的输出。

具体的,如图3所示,将实体关系抽取阶段获取的关系

实施例二

如图4所示,为本申请实施例二提供的一种内容风控知识库构建方法,本实施例为一具体实施例,用于对本发明的方案进行详细说明,如图4所示,具体包括如下步骤:

步骤S21,数据获取与处理。

本实施例以主流媒体官网首页为准,采取以点及面、逐层深入的模式,通过网络链接,深度解析HTML标记语言,对HTML标记内容定时进行获取和解析。数据获取后会对原始数据进行的预处理,包括对多来源的数据去重和去除文本中的标签和特殊字符等。在特征提取过程中,本实施例综合利用词语的主题相关度来计算关键词权重,进而提取文本特征,结合相关的相似度算法得到数据语义相似程度,整合快速聚类算法,得到最终的语义相似度,实现数据去重的最终结果,得到最终的语料数据。

步骤S22,内容风控领域本体建模。

本体是一种重要的知识库,表示主题领域的词汇的基本术语和关系。内容风控领域本体是包内容风控术语、术语间的规范关系及说明的体系。内容风控领域本体建模包含以下部分:

本体术语定义,本实施例采用多策略融合的方法抽取本体术语,对语料数据基于停用词、数词、量词、日期、地点名词拆解、词性分析、分词后词性分析,命名实体识别低频人名、人工筛选关键词等要素设计领域术语过滤算法,对初始术语多轮过滤,以滤除术语中无明显意义、语法结构混乱或者语义接近的词汇,最终获得内容风控领域本体术语。

本体概念建模,本实施例采用词嵌入特征,通过Directional Skip-Gram(DSG)算法计算每个术语的词嵌入特征,并辅以k-均值算法对术语的词嵌入特征进行多级聚类。如图2所示,结合内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为:人物、机构、事件和领域特征词表。

本体关系建模,本体术语间的关系分为层次关系、非层次关系。层次关系的抽取采用专家预设的模板、基于语言规则、和聚类方法多策略方式抽取,如人物与机构的关系分为:组建/成立、任职、参观/走访和其他,人物与人物之间的关系为:亲属、同事/上下级等。非层次关系的抽取则采用基于深层的自然语言处理技术,对语料进行句法分析、语义依存分析,识别每个句子中的核心动词,然后结合上下文,寻找与该核心词紧邻的术语,构建两个术语之间的关系。

步骤S23,内容风控知识抽取。

本实施例提出一种两阶段实体关系抽取方法,首先采用分类任务的微调预训练语言模型进行实体关系抽取,然后融合实体关系信息及预训练语言模型进行实体抽取。实现步骤如下:

实体关系抽取,句子中的实体关系抽取任务是基于语言模型的隐藏层嵌入,实现句子级别的文本分类。如图3所示,给定一个句子S

实体抽取,将实体关系抽取阶段获取的关系

步骤S24,构建内容风控知识库。

本实施例采用RDF存储系统,将内容风控知识作为图数据进行存储,使用关系型数据库作为底层存储方案。

本实施例自动进行数据清洗、结构化抽取和知识挖掘,最终构建内容风控知识库,包括底层的内容风控领域术语库,以及术语之间的关系知识,可以为媒体内容风控提供支撑服务。

实施例三

图5示出了根据本申请实施三提供的一种内容风控知识库构建装置的结构示意图。如图5所示,该装置包括:建模模块31、知识抽取模块32和知识库构建模块33;其中,

建模模块31用于根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;

知识抽取模块32用于根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;

知识库构建模块33用于根据抽取的实体关系和实体构建内容风控知识库。

进一步的,所述建模模块31具体用于:根据预设语料数据获取内容风控领域本体术语;计算所述内容风控领域本体术语的词嵌入特征,并对所述词嵌入特征进行多级聚类;根据内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为人物、机构、事件和领域特征词表。

进一步的,所述建模模块31具体用于:当内容风控领域本体术语间的关系为层次关系时,采用专家预设的模板、基于语言规则和聚类方法多策略方式抽取;当内容风控领域本体术语间的关系为非层次关系时,采用自然语言处理技术对语料数据进行分析,识别每个句子中的核心动词,结合上下文寻找与所述核心动词紧邻的术语,构建两个术语之间的关系。

进一步的,所述知识抽取模块32具体用于:给定一个句子,将所述句子送入编码器获得对应的词向量;通过模拟所述词向量的重要程度及之间的相关性实现实体信息的隐编码,并加入平均池化操作获取句子的实体嵌入特征;将所述实体嵌入向量与所述词向量进行拼接,并通过神经网络进行分类从而获取整个句子的实体关系表示。

进一步的,所述知识抽取模块32具体用于:根据所述实体关系表示获得关系提示信息的连续表示;将所述连续表示与所述词向量进行融合,使用条件随机场识别出实体,得到每个词在实体分类阶段的输出。

进一步的,所述层次关系包括人物与机构的关系、或人物与人物之间的关系;其中,人物与机构的关系为组建/成立、任职、参观/走访,人物与人物之间的关系为亲属、同事/上下级。

进一步的,所述知识库构建模块33具体用于:采用资源框架RDF存储系统,将内容风控知识作为图数据进行存储,使用关系型数据库作为底层存储。

本实施例所述的内容风控知识库构建装置用于执行上述实施例一至实施例二所述的内容风控知识库构建方法,其工作原理与技术效果类似,这里不再赘述。

实施例四

本申请实施例四提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的内容风控知识库构建方法。

实施例五

图6示出了根据本申请实施例五提供的一种电子设备的结构示意图。本申请具体实施例并不对电子设备的具体实现做限定。

如图6所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述方法实施例中的相关步骤。

具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述任意方法实施例中的内容风控知识库构建方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

技术分类

06120115952430