掌桥专利:专业的专利平台
掌桥专利
首页

一种基于自学习的标签规则产生方法及装置

文献发布时间:2023-06-19 18:37:28


一种基于自学习的标签规则产生方法及装置

技术领域

本申请涉及计算机技术领域,尤其涉及一种基于自学习的标签规则产生方法及装置。

背景技术

相关技术中,标签作为一种灵活的数据组织方式,是具有业务属性的,通过特征集合并关联打标签的对象,对分析对象生成画像,挖掘对象的价值。打标签的过程,也就是生产标签的过程,包括:明确打标签的对象;明确标签的用途;明确标签规则;明确标签的名称。这个过程中最复杂的也是难度比较高就是明确标签规则的过程,目前标签的规则都是基于人工根据经验总结进行规则的整理。有些标签的逻辑是不断的发生改变的,对于已经整理好的规则,难以及时的根据标签逻辑的改变及时进行调整。

发明内容

为此,本申请提供一种基于自学习的标签规则产生方法及装置。本申请的技术方案如下:

根据本申请实施例的第一方面,提供一种基于自学习的标签规则产生方法,所述方法包括:

响应于接收到目标数据,对所述目标数据进行特征提取,以得到特征数据;

确定所述特征数据的所属类型;

将所述特征数据和所述特征数据的所属类型输入至预训练的预测器中;

获取所述预测器输出的标签规则;所述预测器是基于标签规则索引数据进行训练得到的;所述标签规则索引数据用于存储特征数据、数据类型与标签规则之间的对应关系;

基于所述标签规则对所述特征数据进行打标签。

根据本申请的一个实施例,所述预测器通过以下步骤进行训练:

采用小样本学习算法,基于所述标签规则索引数据对待训练的神经网络模型进行训练;

将训练好的所述神经网络模型确定为所述预测器。

根据本申请的一个实施例,所述预测器还通过以下步骤进行训练:

获取标签规则样本数据;其中,所述标签规则样本数据包括目标样本数据和所述目标样本数据对应的第一标签值;

对所述目标样本数据进行特征提取,以得到特征样本数据;

确定所述特征样本数据的所属类型;

将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器;

获取所述预测器基于所述特征样本数据和所述特征样本数据的所属类型预测出的标签规则;

根据所述预测出的标签规则,确定第二标签值;

将所述第一标签值与所述第二标签值进行比对,得到比对结果;

响应于所述比对结果为所述第一标签值区别于所述第二标签值,对所述预测器进行调参,重复执行所述将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器的步骤。

根据本申请的一个实施例,所述标签规则样本数据有多个;在所述获取标签规则样本数据之后,还包括:

对所述多个标签规则样本数据进行语义相似性计算,得到计算结果;

基于所述计算结果,对所述多个标签规则样本数据进行聚类处理,以得聚类后的标签规则数据。

根据本申请的一个实施例,在所述将所述第一标签值与所述第二标签值进行比对,得到比对结果之后,还包括:

响应于所述比对结果为所述第一标签值与所述第二标签值相同,确定所述标签规则索引数据中是否存储有所述预测出的标签规则;

响应于所述标签规则索引数据中未存储有所述预测出的标签规则,将所述预测出的标签规则存入所述标签规则索引数据中。

根据本申请实施例的第二方面,提供一种基于自学习的标签规则产生装置,所述装置包括:

特征提取模块,用于响应于接收到目标数据,对所述目标数据进行特征提取,以得到特征数据;

确定模块,用于确定所述特征数据的所属类型;

输入模块,用于将所述特征数据和所述特征数据的所属类型输入至预训练的预测器中;

获取模块,用于获取所述预测器输出的标签规则;所述预测器是基于标签规则索引数据进行训练得到的;所述标签规则索引数据用于存储特征数据、数据类型与标签规则之间的对应关系;

打标签模块,用于基于所述标签规则对所述特征数据进行打标签。

根据本申请的一个实施例,还包括训练模块,所述训练模块用于:

采用小样本学习算法,基于所述标签规则索引数据对待训练的神经网络模型进行训练;

将训练好的所述神经网络模型确定为所述预测器。

根据本申请的一个实施例,所述训练模块还用于:

获取标签规则样本数据;其中,所述标签规则样本数据包括目标样本数据和所述目标样本数据对应的第一标签值;

对所述目标样本数据进行特征提取,以得到特征样本数据;

确定所述特征样本数据的所属类型;

将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器;

获取所述预测器基于所述特征样本数据和所述特征样本数据的所属类型预测出的标签规则;

根据所述预测出的标签规则,确定第二标签值;

将所述第一标签值与所述第二标签值进行比对,得到比对结果;

响应于所述比对结果为所述第一标签值区别于所述第二标签值,对所述预测器进行调参,重复执行所述将所述特征样本数据和所述特征样本数据的所属类型输入至所述预测器的步骤。

根据本申请的一个实施例,所述标签规则样本数据有多个;所述训练模块还用于:

对所述多个标签规则样本数据进行语义相似性计算,得到计算结果;

基于所述计算结果,对所述多个标签规则样本数据进行聚类处理,以得聚类后的标签规则数据。

根据本申请的一个实施例,所述训练模块还用于:

响应于所述比对结果为所述第一标签值与所述第二标签值相同,确定所述标签规则索引数据中是否存储有所述预测出的标签规则;

响应于所述标签规则索引数据中未存储有所述预测出的标签规则,将所述预测出的标签规则存入所述标签规则索引数据中。

本申请的实施例提供的技术方案至少带来以下有益效果:

通过响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据;确定特征数据的所属类型;将特征数据和特征数据的所属类型输入至预训练的预测器中;获取预测器输出的标签规则;基于标签规则对特征数据进行打标签。从而使标签规则的产生不再强依赖于人工,自动生成相应的标签规则,基于自学习技术的标签规则产生引擎,自动匹配字段的标签打标规则,快速完成标签的打标工作,提高标签规则的准确度和专业性,提升数据标签化的工作效率和精准度

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。

图1为本申请实施例中的一种基于自学习的标签规则产生方法的流程图;

图2为本申请实施例中的一种基于自学习的标签规则产生装置的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是,标签体系建设就是为了更好的适应未来的这种不确定性,尽可能地覆盖和满足未来业务的发展需求。标签本质上是一种对客观世界的实体对象、场景的度量或描述,是经过缜密的逻辑分析和处理后的产物,用以引导发挥数据应用价值。实际业务过程中可以抽象出非常多的实体对象,这些实体对象在不同业务场景下交叉产生联系,每个场景中又生成各类事实数据,信息量非常庞大复杂,导致业务类标签建设变得难以下手。

标签作为一种灵活的数据组织方式,是具有业务属性的,通过特征集合并关联打标签的对象,对分析对象生成画像,挖掘对象的价值。打标签的过程,也就是生产标签的过程,包括4个步骤:明确打标签的对象;明确标签的用途;明确标签规则;明确标签的名称。这个过程中最复杂的也是难度比较高就是明确标签规则的过程,目前标签的规则都是基于人工根据经验总结进行规则的整理。打标签真正的难题是标签要能够用起来,高度贴合业务,构造若干个标签,形成标签体系,驱动业务工作。

对逻辑比较复杂的标签体系,虽然可以通过使用策略模式或者使用一些注解进行扩展点优化,可解决一部分代码不清晰的问题,但是依然无法解决开发缓慢,及时上线等问题,因为在有些标签的逻辑是不断的发生改变的,如果在代码中写死,那么发生一个改变就改一下代码,所以用规则引擎这种高效可靠的方式去适应标签业务规则的改变。标签规则更多的是依赖对业务的理解,基于规则引擎的方式,业务人员能够独立配置标签规则,不需经过开发人员进行设置,同时标签规则发生变更时,可以高效改动并上线,即配即用。通过不断的升级规则引擎,标签规则就不会再对开发人员有依赖。但是标签规则的生成还是依赖于人工去进行整理,受人员专业度和经验的限制。

基于上述问题,本申请提出了一种基于自学习的标签规则产生方法及装置,可以实现通过响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据;确定特征数据的所属类型;将特征数据和特征数据的所属类型输入至预训练的预测器中;获取预测器输出的标签规则;基于标签规则对特征数据进行打标签。从而使标签规则的产生不再强依赖于人工,自动生成相应的标签规则,基于自学习技术的标签规则产生引擎,自动匹配字段的标签打标规则,快速完成标签的打标工作,提高标签规则的准确度和专业性,提升数据标签化的工作效率和精准度。

图1为本申请实施例中的一种基于自学习的标签规则产生方法的流程图。

如图1所示,该基于自学习的标签规则产生方法包括:

步骤101,响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据。

作为一种可能实施的示例,服务器响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据。可选的,上述目标数据可以是文本数据,还可以是结构化数据。可选的,可以采用预先训练好的特征提取网络对目标数据进行特征提取。

步骤102,确定特征数据的所属类型。

作为一种可能实施的示例,根据提取到的特征数据,确定特征数据的所属类型。

步骤103,将特征数据和特征数据的所属类型输入至预训练的预测器中。

在本申请一些实施例中,预测器通过以下步骤进行训练:

步骤a1,采用小样本学习算法,基于标签规则索引数据对待训练的神经网络模型进行训练。

需要说明的是,标签规则索引数据用于存储特征数据、数据类型与标签规则之间的对应关系。

作为一种可能实施的示例,采用小样本学习算法,基于标签规则索引数据对待训练的神经网络模型进行训练。

步骤a2,将训练好的神经网络模型确定为预测器。

步骤a3,获取标签规则样本数据。

其中,在本申请一些实施例中,标签规则样本数据包括目标样本数据和目标样本数据对应的第一标签值。

作为一种可能实施的示例,第一标签值可以是根据目标样本数据预先标注的实际标签值。

其中,在本申请实施例中,标签规则样本数据有多个,在步骤a3之后还包括:

步骤b1,对多个标签规则样本数据进行语义相似性计算,得到计算结果。

步骤b2,基于计算结果,对多个标签规则样本数据进行聚类处理,以得聚类后的标签规则数据。

作为一种可能实施的示例,服务器对多个标签规则样本数据进行语义相似性计算,得到计算结果。基于计算结果对多个标签规则样本数据进行聚类处理,以得聚类后的标签规则数据。上述聚类处理可以采用基于长短期记忆模型的自编码器LSTM-AE进行聚类。在强化学习阶段,编码器学习输入标签规则文本的固定长度向量特征,而解码器使用这种特征,利用当前隐藏状态和前一个时间步长的预测值重建原始向量。作为近似函数的概率编码器将输入映射为一个分布,然后,生成概率解码器利用条件概率生成原始样本。还可以使用OPTICS(Ordering points to identify the clustering structure,排序点以识别群集结构)聚类算法进行聚类。对原始数据进行特征学习,然后对学习到的特征表示进行预聚类,最后在不断迭代微调,进行特征的优化和聚类的优化。利用深度学习和聚类技术的无监督学习的共性,将深度学习的优势和聚类相结合,使得聚类效果更好。

步骤a4,对目标样本数据进行特征提取,以得到特征样本数据。

可选的,可以采用预先训练好的特征提取网络对目标数据进行特征提取。

步骤a5,确定特征样本数据的所属类型。

作为一种可能实施的示例,根据提取到的特征数据,确定特征数据的所属类型。

步骤a6,将特征样本数据和特征样本数据的所属类型输入至预测器。

步骤a7,获取预测器基于特征样本数据和特征样本数据的所属类型预测出的标签规则。

作为一种可能实施的示例,服务器将特征样本数据和特征样本数据的所属类型输入至预测器,预测器基于特征样本数据和特征样本数据的所属类型对特征样本数据对应的标签规则进行预测,预测器输出预测出的标签规则。

步骤a8,根据预测出的标签规则,确定第二标签值。

作为一种可能实施的示例,服务器根据预测出的标签规则和特征样本数据,确定第二标签值。举例来说,特征样本数据为“12岁”,特征样本数据的所属类型为“年龄”,预测器预测出的标签规则为“年龄”在“7~12岁”则标记为“儿童”,“儿童”即为第二标签值。

步骤a9,将第一标签值与第二标签值进行比对,得到比对结果。

作为一种可能实施的示例,服务器将第一标签值与第二标签值进行比对,得到比对结果。

其中,在本申请实施例中,在步骤a9之后还包括:

步骤c1,响应于比对结果为第一标签值与第二标签值相同,确定标签规则索引数据中是否存储有预测出的标签规则。

步骤c2,响应于标签规则索引数据中未存储有预测出的标签规则,将预测出的标签规则存入标签规则索引数据中。

步骤a10,响应于比对结果为第一标签值区别于第二标签值,对预测器进行调参,重复执行步骤a6。

作为一种可能实施的示例,响应于比对结果为第一标签值区别于第二标签值,对预测器进行调参。对于重新调参后的预测器,重复执行将特征样本数据和特征样本数据的所属类型输入至预测器的步骤,直至第一标签值区与第二标签值一致。

步骤104,获取预测器输出的标签规则。

其中,在本申请实施例中,预测器是基于标签规则索引数据进行训练得到的。

其中,在本申请实施例中,标签规则索引数据用于存储特征数据、数据类型与标签规则之间的对应关系。

作为一种可能实施的示例,预测器根据特征数据和特征数据的所属类型,对标签规则进行预测,将预测出的标签规则进行输出。

步骤105,基于标签规则对特征数据进行打标签。

作为一种可能实施的示例,服务器于标签规则对特征数据进行打标签。举例来说,特征数据为“12岁”,特征数据的所属类型为“年龄”,预测器预测出的标签规则为“年龄”在“7~12岁”则标记为“儿童”,根据上述规则,确定该特征数据的标签为“儿童”。

根据本申请实施例的基于自学习的标签规则产生方法,通过响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据;确定特征数据的所属类型;将特征数据和特征数据的所属类型输入至预训练的预测器中;获取预测器输出的标签规则;基于标签规则对特征数据进行打标签。从而使标签规则的产生不再强依赖于人工,自动生成相应的标签规则,基于自学习技术的标签规则产生引擎,自动匹配字段的标签打标规则,快速完成标签的打标工作,提高标签规则的准确度和专业性,提升数据标签化的工作效率和精准度。

图2为本申请实施例中的一种基于自学习的标签规则产生装置的结构框图。

如图2所示,该基于自学习的标签规则产生装置包括:

特征提取模块201,用于响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据;

确定模块202,用于确定特征数据的所属类型;

输入模块203,用于将特征数据和特征数据的所属类型输入至预训练的预测器中;

获取模块204,用于获取预测器输出的标签规则;预测器是基于标签规则索引数据进行训练得到的;标签规则索引数据用于存储特征数据、数据类型与标签规则之间的对应关系;

打标签模块205,用于基于标签规则对特征数据进行打标签。

其中,在本申请一些实施例中,该装置还包括训练模块,训练模块用于:

采用小样本学习算法,基于标签规则索引数据对待训练的神经网络模型进行训练;

将训练好的神经网络模型确定为预测器。

其中,在本申请一些实施例中,训练模块还用于:

获取标签规则样本数据;其中,标签规则样本数据包括目标样本数据和目标样本数据对应的第一标签值;

对目标样本数据进行特征提取,以得到特征样本数据;

确定特征样本数据的所属类型;

将特征样本数据和特征样本数据的所属类型输入至预测器;

获取预测器基于特征样本数据和特征样本数据的所属类型预测出的标签规则;

根据预测出的标签规则,确定第二标签值;

将第一标签值与第二标签值进行比对,得到比对结果;

响应于比对结果为第一标签值区别于第二标签值,对预测器进行调参,重复执行将特征样本数据和特征样本数据的所属类型输入至预测器的步骤。

其中,在本申请一些实施例中,标签规则样本数据有多个;训练模块还用于:

对多个标签规则样本数据进行语义相似性计算,得到计算结果;

基于计算结果,对多个标签规则样本数据进行聚类处理,以得聚类后的标签规则数据。

其中,在本申请一些实施例中,训练模块还用于:

响应于比对结果为第一标签值与第二标签值相同,确定标签规则索引数据中是否存储有预测出的标签规则;

响应于标签规则索引数据中未存储有预测出的标签规则,将预测出的标签规则存入标签规则索引数据中。

根据本申请实施例的基于自学习的标签规则产生装置,通过响应于接收到目标数据,对目标数据进行特征提取,以得到特征数据;确定特征数据的所属类型;将特征数据和特征数据的所属类型输入至预训练的预测器中;获取预测器输出的标签规则;基于标签规则对特征数据进行打标签。从而使标签规则的产生不再强依赖于人工,自动生成相应的标签规则,基于自学习技术的标签规则产生引擎,自动匹配字段的标签打标规则,快速完成标签的打标工作,提高标签规则的准确度和专业性,提升数据标签化的工作效率和精准。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。

在本发明中,术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术分类

06120115630851