掌桥专利:专业的专利平台
掌桥专利
首页

匹配模型训练方法、设备及介质

文献发布时间:2023-06-19 19:30:30


匹配模型训练方法、设备及介质

技术领域

本公开涉及计算机技术领域,特别涉及一种匹配模型训练方法、设备及介质。

背景技术

随着计算机技术的发展,越来越多的方法被应用到现实生活中,例如,匹配模型,匹配模型主要是用来研究两段文本之间的关系,被大量的应用在文本问答、推荐、智能客服,对话质检,数据库问答等应用场景中。

在相关技术中,对于匹配模型的训练过程,主要是通过带有标签的训练数据进行训练完成,但是,带有标准的训练数据获取困难,并且为训练数据添加标签耗时耗力,需要大量的成本,所以,如何提供一种可以通过无标签的训练数据,得到训练好的匹配模型是一个亟待解决的问题。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种匹配模型训练方法、设备及介质,可以通过无标签的数据训练匹配模型,使得匹配模型预测更准确。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

第一方面,本公开中的实施例提供一种匹配模型训练方法,所述方法包括:

通过聚类算法对目标数据集中的原始数据进行聚类处理,得到多个数据聚类;其中,所述目标数据集为通过无标签的两个候选数据集组合得到的;

将所述多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据;

将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据所述K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值;

根据所述K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至所述未训练的匹配模型对应的匹配损失函数值小于第一预设值,且所述未训练的匹配模型基于所述多个数据聚类中的原始数据进行预测得到的相似度结果大于第二预设值,则得到已训练的匹配模型。

在一种可能的实施例中,所述将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据所述K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值,包括:

将每两条拼接数据进行组合的过程中,对得到的任意一个数据组进行判断,确定所述任意一个数据组对应的标签值;

针对K个数据组中的任意一个数据组的判断如下:

若所述任意一个数据组中两条拼接数据中的原始数据属于同一个候选数据集,则根据所述任意一个数据组中四条原始数据对应的数据聚类情况,确定所述任意一个数据组的标签值;以及

若所述任意一个数据组中两条拼接数据中的任意两条原始数据属于不同候选数据集,则根据所述任意一个数据组中四条原始数据对应的候选数据集情况和数据聚类情况,确定所述任意一个数据组的标签值。

在一种可能的实施例中,所述任意一个数据组中包括第一拼接数据和第二拼接数据;所述第一拼接数据包括拼接时位置位于前半部分的第一原始数据和拼接时位置位于后半部分第二原始数据;所述第二拼接数据包括拼接时位置位于前半部分的第三原始数据和拼接时位置位于后半部分第四原始数据;

所述若所述任意一个数据组中两条拼接数据中的原始数据属于同一个候选数据集,则根据所述任意一个数据组中四条原始数据对应的数据聚类情况,确定所述任意一个数据组的标签值,包括:

若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第二拼接数据中的原始数据与第一拼接数据中的原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第一数值;

若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,或者,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;

若所述第一拼接数据中的第一原始数据和第二原始数据属于同一个数据聚类,且第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值;

若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与所述第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第一数值;

若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,或者,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;

若所述第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类,且第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值。

在一种可能的实施例中,所述任意一个数据组中包括第一拼接数据和第二拼接数据;所述第一拼接数据包括拼接时位置位于前半部分的第一原始数据和拼接时位置位于后半部分第二原始数据;所述第二拼接数据包括拼接时位置位于前半部分的第三原始数据和拼接时位置位于后半部分第四原始数据;

所述若所述任意一个数据组中两条拼接数据中的任意两条原始数据属于不同候选数据集,则根据所述任意一个数据组中四条原始数据对应的候选数据集情况和数据聚类情况,确定所述任意一个数据组的标签值,包括:

若第一原始数据与第三原始数据属于同一个候选数据集,且第二原始数据与第四原始数据不属于同一个候选数据集,且第一原始数据与第三原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;

若第一原始数据与第三原始数据不属于同一个候选数据集,且第二原始数据与第四原始数据属于同一个候选数据集,且第二原始数据与第四原始数据属于同一个数据聚类,则确定所述任意一个数据组的标签值为第二数值;

若第一原始数据与第三原始数据属于同一个候选数据集,且第二原始数据与第四原始数据不属于同一个候选数据集,且第一原始数据与第三原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值;

若第一原始数据与第三原始数据不属于同一个候选数据集,且第二原始数据与第四原始数据属于同一个候选数据集,且第二原始数据与第四原始数据不属于同一个数据聚类,则确定所述任意一个数据组的标签值为第三数值;

若第一原始数据与第三原始数据不属于同一个候选数据集,且第二原始数据与第四原始数据不属于同一个候选数据集,则确定所述任意一个数据组的标签值为第三数值。

在一种可能的实施例中,所述未训练的匹配模型包括两层全连接层和未训练的匹配子模型;

所述根据所述K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练的过程如下:

通过所述K个数据组,以及每个数据组的标签值对所述所述未训练的匹配模型进行迭代训练,其中,一次迭代训练过程包括:

从所述K个数据组中抽取待训练样本按顺序输入两层全连接层中,对原始数据的自身表达进行训练,得到第一输出结果;

将所述第一输出结果输入至所述未训练的匹配子模型中,对所述K个数据组中原始数据之间的相关性进行训练,得到第二输出结果;

根据所述待训练样本对应的标签值和所述第二输出结果,确定匹配损失函数值;

根据匹配损失函数值,调整所述未训练的匹配模型的网络参数,直至所述匹配损失函数值满足第一预设值,得到中间匹配模型;

根据中间匹配模型对多个数据聚类中的原始数据进行预测,得到相似度结果;

若所述相似度结果大于第二预设值,则得到已训练的匹配模型。

在一种可能的实施例中,匹配损失函数如下:

其中,J表示匹配损失函数;y

在一种可能的实施例中,所述根据中间匹配模型对多个数据聚类中的原始数据进行预测,得到相似度结果,包括:

针对多个数据聚类,选择任意一个数据聚类,并确定所述任意一个数据聚类的聚类中心对应的原始数据,将所述所述任意一个数据聚类的聚类中心对应的原始数据作为第一待预测数据,将所述任意一个数据聚类中除所述聚类中心对应的原始数据以外的其他原始数据作为第二待预测数据;

将第一待预测数据与自身进行拼接,得到第一待预测拼接数据;

将第二待预测数据与自身进行拼接,得到第二待预测拼接数据;

将第一待预测拼接数据和第二待预测拼接数据作为一组待预测拼接数据;

从所述多个数据聚类中确定多组待预测拼接数据;

将所述多组待预测拼接数据输入所述中间匹配模型中进行预测,得到多组待预测拼接数据对应的相似度;

根据所述多组待预测拼接数据对应的相似度取平均值,确定相似度结果。

在一种可能的实施例中,所述得到已训练的匹配模型之后,所述方法还包括:

获取第一待匹配数据和第二待匹配数据;

将第一待匹配数据与自身进行拼接,得到第一待匹配拼接数据;

将第二待匹配数据与自身进行拼接,得到第二待匹配拼接数据;

将所述第一待匹配拼接数据和所述第二待匹配拼接数据输入所述已训练的匹配模型中,确定第一待匹配拼接数据和第二待匹配拼接数据之间的匹配相似度。

第二方面,本公开中的实施例提供一种匹配模型训练装置,包括:

聚类单元,用于通过聚类算法对目标数据集中的原始数据进行聚类处理,得到多个数据聚类;其中,所述目标数据集为通过无标签的两个候选数据集组合得到的;

拼接单元,用于将所述多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据;

组合单元,用于将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据所述K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值;

训练单元,用于根据所述K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至所述未训练的匹配模型对应的匹配损失函数值小于第一预设值,且所述未训练的匹配模型基于所述多个数据聚类中的原始数据进行预测得到的相似度结果大于第二预设值,则得到已训练的匹配模型。

在一种可能的实施例中,组合单元,还用于:

将每两条拼接数据进行组合的过程中,对得到的任意一个数据组进行判断,确定所述任意一个数据组对应的标签值;

针对K个数据组中的任意一个数据组的判断如下:

若所述任意一个数据组中两条拼接数据中的原始数据属于同一个候选数据集,则根据所述任意一个数据组中四条原始数据对应的数据聚类情况,确定所述任意一个数据组的标签值;以及

若所述任意一个数据组中两条拼接数据中的任意两条原始数据属于不同候选数据集,则根据所述任意一个数据组中四条原始数据对应的候选数据集情况和数据聚类情况,确定所述任意一个数据组的标签值。

在一种可能的实施例中,训练单元,还用于:

通过所述K个数据组,以及每个数据组的标签值对所述所述未训练的匹配模型进行迭代训练,其中,一次迭代训练过程包括:

从所述K个数据组中抽取待训练样本按顺序输入两层全连接层中,对原始数据的自身表达进行训练,得到第一输出结果;

将所述第一输出结果输入至所述未训练的匹配子模型中,对所述K个数据组中原始数据之间的相关性进行训练,得到第二输出结果;

根据所述待训练样本对应的标签值和所述第二输出结果,确定匹配损失函数值;

根据匹配损失函数值,调整所述未训练的匹配模型的网络参数,直至所述匹配损失函数值满足第一预设值,得到中间匹配模型;

根据中间匹配模型对多个数据聚类中的原始数据进行预测,得到相似度结果;

若所述相似度结果大于第二预设值,则得到已训练的匹配模型。

第三方面,本公开实施例提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的第一方面中所述的方法。

第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的第一方面中所述的方法。

第五方面,根据本公开的另一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一项所述的方法。

本公开的实施例所提供的一种匹配模型训练方法,通过聚类算法对目标数据集中的原始数据进行聚类处理,得到多个数据聚类;其中,目标数据集为通过无标签的两个候选数据集组合得到的;将多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据;将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值,根据K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至未训练的匹配模型对应的匹配损失函数值小于第一预设值,且未训练的匹配模型基于多个数据聚类中的原始数据进行预测得到的相似度结果大于第二预设值,则得到已训练的匹配模型。一方面,引入两个无标签的训练数据集,通过聚类和数据集来源对数据组进行添加标签,通过训练过程的不断迭代来优化聚类效果,以及训练匹配模型;另一方面,引入两个训练数据集,可以给训练匹配模型增加更多学习的方向,可以使得模型学习到不同数据集之间的差异,提高匹配模型使用过程中的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出本公开实施例中一种匹配模型训练方法的流程示意图之一;

图2示出本公开实施例中一种目标数据集的示意图;

图3示出本公开实施例中一种标签值取值的示意图;

图4示出本公开实施例中另一种标签值取值的示意图;

图5示出本公开实施例中一种匹配模型训练方法的流程示意图之二;

图6示出本公开实施例中一种匹配模型使用过程的流程示意图;

图7示出本公开实施例中一种匹配模型训练装置的结构示意图;

图8示出本公开实施例中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

由于在相关技术中,对于匹配模型的训练过程,主要是通过带有标签的训练数据进行训练完成,但是,带有标准的训练数据获取困难,并且为训练数据添加标签耗时耗力,需要大量的成本。采用数据量小,人工标签标签的数据又无法学习到足够多的特征。

基于此,可以将聚类的方式应用于无监督分类中,但是由于没有标签,聚类停止的条件难以判断,且数据量少时聚类可能过拟合,泛化能力低。所以,可以采用对比学习的思想用于无监督数据中,当数据没有标签时,可以依赖于标签相互之间的相似度关系来对数据进行训练。

具体方法包括,通过聚类算法对无标签的目标数据集中的原始数据进行聚类处理,得到多个数据聚类,将多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据,再将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并通过数据组中原始数据的聚类情况,以及数据集所属情况,确定每个数据组的标签值,根据K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至得到已训练的匹配模型。引入无标签的训练数据集,通过聚类和数据集来源对数据组进行添加标签,通过不断迭代的训练过程来优化聚类效果,以及训练匹配模型,最终得到准确性更高的已训练的匹配模型。

下面结合附图及实施例对本示例实施方式进行详细说明。

首先,本公开实施例中提供了一种匹配模型训练方法,该方法可以由任意具备计算处理能力的电子设备执行,下述过程中以电子设备为服务器为例。

图1示出本公开实施例中一种匹配模型训练流程图,如图1所示,本公开实施例中提供的匹配模型训练方法包括如下步骤:

S102:通过聚类算法对目标数据集中的原始数据进行聚类处理,得到多个数据聚类。

其中,目标数据集为通过无标签的两个候选数据集组合得到的。

在一种可能的实施例中,在对未训练的匹配模型进行训练之前,一般来说是仅采用一个数据集来进行训练,但是单个数据集我在聚类时无法取得好的聚类效果,所以,采用两个候选数据集进行组合,得到一个无标签的目标数据集。

具体地,任意选择一个候选数据集D0,并引入其他行业无标签的候选数据集D1,形成新的目标数据集D2,用于对大量数据进行聚类,去训练匹配模型对于不同数据集数据的区分能力。

如图2所示,候选数据集D0中的任意两个原始数据a和b的匹配情况不容易匹配和预测,但是很容易确定出候选数据集D0中的a和b于候选数据集D1中的原始数据c是不匹配的。

通过聚类算法对目标数据集D2进行聚类处理,生成多个数据聚类。

具体地,聚类算法可以使用k均值聚类算法(k-means clustering algorithm)等。

在生成多个数据聚类之后,可以对数据聚类进行命名,例如,C_类id_当前类中的id;即可以理解为:C_1_1表示数据聚类1中的第一个原始数据。

S104:将多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据。

在一种可能的实施例中,以来聚类之后的数据聚类,以及原始数据中的数据集来源,对数据进行组合,使得匹配模型学习到更多原始数据本身和拼接数据之间的匹配关系。具体过程如下:

对原始数据进行两两拼接,得到N条拼接数据。

进一步地,可以在拼接数据中间添加特殊符号[sep],这样的拼接使得匹配模型能够对两条原始数据之间的关系进行学习。

得到拼接数据之后,一共可以分为两种情况。

(1)一条拼接数据中的两条原始数据属于同一数据聚类。

(2)一条拼接数据中的两条原始数据不属于同一数据聚类。

S106:将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值。

在一种可能的实施例中,得到拼接数据之后,可以将拼接数据再进行组合,得到K个数据组,其中,每个数据组中包括两条拼接数据,也就是四条原始数据。

通过每个数据组中的两条拼接数据中原始数据对应的数据聚类情况对数据组进行添加标签。

具体地,是在将每两条拼接数据进行组合的过程中,对得到的任意一个数据组进行判断,确定任意一个数据组对应的标签值。

以K个数据组中的任意一个数据组为例进行说明,以任意一个数据组中包括的两条拼接数据为第一拼接数据A和第二拼接数据B,第一拼接数据包括拼接时位置位于前半部分的第一原始数据和拼接时位置位于后半部分第二原始数据,第二拼接数据包括拼接时位置位于前半部分的第三原始数据和拼接时位置位于后半部分第四原始数据。进行的判断有两种。

一、A中的两条原始数据和B中的两条原始数据属于同一个候选数据集。

若任意一个数据组中两条拼接数据中的原始数据属于同一个候选数据集,则根据任意一个数据组中四条原始数据对应的数据聚类情况,确定任意一个数据组的标签值。

进一步地,A中的两条原始数据和B中的两条原始数据属于同一个候选数据集时,具体判断方式也有两种。

1、第一拼接数据A中的第一原始数据和第二原始数据属于同一个数据聚类。

(1)第二拼接数据B中的原始数据与第一拼接数据中的原始数据属于同一个数据聚类,则确定数据组的标签值为第一数值。

也可以理解为:第二拼接数据B中的第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则可以确定标签值为第一数值,第一数值可以为1。

(2)第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,或者,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定任意一个数据组的标签值为第二数值。

第二数值可以为0.5。

(3)第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则确定任意一个数据组的标签值为第三数值。

第三数值可以为0。

2、第一拼接数据中的第一原始数据和第二原始数据不属于同一个数据聚类。

(1)第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定任意一个数据组的标签值为第一数值。

其中,第一数值可以为1。

(2)第三原始数据与第一原始数据属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,或者,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据属于同一个数据聚类,则确定任意一个数据组的标签值为第二数值。

其中,第二数值可以为0.5。

(3)第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则确定任意一个数据组的标签值为第三数值。

其中,第三数值可以为0。

此处需要说明的是,若第一原始数据为数据聚类C_1中,第三原始数据为数据聚类C_2中。第二原始数据为数据聚类C_2中,第四原始数据为数据聚类C_3中,则可以看出,第三原始数据与第一原始数据不属于同一个数据聚类,第四原始数据与第二原始数据不属于同一个数据聚类,则标签值也是第三数值。

通过上述几种情况,将第一拼接数据和第二拼接数据中原始数据属于同一个数据集的情况进行添加标签。具体可以参考图3示出的情况,以及对应的标签值取值。其中,以label表示标签值。

二、A中的原始数据和B中的原始数据,任意两条原始数据不属于同一个候选数据集。

1、第一原始数据与第三原始数据属于同一个候选数据集

(1)第二原始数据与第四原始数据不属于同一个候选数据集,且第一原始数据与第三原始数据属于同一个数据聚类,则确定任意一个数据组的标签值为第二数值。

(2)第一原始数据与第三原始数据不属于同一个数据聚类,则确定任意一个数据组的标签值为第三数值。

2、第一原始数据与第三原始数据不属于同一个候选数据集

(1)第二原始数据与第四原始数据属于同一个候选数据集,且第二原始数据与第四原始数据属于同一个数据聚类,则确定任意一个数据组的标签值为第二数值。

(2)第二原始数据与第四原始数据属于同一个候选数据集,且第二原始数据与第四原始数据不属于同一个数据聚类,则确定任意一个数据组的标签值为第三数值。

(3)第二原始数据与第四原始数据不属于同一个候选数据集,则确定任意一个数据组的标签值为第三数值。

上述第二数值均以0.5为例,第三数值均以0为例。通过上述方式,图4示出了标签值取值的示意图。

通过上述方式可以将任意一个数据组添加标签值,则可以将无标签的目标训练集转换为有标签值的数据集,并执行后续步骤。

S108:根据K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至未训练的匹配模型对应的匹配损失函数值小于第一预设值,且未训练的匹配模型基于多个数据聚类中的原始数据进行预测得到的相似度结果大于第二预设值,则得到已训练的匹配模型。

在一种可能的实施例中,通过已知标签值得K个数据组可以对未训练的匹配模型进行训练,在训练过程中,满足上述两个条件的情况下,即可以得到最终已训练的匹配模型。

图5示出了一种具体的对匹配模型的训练过程的流程示意图。如图5所示,包括如下步骤:

S502:通过聚类算法对目标数据集中的原始数据进行聚类处理,得到多个数据聚类。

其中,目标数据集为通过无标签的两个候选数据集组合得到的。

S504:将多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据。

S506:将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值。

S508:从K个数据组中抽取待训练样本按顺序输入两层全连接层中,对原始数据的自身表达进行训练,得到第一输出结果。

在一种可能的实施例中,由于本公开中的训练方法是对原本使用的候选数据集进行了处理,拼接和组合的,所以,在训练过程中,可以先对数据组中的两条拼接数据之间的关系进行训练和学习,使得模型在没有注意力机制的情况下也能学习到自身的表达。其中,两个全连接层的dropout值一般取值为大于0,具体取值可以0.1。

其中,未训练的匹配模型中可以包括两个全连接层和未训练的子匹配模型。具体地,子匹配模型可以为增强型顺序推理模型(Enhanced Sequential Inference Model,esim),预训练的语言表征模型(Bidirectional Encoder Representation fromTransformers,bert)等网络模型。本公开中使用的可以为bert模型。

此处的第一输出结果为经过两个全连接层之后输出的结果。

S510:将第一输出结果输入至未训练的匹配子模型中,对K个数据组中原始数据之间的相关性进行训练,得到第二输出结果。

在一种可能的实施例中,以待训练样本中的任意一个样本为例,其中包括的两个拼接数据可以为两个句子,以sentence1+[sep]+sentence2为例。

则在输入到两个dropout=0.1的全连接层时,可以是dropout sentence1中第3个字相关的嵌入(embedding),以及dropout sentence2中第5个字相关的嵌入,再通过子匹配模型,学习到句子中各个部分的相关性。

S512:根据待训练样本对应的标签值和第二输出结果,确定匹配损失函数值。

在一种可能的实施例中,通过未训练的匹配模型输出的第二输出结果,与确定出的标签值,通过匹配损失函数可以计算出损失函数值,来判断训练是否终止。

具体地,未训练的子匹配模型中存在基础的损失函数,根据本公开中数据的特点,以及训练方式的不同,以来数据集源头不同,或者数据聚类的不同对损失函数进行改进,使得模型可以更好的学习到文本件的差别。

基础的损失函数如下:

其中,MSE表示基础损失函数;y

进一步地,改进之后的匹配损失函数如下:

其中,J表示匹配损失函数;y

其中,新增加的表达式为:

(1-y

对于y

则通过最终的匹配损失函数,想要使得最终的匹配损失函数值小于第一预设值,则可以有效的使得匹配模型可以学习到数据之间的区别。

S514:判断匹配损失函数值是否小于第一预设值;若时,则执行步骤S516;若否,则执行步骤S518。

S514:将当前的网络参数作为匹配模型的网络参数,得到中间匹配模型。

S518:根据匹配损失函数值,调整注意力网络模块的网络参数,并返回执行S508。

S520:根据中间匹配模型对多个数据聚类中的原始数据进行预测,得到相似度结果。

在一种可能的实施例中,针对多个数据聚类,选择任意一个数据聚类,并确定任意一个数据聚类的聚类中心对应的原始数据,将任意一个数据聚类的聚类中心对应的原始数据作为第一待预测数据,将任意一个数据聚类中除聚类中心对应的原始数据以外的其他原始数据作为第二待预测数据,将第一待预测数据与自身进行拼接,得到第一待预测拼接数据,将第二待预测数据与自身进行拼接,得到第二待预测拼接数据,将第一待预测拼接数据和第二待预测拼接数据作为一组待预测拼接数据,从多个数据聚类中确定多组待预测拼接数据,将多组待预测拼接数据输入中间匹配模型中进行预测,得到多组待预测拼接数据对应的相似度,根据多组待预测拼接数据对应的相似度取平均值,确定相似度结果。

示例性地,可以从多个数据聚类中选择原始数据,以数据聚类C_1中的原始数据为例,以原始数据为句子为例。

选择数据聚类C_1中的聚类中心sentence3作为第一待预测数据,任意选择数据聚类C_1中除聚类中心以外的原始数据sentence4作为第二待预测数据。

由于本公开在训练匹配模型的过程中,使用的都是拼接数据,则此处也需要将sentence3和sentence4进行一个拼接处理,分别与自身进行拼接,构成第一待预测拼接数据sentence3+[sep]+sentence3和第二待预测拼接数据sentence4+[sep]+sentence4,构成一组待预测拼接数据。

以此种方式可以从多个数据聚类中选择出多组待预测拼接数据,则分别输入到中间匹配模型中进行预测,得到多组待预测拼接数据对应的相似度,再以取平均值的方式,计算出相似度结果。

S522:判断相似度结果是否大于第二预设值;若是,则执行步骤S524;若否,则执行步骤S526。

S524:调整聚类算法的参数,并返回执行步骤S502。

在一种可能的实施例中,若小于或者等于第二预设值,则说明此次模型训练过程中,在通过聚类算法对目标数据集中的原始数据进行处理时,聚类效果不好,需要重新进行聚类。

进一步地,此处在重新通过聚类算法对目标数据集中的原始数据进行聚类处理时,若使用的是kmeans聚类算法,则可以在重新聚类时增加K的值,若使用的是层次聚类的方式,则可以增加分层,以保证重新通过聚类算法对目标数据集中的原始数据进行聚类处理时,聚类效果优于上一次的聚类效果。

S526:得到已训练的匹配模型。

通过上述方式,可以确定训练好的匹配模型。本公开中的训练方法,通过引入其他的候选数据集,增加数据量的方式弥补数据量不足,增加训练数据之间的相关性等方式,提高训练的准确性,能给训练匹配模型增加更多的学习方向,不同的数据集间的差距也能够被学习出来。

在整个训练过程中,使用的均是无标签的数据集,训练匹配模型的过程更加快速,方便,通过聚类的方式以及中间匹配模型预先预测的相似度结果来判断聚类是否准确。整个训练过程不仅数据获取简单,容易,而且训练过程对数据的处理也不复杂,不涉及复杂的计算过程,最终得到的匹配模型精度高,准确性好。

得到训练好的匹配模型之后,可以在使用过程中进行使用,具体的使用场景可以是计算机视觉等很多场景中,也可以是智能客服,对话质检,数据库问答等多种场景中。

图6示出了一种匹配模型使用过程的流程示意图,如图6所示,包括以下步骤:

S602:获取第一待匹配数据和第二待匹配数据。

S604:将第一待匹配数据与自身进行拼接,得到第一待匹配拼接数据。

S606:将第二待匹配数据与自身进行拼接,得到第二待匹配拼接数据。

S608:将第一待匹配拼接数据和第二待匹配拼接数据输入已训练的匹配模型中,确定第一待匹配拼接数据和第二待匹配拼接数据之间的匹配相似度。

在一种可能的实施例中,将第一待匹配拼接数据和第二待匹配拼接数据输入已训练的匹配模型中,是先将第一待匹配拼接数据和第二待匹配拼接数据输入到两层全连接层中,其中,两层全连接层的dropout>0;全连接层输出作为训练好的子匹配模型的输入,获得匹配模型的匹配相似度。

由于本公开中训练时,采用的是拼接数据的方式,所以,在使用过程中,对待匹配数据需要进行处理,处理方式比较简单,将待匹配数据与自身进行一次拼接即可,输入到已训练的匹配模型中可以匹配相似度。

基于同一发明构思,本公开实施例中还提供了一种匹配模型训练装置,如下面的实施例。由于该装置实施例解决问题的原理与上述方法实施例相似,因此该装置实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。

图7示出本公开实施例中一种匹配模型训练装置的结构示意图,如图7所示,匹配模型训练装置70包括:

聚类单元701,用于通过聚类算法对目标数据集中的原始数据进行聚类处理,得到多个数据聚类;其中,目标数据集为通过无标签的两个候选数据集组合得到的;

拼接单元702,用于将多个数据聚类中的每两条原始数据进行拼接,得到N条拼接数据;

组合单元703,用于将N条拼接数据中的每两条拼接数据进行组合,得到K个数据组,并根据K个数据组中原始数据对应的数据聚类情况,确定每个数据组的标签值;

训练单元704,用于根据K个数据组,以及每个数据组的标签值对未训练的匹配模型进行训练,直至未训练的匹配模型对应的匹配损失函数值小于第一预设值,且未训练的匹配模型基于多个数据聚类中的原始数据进行预测得到的相似度结果大于第二预设值,则得到已训练的匹配模型。

所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行上述方法实施例中的任一项的步骤。

存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备840(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的方法。

在本公开的示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

本公开中的计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中,计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可选地,计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

在具体实施时,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

通过以上实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

相关技术
  • 模型训练方法、装置、设备以及介质
  • 一种模型训练方法、计算机可读存储介质及计算设备
  • 模型训练方法、广告推荐方法、相关装置、设备及介质
  • 机器学习模型训练方法、装置、存储介质和计算机设备
  • MR图像预测模型的训练方法、装置、设备及存储介质
  • 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
  • 服务匹配模型的训练方法、服务匹配方法、设备及介质
技术分类

06120115935358