掌桥专利:专业的专利平台
掌桥专利
首页

一种计算特征与标签关联度的方法、装置及电子设备

文献发布时间:2023-06-19 19:28:50


一种计算特征与标签关联度的方法、装置及电子设备

技术领域

本申请涉及信息技术领域,特别是涉及一种计算特征与标签关联度的方法、装置及电子设备。

背景技术

随着人工智能的应用越来越广泛,传统上认为深度神经网络无需特征筛选,可以将全量的特征全部加载到深度模型中,让模型自动学习,对于重要的特征,其权重就较高;对于不重要的特征,则权重较低。但是全量特征的计算是需要大量算力,对于一个实际模型来说,通常每天都要基于最新的训练数据进行全量训练,因此不做任何特征筛选将会造成大量算力的浪费。

为了减少算力的浪费,在相关技术中,人们常用计算特征与标签之前的皮尔逊相关性系数得出特征与标签的相关性,或利用删除某一个特征后,重新训练模型,然后根据实际的效果,反推出特征是否重要。

然而,计算特征与标签之前的皮尔逊相关性系数只能获得理论上的常见的数学相关关系,而现实环境较为复杂,因此,采用计算特征与标签之前的皮尔逊相关性系数的方法,并不适用于现实模型中。

还有一种方法,是通过增减特征后模型的最终效果来判断特征与标签的关联度,该方法虽然能够应用在实际场景,但是当样本中包含多个特征时,需要对增减每一个特征来进行预测,从而对比多次的预测结果,才能确定出待检测模型中目标特征对目标标签的权重大小。该方法的好处是得到的关联度是通过实际验证的,可以应用在实际模型中,例如可以应用在预测房产额度的模型、预测视频播放流量的模型等网络模型。但如果要分析所有特征与目标标签的关联度,通常是需要对去掉某个特征后的数据进行训练,例如有N个特征,需要训练N次;而通常N>50,因此,应用通过增减特征后模型的最终效果来判断特征与标签的关联度的方法,仍然会消耗较多算力。

发明内容

本申请实施例的目的在于提供一种计算特征与标签关联度的方法、装置及电子设备,以实现在低算力消耗情况下获得特征与标签的关联度。具体技术方案如下:

在本申请实施的第一方面,首先提供了一种计算特征与标签关联度的方法,所述方法包括:

接收来自客户端组件的检测参数;其中,所述检测参数包括计算目标特征与目标标签之间关联度所需要的参数;

根据所述检测参数,调用待检测模型;其中,所述待检测模型用于依据输入的目标特征预测目标标签的值;

通过所述检测参数获取验证数据集;其中,所述验证数据集包括所述目标特征的取值,所述验证数据集用于输入进所述待检测模型中;

将所述验证数据集输入所述待检测模型,获得第一预测结果;

按照所述检测参数修改所述验证数据集中所述目标特征的取值,得到修改后的验证数据集;

将修改后的验证数据集输入所述待检测模型进行预测,得到第二预测结果;

根据所述第二预测结果与所述第一预测结果计算所述待检测模型中所述目标特征与所述目标标签的关联度。

在一种可能的实施方式中,所述检测参数包括扰动方法和扰动次数;其中,所述扰动方法表示修改所述目标特征取值的方法,所述扰动次数表示修改所述目标特征取值的次数,所述按照所述检测参数修改所述验证数据集中所述目标特征的取值,得到修改后的验证数据集,包括:

按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值,得到修改后的验证数据集;

根据所述扰动次数,重复所述按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值的步骤,得到与所述扰动次数相同个数的修改后的验证数据集。

在一种可能的实施方式中,所述扰动方法为按照正态分布方式扰动;所述按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值,包括:

计算所述目标特征的取值在所述验证数据集内的呈正态分布时的均值及方差值,得到所述目标特征的取值在所述验证数据集内的正态分布曲线;

沿所述正态分布曲线随机改动每条验证数据中目标特征的取值。

在一种可能的实施方式中,所述根据所述第二预测结果与所述第一预测结果计算所述待检测模型中所述目标特征与所述目标标签的关联度,包括:

计算所述第二预测结果与所述第一预测结果的差值的平均值,得到所述待检测模型中所述目标特征与所述目标标签的关联度。

在一种可能的实施方式中,所述方法还包括:

将每次预测的第二预测结果作为中间结果反馈给所述客户端组件。

在一种可能的实施方式中,所述方法还包括:

将所述关联度,和/或,所述中间结果存储在数据库内;

接收来自所述客户端组件的查询信息,所述查询信息中包括待查询的目标特征及目标标签名称;

从所述数据库内查找到所述目标特征及目标标签名称对应的关联度,将包含所述关联度的查询结果反馈给所述客户端组件。

在本申请实施的第二方面,还提供了一种计算特征与标签关联度的装置,所述装置包括:

检测参数接收模块,用于接收来自客户端组件的检测参数;其中,所述检测参数包括计算目标特征与目标标签之间关联度所需要的参数;

待检测模型调用模块,用于根据所述检测参数,调用待检测模型;其中,所述待检测模型用于依据输入的目标特征预测目标标签的值;

验证数据集获取模块,用于通过所述检测参数获取验证数据集;其中,所述验证数据集包括所述目标特征的取值,所述验证数据集用于输入进所述待检测模型中;

第一预测结果获得模块,用于将所述验证数据集输入所述待检测模型,获得第一预测结果;

验证数据集修改模块,用于按照所述检测参数修改所述验证数据集中所述目标特征的取值,得到修改后的验证数据集;

第二预测结果获得模块,用于将修改后的验证数据集输入所述待检测模型进行预测,得到第二预测结果;

关联度计算模块,用于根据所述第二预测结果与所述第一预测结果计算所述待检测模型中所述目标特征与所述目标标签的关联度。

在一种可能的实施方式中,所述检测参数包括扰动方法和扰动次数;其中,所述扰动方法表示修改所述目标特征取值的方法,所述扰动次数表示修改所述目标特征取值的次数,所述验证数据集修改模块,包括:

修改验证数据集子模块,具体用于按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值,得到修改后的验证数据集;

重复修改子模块,具体用于根据所述扰动次数,重复所述按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值的步骤,得到与所述扰动次数相同个数的修改后的验证数据集。

在一种可能的实施方式中,所述扰动方法为按照正态分布方式扰动;所述修改验证数据集子模块,包括:

正态分布曲线计算单元,具体用于计算所述目标特征的取值在所述验证数据集内的呈正态分布时的均值及方差值,得到所述目标特征的取值在所述验证数据集内的正态分布曲线;

正态分布修改单元,具体用于沿所述正态分布曲线随机改动每条验证数据中目标特征的取值。

在一种可能的实施方式中,所述关联度计算模块,包括:

平均值计算子模块,具体用于计算所述第二预测结果与所述第一预测结果的差值的平均值,得到所述待检测模型中所述目标特征与所述目标标签的关联度。

在一种可能的实施方式中,所述装置还包括:

中间结果反馈模块,用于将每次预测的第二预测结果作为中间结果反馈给所述客户端组件。

在一种可能的实施方式中,所述装置还包括:

反馈结果存储模块,用于将所述关联度,和/或,所述中间结果存储在数据库内;

查询信息接收模块,用于接收来自所述客户端组件的查询信息,所述查询信息中包括待查询的目标特征及目标标签名称;

查询结果反馈模块,用于从所述数据库内查找到所述目标特征及目标标签名称对应的关联度,将包含所述关联度的查询结果反馈给所述客户端组件。

在本申请实施例的第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现本申请实施例第一方面执行的任一所述的方法步骤。

在本申请实施的又一方面,还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面执行的任一所述的方法步骤。

在本申请实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的计算特征与标签关联度的方法。

本申请实施例提供的一种计算特征与标签关联度的方法、装置及电子设备,应用本申请实施例的方法,可以对已经训练好的待检测模型进行目标特征与目标标签关联度的检测,检测出的关联度是与该待检测模型相关且准确的,是能够应用到该待检测模型中的。通过将验证数据集输入待检测模型中,对验证数据集中的目标特征值进行多次扰动,预测目标标签的值,实现了能够自动分析待检测模型中目标特征和目标标签的关联度,避免人工进行输入计算。此外,在检测目标标签与目标特征关联度时,只需对目标特征的值进行扰动,通过目标特征的值预测目标标签的值,最终得到的是一个直接可以表示目标特征对目标标签影响力的关联度,而不需预测所有特征对目标标签的影响,从而对比出目标特征对目标标签的影响力,因此,应用本申请的方法,可以大幅减少计算量,从而减少算力的浪费。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种计算特征与标签关联度的方法流程图;

图2为本申请实施例提供的一种验证数据集中目标特征分布的示意图;

图3为本申请实施例提供的一种计算特征与标签关联度装置的结构示意图流程图;

图4为本申请实施例提供的一种计算特征与标签关联度的系统框图;

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

在相关技术中,可以通过统计学指标计算特征与标签之前的皮尔逊相关性系数得出特征与标签的相关性。其方法主要是将目标特征表示为一个数组,将目标标签表示为一个数组,通过计算这两个数组之间的关系,来得到目标标签与目标特征的关系。但通过这样的方法,得到的关系通常是一次关系(线性关系),二次关系(原值与平方的关系)、三次关系(原值与三次方的关系)、指数关系、对数关系等。而现实中的场景复杂,这种数值分析很难全面分析,无法应用在实际模型中。

在相关技术中,还有一种是通过增减模型后的最终效果来判断。这种方式的好处是结果是通过实际验证的,但如果要分析所有特征与目标标签的关联度,通常是需要对去掉某个特征后的数据进行训练,因此有M个特征,就需要训练M次;而通常M>50,因此这将大量消耗算力资源。

为了解决上述方法中的技术问题,在本申请实施的第一方面,首先提供了一种计算特征与标签关联度的方法,上述方法包括如图1所示步骤:

步骤S101:接收来自客户端组件的检测参数。

其中,检测参数包括计算目标特征与目标标签之间关联度所需要的参数。例如,检测参数可以包括:待检测模型信息、验证数据集信息、目标特征的名称和目标标签的名称、扰动方式信息。其中,待检测模型是已经训练好的用于获取目标标签的模型,待检测模型信息用于指示获取待检测模型,其中,待检测模型信息可以是通过多种形式获得,例如,当用户以文件形式直接上传待检测模型,此时,待检测模型信息为待检测模型对应的文件地址或文件名称,也可以是用户填写待检测模型对应的访问地址,例如HDFS/S3(HadoopDistributed System/Simple Storage Service,分布式系统/简单存储服务器)地址,此时,待检测模型信息为待检测模型对应的访问地址。

验证数据集包含多条验证数据,每条验证数据包括目标特征的值。同样的,验证数据集信息也可以是通过多种形式获得,例如可以通过该验证数据集对应的HDFS/S3地址获得或其他方式获得。

由于输入进待检测模型中的有多个特征,输出也可能是多个结果,目标特征的名称通常是用于用户向客户端输入以指示将哪个特征作为目标特征,目标标签的名称是用于向客户端输入以只是将哪个结果作为目标标签。目标特征是用户根据自身需求确定的要检测与目标标签关联度的特征,用户在输入目标特征的名称时,可以是输入一个目标特征的名称,也可以是输入多个目标特征名称。目标特征在验证数据集中的表现通常为数值。目标标签的值为待检测模型的输出结果。

扰动方式信息是用户自行确定的对验证数据集中目标特征的值进行扰动的方式,扰动方式信息可以包括扰动的方法、次数。

一个例子中,接收来自客户端组件的检测参数中,识别到该检测参数中包括一个已经训练好的可以预测贷款额度的网络模型的访问地址,每一条验证数据都包括“贷款人年龄”“贷款人消费记录”“贷款人的资产总值”“贷款人身份证号码”多个特征的验证数据集的访问地址,本例中,目标特征的名称“贷款人的资产总值”,目标标签的名称“贷款额度”,扰动方式信息为对验证数据集中目标特征的值的顺序随机打乱50次,则表明本例中是要通过修改验证数据集中“贷款人的资产总值”这一特征的值,来计算预测贷款额度网络模型中,“贷款人的资产总值”这一目标特征与该网络模型输出的“贷款额度”这一目标标签的关联度。

步骤S102:根据检测参数,调用待检测模型。

其中,待检测模型用于依据输入的目标特征预测目标标签的值;具体的,可以识别步骤S101中的检测参数中的待检测模型信息,根据待检测模型信息,获取并调用待检测模型。例如,当待检测模型信息是待检测模型的访问地址时,则通过获取到的该访问地址,访问到待检测模型并进行调用。

步骤S103:通过检测参数获取验证数据集。

其中,验证数据集包括目标特征的取值,验证数据集用于输入进待检测模型中;在获取验证数据集时,可以采用与步骤S102相同的方法,根据验证数据集信息,获取并调用验证数据集。例如,当验证数据集信息是验证数据集的访问地址时,则通过获取到的该访问地址,访问到验证数据集并进行调用。

步骤S104:将验证数据集输入待检测模型,获得第一预测结果。

步骤S105:按照检测参数修改验证数据集中目标特征的取值,得到修改后的验证数据集。

在实际应用中,可以识别步骤S101中接收到的检测参数中的扰动方式信息,根据扰动方式信息中的扰动方法和扰动次数来修改验证数据集中目标特征的取值,得到修改后的验证数据集。

步骤S106:将修改后的验证数据集输入待检测模型进行预测,得到第二预测结果。

步骤S107:根据第二预测结果与第一预测结果计算待检测模型中目标特征与目标标签的关联度。

在实际应用中,如果目标特征与目标标签的关联度较大,即目标特征对待检测模型的输出结果影响较大,则当修改验证数据集中目标特征的取值时,待检测模型输出的目标标签的值变化也就比较明显。

例如,当待检测模型是一个预测贷款额度的模型,输入的验证数据集中包括贷款人资产总值和贷款人身份证号这两个特征,其中,贷款人资产总值对输出的贷款额度影响较大,则当“贷款人资产总值”为目标特征时,修改“贷款人资产总值”的取值变化越大,输出的贷款额度也会随之变化越大;而贷款人身份证号对输出的贷款额度影响较小,则当“贷款人身份证号”为目标特征时,即使修改“贷款人身份证号”的取值的变化越大,输出的贷款额度也不会随之有很大变化,因此,可以根据第一预测结果和第二预测结果来计算得到待检测模型中目标特征和目标标签的关联度。

具体的,计算待检测模型中目标特征和目标标签的关联度的方式有多种,例如,可以通过计算第一预测结果和第二预测结果的差值来得到待检测模型中目标特征和目标标签的关联度,也可以通过计算第一预测结果和第二预测结果的比值来得到待检测模型中目标特征和目标标签的关联度。

应用本申请实施例的方法,对已经训练好的待检测模型进行目标特征与目标标签关联度的检测,检测出的关联度是与该待检测模型相关且可靠的,是能够应用到该待检测模型中的。可以将验证数据集输入待检测模型中,对验证数据集中的目标特征值进行扰动,预测目标标签的值,实现了能够自动分析待检测模型中目标特征和目标标签的关联度,避免人工进行输入计算。此外,在检测目标标签与目标特征关联度时,只需对目标特征的值进行扰动预测目标标签的值,得到的是一个直接可以表示目标特征对目标标签影响力的关联度,而不需预测所有特征对目标标签的影响,从而对比出目标特征对目标标签的影响力,因此,应用本申请的方法,可以大幅减少计算量,从而减少算力的浪费。

在实际应用中,由于单一使用服务器进行计算,会使得运算量较大,效率较低,因此,本申请的方法可以应用于网络侧,其中,网络侧包括服务器组件和训练资源组件,在训练资源组件中执行本申请中上述计算关联度的步骤,由服务器组件进行管理,将关联度反馈给客户端。

具体的,训练资源组件可以包括多个容器平台,每个容器平台都有对应的标识,训练资源组件通过预设容器平台的标识,匹配到与预设容器平台标识对应的预设容器平台。用户可以根据自身需求确定一个或多个容器平台用来执行本申请的方法,因此,用户在客户端输入检测参数时,检测参数可以包括用于确定预设容器平台的预设容器平台标识,该预设容器平台标识可以是多种类型的标识,例如,该预设容器平台标识可以是预设容器平台对应的访问地址,也可以是预设容器平台的名称。本申请实施例的方法还可以通过以下步骤实现:

步骤一:服务器组件接收来自客户端组件的检测参数并识别检测参数中的预设容器平台标识,向训练资源组件发送调用指令。

步骤二:训练资源组件根据接收到的调用指令,调用与预设容器平台标识对应的容器平台,与待检测模型信息对应的待检测模型,执行步骤S102-步骤S107;并将关联度反馈给服务器组件。

步骤三:服务器组件接收训练资源组件反馈的包括目标特征与目标标签关联度的反馈结果,将反馈结果发送给客户端组件。

其中,反馈结果包括目标特征与目标标签的关联度,该关联度可以是以{特征:关联度}的字典指标的形式进行反馈,该关联度表示目标特征对目标标签的影响力,关联度越大,说明目标特征对目标标签的影响越大,反之,关联度越小,则说明目标特征对目标标签的影响越小。

应用本申请实施例的方法,可以通过在训练资源组件中进行计算待检测模型中目标特征和目标标签的关联度,将该关联度通过服务器组件反馈给客户端组件,减少服务器组件运行的算力,提高计算关联度的效率。且在得到目标特征对目标标签的关联度后,可以在使用上述检测模型预测目标标签时,将与目标标签的关联度较小的特征进行剔除,从而减少计算量。

上述步骤S101中接收到的客户端组件的检测参数中的扰动方式信息包括扰动方法和扰动次数;上述步骤S105中按照检测参数修改验证数据集中目标特征的取值,得到修改后的验证数据集,包括以下步骤:

步骤一,按照扰动方法,修改验证数据集中每条验证数据中目标特征的取值,得到修改后的验证数据集;

步骤二,根据扰动次数,重复执行步骤一,得到与扰动次数相同个数的修改后的验证数据集。

其中,扰动方法表示修改目标特征取值的方法,可以有多种扰动方法,例如按照正态分布方式扰动、按照均匀分布方式扰动、按照打乱目标特征取值方式扰动和直接赋常数值方式扰动,用户可以根据自身需求确定扰动方法。扰动次数表示修改目标特征取值的次数,也可以是根据业务需求预先设定的次数,该扰动次数越多,最终获得的关联度也就越准确。

应用本申请实施例的方法,可以通过只需对目标特征的值进行扰动来预测目标标签的值,从而通过计算对目标特征的值进行多次扰动后目标标签的值的变化,来得到待检测模型中目标特征与目标特征的关联度,从而减少了网络侧的计算量,达到减少算力浪费的技术效果。

下面以扰动方法为按照正态分布方式扰动为例进行说明。此时,上述步骤一中按照扰动方法,修改验证数据集中每条验证数据中目标特征的取值,包括以下步骤:

步骤1,计算目标特征的取值在验证数据集内的呈正态分布时的均值及方差值,得到目标特征的取值在验证数据集内的正态分布曲线;

步骤2,沿正态分布曲线随机改动每条验证数据中目标特征的取值。

这种情况下,就是按照正态分布的方式随机扰动目标特征的取值的取值,以实现按照正态的方式来自动获得不同的验证数据集。如图2所示,在实际应用中,验证数据集中目标特征的值可能像图2中的矩形图所示杂乱分布,计算其正态分布如图2曲线所示,则可以将验证数据集中的目标特征的值修改使其符合该正态分布曲线。应用本申请实施例的方法,可以提供一种对目标特征的值进行扰动的方法,增加扰动目标特征取值的方法的多样性。

下面以扰动方法为按照均匀分布的方式扰动为例进行说明。此时,上述步骤一按照扰动方法,修改验证数据集中每条验证数据中目标特征的取值,包括以下步骤:

步骤1,计算验证数据集内每条目验证数据中标特征取值的均值;

步骤2,将每条验证数据中目标特征的取值修改为均值。

这种情况下,就是按照均匀分布的方式随机扰动目标特征的取值的取值,以实现按照正态的方式来自动获得不同的验证数据集。应用本申请实施例的方法,可以提供一种对目标特征的值进行扰动的方法,增加扰动目标特征取值的方法的多样性。

下面以扰动方法为按照打乱目标特征取值方式扰动为例进行说明。此时,上述步骤一按照扰动方法,修改验证数据集中每条验证数据中目标特征的取值,包括以下步骤:

保持验证数据集中目标特征的取值不变,打乱目标特征的顺序。

应用本申请实施例的方法,可以提供一种对目标特征的值进行扰动的方法,增加扰动目标特征取值的方法的多样性。

下面以扰动方法为直接赋常数值方式扰动为例进行说明。此时,上述步骤一按照所选定的扰动方法,修改验证数据集中每条验证数据中目标特征的取值,包括以下步骤:

将验证数据集中所有目标特征的值赋为一个常数。

应用本申请实施例的方法,可以提供一种对目标特征的值进行扰动的方法,增加扰动目标特征取值的方法的多样性。

在上述步骤S107中,根据第二预测结果与第一预测结果计算待检测模型中目标特征与目标标签的关联度,包括:

计算一个或多个第二预测结果与第一预测结果的差值的平均值,得到待检测模型中目标特征与目标标签的关联度。

若目标特征与目标标签的关联度大,则每一次对目标特征的取值进行扰动后,预测到的预测结果变化也会比较大。由于验证数据集中有多条验证数据,因此,可以将每一条的验证数据得到的预测结果取平均,得到第一预测结果。

一个例子中,将验证数据集输入待检测模型中,得到的第一预测结果是avg(R),对验证数据集中目标特征的取值进行多次扰动后,将修改后的验证数据集各自输入待检测模型中,得到多个第二预测结果avg(R

D=((avg(R)-avg(R

+(avg(R)-vg(R

其中,D表示待检测模型中目标特征与目标标签的关联度;R表示针对验证数据集中每一条验证数据获得的预测结果;R

一个例子中,在预设容器平台执行计算目标特征与目标标签的关联度的任务时,可以通过以下伪代码进行运行:

获得参数model_dir、dataset_dir、feature_names、function、epochs//接收客户端发送的检测参数

加载模型model=load_model(model_dir)//通过待检测模型信息加载待检测模型

加载dataset_dir,并进行预测R=model.predict(dataset)//通过验证数据集信息加载验证数据集;并将验证数据集输入待检测模型中进行预测

For fn in feature_names

分析dataset_dir中的fn的数据分布//计算验证数据集中目标特征的取值分布

For i in range(epoches)

修改dataset_dir中的fn特征的值//对目标特征的取值进行扰动

加载new_dataset_dir数据为new_dataset_i//将修改后的验证数据集进行更新,重新输入待检测模型中进行预测

R’.append(mean(model.predict(new_dataset_i)))R’中记录平均预测值//计算每次修改后的验证数据集对应的预测值

fn_R’=Mean(R’)得到特征fn的多次执行后的平均预测值//计算多次修改后的预测值变化的平均值

fn与Label的关联度为fn_R’-R//得到目标标签和目标特征的关联度

返回所有的{fn:fn_R’-R}//将中间结果返回给服务器组件

应用本申请实施例的方法,可以提供一种对待检测模型中目标特征与目标标签的关系进行量化的方法,得到一个直接可以表示目标特征对目标标签影响力的关联度,而不需预测所有特征对目标标签的影响,从而对比出目标特征对目标标签的影响力,因此,应用本申请的方法可以减少计算量,从而减少算力的浪费。

在上述实施例中,若由训练资源组件中的容器平台来执行计算待检测模型中目标特征和目标标签关联度的步骤,训练资源组件中预存的容器平台有自建容器平台或公有容器平台两种,其中,自建容器平台仅支持指定用户访问,公有容器平台可以支持所有用户访问。

具体的,指定用户可以是通过认证的用户,该认证可以通过用户的IP、网络信息确定该用户是否为指定用户。例如,可以认证连接某一局域网的用户为指定用户,用户只有在连接该局域网时,才能访问自建容器平台。自建容器平台是自建的资源池或机房,该自建容器平台只接收指定用户访问,有较好的安全性,例如,该自建容器平台可以是k8s集群,或者mesos集群。公有容器平台可以支持多个用户访问,例如AWS(Amazon web service,亚马逊云)、腾讯云、华为云、阿里云。在使用公有容器平台时,需要具有适配公有容器平台的接口。

在预设容器平台中执行计算关联度任务时,需要对验证数据集中目标特征的值进行多次扰动,再对修改后的验证数据集进行多次预测,这个计算量较多且比较耗时,因此,可以选择在GPU(Graphic Processing Unit,图形处理器)执行计算任务。

应用本申请实施例的方法,可以通过在GPU中通过预设容器平台对检测模型进行目标特征和目标标签关联度的计算,减少CPU(Central Processing Unit,中央处理器)的运算量,从而提高计算关联度的效率。

在本申请实施例中,还可以将每次预测的第二预测结果作为中间结果反馈给客户端组件。

具体的,中间结果可以包括每一次对验证数据集中目标特征的值扰动后的值,和每一次扰动后,待检测模型预测到的修改后的验证数据集对应的第二预测结果。在训练资源组件将中间结果反馈给服务器组件之后,服务器组件可以直接将其反馈给客户端。

应用本申请实施例的方法,可以将执行预测任务中的中间结果也反馈给服务器组件,从而利于用户对任务运行的过程进行查询。

在实际应用中,服务器组件还包括数据库,可以将计算得到的待检测模型中的目标特征和目标标签的关联度,和/或上述实施例中的中间结果存储在数据库内。本申请实施例的方法还可以通过以下步骤实现:

步骤一,将关联度,和/或,中间结果存储在数据库内。

步骤二,接收来自客户端组件的查询信息,查询信息中包括待查询的目标特征及目标标签名称。

步骤三,从数据库内查找到目标特征及目标标签名称对应的关联度,将包含关联度的查询结果反馈给客户端组件。

具体的,在接收到客户端组件的查询信息后,可以依据查询信息中目标特征及目标标签的名称,与数据库中各目标特征及目标标签名称进行匹配,找到查询信息中目标特征及目标标签名称对应的关联度,并将该包含关联度的查询结果反馈给客户端组件。

应用本申请实施例的方法,可以使用户能够对目标特征和目标标签的关联度及运行结果进行查询,使得用户能够观看到中间的预测结果,也能够自行进行手动验算或在系统发生故障时进行检测,对用户更加友好。

具体的,查询结果可以是包括待检测模型中目标特征和目标标签关联度的反馈结果、训练资源组件反馈的中间结果和对关联度进行评述的结果。其中,对关联度进行评述的结果,可以是依据关联度的大小进行确定,当关联度较大,则评述结果为该目标特征对目标标签的影响较大,若关联度较小,则评述结果为该目标特征对目标标签的影响较小,建议剔除。

应用本申请实施例的方法,可以将接收到的结果存储在数据库中,以供客户端进行查询,使用户能够更直观的看到任务运行结果。

本申请实施例的第二方面,还提供一种计算特征与标签关联度的装置,该装置如图3所示:

检测参数接收模块301,用于接收来自客户端组件的检测参数;其中,检测参数包括计算目标特征与目标标签之间关联度所需要的参数;

待检测模型调用模块302,用于根据检测参数,调用待检测模型;其中,待检测模型用于依据输入的目标特征预测目标标签的值;

验证数据集获取模块303,用于通过检测参数获取验证数据集;其中,验证数据集包括目标特征的取值,验证数据集用于输入进待检测模型中;

第一预测结果获得模块304,用于将验证数据集输入待检测模型,获得第一预测结果;

验证数据集修改模块305,用于按照检测参数修改验证数据集中目标特征的取值,得到修改后的验证数据集;

第二预测结果获得模块306,用于将修改后的验证数据集输入待检测模型进行预测,得到第二预测结果;

关联度计算模块307,用于根据第二预测结果与第一预测结果计算待检测模型中目标特征与目标标签的关联度。

应用本申请实施例的装置,对已经训练好的待检测模型进行目标特征与目标标签关联度的检测,检测出的关联度是与该待检测模型相关且可靠的,是能够应用到该待检测模型中的。可以将验证数据集输入待检测模型中,对验证数据集中的目标特征值进行扰动,预测目标标签的值,实现了能够自动分析待检测模型中目标特征和目标标签的关联度,避免人工进行输入计算。此外,在检测目标标签与目标特征关联度时,只需对目标特征的值进行扰动预测目标标签的值,得到的是一个直接可以表示目标特征对目标标签影响力的关联度,而不需预测所有特征对目标标签的影响,从而对比出目标特征对目标标签的影响力,因此,应用本申请的方法,可以大幅减少计算量,从而减少算力的浪费。

在一种可能的实施方式中,检测参数包括扰动方法和扰动次数;其中,扰动方法表示修改目标特征取值的方法,扰动次数表示修改目标特征取值的次数,验证数据集修改模块,包括:

修改验证数据集子模块,具体用于按照扰动方法,修改验证数据集中每条验证数据中目标特征的取值,得到修改后的验证数据集;

重复修改子模块,具体用于根据扰动次数,重复按照扰动方法,修改验证数据集中每条验证数据中目标特征的取值的步骤,得到与扰动次数相同个数的修改后的验证数据集。

应用本申请实施例的装置,可以通过只需对目标特征的值进行扰动来预测目标标签的值,从而通过计算对目标特征的值进行多次扰动后目标标签的值的变化,来得到待检测模型中目标特征与目标特征的关联度,从而减少了网络侧的计算量,达到减少算力浪费的技术效果。

在一种可能的实施方式中,扰动方法为按照正态分布方式扰动;修改验证数据集子模块,包括:

正态分布曲线计算单元,具体用于计算目标特征的取值在验证数据集内的呈正态分布时的均值及方差值,得到目标特征的取值在验证数据集内的正态分布曲线;

正态分布修改单元,具体用于沿正态分布曲线随机改动每条验证数据中目标特征的取值。

应用本申请实施例的装置,可以提供一种对目标特征的值进行扰动的方法,增加扰动目标特征取值的方法的多样性。

在一种可能的实施方式中,关联度计算模块,包括:

平均值计算子模块,具体用于计算第二预测结果与第一预测结果的差值的平均值,得到待检测模型中目标特征与目标标签的关联度。

应用本申请实施例的装置,可以提供一种对待检测模型中目标特征与目标标签的关系进行量化的方法,得到一个直接可以表示目标特征对目标标签影响力的关联度,而不需预测所有特征对目标标签的影响,从而对比出目标特征对目标标签的影响力,因此,应用本申请的方法可以减少计算量,从而减少算力的浪费。

在一种可能的实施方式中,装置还包括:

中间结果反馈模块,用于将每次预测的第二预测结果作为中间结果反馈给客户端组件。

应用本申请实施例的装置,可以将执行预测任务中的中间结果也反馈给服务器组件,从而利于用户对任务运行的过程进行查询。

在一种可能的实施方式中,装置还包括:

反馈结果存储模块,用于将关联度,和/或,中间结果存储在数据库内;

查询信息接收模块,用于接收来自客户端组件的查询信息,查询信息中包括待查询的目标特征及目标标签名称;

查询结果反馈模块,用于从数据库内查找到目标特征及目标标签名称对应的关联度,将包含关联度的查询结果反馈给客户端组件。

应用本申请实施例的装置,可以使用户能够对目标特征和目标标签的关联度及运行结果进行查询,使得用户能够观看到中间的预测结果,也能够自行进行手动验算或在系统发生故障时进行检测,对用户更加友好。

在实际应用中,若将本申请实施例第一方面的计算关联度的方法应用在训练资源组件中,则本申请的第三方面还可以提供一种计算特征与标签关联度的系统,具体的,该系统包括如图4所示:

客户端组件401(Client端,客户端),用于获取用户输入的检测参数,并将检测参数发送给服务器组件,接收并显示服务器组件发送的包括目标特征与目标标签关联度的反馈结果,其中,检测参数中包括待检测模型信息、验证数据集信息、预设容器平台标识、目标特征和目标标签的名称、扰动方式信息;

服务器组件402(Server端,服务端),用于接收客户端发送的检测参数,根据预设容器平台标识,向训练资源组件发送调用指令,接收训练资源组件反馈的包括目标特征与目标标签关联度的反馈结果,将反馈结果发送给客户端组件;

训练资源组件403,用于根据接收到的调用指令,调用与预设容器平台标识对应的容器平台,与待检测模型信息对应的待检测模型,通过验证数据集信息获取验证数据集,将验证数据集输入待检测模型,获得第一预测结果;按照扰动方式信息,修改验证数据集中目标特征的取值,得到修改后的验证数据集;将修改后的验证数据集输入待检测模型进行预测,得到、第二预测结果;根据第二预测结果与第一预测结果计算待检测模型中目标特征与目标标签的关联度;并将关联度反馈给服务器组件。

应用本申请实施例的系统,对已经训练好的待检测模型进行目标特征与目标标签关联度的检测,检测出的关联度是与该待检测模型相关且可靠的,是能够应用到该待检测模型中的。通过将检测参数输入给网络侧,网络侧通过预设容器平台将验证数据集输入待检测模型中,对验证数据集中的目标特征值进行多次扰动,预测目标标签的值,实现了能够自动分析待检测模型中目标特征和目标标签的关联度,避免人工进行输入计算。此外,在检测目标标签与目标特征关联度时,只需对目标特征的值进行扰动预测目标标签的值,得到的是一个直接可以表示目标特征对目标标签影响力的关联度,而不需预测所有特征对目标标签的影响,从而对比出目标特征对目标标签的影响力,因此,应用本申请的方法,可以大幅减少计算量,从而减少算力的浪费。

如上述图4所示,客户端组件401包括以下模块:

命令行工具模块(Cli,命令行工具),用于获取用户通过命令行工具输入的检测参数,并将检测参数发送给服务器组件。

网址模块(Web,网址),用于接收并显示服务器组件发送的包括目标特征与目标标签关联度的反馈结果。

其中,网址模块还可以提供一个该系统的网址,用户可以通过点击网址,进入该系统的客户端界面,可以在界面中通过输入检测参数,该界面还可以显示服务器组件发送的包括目标特征与目标标签关联度的反馈结果。命令行工具模块是向用户提供命令行工具,用户可以以命令行工具的方式,键入检测参数。

应用本申请实施例提供的系统,用户可以通过网址模块和命令行工具模块多种方式进行检测参数的输入,增加了用户输入方式的选择多样性。

如图4所示,客户端组件401还包括接口调用输入模块(Restful API,REST风格的API),用于与第三方系统建立连接,实现与第三方系统的集成。

具体的,接口调用输入模块能够向高级用户提供一个可以接入第三方系统的接口,高级用户通过输入该接口特定的参数,将第三方系统与本系统集成,从而通过接口将第三方系统的检测参数向客户端输入。其中,高级用户为具有第三方系统的用户。

应用本申请实施例的系统,能够通过提供一个API接口与第三方系统集成,使用户可以直接通过第三方系统与本申请实施例的系统进行交互,增加了用户使用的多样性。

在一种可能的实施方式中,命令行工具模块,还用于接收用户发送的查询信息,查询信息中包括待查询的目标特征及目标标签名称;

网址模块,还用于接收并显示服务器组件发送的包含关联度的查询结果。

其中,网址模块实际上提供了一可视化界面,不仅能通过该可视化界面看到目标特征与目标标签关联度的最终反馈结果以及中间反馈结果,还可以通过该界面看到用户输入的检测参数,以及分析任务的运行状态、使用资源状态信息。

其中,分析任务的运行状态包括:运行中、运行成功、运行失败三种状态。客户端组件在显示运行状态时,还可以根据用户指令,显示计算待检测模型中目标特征和目标标签关联度的中间结果。使用资源状态信息包括预设容器平台的调取情况和GPU的内存运行情况。其中,预设容器平台的调取情况可以包括调用的预设容器平台的数量,预设容器平台的运行环境。

应用本申请实施例的方法,可以在客户端中显示待检测模型中目标特征和目标标签的关联度的计算情况,使用户可以直接看看各类信息,从而让用户感受更直观、使用更方便。

如上述图4所示,服务器组件402包括以下模块:

接口服务模块(API server),具体用于接收客户端组件发送的检测参数,向管理器模块发送包含检测参数的执行任务请求;

管理器模块(Manager),具体用于接收接口服务模块发送的执行任务请求,依据执行任务请求,向云接口调用模块发送调用指令;接收云接口调用模块反馈的包括目标特征与目标标签关联度的反馈结果,并将反馈结果通过接口服务模块发送给客户端组件;

云接口调用模块(Cloud Adaptor),具体用于接收管理器模块发送的调用指令;依据调用指令,调用训练资源组件,接收训练资源组件返馈的反馈结果。

应用本申请实施例的系统,用户可以只需将检测参数输入给服务器组件,由服务器组件调用训练资源组件计算待检测模型中目标特征和目标标签的关联度,避免了人工的对多次预测结果进行关联度计算,实现了能够自动分析待检测模型中目标特征和目标标签的关联度的技术效果。

如上述图4所示,服务器组件402还包括数据保存模块,即,数据库(DB,Datebase),用于接收并保存管理器模块发送的反馈结果。

具体的,管理器模块可以将接收到的结果写入该数据库中。管理器模块发送的反馈结果可以包括待检测模型中目标特征与目标标签的关联度、训练资源组件反馈的中间结果和对关联度进行评述的结果。

应用本申请实施例的系统,可以将接收到的结果存储在数据库中,以供客户端进行查询,使用户能够更直观的看到任务运行结果。

在上述服务器组件402中,接口服务模块,还用于接收来自客户端组件的查询信息,查询信息中包括待查询的目标特征及目标标签名称;向管理器模块发送包含查询信息的执行任务请求。

管理器模块,用于依据执行任务请求,从数据库内查找到目标特征及目标标签名称对应的关联度,将包含关联度的查询结果通过接口服务模块反馈给客户端组件。

应用本申请实施例的系统,可以使用户能够对目标特征和目标标签的关联度及运行结果进行查询,对用户更加友好。

本申请实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,

存储器503,用于存放计算机程序;

处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:

接收来自客户端组件的检测参数;其中,检测参数包括计算目标特征与目标标签之间关联度所需要的参数;

根据检测参数,调用待检测模型;其中,待检测模型用于依据输入的目标特征预测目标标签的值;

通过检测参数获取验证数据集;其中,验证数据集包括目标特征的取值,验证数据集用于输入进待检测模型中;

将验证数据集输入待检测模型,获得第一预测结果;

按照检测参数修改验证数据集中目标特征的取值,得到修改后的验证数据集;

将修改后的验证数据集输入待检测模型进行预测,得到第二预测结果;

根据第二预测结果与第一预测结果计算待检测模型中目标特征与目标标签的关联度。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现服务器组件执行上述实施例中任一的计算特征与标签关联度的方法。

在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现训练资源组件执行上述实施例中任一的计算特征与标签关联度的方法。

在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一的计算特征与标签关联度的方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

相关技术
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种基于Slam定位方法、装置、电子设备及计算机存储介质
  • 一种信号传输方法、装置、电子设备以及计算机可读存储介质
  • 一种查询图构建方法、装置、电子设备及计算机存储介质
  • 一种还款金额的计算方法、装置及电子设备
  • 一种基于序列特征的设备标签识别方法、装置及电子设备
  • 一种特征标签生成方法、装置、电子设备及存储介质
技术分类

06120115920505