掌桥专利:专业的专利平台
掌桥专利
首页

机器学习中的数据获取、数据处理的方法、装置及系统

文献发布时间:2023-06-19 11:52:33


机器学习中的数据获取、数据处理的方法、装置及系统

技术领域

本发明涉及通信技术领域,具体而言,涉及一种机器学习中的数据获取、数据处理的方法、装置及系统。

背景技术

随着物联网、车联网等技术的发展和大规模智能终端的部署,边缘计算在处理终端产生的大量数据发挥着越来越重要的作用,针对边缘计算中的设备部署、资源分配、性能优化的研究也越来越多。相关的研究从各种不同的方面入手优化边缘计算的通信性能或将边缘计算方法结合实际应用中。相关的边缘计算技术主要研究如何通过资源的分配提高信道利用率、最大化通信容量、降低时延,但不会考虑传输的数据本身对模型训练的重要程度。而在边缘学习中,优化的目标还应包括模型的性能,而对于学习模型的训练,不同数据的重要性是不一样的。所以通信方案的设计除了获得更高的通信容量外,还应考虑到提高传输数据的总重要性。

综上,如何提高通信中所传输数据的重要性,优化模型的性能,成为亟待解决的问题。

发明内容

本说明书提供一种机器学习中的数据获取、数据处理的方法、装置及系统,用以克服现有技术中存在的至少一个技术问题。

根据本说明书实施例的第一方面,提供一种机器学习中的数据获取方法,适于在边缘计算服务器上执行,包括:根据当前训练集训练目标模型,得到当前目标模型;基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力;通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值L

可选地,所述基于所述当前目标模型的结构,获得预测数据样本对当前目标模型的数据重要性的当前重要性计算模型的步骤,包括:获取重要性计算模型的训练样本集,所述训练样本集包括多个重要性训练样本,每一重要性训练样本包括一个样本数据的样本输入、标准输出以及当前目标模型对该样本输入的模型输出以及该样本数据的重要性评估值,所述重要性评估值为所述模型输出与所述标准输出的差值的二范数的平方,所述样本数据为目标模型训练集中的数据样本;通过所述训练样本集对重要性计算模型进行训练,得到当前重要性计算模型,所述重要性计算模型根据输入的数据样本,输出该数据样本对于当前目标模型的重要性评估值。

可选地,在所述接收边缘设备依据所述当前重要性计算模型和对应的重要性均值L

根据本说明书实施例的第二方面,提供一种机器学习中的数据处理方法,适于在边缘设备上执行,包括:接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值L

可选地,所述随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据的步骤,包括:随机选取预设数目的数据加入预设容量固定的重要数据区;通过所述当前的重要性计算模型计算重要数据区中每一数据的重要性评估值,并将重要数据区中的数据按照重要性评估值排序;随机选取重要数据区以外的数据,并通过所述当前的重要性计算模型获得该数据的重要性评估值;将该数据的重要性评估值与重要数据区中数据的重要性评估值进行比较,若该数据的重要性评估值刚好大于重要数据区中的一个数据的重要性评估值,则将该数据插入重要数据区中对应数据之前。

可选地,所述选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θL

可选地,所述测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得信道竞争参数,依据该信道竞争参数参与信道竞争的步骤,包括:利用信道条件测量算法测量信道条件,获得当前信号传输的信噪比;根据所述信噪比,通过香农公式计算对应的传输速率;根据所述待传输数据的第二评估值以及所述传输速率获得信道竞争参数;依据该信道竞争参数参与MAC层的竞争接入协议定义的信道竞争。

根据本说明书实施例的第三方面,提供一种边缘计算服务器,包括目标模型训练模块、重要性模型训练模块、均值计算模块、模型下发模块、训练集更新模块,其中:目标模型训练模块,被配置为根据当前训练集训练目标模型,得到当前目标模型;重要性模型训练模块,被配置为基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力;均值计算模块,被配置为通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值L

根据本说明书实施例的第四方面,提供一种边缘设备,包括模型接收模块、重要数据更新模块、阈值设置模块、压缩率选择模块、竞争参与模块、传输模块,其中:模型接收模块,被配置为接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值L

根据本说明书实施例的第五方面,提供一种系统,包括至少一个边缘计算服务器和至少一个边缘设备,所述边缘计算服务器包括第一存储模块,所述边缘设备包括第二存储模块,所述第一存储模块存储有第一程序,所述第二存储模块存储有第二程序,当所述第一程序被执行时,所述边缘计算服务器执行上述任一项适于在边缘计算服务器上执行的机器学习中的数据获取方法;当所述第二程序被执行时,所述边缘设备执行上述任一项适于在边缘设备上执行的机器学习中的数据处理方法。

本说明书实施例的有益效果如下:

本说明书实施例中,边缘计算服务器根据当前目标模型对数据样本的模型输出以及数据样本的标准输出,训练当前重要性计算模型,并在测试集上得出数据样本的重要性均值,该重要性均值表征当前模型对数据的平均分析能力,以实现将平均分析能力加入到筛选训练数据的标准中。边缘计算服务器将当前重要性计算模型以及重要性均值下发给边缘设备,边缘设备每接收到边缘计算服务器下发的当前重要性计算模型以及重要性均值后,将新的重要性计算模型以及均值作为重要数据区更新的新标准。其中,边缘设备重要数据区的设置,实现了对边缘设备上产生的训练数据按照数据对当前目标模型的重要性评估值的排序。于是,在向边缘计算服务器传输数据时,边缘设备将重要数据区中重要性评估值最大的数据进行压缩,并通过将压缩后的该数据的重要性评估值与预设的重要性阈值进行比较,从而确定该数据最终的压缩率以及对应的最终的重要性评估值,使得对目标模型训练更重要的数据的压缩率更高,从而获得更优的模型性能。本场景中各边缘设备通过竞争获得接入信道的机会,将各边缘设备待传输数据的重要性评估值与该设备的传输速率的乘积加入信道竞争参数中,既保证了传输速率高的设备在竞争中的优势,又使得所述传输数据重要性评估值较大的设备在竞争接入机会时具有优势,从而使得边缘计算服务器获得数据的总重要性提高。本说明书实施例,根据重要性评估值对待传输的训练数据进行筛选,通过将重要性评估值大的数据加入模型训练集,提高模型的训练效率,能够在较少数据量的情况下获得在原数据集上相似的训练效果,从而降低对训练数据量的需求,降低通信成本,进而在给定通信资源下实现更优的模型性能,解决了大量训练数据造成的通信负担,具有进步性。

本说明书实施例的创新点包括:

1、本实施例中,边缘计算服务器根据当前目标模型对数据样本的模型输出以及数据样本的标准输出,训练当前重要性计算模型,并在测试集上得出数据样本的重要性均值,该重要性均值表征当前模型对数据的平均分析能力,以实现将平均分析能力加入到筛选训练数据的标准中。边缘计算服务器将当前重要性计算模型以及重要性均值下发给边缘设备,边缘设备每接收到边缘计算服务器下发的当前重要性计算模型以及重要性均值后,将新的重要性计算模型以及均值作为重要数据区更新的新标准。其中,边缘设备重要数据区的设置,实现了对边缘设备上产生的训练数据按照数据对当前目标模型的重要性评估值的排序。于是,在向边缘计算服务器传输数据时,边缘设备将重要数据区中重要性评估值最大的数据进行压缩,并通过将压缩后的该数据的重要性评估值与预设的重要性阈值进行比较,从而确定该数据最终的压缩率以及对应的最终的重要性评估值,使得对目标模型训练更重要的数据的压缩率更高,从而获得更优的模型性能。本场景中各边缘设备通过竞争获得接入信道的机会,将各边缘设备待传输数据的重要性评估值与该设备的传输速率的乘积加入信道竞争参数中,既保证了传输速率高的设备在竞争中的优势,又使得所述传输数据重要性评估值较大的设备在竞争接入机会时具有优势,从而使得边缘计算服务器获得数据的总重要性提高。本说明书实施例,根据重要性评估值对待传输的训练数据进行筛选,通过将重要性评估值大的数据加入模型训练集,提高模型的训练效率,能够在较少数据量的情况下获得在原数据集上相似的训练效果,从而降低对训练数据量的需求,降低通信成本,进而在给定通信资源下实现更优的模型性能,解决了大量训练数据造成的通信负担,是本说明书实施例的创新点之一。

2、本实施例中,所述重要性评估值为当前目标模型输出与标准输出的差值的二范数的平方,用模型训练中的Loss定义数据重要性评估,该定义适用于大多数机器学习模型,从而可利用数据重要性评估值对机器学习系统设计通信方案,具有应用广泛性、可迁移性,是本说明书实施例的创新点之一。

3、本实施例中,边缘设备利用数据重要性评估值进行数据筛选,所述重要数据区的设置,实现了对边缘设备上产生的训练数据按照数据对当前目标模型训练的重要性评估值的排序,将有限的资源应用于传输对目标模型训练更重要的数据,不再需要传输所有产生的训练数据用于训练,用部分训练数据达到与整个训练数据集相近的训练效果,极大地降低了通信成本,是本说明书实施例的创新点之一。

4、本实施例中,边缘设备利用重要性评估值决定数据压缩率,基于数据重要性的定义可得当前模型对数据的分析能力越弱,则数据的重要性评估值越大,模型学习该数据需要的信息则越多,那么该数据的压缩率则应该越高,通过将压缩后数据的重要性评估值与预设的重要性阈值进行比较,从而确定该数据最终的压缩率以及对应的最终的重要性评估值,综合考虑了通信效率与数据对模型训练的影响,在给定通信资源下获得更优的模型性能,是本说明书实施例的创新点之一。

5、本实施例中,利用数据重要性设计信道分配方案,结合了数据重要性评估和信道的传输速率后,既保证了传输速率高的设备在竞争中的优势,又使得所传输数据重要性评估值较大的设备在竞争接入机会时具有优势,从而使得边缘计算服务器获得数据的总重要性提高,使得每单位通信资源对模型训练带来的提升更大,是本说明书实施例的创新点之一。

6、本实施例中,各边缘设备上能够计算重要性评估值需要有当前目标模型的参数,需要边缘计算服务器向各边缘设备下发模型参数,而下发模型参数会带来额外的通信开销,对此本说明书实施例在边缘计算服务器向边缘设备下发模型参数的过程中提出了两点优化,以达到控制通信成本、并提高传输数据质量的目的。其一,基于当前目标模型的结构,训练得到参数较少的重要性计算模型,边缘计算服务器向各边缘设备下发这个参数较少的重要性计算模型从而减少了通信开销;其二,采用每隔一段时间下发新模型参数而非目标模型每次更新均下发新的参数,由于在目标模型训练得较为成熟的情况下目标模型变动不太会频繁,所以隔一段时间才下发重要性计算模型参数并不会对重要性评估值的计算带来较大的误差。这两种优化方式降低了边缘计算服务器向各边缘设备下发模型的通信开销,相比于系统数据传输纳入数据的重要性评估后整体的成本节约,下发模型产生的所谓额外通信开销实际上是非常经济的,为数据重要性应用在边缘设备端的压缩率选择以及数据筛选提供了基础,是本说明书实施例的创新点之一。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书一个实施例提供的适于在边缘计算服务器上执行的一种机器学习中的数据获取方法的流程示意图;

图2为本说明书一个实施例提供的适于在边缘设备上执行的一种机器学习中的数据处理方法的流程示意图;

图3为本说明书一个实施例提供的一种机器学习中的数据获取、数据处理方法的原理示意图;

图4为本说明书一个实施例提供的一种边缘计算服务器的结构示意图;

图5为本说明书一个实施例提供的一种边缘设备的结构示意图;

图6为本说明书一个实施例提供的一种系统的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本说明书实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书实施例考虑利用边缘计算进行机器学习模型训练的场景,由物联网、车联网等场景中部署的边缘设备进行训练数据的采集,并将训练数据传输至边缘计算服务器用于模型训练。对于模型训练,不同的训练数据样本的重要性是不同的,利用这一特点可对通信方案设计进行优化,从而实现通信资源限制下的机器学习模型性能的最优化。

为此,定义机器学习中的数据的重要性评估为机器学习模型训练时该数据在此模型上的损失值(Loss),即模型对此数据样本的分析能力越弱,则数据样本重要性评估越大。例如,对于用L2 Loss的模型训练方案,重要性评估值为

L=||F(x)-G

其中F(x)为模型对应于此数据样本输出,Gt为此数据对应的标准输出(即Groundtruth)。

本说明书实施例公开了一种机器学习中的数据获取、数据处理的方法、装置及系统。以下分别进行详细说明。

图1为本说明书一个实施例提供的适于在边缘计算服务器上执行的一种机器学习中的数据获取方法的流程示意图。如图1所示,本说明书实施例提供一种机器学习中的数据获取方法,适于在边缘计算服务器上执行,包括:

S110,根据当前训练集训练目标模型,得到当前目标模型。

边缘计算服务器上储存有一部分数据样本作为初始训练集,在接收各边缘设备传输的数据以前,通过初始训练集训练得到初始的目标模型。

S120,基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力。

作为待训练的目标模型,其模型参数众多,欲利用当前模型对设备端的数据进行重要性评估,边缘计算服务器需要向各边缘设备下发当前模型的参数,但下发当前模型的全部参数势必会造成很大的通信负担。为了解决这一问题,采纳网络蒸馏的思想,训练一个模型参数较少又能模拟当前目标模型输出的蒸馏网络,利用蒸馏网络预测当前目标模型对设备端数据的输出,结合对重要性评估值的定义,计算该输出与数据的标准输出的差距,以此作为该数据的重要性评估值。根据网络蒸馏的思想,将当前目标模型对数据样本的模型输出加入重要性计算模型的训练样本集,经过训练,得到重要性计算模型。

一个具体实施例中,所述基于所述当前目标模型的结构,获得预测数据样本对当前目标模型的数据重要性的当前重要性计算模型的步骤,包括:

获取重要性计算模型的训练样本集,所述训练样本集包括多个重要性训练样本,每一重要性训练样本包括一个样本数据的样本输入、标准输出以及当前目标模型对该样本输入的模型输出以及该样本数据的重要性评估值,所述重要性评估值为所述模型输出与所述标准输出的差值的二范数的平方,所述样本数据为目标模型训练集中的数据样本;

通过所述训练样本集对重要性计算模型进行训练,得到当前重要性计算模型,所述重要性计算模型根据输入的数据样本,输出该数据样本对于当前目标模型的重要性评估值。

基于当前目标模型,训练得到参数较少的重要性计算模型,边缘计算服务器向各边缘设备下发这个模型参数较少的重要性计算模型,从而减少了通信开销,使得在设备端传输数据时将待训练目标模型纳入考虑成为可能,从而使得边缘设备能够依据下发的模型参数的对待传输的数据进行筛选,采集到的训练数据质量的提升进而降低了对训练数据量的需求,从而降低了通信压力,而在消耗同等通信资源的情况下,可以达到更好的模型性能。

S130,通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值L

得到了能够评估数据重要性的重要性计算模型后,可以计算设备端任一数据相对于当前目标模型的重要性评估值,为了实现筛选的目的,还需要为设备端数据的重要性评估值设置一个比较的基准,此基准在测试集或任一固定数据集上求得,通过当前重要性计算模型计算固定数据集(相对于数据量不断扩大的当前训练集)中每一数据样本的重要性均值,得到重要性均值L

S140,将所述当前重要性计算模型的参数和对应的重要性均值L

边缘计算服务器将参数较少的当前重要性计算模型和重要性均值L

S150,接收边缘设备依据所述当前重要性计算模型和对应的重要性均值L

边缘计算服务器接收各边缘设备发送的数据,并加入到当前训练集,每收集到预设数目的新数据后训练目标模型,不断优化目标模型的性能。得到新的目标模型后,依据新的目标模型,训练新的重要性计算模型,并计算新的重要性均值L

一个具体实施例中,在所述接收边缘设备依据所述当前重要性计算模型和对应的重要性均值L

在预设的一段时延之后,基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值L

边缘计算服务器不断接收数据加入训练集,训练模型以更新模型参数,但并不需要在模型每次更新后都重新下发重要性计算模型,而是每隔一段时间后才下发模型,在目标模型训练得较为成熟的情况下模型参数变动得不太会频繁,所以隔一段时间才下发重要性计算模型并不会对数据重要性的评估带来较大的误差,并可以节省通信资源。

本实施例中,边缘计算服务器根据当前目标模型训练当前重要性计算模型,在测试集上得出数据样本的重要性均值,将当前重要性计算模型以及重要性均值下发给各边缘设备,从而使得边缘设备根据重要性评估值对传输给服务器的训练数据进行筛选,通过将重要性评估值较大的数据加入目标模型训练集,提高模型的训练效率,能够在较少数据量的情况下获得在原数据集上相似的训练效果,从而降低对训练数据量的需求,降低通信成本,在给定通信资源下实现更优的模型性能,并减少了大量训练数据造成的通信负担。

图2为本说明书一个实施例提供的适于在边缘设备上执行的一种机器学习中的数据处理方法的流程示意图。如图2所示,本说明书实施例提供一种机器学习中的数据处理方法,适于在边缘设备上执行,包括:

S210,接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值L

各边缘设备接收边缘计算服务器下发的当前目标模型的当前重要性计算模型和重要性均值L

S220,随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据。

在大数据时代,对于边缘设备产生的海量训练数据,在通信资源受限的情况下并不能、也不需要将所有训练数据都传输给边缘计算服务器,通过对数据的合理筛选,使用较小的数据集达到几乎相同的模型训练效果将会极大地减小通信负担。数据的筛选要求边缘设备上有目标模型参数并能评估数据对于当前目标模型的重要性,以实现将设备上的数据按重要性顺序进行传输。由于数据的重要性评估会随着模型的变化而不断变化,为了适应模型变化,当目标模型更新时需要重新计算数据的重要性。但是对边缘设备上的大量数据进行重要性计算会耗费大量的计算资源,为了解决这个问题,在每一边缘设备上设置重要数据区,该数据区存储最重要的小部分数据,每次目标模型更新后会重新计算重要数据区里的重要性评估值,同时边缘设备会不断地从整体数据中随机选取数据计算重要性评估值,用重要性较高的数据替换重要数据区里重要性评估值较低的数据。在边缘设备需要传输数据时,边缘设备可以选择重要数据区中数据重要性评估值最大的数据进行传输。

一个具体实施例中,所述随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据的步骤,包括:

随机选取预设数目的数据加入预设容量固定的重要数据区;通过所述当前的重要性计算模型计算重要数据区中每一数据的重要性评估值,并将重要数据区中的数据按照重要性评估值排序;随机选取重要数据区以外的数据,并通过所述当前的重要性计算模型获得该数据的重要性评估值;将该数据的重要性评估值与重要数据区中数据的重要性评估值进行比较,若该数据的重要性评估值刚好大于重要数据区中的一个数据的重要性评估值,则将该数据插入重要数据区中对应数据之前。

边缘设备端重要数据区的设置,实现了对边缘设备上产生的训练数据按照数据对当前目标模型训练的重要性评估值的排序,将有限的资源应用于传输对目标模型训练更重要的数据,不再需要传输所有产生的训练数据用于训练,用部分训练数据达到与整个训练数据集相近的训练效果,极大地降低了通信成本。

S230,根据所述重要性均值L

在接收边缘计算服务器下发的重要性均值L

S240,选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θL

为了提高通信效率,通常将通信数据进行压缩,但数据的有损压缩导致信息损失,所以需要对数据大小和信息损失进行权衡。在机器学习系统中训练数据的压缩率选择中加入对数据的重要性评估值的考虑,以下从两方面阐述:一方面,训练数据中信息的损失,可能在特征空间中将训练数据移至分类超平面的另一端,从而对模型的训练带来负面影响,对此应增大压缩率减少信息的损失,而对于这一情况的判断,可依据该数据的重要性评估值,重要性评估值大的数据Loss更大,从而会有更大的概率由于信息的损失被移至超平面的另一端,应提高对此数据的压缩率;另一方面,重要性评估值越大的数据,表明模型当前对该数据的特征提取、分析的能力较弱,该数据应提供更多的细节信息帮助模型学习对这类数据的处理方法,从而应该使用更大的压缩率。综合以上考虑,通过设置重要性阈值来选择每一待传输数据的最优压缩率,若待传输的数据的重要性评估值大于所述重要性阈值,则采用更高的压缩率,直至该数据的重要性评估值不大于所述重要性阈值或者该数据的压缩率达到了数据传输的最大压缩率。

一个具体实施例中,所述选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θL

若所述第一评估值不大于所述重要性阈值θL

若在边缘设备中待传输数据的重要性评估值与重要性阈值θL

S250,测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得信道竞争参数,依据该信道竞争参数参与信道竞争,所述信道竞争参数正比于待传输数据的第二评估值与传输速率的乘积。

在通信系统中,需要根据各边缘设备所处的环境决定信道的分配,对于处于通信质量更高的环境中的边缘设备,应有更高的概率被分配信道,获得传输数据的机会。在将数据对于当前目标模型的重要性评估值纳入考虑后,对于待传输数据的重要性评估值越高的边缘设备,也更应获得信道分配的机会,因此综合考虑信道质量和待传输数据的重要性评估值两个因素,进行边缘设备的信道竞争。例如,每一设备获得传输数据的机会为P∝Iv,I为设备上即将要传输的数据的重要性,v为设备所处的信道中的传输速率,对于各边缘设备竞争信道的系统,可通过设备各自的传输概率决定参与竞争的参数(与具体的竞争方案有关),使得各边缘设备的接入概率与P∝Iv正相关。

一个具体实施例中,所述测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得信道竞争参数,依据该信道竞争参数参与信道竞争的步骤,包括:

利用信道条件测量算法测量信道条件,获得当前信号传输的信噪比;根据所述信噪比,通过香农公式计算对应的传输速率;根据所述待传输数据的第二评估值以及所述传输速率获得信道竞争参数;依据该信道竞争参数参与MAC层的竞争接入协议定义的信道竞争。

各边缘设备根据其信道质量以及待传输数据的重要性评估值参与信道竞争,利用信道条件测量算法测量信道条件,计算传输速率,进而得到与待传输数据的重要性评估值有正相关的信道竞争参数,本发明对于具体的信道测量算法不作限定,该信道竞争参数的设置使得传输数据的重要性评估值大的边缘设备更利于在信道竞争中获得传输机会,从而提升传输数据的质量。

S260,若在所述信道竞争中获得传输数据的接入机会,则将所述待传输数据以该待传输数据的最大压缩率发送给边缘计算服务器。

当边缘设备在信道竞争中抢占成功,则将该设备的待传输数据以相应的压缩率发送给边缘计算服务器,接着循环上述过程,不断将边缘设备上采集到的数据经过筛选、压缩率选择、参与信道竞争、发送给边缘计算服务器、加入目标模型的训练集中,实现对目标模型训练数据的获取。

本实施例中,边缘设备每接收到边缘计算服务器下发的当前重要性计算模型以及重要性均值后,将新的重要性计算模型以及均值作为重要数据区更新的新标准。边缘设备按照数据对当前目标模型的重要性评估值进行筛选,对待发送数据的压缩率选择,以及信道竞争参数的确定,从而使得通信中传输的数据质量升高,使得通信资源的利用效率提高,并优化模型性能。

图3为本说明书一个实施例提供的一种机器学习中的数据获取、数据处理方法的原理示意图。如图3所示,边缘计算服务器与多个边缘设备进行交互。边缘计算服务器训练模型,并利用网络蒸馏的思想基于当前目标模型得到重要性计算模型和重要性均值L

本实施例中,通过一种机器学习中的数据获取、数据处理方法的原理示意图,形象地展示了边缘计算服务器和边缘设备的交互过程,实现了对训练数据的合理评估与筛选,并对数据压缩率进行合理选择,在信道竞争中纳入数据重要性评估的因素,从整体上提高了数据的总重要性,提升了训练数据传输的质量。

图4为本说明书一个实施例提供的一种边缘计算服务器的结构示意图。如图4所示,本说明书实施例提供一种边缘计算服务器400,包括目标模型训练模块410、重要性模型训练模块420、均值计算模块430、模型下发模块440、训练集更新模块450,其中:

目标模型训练模块410,被配置为根据当前训练集训练目标模型,得到当前目标模型。

重要性模型训练模块420,被配置为基于所述当前目标模型的结构,获得评估数据样本对当前目标模型的重要性的当前重要性计算模型,所述当前重要性计算模型推理获得当前目标模型对每一输入的模拟输出,并通过该模拟输出与每一输入对应的标准输出的差距来表征当前目标模型对该输入的分析能力,以此作为该输入的重要性评估值,所述重要性评估值表征当前目标模型对该数据样本的分析能力。

均值计算模块430,被配置为通过所述当前重要性计算模型对测试集中的每一数据样本计算对应的重要性评估值,并计算测试集数据样本的重要性均值L

模型下发模块440,被配置为将所述当前重要性计算模型的参数和对应的重要性均值L

训练集更新模块450,被配置为接收边缘设备依据所述当前重要性计算模型和对应的重要性均值L

图5为本说明书一个实施例提供的一种边缘设备的结构示意图。如图5所示,本说明书实施例提供一种边缘设备500,包括模型接收模块510、重要数据更新模块520、阈值设置模块530、压缩率选择模块540、竞争参与模块550、传输模块560,其中:

模型接收模块510,被配置为接收边缘计算服务器发来的当前重要性计算模型的参数和对应的重要性均值L

重要数据更新模块520,被配置为随机选取预设数目的数据加入预设容量固定的重要数据区中,通过所述当前重要性计算模型对重要数据区中的每一数据计算对应的重要性评估值,随机选取数据计算该数据的重要性评估值,根据该数据的重要性评估值更新重要数据区中的数据。

阈值设置模块530,被配置为根据所述重要性均值L

压缩率选择模块540,被配置为选取重要数据区中重要性评估值最大的数据作为待传输数据,计算该待传输数据压缩后的重要性评估值,得到第一评估值;将所述第一评估值与所述重要性阈值θL

竞争参与模块550,被配置为测量信道条件并依据获得的信道参数计算对应的信号传输速率,根据所述待传输数据的第二评估值以及所述传输速率获得信道竞争参数,依据该信道竞争参数参与信道竞争,所述信道竞争参数正比于待传输数据的第二评估值与传输速率的乘积。

传输模块560,被配置为若在所述信道竞争中获得传输数据的接入机会,则将所述待传输数据以该待传输数据的最大压缩率发送给边缘计算服务器。

图6为本说明书一个实施例提供的一种系统的结构示意图。如图6所示,本说明书实施例提供一种系统600,包括至少一个边缘计算服务器610和至少一个边缘设备620,所述边缘计算服务器610包括第一存储模块,所述边缘设备620包括第二存储模块,所述第一存储模块存储有第一程序,所述第二存储模块存储有第二程序,当所述第一程序被执行时,所述边缘计算服务器610执行上述任一项适于在边缘计算服务器上执行的机器学习中的数据获取方法;当所述第二程序被执行时,所述边缘设备620执行上述任一项适于在边缘设备上执行的机器学习中的数据处理方法。

上述装置以及系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

综上所述,本说明书实施例提供一种机器学习中的数据获取、数据处理的方法、装置及系统,其中边缘计算服务器训练得到参数较少的重要性计算模型,下发该模型以及重要性均值,边缘设备对训练数据进行筛选,对待传输数据选择最优压缩率,依据重要性评估值参与信道竞争,实现对训练数据有选择地传输,提升了边缘计算服务器与边缘设备之间的数据传输的质量,通过将重要性评估值较大的数据加入模型训练集,提高模型的训练效率,能够在较少数据量的情况下获得在原数据集上相似的训练效果,从而降低对训练数据量的需求,降低通信成本,进而在给定通信资源下实现更优的模型性能,解决了大量训练数据造成的通信负担,具有进步性。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

相关技术
  • 机器学习中的数据获取、数据处理的方法、装置及系统
  • 数据获取子模块及方法、数据处理单元、系统和显示装置
技术分类

06120113082807