掌桥专利:专业的专利平台
掌桥专利
首页

模型优化方法、装置及存储介质

文献发布时间:2023-06-19 19:30:30


模型优化方法、装置及存储介质

技术领域

本申请涉及通信技术领域,尤其涉及一种模型优化方法、装置及存储介质。

背景技术

目前,各个行业的数据运营仍停留在行业专网内部,行业中的各个企业之间的数据无法共享,并且企业的数据与运营商的数据之间也无法共享,这样导致各个企业的专网无法形成融合创新应用。若各个企业均在其专网内部进行单独建模,则会使得模型只能基于该企业内的数据进行优化,不能基于整个行业的数据进行模型优化。

基于上述,如何使得各个企业之间的数据能够共享,是本领域技术人员亟待解决的问题。

发明内容

本申请提供一种模型优化方法、装置及存储介质,能够使得各个企业之间的数据能够共享,提高各个企业的本地模型的准确度。

为达到上述目的,本申请采用如下技术方案:

第一方面,本申请提供一种模型优化方法,该方法包括:确定多个第一行业设备中每个第一行业设备的样本数量和本地模型参数;多个第一行业设备中任意两个第一行业设备之间的参数差异度大于或等于预设阈值;基于每个第一行业设备的样本数量和本地模型参数,确定共享模型的参数;向每个第一行业设备发送共享模型的参数,以使得每个第一行业设备基于共享模型的参数优化本地模型。

在一种可能的实现方式中,方法还包括:接收来自多个第二行业设备中每个第二行业设备的数据简报;第二行业设备为多个第一行业设备中,支持数据共享的行业设备;数据简报包括:样本的数量、以及多个样本中每个样本的信息;样本的信息包括:样本的均值、样本的方差、样本的中位数、样本的最大值、以及样本的最小值;基于多个第二行业设备的数据简报,从多个第二行业设备中确定多个第一行业设备。

在一种可能的实现方式中,基于多个第二行业设备的数据简报,从多个第二行业设备中确定多个第一行业设备,包括:基于多个第二行业设备,确定多个第二行业设备对;一个第二行业设备对包括多个第二行业设备中任意两个第二行业设备;对多个第二行业设备对中每个第二行业设备对执行如下操作,以得到多个第二行业设备对的设备差异度:基于目标第二行业设备对中两个第二行业设备的数据简报,确定目标第二行业设备对的设备差异度;目标第二行业设备对为多个第二行业设备对中任一个第二行业设备对;从多个第二行业设备对中,确定多个预设第二行业设备对;预设第二行业设备对为设备差异度大于或等于预设阈值的第二行业设备对;从多个预设第二行业设备对中每个预设第二行业设备对中,确定任一个第二行业设备为第三行业设备;对多个第三行业设备进行去重处理,得到多个第一行业设备。

在一种可能的实现方式中,共享模型的参数满足以下公式:

其中,F(θ)

第二方面,本申请提供一种模型优化装置,该装置包括:通信单元和处理单元;处理单元,用于确定多个第一行业设备中每个第一行业设备的样本数量和本地模型参数;多个第一行业设备中任意两个第一行业设备之间的参数差异度大于或等于预设阈值;处理单元,还用于基于每个第一行业设备的样本数量和本地模型参数,确定共享模型的参数;通信单元,用于向每个第一行业设备发送共享模型的参数,以使得每个第一行业设备基于共享模型的参数优化本地模型。

在一种可能的实现方式中,通信单元,还用于接收来自多个第二行业设备中每个第二行业设备的数据简报;第二行业设备为多个第一行业设备中,支持数据共享的行业设备;数据简报包括:样本的数量、以及多个样本中每个样本的信息;样本的信息包括:样本的均值、样本的方差、样本的中位数、样本的最大值、以及样本的最小值;处理单元,还用于基于多个第二行业设备的数据简报,从多个第二行业设备中确定多个第一行业设备。

在一种可能的实现方式中,处理单元,还用于基于多个第二行业设备,确定多个第二行业设备对;一个第二行业设备对包括多个第二行业设备中任意两个第二行业设备;处理单元,还用于对多个第二行业设备对中每个第二行业设备对执行如下操作,以得到多个第二行业设备对的设备差异度:基于目标第二行业设备对中两个第二行业设备的数据简报,确定目标第二行业设备对的设备差异度;目标第二行业设备对为多个第二行业设备对中任一个第二行业设备对;处理单元,还用于从多个第二行业设备对中,确定多个预设第二行业设备对;预设第二行业设备对为设备差异度大于或等于预设阈值的第二行业设备对;处理单元,还用于从多个预设第二行业设备对中每个预设第二行业设备对中,确定任一个第二行业设备为第三行业设备;处理单元,还用于对多个第三行业设备进行去重处理,得到多个第一行业设备。

在一种可能的实现方式中,共享模型的参数满足以下公式:

其中,F(θ)

第三方面,本申请提供了一种模型优化装置,该装置包括:处理器和通信接口;通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的模型优化方法。

第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端上运行时,使得终端执行如第一方面和第一方面的任一种可能的实现方式中描述的模型优化方法。

第五方面,本申请提供一种包含指令的计算机程序产品,当计算机程序产品在模型优化装置上运行时,使得模型优化装置执行如第一方面和第一方面的任一种可能的实现方式中所描述的模型优化方法。

第六方面,本申请提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的模型优化方法。

具体的,本申请中提供的芯片还包括存储器,用于存储计算机程序或指令。

上述技术方案至少带来以下有益效果:本申请提供的模型优化方法,计算服务器可以确定多个第一行业设备中每个第一行业设备(即多个第一行业设备中任意两个第一行业设备之间的参数差异度大于或等于预设阈值)的样本数量和本地模型参数,基于每个第一行业设备的样本数量和本地模型参数,确定共享模型的参数,并向每个第一行业设备发送共享模型的参数,以使得每个第一行业设备基于共享模型的参数优化本地模型。基于上述可知,计算服务器可以基于上述多个第一行业设备中每个第一行业设备的数据(即样本数量和本地模型参数),进行联合建模,并将上述联合建模得到的共享模型的参数分别下发至上述每个第一行业设备中,以使得各个第一行业设备可以基于上述联合建模得到的共享模型的参数进行自身的模型优化,使得各个第一行业设备可以基于多个第一行业设备共享的数据进行模型优化,进而提高了各个第一行业设备的本地模型的准确度。

附图说明

图1为本申请实施例提供的一种通信系统的结构图;

图2为本申请实施例提供的一种模型优化方法的流程图;

图3为本申请实施例提供的另一种模型优化方法的流程图;

图4为本申请实施例提供的另一种模型优化方法的流程图;

图5为本申请实施例提供的一种模型优化装置的结构示意图;

图6为本申请实施例提供的另一种模型优化装置的结构示意图。

具体实施方式

下面结合附图对本申请实施例提供的模型优化方法、装置及存储介质进行详细地描述。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。

此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。

如图1所示,图1示出了本申请实施例提供的一种通信系统的结构示意图。该通信系统包括:计算服务器101、运营商服务器102、以及多个第一行业设备103。

计算服务器101,用于确定多个第一行业设备103中每个第一行业设备103的样本数量和本地模型参数,基于每个第一行业设备103的样本数量和本地模型参数,确定共享模型的参数,并向每个第一行业设备103发送共享模型的参数,以使得每个第一行业设备103基于共享模型的参数优化本地模型。

其中,多个第一行业设备103中任意两个第一行业设备103之间的参数差异度大于或等于预设阈值。

可选的,计算服务器101可以包括:行业服务器、能力建模服务器、以及融合应用服务器。行业服务器、能力建模服务器、以及融合应用服务器均可以与多个第一行业设备103进行通信交互,来完成数据共享和联合建模。以下对上述不同的服务器分别进行说明:

行业服务器可以基于行业业务特征(或特点),将多个第一行业设备103共享的样本进行融合分析和建模,不同第一行业设备103之间可以通过共享的样本来获得数据最优化利用得到的结果,这样第一行业设备103可以基于上述结果对自身样本不足以及模型不准确等问题进行改进。

一种示例,车联网行业的数据共享可以有效调节城市充电桩的布局,实现城市充电桩的总体统筹,促进企业充电桩的精准投建,推动新能源汽车产业健康可持续发展。

另一种示例,共享单车行业的数据共享可以优化调节共享单车行业中各个企业的自行车投放位置,有助于提升自行车的利用率。

能力建模服务器可以共享视频行业业务的业务场景的数据。

一种示例,视频行业的数据共享可以共享工业园区视频监控数据和公共安全行业的视频监控数据,并基于上述共享的数据进行能力建模。

一种示例,工厂内工作人员是否在作业区接打电话、违规人员进入等检测要求是对特定人群进行的识别,上述对公共安全中的特定人群识别是相同的人工智能(artificial intelligence,AI)识别模型。

另一种示例,在位置类应用业务场景下,车联网的位置数据可以和智能交通、共享单车等行业的位置数据进行共享,以便于后续可以基于上述共享的位置数据进行建模应用。

可以理解的是,能力建模服务器可以相当于一个能力中心,各企业数据可以基于相同或者类似的应用场景来进行数据共享,从而来进行能力建模的数据,提升建模准确度。

融合应用服务器可以为企业间合作提供一个融合创新应用的平台,企业间在数据安全的前提下,通过跨领域的数据合作,探索创新实现跨界融合应用,从而实现行业专网间的融合创新应用,为行业专网赋能。

运营商服务器102配置了各个企业端的5G行业专网的组网架构(例如,虚拟组网架构、混合组网架构、独立组网架构等)。在计算服务器101进行任务下发时,会查询上述配置的组网架构。若上述配置的组网架构为虚拟组网架构,则计算服务器101也将任务下发至运营商服务器102。

多个第一行业设备103可以包括多个行业中每个行业的多个第一行业设备103。一个第一行业设备103可以对应一个行业中的一个企业。如图1所示,多个第一行业设备103可以包括:行业A的N个第一行业设备103、行业B的N个第一行业设备103、以及行业C的N个第一行业设备103。示例性的,上述行业A可以为车辆网行业,行业A的N个第一行业设备103可以包括:特斯拉

第一行业设备103,用于向计算服务器101提供共享样本。

可选的,图1仅为示例性框架图,图1中包括的节点的数量不受限制,且除图1所示功能节点外,还可以包括其他节点,如:第二行业设备、第三行业设备、第四行业设备等,本申请对此不作任何限制。

此外,本申请实施例描述的通信系统是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新通信系统的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

随着万物互联时代的到来,尤其是在5G网络被广泛运用之后,物联网在通信网络中扮演着愈发重要的角色。物联网实现了人与人、人与物、物与物之间的互联互通,创造了一个万物互联的新时代。在万物互联的新时代中,物联网中的海量终端设备的接入、以及上述海量终端设备产生的海量数据,将为运营商发展物联网的连接和数据服务提供巨大市场,因此,运营商迎来了黄金发展机会。

随着数据量的增多,伴随当前经济社会数字化、网络化、智能化转型的新发展趋势,企业数字化转型对数字化运营发展的新期望,5G专网方案应运而生,并运营商开始将专网应用扩散至智能制造、智慧教育、智慧医疗等各种行业领域。运营商5G专网产品可以根据不同的应用场景进行定制化设计,以实现网络时延、安全隔离度、网络可靠性、网络带宽、上下行配比、峰值速率等重点因素的差异化能力,满足行业用户生产、办公、管理等应用的通信服务需求。

为了满足不同行业的用户对5G专网的数据传输的隔离需求,运营商主要通过以下3种组网形态为不同行业的用户的数据传输隔离需求,3种组网形态包括:虚拟专网形态、混合专网形态、以及独立专网形态。以下对上述3中组网形态分别进行说明。

虚拟专网形态:在发起数据业务、进行数据转发的情况下,虚拟专网形态的数据流向为5G专网终端设备—接入网设备—核心网设备(例如,用户面功能(user planefunction,UPF))—企业内部应用服务器。

混合组网形态:混合组网形态的数据流向为5G专网终端设备—接入网设备(例如,共享接入网设备)—核心网设备(例如,UPF、边缘云(multi-access edge computing,MEC))—企业内部应用服务器。

独立专网形态:混合组网形态的数据流向为5G专网终端设备—接入网设备(例如,专网接入网设备)—核心网设备(例如,UPF、MEC)—企业内部应用服务器。

可选的,在不同组网形态下,运营商可采集的网络业务数据的内容也不同,进而运营商可以针对可采集的网络业务数据和行业用户的组网形态,为行业用户制定不同的数据运营策略。例如,对于虚拟专网形态来说,数据均是在运营商的公众网络的接入网设备和核心网设备上进行流转的,因此运营商可以对流经管道的数据进行采集。又例如,对于混合组网形态和独立专网形态来说,网络设备为专网用户独享的,数据流转与运营商的公众数据是完全隔离开的,这样使得数据完全流转在专网专用的设备内,因此运营商无法采集到的上述流转的数据。

一般情况下,行业客户的业务数据均存储在行业应用服务器内。出于安全隐私顾虑,数据均处于自产自用的状态,形成了一座座数据孤岛。运营商作为行业用户的网络服务提供者,可以构建面向专网用户的数据智能运营系统,实现相同行业内的类似业务场景下的数据共享和数据融合应用,这样可以极大地提升数据利用率,行业数据的充分利用也可以有力地驱动科技创新和经济增长。

目前,各个行业的数据运营仍停留在行业专网内部,行业中的各个企业之间的数据无法共享,并且企业的数据与运营商的数据之间也无法共享,这样导致各个企业的专网无法形成融合创新应用。若各个企业均在其专网内部进行单独建模,则会使得模型只能基于该企业内的数据进行优化,不能基于整个行业的数据进行模型优化。

并且,各个企业的规模不同,这样导致各个企业能够提供的数据规模的大小也不同。若企业侧数据规模小,数据不全面,则会导致数据运营和数据应用方面的不可用、不完整和不准确,这样也不利于各个行业的模型优化。

基于上述,如何使得各个企业之间的数据能够共享,是本领域技术人员亟待解决的问题。

为了解决上述现有技术中存在的问题,本申请实施例提出了一种模型优化方法,能够使得各个企业之间的数据能够共享,提高各个企业的本地模型参数的优化程度。如图2所示,该方法包括:

S201、计算服务器确定多个第一行业设备中每个第一行业设备的样本数量和本地模型参数。

其中,多个第一行业设备中任意两个第一行业设备之间的参数差异度大于或等于预设阈值。

一种可能的实现方式中,上述第一行业设备共享的多个样本可以满足以下条件1至条件4:条件1、由于数据倾斜会影响模型训练(或者模型优化)的复杂度,因此多个样本中的正负样本总体要保障均衡性。条件2、各个第一行业设备共享的样本之间参数差异度需要大于或等于预设阈值,这样可以保障数据样本的融合为模型优化提供更多的信息量。条件3、上述第一行业设备共享的多个样本对应的字段需要位于合理范围内,不能出现异常值。条件4、上述第一行业设备共享的多个样本对应的字段的空值率需要位于合理范围内(例如,大于30%)。

可选的,计算服务器可以根据实际情况设置上述预设阈值,例如,计算服务器可以将上述预设阈值设置为10。上述仅为预设阈值的一种示例性的说明,本申请对此不作任何限制。

S202、计算服务器基于每个第一行业设备的样本数量和本地模型参数,确定共享模型的参数。

作为一种可选的实现方式中,上述S202的实现过程可以为:计算服务器可以基于上述每个第一行业设备的样本数量和本地模型参数、以及以下公式1,进行联合建模,以确定共享模型的参数。

一种可能的实现方式中,共享模型的参数满足以下公式1:

其中,F(θ)

S203、计算服务器向每个第一行业设备发送共享模型的参数,以使得每个第一行业设备基于共享模型的参数优化本地模型。相应的,第一行业设备接收来自计算服务器的共享模型的参数。

可以理解的是,为了避免多个第一行业设备之间数据共享过程中的数据泄漏问题,上述每个第一行业设备提供的共享样本均保留至第一行业设备的本地数据库中,并不上传至计算服务器侧。第一行业设备利用联邦学习算法将原始数据转换为数据模型,这样每个第一行业设备在本地利用自己的共享数据计算模型的参数(即本地模型参数),并将本地模型参数更新到服务器,以便于后续计算服务器基于上述本地模型参数进行全局模型的聚合(即联合建模)。接着,计算服务器对每个第一行业设备的本地模型参数进行平均,并当每次迭代结束时,将聚合的全局模型分发到各个第一行业设备中。这样,通过这种联邦学习方法可以降低数据泄漏的风险,也为各个第一行业设备进行数据的共享提供了技术保障。

可选的,在上述S203之后,每个第一行业设备可以基于得到的全局模型、以及每个第一行业设备自身的数据来完成模型的学习,这样数据共享可以使得每个第一行业设备的模型准确率得到提升。

上述技术方案至少带来以下有益效果:本申请提供的模型优化方法,计算服务器可以确定多个第一行业设备中每个第一行业设备(即多个第一行业设备中任意两个第一行业设备之间的参数差异度大于或等于预设阈值)的样本数量和本地模型参数,基于每个第一行业设备的样本数量和本地模型参数,确定共享模型的参数,并向每个第一行业设备发送共享模型的参数,以使得每个第一行业设备基于共享模型的参数优化本地模型。基于上述可知,计算服务器可以基于上述多个第一行业设备中每个第一行业设备的数据(即样本数量和本地模型参数),进行联合建模,并将上述联合建模得到的共享模型的参数分别下发至上述每个第一行业设备中,以使得各个第一行业设备可以基于上述联合建模得到的共享模型的参数进行自身的模型优化,使得各个第一行业设备可以基于多个第一行业设备共享的数据进行模型优化,进而提高了各个第一行业设备的本地模型的准确度。

一种可能的实现方式中,计算服务器需要预先从多个第二行业设备中筛选出上述多个第一行业设备,以便于后续可以基于第一行业设备的数据进行联合建模。结合图2,如图3所示,计算服务器预先从多个第二行业设备中筛选出上述多个第一行业设备的实现过程可以通过以下S301至S302确定。

S301、第二行业设备向计算服务器发送第二行业设备的数据简报。相应的,计算服务器接收来自多个第二行业设备中每个第二行业设备的数据简报。

其中,第二行业设备为多个第一行业设备中,支持数据共享的行业设备。数据简报包括:样本的数量、以及多个样本中每个样本的信息。样本的信息包括:样本的均值、样本的方差、样本的中位数、样本的最大值、以及样本的最小值。

在一种示例中,上述数据简报还可以包括正负样本的数量。

可选的,在上述S301之前,计算服务器向多个第四行业设备中每个第四行业设备发送任务信息,相应的,上述第四行业设备接收来自计算服务器的任务信息。其中,上述任务信息可以包括数据联合建模要完成的任务、以及样本共享要提供的数据关键特征和字段。上述多个第四行业设备为任务信息对应的行业中的所有或者部分行业设备。接着,第四行业设备基于上述任务信息,确定自身是否参加上述任务。若第四行业设备确定参加上述任务,则该第四行业设备可以确定为第二行业设备,并且该第二行业设备可以基于上述任务信息中的数据关键特征和字段确定共享的样本数量和本地模型参数。若第四行业设备确定参加上述任务,则结束流程。

可以理解的是,对于数据规模较小的第四行业设备来说,由于无法完成特定任务建模,因此该类第四行业设备可以拒绝参加上述任务。对于想要扩大本地数据规模的第四行业设备来说,为了提升本地模型的准确度,上述第四行业设备(即第二行业设备)均可以参加上述任务,进行联合建模。

示例性的,如下表1所示,若任务#1为车辆网行业的异常卡识别模型的任务,则任务#1要求提供的数据关键特征和字段可以时间、流量、访问统一资源定位符(uniformresource locator,URL)、以及位置。

表1

在一些示例中,上述任务可以包括以下至少一项:行业服务器中的异常卡识别模型、行业服务器中的路径规划模型、行业服务器中的轨迹匹配模型、能力建模服务器中的视频视觉人物识别模型、能力建模服务器中的基于位置的精准定位模型等,能力建模服务器中的融合应用服务器会实现电表、以及能力建模服务器中的水表和燃气表业务的数据融合应用模型。

S302、计算服务器基于多个第二行业设备的数据简报,从多个第二行业设备中确定多个第一行业设备。

作为一种可能的实现方式中,上述S302的实现过程可以为:计算服务器可以基于上述多个第二行业设备中任意两个第二行业设备的数据简报中包括的信息(例如,参数的均值、参数的方差、参数的中位数、参数的最大值、以及参数的最小值),确定上述任意两个第二行业设备之间的参数差异度,并基于上述方法确定上述多个第二行业设备中每两个第二行业设备之间的参数差异度。接着,计算服务器可以基于参数差异度对上述每两个第二行业设备(记为第二行业设备对)进行排序,并确定排序前M个第二行业设备对。在该情况下,预设阈值为第M个第二行业设备对之间的参数差异度。M为正整数。最终,计算服务器可以从上述M个第二行业设备对中每个第二行业设备对中确定任一个第二行业设备为第三行业设备,并对多个第三行业设备进行去重处理,得到多个第一行业设备。

上述技术方案至少带来以下有益效果:本申请提供的模型优化方法,计算服务器接收来自多个第二行业设备中每个第二行业设备(即第二行业设备为多个第一行业设备中,支持数据共享的行业设备)的数据简报(即数据简报包括:样本的数量、以及多个样本中每个样本的信息;样本的信息包括:样本的均值、样本的方差、样本的中位数、样本的最大值、以及样本的最小值),并基于多个第二行业设备的数据简报,从多个第二行业设备中确定多个第一行业设备,这样以便于后续计算服务器可以确定第一行业设备的数据(例如,样本数量和本地模型参数),并基于第一行业设备的数据进行联合建模。

在一种可选的实施例中,如S302所示,计算服务器基于多个第二行业设备的数据简报,从多个第二行业设备中确定多个第一行业设备,在图3示出的方法实施例的基础上,本实施例提供一种可能实现方式,如图4所示,图4为本申请提供的S302的一种可能实现方式,因此,计算服务器基于多个第二行业设备的数据简报,从多个第二行业设备中确定多个第一行业设备的过程可以包括以下步骤S401至S405。

S401、计算服务器基于多个第二行业设备,确定多个第二行业设备对。

其中,一个第二行业设备对包括多个第二行业设备中任意两个第二行业设备。

作为一种可选的实现方式中,上述S401的实现过程可以为:计算服务器可以从上述多个第二行业设备中,确定每两个第二行业设备为第二行业设备对,进而确定多个第二行业设备对。

计算服务器对多个第二行业设备对中每个第二行业设备对执行S402,以得到多个第二行业设备对的参数差异度:

S402、计算服务器基于目标第二行业设备对中两个第二行业设备的数据简报,确定目标第二行业设备对的参数差异度。

其中,目标第二行业设备对为多个第二行业设备对中任一个第二行业设备对。

作为一种可能的实现方式中,上述S402的实现过程可以为:计算服务器基于马氏距离方法,目标第二行业设备对中一个第二行业设备中任一个样本的数据简报,以及目标第二行业设备对中另一个第二行业设备中任一个样本的数据简报,确定目标第二行业设备对中任意两个样本之间的参数差异度,并确定上述每两个样本之间的参数差异度之和为目标第二行业设备对的参数差异度。

计算服务器基于马氏距离方法,目标第二行业设备对中一个第二行业设备中任一个样本的数据简报,以及目标第二行业设备对中另一个第二行业设备中任一个样本的数据简报,确定目标第二行业设备对中任意两个样本之间的参数差异度的实现过程可以为:首先,计算设服务器基于一个第二行业设备的第i个样本的数据简报(即参数的均值、参数的方差、参数的中位数、参数的最大值、以及参数的最小值)、另一个第二行业设备的第j个样本的数据简报(即参数的均值、参数的方差、参数的中位数、参数的最大值、以及参数的最小值),确定上述两个样本之间的协方差。

可选的,协方差满足以下公式2:

P=∑

其中,P为协方差。u

u

其次,计算设备可以基于一个第二行业设备的第i个样本的数据简报(即参数的均值、参数的方差、参数的中位数、参数的最大值、以及参数的最小值)、另一个第二行业设备的第j个样本的数据简报(即参数的均值、参数的方差、参数的中位数、参数的最大值、以及参数的最小值)、协方差、以及预设参数,确定上述两个样本之间的马氏距离。

可选的,马氏距离满足以下公式3:

其中,D

最终,计算服务器确定上述每两个样本之间的参数差异度之和为目标第二行业设备对的参数差异度。

可选的,目标第二行业设备对的参数差异度满足以下公式4:

其中,TD

S403、计算服务器从多个第二行业设备对中,确定多个预设第二行业设备对。

其中,预设第二行业设备对为参数差异度大于或等于预设阈值的第二行业设备对。

可以理解的是,若参数差异度越大,则预设第二行业设备对之间的共享样本的相似性越小。若参数差异度越小,则预设第二行业设备对之间的共享样本的相似性越大。

S404、计算服务器从多个预设第二行业设备对中每个预设第二行业设备对中,确定任一个第二行业设备为第三行业设备。

可选的,关于预设第三行业设备对可参考上述相应位置的描述进行理解,此处不再赘述。

S405、计算服务器对多个第三行业设备进行去重处理,得到多个第一行业设备。

可以理解的是,由于在计算服务器确定第三行业设备的过程中,计算服务器是哦凝固上述多个预设第二行业设备对中选取的任一个第二行业设备,导致计算服务器选取的多个第三行业设备中很容易出现重复的行业设备,因此,计算服务器需要对多个第三行业设备进行去重处理之后,得到多个第一行业设备。

上述技术方案至少带来以下有益效果:本申请提供的模型优化方法,计算服务器基于多个第二行业设备,确定多个第二行业设备对(即一个第二行业设备对包括多个第二行业设备中任意两个第二行业设备),并对多个第二行业设备对中每个第二行业设备对执行如下操作,以得到多个第二行业设备对的设备差异度:基于目标第二行业设备(即目标第二行业设备对为多个第二行业设备对中任一个第二行业设备对)对中两个第二行业设备的数据简报,确定目标第二行业设备对的设备差异度。接着,计算服务器从多个第二行业设备对中,确定多个预设第二行业设备对(即预设第二行业设备对为设备差异度大于或等于预设阈值的第二行业设备对),从多个预设第二行业设备对中每个预设第二行业设备对中,确定任一个第二行业设备为第三行业设备,并对多个第三行业设备进行去重处理,得到多个第一行业设备,这样以便于后续计算服务器可以确定第一行业设备的数据(例如,样本数量和本地模型参数),并基于第一行业设备的数据进行联合建模。

可以理解的是,上述模型优化方法可以由模型优化装置实现。模型优化装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本申请公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请公开实施例的范围。

本申请公开实施例可以根据上述方法示例生成的模型优化装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

图5为本发明实施例提供的一种模型优化装置的结构示意图。如图5所示,模型优化装置50可以用于执行图2-图4所示的模型优化方法。该模型优化装置50包括:通信单元501和处理单元502。

处理单元502,用于确定多个第一行业设备中每个第一行业设备的样本数量和本地模型参数;多个第一行业设备中任意两个第一行业设备之间的参数差异度大于或等于预设阈值;处理单元502,还用于基于每个第一行业设备的样本数量和本地模型参数,确定共享模型的参数;通信单元501,用于向每个第一行业设备发送共享模型的参数,以使得每个第一行业设备基于共享模型的参数优化本地模型。

在一种可能的实现方式中,通信单元501,还用于接收来自多个第二行业设备中每个第二行业设备的数据简报;第二行业设备为多个第一行业设备中,支持数据共享的行业设备;数据简报包括:样本的数量、以及多个样本中每个样本的信息;样本的信息包括:样本的均值、样本的方差、样本的中位数、样本的最大值、以及样本的最小值;处理单元502,还用于基于多个第二行业设备的数据简报,从多个第二行业设备中确定多个第一行业设备。

在一种可能的实现方式中,处理单元502,还用于基于多个第二行业设备,确定多个第二行业设备对;一个第二行业设备对包括多个第二行业设备中任意两个第二行业设备;处理单元502,还用于对多个第二行业设备对中每个第二行业设备对执行如下操作,以得到多个第二行业设备对的设备差异度:基于目标第二行业设备对中两个第二行业设备的数据简报,确定目标第二行业设备对的设备差异度;目标第二行业设备对为多个第二行业设备对中任一个第二行业设备对;处理单元502,还用于从多个第二行业设备对中,确定多个预设第二行业设备对;预设第二行业设备对为设备差异度大于或等于预设阈值的第二行业设备对;处理单元502,还用于从多个预设第二行业设备对中每个预设第二行业设备对中,确定任一个第二行业设备为第三行业设备;处理单元502,还用于对多个第三行业设备进行去重处理,得到多个第一行业设备。

在一种可能的实现方式中,共享模型的参数满足以下公式:

其中,F(θ)

在采用硬件的形式实现上述集成的模块的功能的情况下,本发明实施例提供了上述实施例中所涉及的模型优化装置的一种可能的结构示意图。如图6所示,一种模型优化装置60,例如用于执行图2-图4所示的模型优化方法。该模型优化装置60包括处理器601,存储器602、总线603、以及通信接口604。处理器601与存储器602之间可以通过总线603连接。

处理器601是用户设备的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器601可以是一个通用中央处理单元602(central processing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。

作为一种实施例,处理器601可以包括一个或多个CPU,例如图6中所示的CPU 0和CPU 1。

存储器602可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

作为一种可能的实现方式,存储器602可以独立于处理器601存在,存储器602可以通过总线603与处理器601相连接,用于存储指令或者程序代码。处理器601调用并执行存储器602中存储的指令或程序代码时,能够实现本发明实施例提供的地图标绘方法。

另一种可能的实现方式中,存储器602也可以和处理器601集成在一起。

总线603,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外围设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口604,用于与其他设备通过通信网络连接。该通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLAN)等。通信接口604可以包括用于接收数据的通信单元501,还可以包括获取单元和接收单元。

在一种设计中,本发明实施例提供的模型优化装置60中,通信接口还可以集成在处理器中。

需要指出的是,图6示出的结构并不构成对该模型优化装置60的限定。除图6所示部件之外,该模型优化装置60可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

作为一个示例,结合图5,模型优化装置中的处理单元502实现的功能与图6中的处理器601的功能相同。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

技术分类

06120115930323