掌桥专利:专业的专利平台
掌桥专利
首页

一种纵向联邦学习的信息价值的获取方法及装置

文献发布时间:2023-06-19 18:53:06


一种纵向联邦学习的信息价值的获取方法及装置

技术领域

本申请涉及隐私计算技术领域,具体而言,涉及一种纵向联邦学习的信息价值的获取方法及装置。

背景技术

随着互联网的快速发展,以及对数据安全的重视,如何在充分利用数据信息而不泄露数据的情况下诞生了联邦学习。

在联邦学习领域,是通过多个数据参与方共同训练模型,在训练模型之前会对数据参与方的样本数据进行特征处理,来提高训练模型的性能,具体的,选取信息价值较大的特征变量来参与建模,从而提升机器学习模型的稳定性,其中,信息价值用于衡量特征变量对于标签信息的预测能力或者特征变量对模型的重要性。

由于通过信息价值筛选特征变量是一种有监督的特征选择方法,需要用到样本的标签信息,在联邦学习的各个参与方中,通常只有一个参与方持有样本的标签信息。在计算未持有标签信息的参与方中的特征变量的信息价值时,需要借助其他参与方的标签信息才能计算出相应的信息价值。

然而,现有的信息价值计算方法通常会导致某一参与方的相关信息泄露到另一参与方,例如具有标签信息的第一参与方将其标签信息泄露给第二参与方,或第二参与方将其特征数据泄露给第一参与方,或第二参与方的每个特征每一分箱的正负样本数、正负样本的比例、证据权重或对应每个特征的价值信息泄露给第一参与方等等。

发明内容

本申请实施例的目的在于提供一种纵向联邦学习的信息价值的获取方法及装置,用以解决现有的信息价值计算方法通常会导致某一参与方的相关信息泄露到另一参与方的问题。

本申请实施例提供的一种纵向联邦学习的信息价值的获取方法,应用于具有标签值的第一参与方,方法包括:

根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送密态标签值;

根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向第二参与方发送模糊证据权重;

根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送第一密态参数和第二密态参数;

接收第二参与方发送的密态模糊权重系数,对密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。

上述技术方案中,具有标签值的第一参与方对己方的标签值加密后发送给第二参与方,非含有标签值的第二参与方根据密态标签值统计出第二参与方每个特征每一分箱的密态模糊正负样本数(密态模糊正样本数和密态模糊负样本数),并将密态模糊正负样本数发送给第一参与方,第一参与方对密态模糊正负样本数解密得到模糊正负样本数(模糊正样本数和模糊负样本数)并计算出模糊证据权重,根据模糊正负样本数得到用于计算密态模糊权重系数的第一密态参数和第二密态参数,将模糊证据权重、第一密态参数和第二密态参数发送给第二参与方,第二参与方根据模糊证据权重和己方数据进行解模糊操作得到证据权重,第二参与方根据第一密态参数和第二密态参数以及己方数据(指用于进行混淆操作的随机数)计算出密态模糊权重系数并发送给第一参与方,第一参与方根据密态模糊权重系数解密得到模糊权重系数并发送给第二参与方,第二参与方根据模糊权重系数和己方数据进行解模糊操作得到权重系数,最后,第二参与方根据每一分箱的证据权重及对应的权重系数,加权求和得到己方特征的信息价值。上述过程中,具有标签信息的第一参与方将其标签信息不会泄露给第二参与方,第二参与方的特征数据也不会泄露给第一参与方,第二参与方的每个特征每一分箱的正负样本数、正负样本的比例、证据权重和对应每个特征的价值信息均不会泄露给第一参与方。

本实施例的方法结合了同态加密方法和混淆处理方法计算样本特征的证据权重和价值信息,有效保护了信息安全,既保护了样本的原始信息,每一分箱中样本的正负样本数,正负样本比例,又保护了特征的计算结果,特征的证据权重和价值信息。

在一些可选的实施方式中,根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,包括:

接收第二参与方发送的每一分箱的密态模糊正样本数

根据每一分箱的模糊正样本数、模糊负样本数、正样本个数

在一些可选的实施方式中,根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,包括:

对每一分箱,根据模糊正样本数

根据模糊负样本数和负样本个数,得到第二中间参数:

对第一中间参数进行加密得到第一密态参数

本申请实施例提供的一种纵向联邦学习的信息价值的获取方法,应用于第二参与方,方法包括:

接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数;

接收第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重;

根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数;

根据每一分箱的模糊权重系数,得到每一分箱的权重系数;

根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。

上述技术方案中,具有标签值的第一参与方对己方的标签值加密后发送给第二参与方,非含有标签值的第二参与方根据密态标签值统计出第二参与方每个特征每一分箱的密态模糊正负样本数(密态模糊正样本数和密态模糊负样本数),并将密态模糊正负样本数发送给第一参与方,第一参与方对密态模糊正负样本数解密得到模糊正负样本数(模糊正样本数和模糊负样本数)并计算出模糊证据权重,根据模糊正负样本数得到用于计算密态模糊权重系数的第一密态参数和第二密态参数,将模糊证据权重、第一密态参数和第二密态参数发送给第二参与方,第二参与方根据模糊证据权重和己方数据进行解模糊操作得到证据权重,第二参与方根据第一密态参数和第二密态参数以及己方数据(指用于进行混淆操作的随机数)计算出密态模糊权重系数并发送给第一参与方,第一参与方根据密态模糊权重系数解密得到模糊权重系数并发送给第二参与方,第二参与方根据模糊权重系数和己方数据进行解模糊操作得到权重系数,最后,第二参与方根据每一分箱的证据权重及对应的权重系数,加权求和得到己方特征的信息价值。上述过程中,具有标签信息的第一参与方将其标签信息不会泄露给第二参与方,第二参与方的特征数据也不会泄露给第一参与方,第二参与方的每个特征每一分箱的正负样本数、正负样本的比例、证据权重和对应每个特征的价值信息均不会泄露给第一参与方。

在一些可选的实施方式中,根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,包括:

根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数

对应每一分箱产生第一随机数

利用第一随机数对密态正样本数

利用第二随机数对密态负样本数

其中,第一随机数

在一些可选的实施方式中,根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数,包括:

对应每一分箱产生第三随机数

对第一密态参数

在一些可选的实施方式中,根据每一分箱的模糊权重系数,得到每一分箱的权重系数,包括:

将每一分箱的模糊权重系数

本申请实施例提供的一种纵向联邦学习的信息价值的获取装置,包括:

标签模块,用于根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送密态标签值;

模糊证据权重模块,用于根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向第二参与方发送模糊证据权重;

密态参数模块,用于根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送第一密态参数和第二密态参数;

模糊权重模块,用于接收第二参与方发送的密态模糊权重系数,对密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。

在一些可选的实施方式中,所述模糊证据权重模块,还用于:

接收第二参与方发送的每一分箱的密态模糊正样本数

根据每一分箱的模糊正样本数、模糊负样本数、正样本个数

在一些可选的实施方式中,所述密态参数模块,还用于:

对每一分箱,根据模糊正样本数

根据模糊负样本数和负样本个数,得到第二中间参数:

对第一中间参数进行加密得到第一密态参数

本申请实施例提供的一种纵向联邦学习的信息价值的获取装置,包括:

密态模糊模块,用于接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数;

证据权重模块,用于接收第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重;

密态模糊权重模块,用于根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数;

权重计算模块,用于根据每一分箱的模糊权重系数,得到每一分箱的权重系数;

加权求和模块,用于根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。

在一些可选的实施方式中,所述密态模糊模块,还用于:

根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数

对应每一分箱产生第一随机数

利用第一随机数对密态正样本数

利用第二随机数对密态负样本数

在一些可选的实施方式中,其中,第一随机数

在一些可选的实施方式中,所述密态模糊权重模块,还用于:

对应每一分箱产生第三随机数

对第一密态参数

在一些可选的实施方式中,所述权重计算模块,还用于:

将每一分箱的模糊权重系数

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种纵向联邦学习的信息价值的获取方法流程图;

图2为本申请一个实施例提供的信息价值计算流程图;

图3为本申请实施例提供的一种纵向联邦学习的信息价值的获取装置;

图4为本申请另一实施例提供的一种纵向联邦学习的信息价值的获取装置;

图5为本申请实施例提供的电子设备的一种可能的结构示意图。

图标:11-标签模块,12-模糊证据权重模块,13-密态参数模块,14-模糊权重模块,21-密态模糊模块,22-证据权重模块,23-密态模糊权重模块,24-权重计算模块,25-加权求和模块,31-处理器,32-存储器,33-通信接口,34-通信总线。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

本申请的一个或多个实施例,可以适用于包括但不限于以下场景:根据银行端提供的用户数据与移动端提供的用户数据来共同训练模型,用于后期银行判断是否应该对用户进行贷款,在训练模型之前会对数据参与方的样本数据进行特征处理,来提高训练模型的性能。银行端有用户的姓名、身份证号码、存款额度、是否贷款等信息,移动端有用户姓名、用户身份证号码、与其他用户的通话时长等信息。每一个用户为一个样本,将是否贷款作为样本标签,每一个信息作为样本的特征,对于移动端来说,移动端不具有样本标签,因此,需要借助银行端的样本标签来计算移动端的特征变量的信息价值,之后,通过选取信息价值较大的特征变量来参与建模,从而提升机器学习模型的稳定性。

请参照图1,图1为本申请实施例提供的一种纵向联邦学习的信息价值的获取方法流程图,具体包括:

在第一参与方,根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送密态标签值。

在第二参与方,接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数。

在第一参与方,根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向第二参与方发送模糊证据权重。

在第二参与方,接收第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重。

在第一参与方,根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送第一密态参数和第二密态参数。

在第二参与方,根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数。

在第一参与方,接收第二参与方发送的密态模糊权重系数,对密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。

在第二参与方,根据每一分箱的模糊权重系数,得到每一分箱的权重系数;根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。

本实施例中,具有标签值的第一参与方对己方的标签值加密后发送给第二参与方,非含有标签值的第二参与方根据密态标签值统计出第二参与方每个特征每一分箱的密态模糊正负样本数(密态模糊正样本数和密态模糊负样本数),并将密态模糊正负样本数发送给第一参与方,第一参与方对密态模糊正负样本数解密得到模糊正负样本数(模糊正样本数和模糊负样本数)并计算出模糊证据权重,根据模糊正负样本数得到用于计算密态模糊权重系数的第一密态参数和第二密态参数,将模糊证据权重、第一密态参数和第二密态参数发送给第二参与方,第二参与方根据模糊证据权重和己方数据进行解模糊操作得到证据权重,第二参与方根据第一密态参数和第二密态参数以及己方数据(指用于进行混淆操作的随机数)计算出密态模糊权重系数并发送给第一参与方,第一参与方根据密态模糊权重系数解密得到模糊权重系数并发送给第二参与方,第二参与方根据模糊权重系数和己方数据进行解模糊操作得到权重系数,最后,第二参与方根据每一分箱的证据权重及对应的权重系数,加权求和得到己方特征的信息价值。上述过程中,具有标签信息的第一参与方将其标签信息不会泄露给第二参与方,第二参与方的特征数据也不会泄露给第一参与方,第二参与方的每个特征每一分箱的正负样本数、正负样本的比例、证据权重和对应每个特征的价值信息均不会泄露给第一参与方。

本实施例的方法结合了同态加密方法和混淆处理方法计算样本特征的证据权重和价值信息,有效保护了信息安全,既保护了样本的原始信息,每一分箱中样本的正负样本数,正负样本比例,又保护了特征的计算结果,特征的证据权重和价值信息。

具体的,请参照图2,图2为本申请一个实施例提供的信息价值计算流程图,包括:

在第一参与方,根据所有样本的标签值,统计出正样本个数

在第二参与方,接收密态标签值E(Y),第二参与方根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数

在第一参与方,接收第二参与方发送的每一分箱的密态模糊正样本数

在第二参与方,根据第一随机数和第二随机数,对模糊证据权重

在第一参与方,对每一分箱,根据模糊正样本数

在第二参与方,对应每一分箱产生第三随机数

在第一参与方,对密态模糊权重系数

在第二参与方,将每一分箱的模糊权重系数

请参照图3,图3为本申请实施例提供的一种纵向联邦学习的信息价值的获取装置,包括标签模块11、模糊证据权重模块12、密态参数模块13和模糊权重模块14。

其中,标签模块11,用于根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送密态标签值。模糊证据权重模块12,用于根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向第二参与方发送模糊证据权重。密态参数模块13,用于根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送第一密态参数和第二密态参数。模糊权重模块14,用于接收第二参与方发送的密态模糊权重系数,对密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。

在一些可选的实施方式中,所述模糊证据权重模块,还用于:接收第二参与方发送的每一分箱的密态模糊正样本数

在一些可选的实施方式中,所述密态参数模块,还用于:对每一分箱,根据模糊正样本数

请参照图4,图4为本申请另一实施例提供的一种纵向联邦学习的信息价值的获取装置,包括密态模糊模块21、证据权重模块22、密态模糊权重模块23、权重计算模块24和加权求和模块25。

其中,密态模糊模块21,用于接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数;证据权重模块22,用于接收第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重;密态模糊权重模块23,用于根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数;权重计算模块24,用于根据每一分箱的模糊权重系数,得到每一分箱的权重系数;加权求和模块25,用于根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。

在一些可选的实施方式中,所述密态模糊模块,还用于:根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数

在一些可选的实施方式中,所述密态模糊权重模块,还用于:对应每一分箱产生第三随机数

在一些可选的实施方式中,所述权重计算模块,还用于:将每一分箱的模糊权重系数

图5示出了本申请实施例提供的电子设备的一种可能的结构。参照图5,电子设备包括:处理器31、存储器32和通信接口33,这些组件通过通信总线34和/或其他形式的连接机构(未示出)互连并相互通讯。

其中,存储器32包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random AccessMemory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),电可擦除可编程只读存储器(ElectricErasable Programmable Read-Only Memory,简称EEPROM)等。处理器31以及其他可能的组件可对存储器32进行访问,读和/或写其中的数据。

处理器31包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器31可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、微控制单元(MicroController Unit,简称MCU)、网络处理器(NetworkProcessor,简称NP)或者其他常规处理器;还可以是专用处理器,包括神经网络处理器(Neural-networkProcessing Unit,简称NPU)、图形处理器(GraphicsProcessing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuits,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且,在处理器31为多个时,其中的一部分可以是通用处理器,另一部分可以是专用处理器。

通信接口33包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。通信接口33可以包括进行有线和/或无线通信的接口。

在存储器32中可以存储一个或多个计算机程序指令,处理器31可以读取并运行这些计算机程序指令,以实现本申请实施例提供的方法。

可以理解的,图5所示的结构仅为示意,电子设备还可以包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的结构。图5中所示的各组件可以采用硬件、软件或其组合实现。电子设备可能是实体设备,例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等,也可能是虚拟设备,例如虚拟机、虚拟化容器等。并且,电子设备也不限于单台设备,也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的方法。例如,计算机可读存储介质可以实现为图5中电子设备中的存储器32。

在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 一种服务器串口信息的获取装置及方法
  • 一种获取温湿度数据信息的方法及装置
  • 一种信息获取方法和装置
  • 一种固件信息获取方法及相关装置
  • 一种飞行设备、获取位置信息的方法及装置
  • 预测方法、纵向联邦学习和横向联邦学习的模型训练方法
  • 基于多方高维数据纵向联邦学习的商业信息推荐方法及装置
技术分类

06120115722896