掌桥专利:专业的专利平台
掌桥专利
首页

一种基于联邦哈希学习的面向跨节点多模态检索方法

文献发布时间:2023-06-19 18:32:25


一种基于联邦哈希学习的面向跨节点多模态检索方法

技术领域

本发明涉及大数据计算领域,具体涉及一种基于联邦哈希学习的面向跨节点多模态检索方法。

背景技术

在大数据时代下,社交媒体中不同模态数据的呈现爆炸式的增长趋势,用户不再满足于单一模态数据间的相似性检索,而更多的关注于跨模态数据间相互检索,如以文搜图、以图搜文等。

哈希的检索方法作为一种近似最近邻的检索方法,因其对大规模数据具有存储消耗低、检索速度快等优点,已被广泛用于图像检索、视频检索、跨模态检索等领域。传统的哈希学习方法随着使用过程中数据量呈指数形式的增长态势,会带来高额的传输消耗、巨大的中心计算负载压力和边缘节点日益增长的复杂计算模型,同时企业、学校或者政府部门都拥有各自的“小数据”,因其具备潜在价值,无法直接共享,使得数据孤岛日益严重。在数据孤岛、计算能力和法律条例的约束下,实现数据互联互通、资源共享和社会总体数据价值的充分利用成为现代信息处理领域新难题。而联邦学习作为数据隐私保护的重要解决方法,可以在“数据可用不可见”的情况下进行数据联合训练、联合更新,建立高效且合法的分布式机器学习模型,但边缘节点感知的数据通常包括众多模态类型,不同模态的数据之间的异构性和语义鸿沟,使得难以进行跨模态检索和建立统一的训练模型,此外在原始数据不可访问的前提下,不同边缘节点无法通过传递模型参数来互相利用其它边缘节点蕴含的数据潜在知识;目前主流的联邦学习架构中,缺乏对复杂异构数据的有效建模方法,如何利用多模态数据中蕴含的潜在依赖关系,使得不同边缘节点数据表征和知识进行融合交互,提高计算和检索性能,仍然是当前分布式联邦学习研究的一大难题。

发明内容

为了解决目前不同边缘节点存在数据异构、维度不同、多粒度等复杂特性,导致无法建立一个统一模型的技术问题。本发明提供一种将联邦学习运用到哈希的检索方法中,从而实现跨多个边缘节点数据的多模态高效检索的方法。

为了实现上述目的,本发明的技术方案是:

一种基于联邦哈希学习的面向跨节点多模态检索方法,包括:

步骤一,云中心服务器向各边缘节点下发初始化的深度哈希模型;

步骤二,云中心服务器收集各边缘节点训练一次深度哈希模型后更新的深度哈希模型参数,并对其中倒数第二层的全连接参数进行融合更新,从而获得一个统一的云中心全局参数;然后云中心服务器将云中心全局参数下发至各边缘节点来更新深度哈希模型参数,并继续循环以上过程直至达到训练停止条件,云中心服务器将最终的云中心全局参数下发至各边缘节点进行最终更新;其中各边缘节点是基于各自的更新目标函数来对深度哈希模型进行训练;

步骤三,云中心服务器接收各边缘节点所生成的哈希码以及对应的原始数据位置信息,并进行存储;其中哈希码是由各边缘节点基于最终更新后的深度哈希模型生成的;

步骤四,云中心服务器根据待检索数据,基于最终的云中心全局参数来以深度哈希模型生成待检索哈希码,然后计算待检索哈希码与存储的哈希码之间的汉明距离,然后以距离最小的哈希码对应的原始数据位置信息来提供原始数据检索结果。

所述的方法,所述的步骤二中,云中心全局参数是通过下式获取:

其中

所述的方法,

其中

所述的方法,所述的步骤二中,云中心服务器将云中心全局参数下发至各边缘节点来更新深度哈希模型参数时,各边缘节点是基于以下方式来进行更新:

其中

所述的方法,所述的步骤二中,更新目标函数为:

其中

所述的方法,映射函数

其中

所述的方法,数据相似度函数L

其中

所述的方法,不变特性函数L

其中

所述的方法,所述的步骤二中,训练停止条件为深度哈希模型收敛或达到预设的训练次数。

所述的方法,所述的步骤四中,待检索哈希码与存储的哈希码之间的汉明距离,是以待检索哈希码与云中心存储的哈希码进行异或计算获得的;以距离最小的哈希码对应的原始数据位置信息来提供原始数据检索结果,是根据汉明距离对哈希码进行排序,获得距离最小的多个哈希码,根据哈希码对应的原始数据位置信息返回多条原始数据。

本发明的技术效果在于,可以充分利用优势边缘节点(数据量大或样本类别多)潜在的丰富知识,实现多边缘节点跨模态数据的高效检索。并通过建立全局公共子空间减少了通信开销,同时保证了边缘节点的数据隐私。

附图说明

图1为本发明实施例的架构示意图;其中①表示云中心服务器下发模型;②表示边缘节点本地模型训练;③表示云中心全局模型参数聚合;④表示边缘节点模型参数更新。

图2为本发明实施例的流程框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1、图2。首先,在本实施例中,将

然后基于以下步骤实现基于联邦哈希学习的面向跨节点多模态检索方法:

S1.云中心服务器向各边缘节点下发初始化的深度哈希模型。

云中心服务器初始化深度哈希模型,然后向

S2.云中心服务器收集各边缘节点训练一次深度哈希模型后更新的深度哈希模型参数。

其中边缘节点的训练包括:

对于第

其中

然后对于边缘节点训练时所采用的更新目标函数来说:

首先,作为不同模态数据都存在一个公共的语义空间,即标签语义空间中,换言之,通过映射函数将不同模态数据表征映射到标签语义信息,

其中

其次,不同模态的相似数据样本对距离应该更近,而不同模态的不相似样本对距离应该更远,通过对相似度信息保证这一规则,即,

其中

最后,不同模态数据存在模态内不变特性,即,

其中

综上可得,边缘节点参数的更新目标函数为,

其中,

S3. 云中心服务器基于从各边缘节点收集的不同深度哈希模型参数,对其中倒数第二层的全连接参数进行融合更新,从而获得一个统一的云中心全局参数。

为避免模型训练过程中模型参数进行更新和分发导致大量通信开销,本实施例是利用每个边缘节点模型计算后的跨模态数据子空间进行知识转移和参数更新。其中云中心服务器收集每个边缘节点深度哈希模型的倒数第二层融合特征(看作是公共子空间),然后利用全部边缘节点的公共子空间生成一个具有全局一致性的潜在公共子空间,这里的公共子空间可以看作是将不同模态的数据从各自的特征空间映射到同一个子空间。本实施例中,数据是存放在各个客户端的,不直接传输数据,所以在云端需要构建所有客户端数据统一即具有全局一致性的公共子空间,而潜在指的是数据的潜在特征。

其中

本实施例所采用的贡献度

其中

S4. 云中心服务器将云中心全局参数下发至各边缘节点来更新深度哈希模型参数。

在各边缘节点进行参数更新时,本实施例中基于残差网络的参数训练思想,提出一个残差参数平滑过程,从而利用边缘节点本地的参数增强全局参数对边缘节点本地模型的稳定性与鲁棒性。具体是:各边缘节点首先记录模型的初始训练后参数

其中

S5. 重复S2-S4直到模型收敛或达到预设迭代次数,云中心服务器将最终的云中心全局参数下发至各边缘节点进行最终更新。

重复上述的各边缘节点训练本地深度哈希模型、云中心服务器收集并融合更新云中心全局参数、更新各边缘节点深度哈希模型参数的步骤,直到模型收敛或达到预设迭代次数。最终目的是在云中心服务器生成一个基于最终的云中心全局参数的全局统一的深度哈希模型,然后云中心服务器再将最终的云中心全局参数发送至各边缘节点,各边缘节点更新后得到各边缘节点相对统一的深度哈希模型。

S6. 云中心服务器接收各边缘节点所生成的哈希码以及对应的原始数据位置信息,并进行存储。

在完成S5后,各边缘节点的私有数据通过训练完成的深度哈希模型,生成二进制哈希码,再将二进制哈希码上传至云中心,云中心存储这些二进制哈希码以及对应的原始数据位置信息,成为一个数据索引库。其中哈希码用来计算汉明距离,原始数据位置信息用来获取原始数据。原始数据位置信息包括原始数据来自于哪个边缘节点(可以用边缘节点IP来表示),以及原始数据在数据库中的ID,来定位到每一条哈希码和对应的原始数据。

所有的哈希码产生都是由最后训练完成的深度哈希模型生成的。因为目的是做检索,要保证全局的一致,不能让各个节点持有个性化的参数。

S7. 跨节点多模态检索。

云中心服务器根据待检索数据,基于最终的云中心全局参数来以深度哈希模型生成待检索哈希码,然后计算待检索哈希码与存储的哈希码之间的汉明距离,然后以距离最小的哈希码对应的原始数据位置信息来提供原始数据检索结果。即将待检索哈希码与云中心存储的哈希码进行异或计算,得到哈希码的汉明距离,根据汉明距离对哈希码进行排序,获得距离最小的若干哈希码,也即与待检索数据最接近的对应数据,最后根据哈希码对应的原始数据位置信息返回若干条原始数据。

本发明可以应用于云服务中心来与各种具有不同类型数据存储的边缘节点进行检索的情况,比如说,各政府部门拥有大规模的跨网络、跨模态数据,由于数据安全和隐私保护的原因,不能将全部的数据直接进行共享。因此,需要对多源异构数据的语义特征进行提取,建立面向大规模多源数据隐私安全的多模态检索方法,以满足可疑行人识别、可疑车辆追踪、突发事件预判等大规模多源数据分析需求。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种相似性保留跨模态哈希检索方法
  • 一种融合监督信息的跨模态哈希检索方法和系统
  • 一种基于深度学习的跨模态哈希检索方法
  • 一种基于自学习的跨模态哈希检索方法
技术分类

06120115599981