安全高效的跨模态相似度度量方法
文献发布时间:2024-04-18 19:59:31
技术领域
本发明属于跨模态检索技术领域,具体涉及安全高效的跨模态相似度度量方法。
背景技术
随着计算机、物联网的普及,文本、图像、音频、视频等多种类型数据为主的信息急剧增加,这些数据具备的可用性和重要性日益突显,因此社会及特定场所对高效的跨模态数据检索服务的需求也越来越多。例如在医院,医护人员可以根据病情描述查找病情症状的图片信息。然而在实际应用场景中,存在医生在大规模加密电子医疗记录中查询病人就诊信息低效、高时延的情况;为了节省本地存储资源和计算资源,用户更倾向将海量的多模态数据外包给云服务器,但不安全的云服务器会对用户数据隐私带来风险,因为云服务器可以通过数据信息来推断用户隐私。
发明内容
本发明的目的是提供安全高效的跨模态相似度度量方法,解决了现有跨模态检索方法中易遭到适应性选择关键字攻击造成隐私泄露及大规模加密数据集下数据相似性计算低效的问题。
本发明所采用的技术方案是,安全高效的跨模态相似度度量方法,具体按照以下步骤实施:
步骤1,多模态数据预处理;
步骤2,构建分层聚类树,并对分层聚类树进行加密;
步骤3,生成查询令牌;
步骤4,云服务器遍历加密后的分层聚类树并返回查询结果;
步骤5,查询用户解密得到明文数据。
本发明的特点还在于,
步骤1的具体为:数据拥有者利用跨模态哈希检索方法将多模态数据均转换成二进制哈希码y。
步骤2的具体过程为:
步骤2.1,数据拥有者利用k-modes聚类算法聚类步骤1转换的每个模态数据的哈希码y,得到多个聚类中心,每个聚类中心作为下一次聚类数据继续聚类,从而自下而上构建分层聚类树,分层聚类树中每个树结点保存一个哈希码y,每个模态数据对应一个分层聚类树;
步骤2.2,数据拥有者利用算法Setup(1
步骤2.3,数据拥有者利用算法Enc(msk,y)对步骤2.1中每个树结点上的哈希码y进行加密;
步骤2.4,数据拥有者利用对称加密算法AES加密原始多模态数据,将加密后的原始多模态数据和经步骤2.3加密的分层聚类树上传给云服务器保存,并将对称加密算法AES的私钥sk
步骤2.1中,分层聚类树包括根结点、分支结点和叶子结点,其中每个叶子结点N
步骤2.2的具体过程为:输入安全参数λ和跨模态哈希码维度k,选择参数q,p,DG
式中,q、p均取整数;
随机选择一个正整数
步骤2.3的具体过程为:
对于每个哈希码y∈{1,-1}
步骤2.3.1,取样一个n维随机向量
步骤2.3.2,取样一个错误值
步骤2.3.3,返回一个m+1维的密文ct=(d,c),则分层聚类树中的所有结点对应的哈希码y
步骤3的具体过程为:查询用户利用跨模态哈希检索方法将查询数据均转换成二进制哈希码x,随机选择小于t′的整数,利用基于格的内积函数加密算法的密钥生成算法KeyGen(msk,x)生成密文sk,sk=u+t·Tx,t≤t′,接着将查询令牌token,token=(sk,t)和查询目标数据类型发送给云服务器。
云服务器收到查询令牌后,遍历查询模态所对应的加密后的分层聚类树的分支结点,利用基于格的内积函数加密算法的解密算法Dec(sk,ct)计算查询数据哈希码x与树结点保存哈希码y的汉明距离HD,找到每层树结点中汉明距离最小的结点,继续查询该汉明距离最小结点的孩子结点,找到最小汉明距离的分支结点,一直到叶子结点的上一层最小汉明距离的结点,将该分支结点所对应孩子结点的标识符o
汉明距离计算过程为:
计算sk和密文ct的内积v,
本发明的有益效果是:
(1)本发明利用基于格的内积函数加密算法设计了高安全的相似性度量算法,实现了密文下跨模态哈希码的汉明距离的安全计算,并可以抵抗适应性选择关键字攻击;
(2)本发明利用k-modes聚类算法构建分层聚类树,在查询时避免遍历整个数据集,将查询时间减少到次线性复杂度,从而提高了效率。
附图说明
图1为本发明安全高效的跨模态相似度度量方法的流程图;
图2为本发明安全高效的跨模态相似度度量方法的交互图;
图3为本发明安全高效的跨模态相似度度量方法构建的分层聚类树的结构图;
图4为本发明实施例3中哈希码长度为128维下的以列表形式存储的不同数据集计算汉明距离时间;
图5为本发明实施例3中哈希码长度为256维下的以列表形式存储的不同数据集计算汉明距离时间;
图6为本发明实施例3中哈希码长度为128维下的以分层聚类树结构存储不同数据集计算汉明距离时间;
图7为本发明实施例3中哈希码长度为256维下的以分层聚类树结构存储不同数据集计算汉明距离时间。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
实施例1
本发明安全高效的跨模态相似度度量方法,具体过程为:将多模态数据信息转换到二进制哈希码,将多模态数据映射到统一的汉明空间中,将跨模态哈希码聚类,将聚类中心作为下一次聚类数据自下而上构建分层聚类树,加密分层聚类树的哈希码;在查询过程中,将查询数据处理成对应的哈希码,并加密该哈希码,得到查询令牌;服务器收到查询令牌后,计算分层聚类树结点上对应哈希码的汉明距离,依次查询汉明距离最小的结点,最终找到汉明距离最小的叶子结点,将该叶子结点对应的多模态数据标识符和加密数据返回给查询用户。
实施例2
本发明安全高效的跨模态相似度度量方法,如图1和图2所示,具体按照以下步骤实施:
步骤1,多模态数据预处理
数据拥有者利用跨模态哈希检索方法将多模态数据均转换成二进制哈希码y,哈希码的形式为1、-1向量,则多模态数据被映射到统一的汉明空间;
步骤2,构建分层聚类树,并对分层聚类树进行加密
步骤2.1,数据拥有者利用k-modes聚类算法聚类步骤1转换的每个模态数据的哈希码y,得到多个聚类中心,每个聚类中心作为下一次聚类数据继续聚类,从而自下而上构建分层聚类树,分层聚类树中每个树结点保存一个哈希码y,每个模态数据对应一个分层聚类树;
如图3所示,分层聚类树包括根结点、分支结点和叶子结点,其中每个叶子结点N
步骤2.2,数据拥有者利用算法Setup(1
输入安全参数λ和跨模态哈希码维度k,选择参数q,p,DG
式中,q、p均取整数;
随机选择一个正整数t′,t′>1,令q′=t′·q,在Z
步骤2.3,数据拥有者利用算法Enc(msk,y)对步骤2.1中每个树结点上的哈希码y进行加密;
对于每个哈希码y∈{1,-1}
步骤2.3.1,取样一个n维随机向量
步骤2.3.2,取样一个错误值
步骤2.3.3,返回一个m+1维的密文ct=(d,c),则分层聚类树中的所有结点对应的哈希码均被加密成密文ct;
步骤2.4,数据拥有者利用对称加密算法AES加密原始多模态数据,将加密后的原始多模态数据和经步骤2.3加密的分层聚类树上传给云服务器保存,并将对称加密算法AES的私钥sk
步骤3,生成查询令牌
查询用户利用跨模态哈希检索方法将查询数据均转换成二进制哈希码x,随机选择小于t′的整数,利用基于格的内积函数加密算法的密钥生成算法KeyGen(msk,x)生成密文sk,sk=u+t·Tx,t≤t′,其中随机数t是为了保证查询令牌的不可链接性,接着将查询令牌token,token=(sk,t)和查询目标数据类型发送给云服务器;
基于格的内积函数加密算法的密钥生成算法详见Lattice-Based SecureBiometric Authentication for Hamming Distance;
步骤4,云服务器遍历加密后的分层聚类树并返回查询结果;
云服务器收到查询令牌后,遍历查询模态所对应的加密后的分层聚类树的分支结点,利用基于格的内积函数加密算法的解密算法Dec(sk,ct)计算查询数据哈希码x与树结点保存哈希码y的汉明距离HD,找到每层树结点中汉明距离最小的结点,继续查询该汉明距离最小结点的孩子结点,找到最小汉明距离的分支结点,一直到叶子结点的上一层最小汉明距离的结点,将该分支结点所对应孩子结点的标识符o
汉明距离计算过程为:
计算sk和密文ct的内积v,
是x和y的内积,即v=
步骤5,查询用户解密得到明文数据;
查询用户收到云服务器返回的密文数据并利用AES私钥sk
实施例3
为了使等式(1)成立,在测试中参数设置为q=2
如图4和5所示,采用本发明设计的加密算法密文下查询时间和没有采用本发明设计的加密算法(在文明下查询时间)的不同数据集所计算汉明距离时间,图4和图5两种方案的索引均为列表形式,图4具体为哈希码长度为128维下的不同数据集计算汉明距离时间,图5具体为哈希码长度为256维下的不同数据集计算汉明距离时间,由图4可以看出,采用本发明的加密算法计算10万个向量的汉明距离时间需要103毫秒。
如图6和图7所示,采用本发明设计的加密算法密文下查询时间和没有采用本发明设计的加密算法(在文明下查询时间)的不同数据集所计算汉明距离时间,图6和图7两种方案均采用本发明构建的分层聚类树存储数据,图6具体为哈希码长度为128维下的不同数据集计算汉明距离时间,图7具体为哈希码长度为256维下的不同数据集计算汉明距离时间,由图6可以看出,采用本发明的密文索引查询10万个向量的时间需要20毫秒。
- 一种环保设备运行状态在线监管系统及监管方法
- 一种用于确定大数据存储系统的运行状态的方法及系统
- 用于根据晶体状态处理玻璃材料的方法、系统和设备
- 用于在真空沉积工艺中在基板上进行材料沉积的设备、用于在基板上进行溅射沉积的系统和用于制造用于在基板上进行材料沉积的设备的方法
- 一种用于检测用户睡眠状态的检测系统及检测方法
- 一种用于海底数据中心的设备状态监管系统及方法
- 一种用于海底数据中心的设备状态监管系统及方法