基于同态加密的语音特征乱序卷积语音信息传递方法

文献发布时间：2024-04-18 19:52:40

技术领域

本发明涉及人工智能与计算机安全技术领域，尤其涉及一种基于同态加密的语音特征乱序卷积语音信息传递方法。

背景技术

在5G时代来临，通讯业迅速发展、数字化高度普及的背景下，语音处理技术在各个领域得到广泛应用，如语音识别、语音合成、声音处理等。语音特征是语音信号的数学表示，在相关任务的处理过程中，常采用卷积神经网络(Convolutional Neural Network,CNN)对其进行操作，然而现有的语音特征处理方法依赖于特定的顺序信息，这也意味着一旦相应的顺序关系遭到破坏或发生变化，则可能导致卷积结果失真，以致影响整个语音处理系统的准确性和鲁棒性，故这一依赖性极大限制了语音特征在不同场景下的灵活应用。

同时，语音数据的隐私保护也是一个备受关注的问题：在语音识别、合成和处理等过程中涉及大量隐私数据，恶意的云端服务商可能从用户上传的语料中获得目标说话人的声纹乃至说话内容等敏感信息，从而或可造成个人信息数据泄露、制作不良信息音频进行转播并实施诈骗等非法活动、制造不良导向舆论以扰乱社会秩序等多重负面影响。为规避以上风险，合适的加密方式是必要的。同态加密技术基于其能实现数据“可算不可见”的优势，为近年来相关领域的研究热点之一。它允许在加密状态下对数据进行计算，所得结果与明文状态下进行相同计算的结果一致，这一特性也使得在不解密数据的前提下对语音特征进行卷积成为可能，故而可有效避免数据的泄露。

因此，现有的语音特征处理方法存在两个主要问题：一是对顺序信息的依赖导致应用灵活性受限，二是对语音数据的隐私保护不足。针对上述问题，在对语音数据进行处理时，如何合理利用现有技术，在保证其安全性的前提下提高其应用的灵活度与广泛度，显得尤为重要。

因此，提出一种基于同态加密的语音特征乱序卷积语音信息传递方法，来解决现有技术存在的困难，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于同态加密的语音特征乱序卷积语音信息传递方法，可以通过同态加密技术、语音处理、算法和数据处理等，实现在不泄露顺序信息的前提下正确完成语音特征卷积的目标。

为了实现上述目的，本发明采用如下技术方案：

一种基于同态加密的语音特征乱序卷积语音信息传递方法，包括以下步骤：

S1、特征向量获取步骤：提取语音信息中的语音特征向量X；

S2、乱序特征向量生成步骤：将提取得到的语音特征向量X重新排序，得到乱序特征向量X

S3、矩阵生成步骤：生成卷积所需矩阵C＝A·M

S4、卷积步骤：用户方将S2中的乱序特征向量X

S5、回传步骤：服务方将计算所得的卷积结果以密文形式返传用户方，用户方接受后，通过私钥解密得到最终结果。

上述的方法，可选的，S2中具体步骤包括：

S201、确定原始的语音特征向量：将原始语音特征向量表示为X＝[x

S202、生成一个随机排列的置换序列P，P[i]表示置换序列中的第i个元素，同时也代表着第i帧内的特征量在被打乱后的顺序位置；

S203、根据已创建的置换序列P对原始语音特征向量X进行顺序信息上的更新，即按照置换序列P中各整数的顺序，原始语音特征向量X各时间帧内的特征量进行重新排列，得到打乱后的序列X

上述的方法，可选的，S3中具体步骤包括：

S301、假设1×(2m-1)的卷积核为[a

S302、生成带有乱序特征向量X

S303、生成卷积所需矩阵C，矩阵C与X

A·X＝A·(M

上述的方法，可选的，S301中具体包括：

(1)生成2m-1个规模为n×n且元素均只包含0和1的特殊矩阵，分别记作A

(2)将a

上述的方法，可选的，S302中具体包括：

(1)生成n×n的单位矩阵M

(2)在(1)的基础上，按照原始语音特征向量X被打乱的顺序，将矩阵M

M[i,:]＝M

得到带有乱序特征向量X

上述的方法，可选的，S4中具体步骤包括：

S401、加密部分：用户方通过运行密钥生成函数KeyGen，生成加密数据所需的密钥Key，并利用同态加密技术完成对卷积所需矩阵C进行加密，得到C

S402、传输部分：用户方将生成的乱序特征向量X

S403、卷积计算：服务方在密文状态下完成矩阵的卷积运算，得到加密状态下的卷积结果。

上述的方法，可选的，S401中同态加密技术包括但不限于：

完全同态加密中的CKKS方案、GSW方案、BV方案以及部分同态加密中的Paillier算法和ElGamal算法。

经由上述的技术方案可知，与现有技术相比，本发明提供了基于同态加密的语音特征乱序卷积语音信息传递方法，具有以下有益效果：

1、独立于顺序信息：本发明能够通过乱序语音特征向量和带有其顺序信息的矩阵的加密处理，实现其在顺序或时序不定的情况下进行正确的卷积操作，且在此基础上保证了语音特征处理的灵活性与适用性；

2、保护数据隐私：本发明通过引入同态加密技术，对语音特征进行了加密处理，从而使得数据在传输和处理过程中都处于加密状态，这有效保护了语音数据的隐私安全、降低了数据泄露的风险，尤其在语音识别和对话系统等涉及个人隐私的场景中具有重要意义；

3、拓宽应用领域：传统的语音特征处理方法受限于对顺序信息的依赖，可能无法适应复杂多变的应用场景；而本发明提出的方法则可使其在更广泛的应用领域如语音合成(TTS,Text-to-Speech)、情感识别、说话人识别等等中发挥作用。以TTS为例具体说明。TTS系统旨在将文本转换为自然流畅的语音输出，是人机交互、智能助理等应用的基础。本发明提出的方法，可以使得该系统更加灵活地处理不同长度和表达方式的文本，可为模型推理、目标合成等步骤的进一步优化提供坚实基础，对提高语音合成的准确性和流畅度具有极为重要的作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明公开的基于同态加密的语音特征乱序卷积语音信息传递方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

参照图1所示，本发明公开了一种基于同态加密的语音特征乱序卷积语音信息传递方法，包括以下步骤：

S1、特征向量获取步骤：提取语音信息中的语音特征向量X；

S2、乱序特征向量生成步骤：将提取得到的语音特征向量X重新排序，得到乱序特征向量X

S3、矩阵生成步骤：生成卷积所需矩阵C＝A·M

S4、卷积步骤：用户方将S2中的乱序特征向量X

S5、回传步骤：服务方将计算所得的卷积结果以密文形式返传用户方，用户方接受后，通过私钥解密得到最终结果。

进一步的，S2中具体步骤包括：

S201、确定原始的语音特征向量：将原始语音特征向量表示为X＝[x

S202、生成一个随机排列的置换序列P，P[i]表示置换序列中的第i个元素，同时也代表着第i帧内的特征量在被打乱后的顺序位置；

S203、根据已创建的置换序列P对原始语音特征向量X进行顺序信息上的更新，即按照置换序列P中各整数的顺序，将原始向量各时间帧内的特征量进行重新排列，得到打乱后的序列X

具体的，此处为方便示例和计算，令X的规模为2×8，假设

令置换序列P＝[6，3，1，4，8，5，2，7]，按照序列P中的顺序对原始语音特征向量X进行重新排列，得到打乱后的特征向量：

进一步的，S3中具体步骤包括：

S301、假设1×(2m-1)的卷积核为[a

S302、生成带有乱序特征向量X

S303、生成卷积所需矩阵C，矩阵C与X

A·X＝A·(M

更进一步的，S301中具体包括：

(1)生成2m-1个规模为n×n且元素均只包含0和1的特殊矩阵，分别记作A

具体的，

其中，A

以此类推A

(2)将a

具体的，A＝a

此处假设卷积核规模为1×3，具体数值[a

更进一步的，S302中具体包括：

(1)生成n×n的单位矩阵M

(2)在(1)的基础上，按照原始语音特征向量被打乱的顺序，将矩阵M

M[i,:]＝M

得到带有乱序特征向量X

具体的，进行行变换后打乱矩阵的第i个行向量的第j列是1，则代表打乱后特征向量的第i帧原本为第j帧。

根据置换序列P＝[6，3，1，4，8，5，2，7]将M

S303、生成卷积所需矩阵C，该矩阵与X

A·X＝A·(M

具体的，下面进行验证：

分别对A和X、C和X

两者计算结果相等，即可以达到理想的效果，在打乱后进行计算所得卷积值与未打乱时的值完全相同。

进一步的，S4中具体步骤包括：

S401、加密部分：用户方通过运行密钥生成函数KeyGen，生成加密数据所需的密钥Key，并利用同态加密技术完成对卷积所需矩阵C进行加密，得到C

S402、传输部分：用户方将生成的乱序特征向量X

S403、卷积计算：服务方在密文状态下完成矩阵的卷积运算，得到加密状态下的卷积结果。

更进一步的，S401中同态加密技术应能保证卷积同态，包括但不限于：

完全同态加密中的CKKS方案、GSW方案、BV方案以及部分同态加密中的Paillier算法和ElGamal算法。

具体的，完全同态加密(Fully Homomorphic Encryption,FHE)中的CKKS(Cheon-Kim-Kim-Song)方案、GSW(Gentry-Sahai-Waters)方案、BV(Brakerski-Vaikuntanathan)方案以及部分同态加密(Partially Homomorphic Encryption,PHE)中的Paillier算法和ElGamal算法。

当前现有的语音特征处理方法依赖于语音特征向量特定的顺序信息，这也意味着一旦其顺序关系遭到破坏或发生变化，则可能导致无法得到正确的卷积结果，以致影响整个语音处理系统的准确性和鲁棒性，这也极大限制了语音特征在不同场景下的灵活应用。本发明能实现在保证不泄露顺序信息的前提下进行卷积操作，保证了数据传输和处理过程的安全可靠性，有效规避了敏感数据泄露的风险，解除了语音处理对顺序信息的依赖性，为模型推理、目标合成等步骤的进一步优化提供了基础，对提高语音合成的准确性和流畅度具有极为重要的作用，在语音合成(TTS,Text-to-Speech)、情感识别、说话人识别等领域中均可广泛应用。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：浙江大学;

上一篇：非水电解质二次电池用正极活性物质、及非水电解质二次电池
下一篇：一种皮革表面打磨加工装置及方法