掌桥专利:专业的专利平台
掌桥专利
首页

一种基于迁移学习的视觉-触觉信号自适应重建方法

文献发布时间:2023-06-19 19:30:30


一种基于迁移学习的视觉-触觉信号自适应重建方法

技术领域

本发明涉及视觉、触觉信号自适应生成技术领域,具体为一种基于迁移学习的视觉-触觉信号自适应重建方法。

背景技术

为了获得更准确的操作、更全面的理解和更实际的沉浸式体验感,人们开始将触觉感知作为新型媒体来提升交互感,多模态服务应运而生;常见的多模态应用场景往往要求高数据量的实时通信,而传输环境是动态的,网络资源是有限的,高清连续的视觉信号加上突发的触觉信号超过了传统通信框架的数据负荷,很容易造成信号之间的干扰、时延甚至是丢失;一方面,对于视觉信号,由于其规模大,传输优先级低,其接收质量容易受到多变的传输环境的影响,诸如意外数据包丢失和视觉流延迟到达之类的现象很容易发生;传统方法(例如在视觉模态内重建或破坏数据包的重传)不适合,这可能会导致视觉和触觉模态之间的同步问题;另一方面,对于触觉模态,除了保证及时可靠地接收触觉信号外,触摸感官应进一步加强,以满足用户的多维沉浸体验;但是,很难通过触觉方式本身来推断所需内容的触摸感觉,因此在同等重要的多模式服务中,不应忽略触觉信号的增强。

目前,对于因无线通信不可靠性及通信噪声干扰而发生受损或部分缺失的触觉信号,可从两个方面进行自我恢复;第一类是基于传统的信号处理技术;它通过使用稀疏表示找到具有最相似结构的特定信号,然后使用它来估计受损信号的缺失部分;第二种是挖掘和利用信号本身的时空相关性,实现模态内的自修复和重建,然而当触觉信号被严重破坏甚至不存在时,基于模态内的重建方案将会失败。

近年来,一些研究关注到了不同模态间的相关性,并借此实现了跨模态重建;Huaping Liu等利用DiscoGAN模型,开发了一个视觉图像合成触觉频谱的方法;Xin.Wei等利用模态间的强匹配关系,开发了一个细粒度触觉合成图像的方法;尽管视觉信号重建已经成熟,同时出现了几种跨模态触觉信号重建方案,但没有实现视觉和触觉信号重建的工作;换句话说,现有作品无法根据传输场景灵活地进行视觉和触觉信号重建,无法更全面的理解和更实际的营造沉浸式体验感,这对于多模式服务很重要。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

鉴于上述存在的问题,提出了本发明。

本发明实施例的第一方面,提供一种基于迁移学习的视觉-触觉信号自适应重建方法,包括:基于中心云端存储的大规模视觉和触觉数据集执行监督学习任务,并获取预训练后的视觉特征提取网络和触觉特征提取网络;利用迁移学习技术将所述视觉特征提取网络和触觉特征提取网络迁移到边缘节点,并在所述边缘节点建立跨模态迁移重建模型;通过梯度下降算法在中心云端和所述边缘节点对所述跨模态迁移重建模型进行训练,以获取最优的模型结构和参数;将测试集中需要重建的视觉信号和触觉信号输入所述跨模态迁移重建模型生成重建后的视觉信号和触觉信号,实现受损、丢失、延迟的视觉和触觉自适应重建。

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述视觉特征提取网络和触觉特征提取网络的获取包括,

对于视觉信号,将第j个视觉信号

所述视觉特征F

其中,

对于触觉信号,将第j个触觉信号

所述触觉特征F

其中,

将所述视觉特征和触觉特征输入由多个全连接层组成的公共集成网络;

在真实标签的监督下,将所述公共集成网络输出的特征输入公共分类器1,执行监督学习任务;

定义自监督损失函数,通过最小化所述自监督损失函数获取预训练后的视觉特征提取网络和触觉特征提取网络;

所述自监督损失函数L

其中,M表示视触对信号的数量,z

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述跨模态迁移重建模型的建立包括,

利用迁移学习技术将所述视觉特征提取网络和触觉特征提取网络迁移到所述边缘节点,并在迁移损失的约束下调整自适应层,进一步从视觉信号和触觉信号中提取视觉信号特征和触觉信号特征;

将所述视觉信号特征和触觉信号特征映射到公共的语义空间,通过将映射后的两个模态特征空间进行融合得到模态融合空间;

通过将所述模态融合空间的特征分别输入带有语义约束的视觉生成网络、触觉生成网络,实现目标视觉信号、目标触觉信号的重建。

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述视觉信号特征和触觉信号特征的提取包括,

将所述边缘节点接收的完整的视觉-触觉信号作为多模态训练数据集;

通过将中心云端的视觉、触觉特征提取网络结构和参数迁移至所述边缘节点的视觉、触觉特征提取网络结构和参数,用于从所述边缘节点输入的视觉、触觉信号中提取视觉、触觉信号特征;

所述视觉信号特征f

其中,d

通过自适应层分别描述中心云端和边缘节点之间的差异,定义知识迁移损失函数,通过最小化所述知识迁移损失函数使所述边缘节点的特征提取网络有效匹配中心云端的特征提取网络,实现视觉和触觉知识的传递;

所述知识迁移损失函数L

其中,l

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述模态融合空间的形成包括,

将所述视觉信号特征和触觉信号特征映射到公共的语义空间,并定义多模态间不变损失函数,通过最小化所述多模态间不变损失函数消除多模态间的差异;

所述多模态间不变损失函数L

/>

其中,γ表示未配对特征距离的上界;

将所述融合特征空间输入公共分类器2,并利用所述融合特征空间执行自监督学习任务,定义语义判别损失函数,通过最小化所述语义判别损失函数获取训练后的视觉特征提取网络、触觉特征提取网络和集成网络;

所述语义判别损失函数L

其中,p()表示标签指示器,

基于所述多模态间不变损失函数和所述语义判别损失函数建立语义关联的总目标函数模型,通过最小化所述总目标函数模型,获取优化后的视觉特征空间和触觉特征空间;

将所述优化后的视觉特征和触觉特征空间映射到公共空间,并通过具有多层全连接层的集成网络形成模态融合空间。

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述目标视觉信号的重建包括,

将所述模态融合空间输入至含自注意力机制的生成对抗网络,通过增强图像各部分之间的关系提高所述生成对抗网络的生成质量;

在自注意力层中,模态融合特征k

所述将全局空间信息和局部信息整合的计算包括,

其中,β

所述自注意力层的最终输出为:y

所述生成对抗网络的生成器GV将视觉特征转换成重建视觉信号,鉴别器DV将真实的视觉信号和所述重建视觉信号进行区分;

定义对抗损失函数,通过最小化所述对抗损失函数,所述生成器GV可以捕获真实信号的分布,并利用真实数据来指导所述重建视觉信号的生成;

所述对抗损失函数的计算包括,

其中,

为进一步匹配重建信号

所述像素级损失函数L

基于所述对抗损失函数和所述像素级损失函数获取视觉信号重建的整体损失函数为L

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述目标触觉信号的重建包括,

将所述模态融合空间的融合特征k

所述融合特征经过全连接层映射成H

所述重建的触觉信号

其中,

定义重建的交叉熵损失函数L

通过最小化所述对抗损失函数、像素级损失函数和重建的交叉熵损失函数获得视觉重建信号

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述跨模态迁移重建模型的训练包括,

A311:初始化

A312:设置总迭代次数为n

A313:采用随机梯度下降法SGD,优化各网络参数:

其中,

A314:若n

A315:经过n

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述还包括,

A321:初始化

A322:设置总迭代次数为n

A323:采用随机梯度下降法,优化多模态语义映射网络的参数:

其中,

A324:采用随机梯度下降法SGD,优化视觉和触觉生成网络的参数:

其中,

A325:若n′

A326:经过n

A327:经过n

作为本发明所述的基于迁移学习的视觉-触觉信号自适应重建方法的一种优选方案,其中:所述重建后的视觉信号和触觉信号的生成包括,

当视觉信号缺失,需要重建时,将接收到的触觉信号a

当触觉信号缺失,需要重建时,将接收到的视觉信号a

本发明的有益效果:本发明提供一种基于迁移学习的视觉-触觉信号自适应重建方法,借助于中心云训练好的知识网络迁移至边缘节点,有效解决现有视触数据对稀疏的问题;并且充分发挥多模态特征融合的优势,最大程度地利用视觉和触觉模态的语义信息,并借此灵活地生成了完整的视觉信号和触觉信号,这更加符合跨模态服务的要求;此外,本发明充分利用大规模数据集中所蕴含的知识信息以及充分挖掘不同模态间信号语义相关性有效的解决了跨模态通信中受损的视觉和触觉信号的自适应重建问题。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:

图1为本发明提供的一种基于迁移学习的视觉-触觉信号自适应重建方法的整体流程图;

图2为本发明提供的一种基于迁移学习的视觉-触觉信号自适应重建方法的完整网络结构示意图;

图3为本发明提供的一种基于迁移学习的视觉-触觉信号自适应重建方法的视觉自适应对抗生成网络结构图;

图4为本发明提供的一种基于迁移学习的视觉-触觉信号自适应重建方法和其他对比方法的视觉信号重建结果图;

图5为本发明提供的一种基于迁移学习的视觉-触觉信号自适应重建方法和其他对比方法的触觉信号重建结果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1~3为本发明的一个实施例,提供了一种基于迁移学习的视觉-触觉信号自适应重建方法,包括:

S1:基于中心云端存储的大规模视觉和触觉数据集执行监督学习任务,并获取预训练后的视觉特征提取网络和触觉特征提取网络。需要说明的是:

视觉特征提取网络和触觉特征提取网络的获取包括,

对于中心云端大规模视觉和触觉数据库

云端数据库中每个视觉信号

具体的,对于视觉信号,将第j个视觉信号

其中,

应说明的,视觉特征提取网络具有3×3的卷积滤波器和步幅为2、无填充的2×2的最大池化层,网络被分为四块(32-64-128-256),每块包含两个卷积层,一个池化层和一个Tanh激励函数,最后在所有空间位置执行最大池化,以生成单个256维的视觉语义特征向量;

具体的,对于触觉信号,将第j个触觉信号

其中,

进一步的,将上述两个256维的视觉特征F

其中,CM(·)表示公共集成网络,k

在真实标签的监督下,将公共集成网络输出的特征输入公共分类器1,执行监督学习任务,自监督学习的目的是判断视觉信号和触觉信号是否属于同一个类别材质;

定义自监督损失函数,通过最小化自监督损失函数获取预训练后的视觉特征提取网络和触觉特征提取网络,自监督损失函数L

其中,

应说明的,通过上述步骤得到的视觉特征提取网络和触觉特征提取网络的结构和参数,即KF(·),CM(·),

S2:利用迁移学习技术将视觉特征提取网络和触觉特征提取网络迁移到边缘节点,并在边缘节点建立跨模态迁移重建模型。需要说明的是:

跨模态迁移重建模型的建立包括,

边缘节点接收到视觉信号和触觉信号后,首先将中心云预训练后的视觉特征提取网络、触觉特征提取网络作为边缘节点的视觉特征提取网络和触觉属性特征提取网络,在迁移损失的约束下调整自适应层,使边缘节点的特征提取网络更有效的匹配中心云数据库的特征提取网络,进一步从视觉信号和触觉信号中提取视觉信号特征和触觉信号特征;

在多模态间不变损失与语义判别损失的联合作用下,加强视觉信号特征和触觉信号特征之间的语义相关性,从而将视觉信号和触觉信号映射到公共的语义空间,通过将映射后的两个模态特征空间进行融合,得到模态融合空间;

通过将模态融合空间的特征分别输入带有语义约束的视觉生成网络、触觉生成网络,实现目标视觉信号、目标触觉信号的重建;

进一步的,视觉信号特征和触觉信号特征的提取包括,

将边缘节点接收的完整的视觉-触觉信号作为多模态训练数据集,即

对于视觉信号,通过将中心云端的视觉特征提取网络结构和参数迁移至边缘节点的视觉特征提取网络结构和参数,用于从边缘节点输入的视觉信号中提取256维的视觉信号特征,视觉信号特征f

其中,d

对于触觉信号,通过将中心云端的触觉特征提取网络结构和参数迁移至边缘节点的触觉特征提取网络结构和参数,用于从边缘节点输入的触觉信号中提取256维的触觉信号特征,触觉信号特征f

/>

其中,d

将两个256维的视觉特征及触觉特征拼接成512维的向量,其通过边缘节点的三层全连接层组成的公共集成网络(512-128-64),为了提高知识转移的效果,通过自适应层分别描述云端域A

通过自适应层分别描述中心云端和边缘节点之间的差异,定义知识迁移损失函数,通过最小化知识迁移损失函数使边缘节点的特征提取网络有效匹配中心云端的特征提取网络,实现视觉和触觉知识的传递;

应说明的,知识迁移损失函数L

其中,l

再进一步的,模态融合空间的形成包括,

将视觉信号特征和触觉信号特征映射到公共的语义空间,并定义多模态间不变损失函数,通过最小化多模态间不变损失函数消除多模式间的差异,减小已配对的f

应说明的,多模态间不变损失函数L

其中,γ表示未配对特征距离的上界;

分别将f

定义语义判别损失函数,通过最小化语义判别损失函数获取训练后的视觉特征提取网络、触觉特征提取网络和集成网络,语义判别损失函数L

其中,p()表示标签指示器,

基于多模态间不变损失函数和语义判别损失函数建立语义关联的总目标函数模型L

更进一步的,在模态融合空间中,根据视觉特征和触觉特征在公共空间中的表示k

对于视觉信号,将模态融合空间输入至含自注意力机制的生成对抗网络,自注意力生成对抗网络结构如图3所示,通过增强图像各部分之间的关系提高生成对抗网络的生成质量,在自注意力层中,模态融合特征k

应说明的,将全局空间信息和局部信息整合的计算包括,

其中,β

自注意力层的最终输出为:y

生成对抗网络的生成器GV将视觉特征转换成重建视觉信号,鉴别器DV将真实的视觉信号和重建视觉信号进行区分;

定义对抗损失函数,通过最小化对抗损失函数,生成器GV可以捕获真实信号的分布,并利用真实数据来指导重建视觉信号的生成;

应说明的,对抗损失函数的计算包括,

其中,

为进一步匹配重建信号

基于对抗损失函数和像素级损失函数获取视觉信号重建的整体损失函数为L

对于触觉信号,将模态融合空间的融合特征k

应说明的,重建的触觉信号

其中,

定义重建的交叉熵损失函数L

通过最小化对抗损失函数、像素级损失函数和重建的交叉熵损失函数获得视觉重建信号

S3:通过梯度下降算法在云端和边缘节点对跨模态迁移重建模型进行训练,以获取最优的模型结构和参数。需要说明的是:

在中心云端的视觉-触觉数据集A

具体过程如下:

A311:初始化

A312:设置总迭代次数为n

A313:采用随机梯度下降法SGD,优化各网络参数:

/>

其中,

A314:若n

A315:经过n

进一步的,在边缘节点接收到的多模态训练数据集上进行跨模态迁移重建模型的训练,进行多模态语义关联和视觉触觉重建;

具体过程如下:

A321:初始化

A322:设置总迭代次数为n

A323:采用随机梯度下降法,优化多模态语义映射网络的参数:

其中,

A324:采用随机梯度下降法SGD,优化视觉和触觉生成网络的参数:

/>

其中,

A325:若n′

A326:经过n

A327:经过n

S4:将需要重建的视觉信号和触觉信号输入跨模态迁移重建模型生成重建后的视觉信号和触觉信号,实现受损、丢失、延迟的视觉和触觉自适应重建。需要说明的是:

当视觉信号缺失,需要重建时,将接收到的触觉信号a

当触觉信号缺失,需要重建时,将接收到的视觉信号a

应说明的,本发明提供一种基于迁移学习的视觉-触觉信号自适应重建方法,借助于中心云训练好的知识网络迁移至边缘节点,有效解决现有视触数据对稀疏的问题;并且充分发挥多模态特征融合的优势,最大程度地利用视觉和触觉模态的语义信息,并借此灵活地生成了完整的视觉信号和触觉信号,这更加符合跨模态服务的要求;此外,本发明充分利用大规模数据集中所蕴含的知识信息以及充分挖掘不同模态间信号语义相关性有效的解决了跨模态通信中受损的视觉和触觉信号的自适应重建问题。

实施例2

参照图4~5为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于迁移学习的视觉-触觉信号自适应重建方法的验证测试,为对本方法中采用的技术效果加以验证说明。

本实施例从两方面对本发明提供的方法进行对比验证。

①触觉生成视觉

本实施例采用了LMT跨模数据集进行实验,该数据集由文献“Multimodalfeature-based surface material classification”提出,其中包括九种语义类别的样本:网格,石头,金属,木材,橡胶,纤维,泡沫,箔和纸,纺织品和织物。

本实施例重新组织了LMT数据集,首先结合每个材料实例的训练集和测试集,分别得到每个实例的10个图像样本、10个音频信号样本和10个触觉信号样本,然后扩充数据以训练神经网络,具体的将每个图像水平和垂直翻转,以任意角度旋转它们,并在传统方法之外使用随机缩放、剪切及偏移等技术;至此将每个类别的数据扩展到100,因此总共有1500个图像,尺寸为128*128,在数据集中,80%被选择用于训练,而剩余的20%用于测试和性能评估。

测试了以下几种方法作为实验对比:

现有方法一:Pix2Pix方法,应用GAN相关框架来执行图像到图像的翻译任务;在Pix2Pix中,生成器配置有U-Net和PatchGAN,这里,触觉频谱图被输入Pix2Pix以获得相关视觉图像;

现有方法二:DiscoGAN方法尝试在没有任何显式配对数据的情况下发现两个视觉域之间的关系,使用两个鉴别器对重建图像进行双重约束,而辅助分类层被添加到原始判别器中;在这里,DiscoGAN用于将触觉频谱图转换为视觉图像;

现有方法三:CMCGAN方法在CycleGAN的基础上引入了具有高斯分布的额外潜在向量,它可以实现跨模式的视听翻译,其中将梅尔谱图用作音频表示;考虑到音频和触觉信号的相似性,触觉频谱图用于执行触觉辅助视觉信号重建;

现有方法四:DCCAE方法最初是为从多视图图像数据中学习深度表示而提出的,它通过两个自动编码器提取两个多光谱图像的抽象和鲁棒特征,然后将它们投影到一个公共潜空间中,在那里可以应用重建模块;在这里,一个光谱图像的特征被触觉频谱图代替,用于执行触觉生成视觉信号重建。

实验采用分类准确率和结构相似性作为评价指标来评估跨模态生成的效果,所采用的分类器是在真实视觉信号数据集上预训练好的,结构相似性指数越高,说明生成的效果越好,具体的实验结果如表1所示。

表1:本发明与现有技术的触觉信号生成视觉信号实验结果展示。

从表1和图4可以看出与上述最先进的方法相比,我们提出的方法有着明显的优势,原因如下:1)大型辅助视觉数据库的知识转移提高了视觉特征提取的效果;2)有效地探索了模态之间的语义一致性;3)循环一致性约束对发生器的优化提高了重构触觉信号的质量。

②视觉生成触觉

前期准备和上述一致,本实施例测试了以下几种方法作为实验对比:

现有方法一:视觉对比实验中的Pix2Pix方法,这里视觉图像被输入Pix2Pix以获得相关触觉频谱图,最后需要将触觉频谱图转化为一维触觉振动信号;

现有方法二:视觉对比实验中的DiscoGAN方法,在这里DiscoGAN用于将视觉图像转换为触觉频谱图,最后需要将触觉频谱图转化为一维触觉振动信号;

现有方法三:深度视觉-触觉学习(简称:DVHL)扩展了传统的具有潜在变量的自动编码器,其中视觉和触觉特征都嵌入到潜在空间中以学习其深度相关性,这里视觉图像直接生成触觉一维信号。

实验采用分类准确率和结构相似性作为评价指标来评估跨模态生成的效果,所采用的分类器是在真实触觉信号数据集上预训练好的,结构相似性指数越高,说明生成的效果越好,具体的实验结果如表2所示。

表2:本发明与现有技术的触觉信号生成视觉信号实验结果展示。

从表2和图5可以看出与上述最先进的方法相比,我们提出的方法有着明显的优势,原因如下:1)来自触觉数据库的知识转移可以帮助执行触觉特征提取;2)来自视觉信号的语义信息可以进一步增强重建效果;3)对重建的触觉信号进行优化,而不仅仅是触觉属性或频谱图。

因此,本发明提供的方法通过充分利用大规模数据集中所蕴含的知识信息以及充分挖掘不同模态间信号语义相关性有效的解决了跨模态通信中受损的视觉和触觉信号的自适应重建问题。

应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种基于云边协同的音视频辅助触觉信号重建方法
  • 一种基于触觉振动信号与视觉图像融合的抓取物识别方法
技术分类

06120115936070