掌桥专利:专业的专利平台
掌桥专利
首页

基于深度流形变换网络的高维数据处理方法

文献发布时间:2023-06-19 11:32:36


基于深度流形变换网络的高维数据处理方法

技术领域

本申请涉数据处理技术领域,特别是涉及基于深度流形变换网络的高维数据处理方法。

背景技术

高维数据分析包括三个基本任务:数据降维、聚类和可视化。

经典的聚类算法,如K均值聚类通过测试所有K值的聚类效果,分析聚类结果的类内相似度、类间相似度,从大量聚类结果中选择最优聚类效果对应的k 值。同理,基于高斯混合模型的聚类和谱聚类也是通过一些定义在高维输入空间中的距离或相似性度量做聚类。然而,由于高维数据固有非欧几里得特性,即费欧几里得数据排列不整齐,对于该数据的某个点,难以定义其邻节点,或是不同节点的邻节点的数量不同。因此,当这些上述常见的聚类算法被应用于高维数据时,面对结构分布复杂的数据,聚类的性能一般非常差。

为了处理这个问题,有些方法首先利用主成分分析等数据降维方法将数据从高维输入空间降维到一个较低维度的隐空间,然后再在这个较低维度的隐空间中运行经典的聚类算法。然而,此时数据降维和聚类是两个完全分离的过程,数据降维的过程中可能会破坏原始数据中的几何或者拓扑结构,造成信息的损失,这反而会使聚类的效果变差。

T-SNE和UMAP是目前最流行的两个非线性的数据可视化方法。这两个方法都是首先将输入空间中样本点之间的欧氏距离变换为低维嵌入空间中的相似度,然后再通过最小化KL散度或者交叉熵形式的成本函数来找到一个合适的低维嵌入,进而实现数据的可视化。T-SNE和UMAP的缺陷有:(1)它们在数据降维的过程中可能会破坏原始数据中的几何或者拓扑结构,造成信息的损失;(2) 它们可能会造成one-to-many的映射,同一个样本点降维后被映射为多个不同的值;(3)它们都是非深度的方法,采取直接优化嵌入的方式,而非优化网络参数,难以与现有的深度学习技术相结合。

数据降维、聚类和可视化是三个与高维数据分析密切相关的基本任务,然而目前这三个任务一般都是独立完成的,这不仅会影响它们的性能,也很容易使得各个任务之间出现不一致,没有办法真实地揭示高维数据内在的几何和拓扑信息,导致数据分析时很容易得出错误,得出误导性的结论。

综上,针对现有技术中高维数据分析中存在的上述问题,目前尚未得到有效的解决方案。

发明内容

本申请实施例提供了基于深度流形变换网络的高维数据处理方法,能够将无监督的双向散度损失施加在网络的任何层之间,这样可以保证神经网络的映射稳定且平滑,避免数据在映射过程中出现坍塌和过平滑问题。

第一方面,本申请实施例提供了一种深度流形变换网络,包括一自动编码器,自动编码器被配置成:包括编码器网络和解码器网络,编码器网络和解码器分别包括多个密集块层,

在编码器网络中通过多个密集块层的第一非线性变换将输入空间的维度降低到隐空间,再通过多个密集块层的第二非线性变换将隐空间的维度降低到嵌入空间,在解码器网络中通过多个密集块层的第三非线性变换将隐空间的维度恢复到重建空间;

基于输入空间和重建空间计算重建损失,将重建损失加到密集块层中;

在输入空间和隐空间之间和/或隐空间和嵌入空间和/或输入空间和嵌入空间之间施加双向散度损失。

第二方面,本申请实施例提供了一种基于深度流形变换网络的高维数据处理方法,包括:

获取输入空间;

将输入空间的维度通过第一非线性变换降低到隐空间,将隐空间的维度通过第二非线性变换降低到嵌入空间;

在输入空间与隐空间之间施加双向散度损失,和/或在隐空间与嵌入空间之间施加双向散度损失,和/或在输入空间与嵌入空间之间施加双向散度损失,使第一非线性变换、第二非线性变换保持结构不变;

在隐空间中对输入空间的数据进行聚类,在嵌入空间中可视化聚类后的数据。

第三方面,本申请提出了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一方面所述的基于深度流形变换网络的高维数据处理方法。

第四方面,本申请提出了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行如上述第一方面的基于深度流形变换网络的高维数据处理方法。

本发明的主要贡献和创新点如下:

1、本方案提出了一种深度流形变换的框架,基于该框架提出了一种自编码器,能实现流形重构和流形生成,通过将无监督的双向散度损失加入网络的任何层之间,保证自编码器模型映射稳定且平滑,避免数据出现坍塌或过平滑问题。

2、本方案提出了一种基于深度流形变化网络的高维数据处理方法,将数据降维、聚类和可视化这三个与高维数据分析密切相关的基本任务统一在一起,解决了这三个任务独立运行时的几何结构相互之间不一致的问题,能在结构保持的变化下,最大程度保证聚类和可视化的一致性。

3、本方案还可以通过优化交叉熵和均方误差等形式的成本函数来分别完成分类和回归等下游任务。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的深度流形变换网络的模型架构图;

图2是根据本申请实施例的基于深度流形变换网络的高维数据处理方法的流程图;

图3是本申请实施例二中的高维数据处理方法的示意图

图4是本申请实施例二中的本方案与对比流形学习算法在4个不同数据集上的聚类与可视化间一致性的分析效果图;

图5是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

图1是根据本申请实施例的深度流形变换网络的模型架构图,如图1所述,该深度流形变换网络包括一自动编码器,自动编码器被配置成:包括编码器网络和解码器网络,编码器网络和解码器分别包括多个密集块层,

在编码器网络中通过多个密集块层的第一非线性变换将输入空间的维度降低到隐空间,再通过多个密集块层的第二非线性变换将隐空间的维度降低到嵌入空间,在解码器网络中通过多个密集块层的第三非线性变换将隐空间的维度恢复到重建空间;

基于输入空间和重建空间计算重建损失,将重建损失加到密集块层中;

在输入空间和隐空间之间和/或隐空间和嵌入空间和/或输入空间和嵌入空间之间施加双向散度损失。

参考图1,带上标的X表示输入输出空间,α表示一个具体的输入输出实例, ML-Encoder表示编码器网络,ML-Decoder表示解码器网络,在自动编码器中,通过多层感知机(MLP),即多个带非线性激活函数,如ReLu或LeakReLu的全连接层的堆叠以实现非线性变化,在降维的过程中,计算重建损失,将重建损失加到密集块层中,这种损失可以加入到对应的密集块层中可以保证映射不损失任何信息。

本方案区别于现有技术之处在于,将重建损失和双向散度损失配合共同训练深度流形变换网络。其中,将双向散度损失施加在任何两层间保证网络的局部平滑,防止降维导致的原始数据中的几何或拓扑结构破坏,造成信息损失,使最后聚类的效果变差。

具体地,双向散度损失的获取包括:

分别获取输入空间、隐空间、嵌入空间的其中任意两个空间层的样本点对,将所述样本点对之间的欧氏距离通过t-分布转化为相似度;

基于每一样本点对的相似度生成结构保持损失以及结构改变损失,通过线性加权和法计算得到双向散度损失,其中,结构保持损失表示用于保持每一样本点与其邻近样本点的距离,结构改变损失表示用于拉开每一样本点与其远邻样本点的距离。

在本实施例中,需要说明的是,双向散度损失本质是一种可以加在任意空间层之间的损失函数,“双向”的含义是指,这个损失是由两项构成的,第一项用于保持每个样本点与其近邻样本点的距离/几何结构,第二项用于拉开每个样本点与其远邻样本点的距离,即将那些远邻样本点“推远”,每一样本点与其邻近的若干个样本点构成了样本点对。

示例性的,双向散度损失计算过程主要包括以下几步:

1、将l层的样本点对i与j之间的欧式距离

2、将l

3、获取所有样本点对计算得到

在公式中,将

实施例二

基于相同的构思,本申请还提出了一种基于深度流形变换网络的高维数据处理方法,参考图2,该方法包括:

S201、获取输入空间;

S202、将输入空间的维度通过第一非线性变换降低到隐空间,将隐空间的维度通过第二非线性变换降低到嵌入空间;

S203、在输入空间与隐空间之间施加双向散度损失,和/或在隐空间与嵌入空间之间施加双向散度损失,和/或在输入空间与嵌入空间之间施加双向散度损失,使第一非线性变换、第二非线性变换保持结构不变;

S204、在隐空间中对输入空间的数据进行聚类,在嵌入空间中可视化降维后的数据。

在步骤S201中,参考图3,输入空间指输入的原始数据的集合,将输入空间中的原始数据经第一非线性变化降维到较低维度的隐空间,再通过第二非线性变化将数据从隐空间降维到嵌入空间,通过在输入空间-隐空间、隐空间-嵌入空间、输入空间-嵌入空间这三个跨层空间之间都施加有实施例中的双向散度损失,使第一非线性变换、第二非线性变换保持结构不变。

在步骤S203中,几何结构保持指数据降维过程中,在不同空间中,样本点对之间的距离关系保持一致。例如,存在A、B、C三个样本,输入空间中AB 之间距离为10,AC之间距离为100;降维到隐空间后,AB之间距离变为了1, AC之间距离变为了10;虽然AB和AC之间的距离都减小了,但是AC之间的距离仍然大于AB之间的距离。因此,在不同空间层之间施加双向散度损失,使原始数据在降维过程中,可以保持几何或拓扑结构,防止信息的损失造成的聚合效果变差问题。

在步骤S204中,由于本申请从输入空间到隐空间,以及从隐空间到嵌入空间的两个非线性变换都是结构保持的,因此能最大程度上保证聚类和可视化之间的一致性,参考图4,图4为在4个不同数据集上的聚合与可视化一致性的分析,其中,图4由四个子图构成,每一子图的第一行是根据每个样本的真实标签对可视化结果着色的效果展示,第二行是根据每个样本的聚类预测标签对可视化结果着色的效果展示。每一子图的第一列为我们方案的聚类结构对比图,第二列为现有技术中的Raw Data,第三列为现有技术中的t-SNE或AE+TSNE,第四列为现有技术中的UMAP或t-SNE,从图上方框的标注可以看到,基于其它流形学习方法的聚类结果中,容易出现以下两类不一致:(1)同一类样本在可视化中被聚类为两簇;(2)不同的两类样本在可视化中被聚类为同一簇。而本方案所提出的框架,由于其在非线性变化时最大程度上保证了聚类和可视化之间的一致性,因此在可视化中,同一类样本被聚类为一簇,不同类样本被聚类为不同簇。也就是说,本方案提出的深度流形变换网络以及基于深度流形变换网络的高维数据处理方法克服了现有算法没有办法真实地揭示高维数据内在的几何和拓扑信息,导致数据分析时很容易得出错误,得出误导性的结论的问题,在聚类和可视化效果上都超过了对比的流形学习方法。

实施例三

本申请提出的新的深度流形变换框架还可以被用于分类、回归等下游任务。具体地,在隐空间中通过优化交叉熵的函数对输入空间中的数据进行分类;和/ 或在隐空间中通过均方误差的函数对输入空间中的数据进行回归和/或在嵌入空间中,将降维得到的数据点绘制在坐标系中,实现数据的可视化。

值得说明的是,本申请提出的深度流行变换网络是一个灵活高效的框架,该框架解决了现有算法在降维、聚类、可视化过程中对原始数据的几何/拓扑结构的破坏造成信息损失的问题。该框架可以与现有的各种分类、回归、聚类算法相结合,实现模型性能的提升。

本实施例还提供了一种电子装置,参考图5,包括存储器504和处理器502,该存储器504中存储有计算机程序,该处理器502被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地,上述处理器502可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器504可以包括用于数据或指令的大容量存储器504。举例来说而非限制,存储器504可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器504可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器504可在数据处理装置的内部或外部。在特定实施例中,存储器504是非易失性(Non-Volatile)存储器。在特定实施例中,存储器504包括只读存储器(Read-OnlyMemory,简称为ROM) 和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM (ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM (ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存 (FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM 可以是快速页模式动态随机存取存储器504 (FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。

存储器504可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器502所执行的可能的计算机程序指令。

处理器502通过读取并执行存储器504中存储的计算机程序指令,以实现上述实施例中的任意一种基于深度流形变换网络的高维数据处理方法。

可选地,上述电子装置还可以包括传输设备506以及输入输出设备508,其中,该传输设备506和上述处理器502连接,该输入输出设备508和上述处理器502连接。

传输设备506可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备506可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

输入输出设备508用于输入或输出信息。例如,上述输入输出设备可以是显示屏、音箱、麦克、鼠标、键盘或其他设备。在本实施例中,输入的信息可以是分类的原始数据如图像、实时视频,输入的信息可以是可视化的分类结果等等。

可选地,在本实施例中,上述处理器502可以被设置为通过计算机程序执行以下步骤:

步骤S201、获取输入空间;

步骤S202、将输入空间的维度通过第一非线性变换降低到隐空间,将隐空间的维度通过第二非线性变换降低到嵌入空间;

步骤S203、在输入空间与隐空间之间施加双向散度损失,和/或在隐空间与嵌入空间之间施加双向散度损失,和/或在输入空间与嵌入空间之间施加双向散度损失,使第一非线性变换、第二非线性变换保持结构不变;

步骤S204、在隐空间中对输入空间的数据进行聚类,在嵌入空间中可视化降维后的数据。

需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

另外,结合上述实施例中的一种基于深度流形变换网络的高维数据处理方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于深度流形变换网络的高维数据处理方法。

本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 基于深度流形变换网络的高维数据处理方法
  • 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法
技术分类

06120112964942