掌桥专利:专业的专利平台
掌桥专利
首页

信息处理装置和信息处理方法

文献发布时间:2023-06-19 11:35:49


信息处理装置和信息处理方法

技术领域

本文公开的实施方式涉及信息处理的技术领域。特别地,本公开的实施方式涉及用于对张量数据进行降采样的信息处理装置和信息处理方法。

背景技术

在目前的大数据分析领域中,众多数据常常以多路数据(multi-way data)的形式存在。这些多路数据通常可以使用张量(tensor)数据的形式来表示。

随着深度学习的发展,开发了例如Deep Tensor(Deep Tensor:Eliciting NewInsights from Graph Data that Express Relationships between People andThings,Koji Maruhashi,FUJITSU Sci.Tech.J.,Vol.53,No.5,pp-26-31,September2017)、图卷积神经网络等深度学习技术,这些技术可以利用高阶张量数据的数据结构来表示多路数据,随后通过机器学习的方法进行分析,从而能够直接提取重要的特征来进行分类。

然而,以张量数据形式表示多路数据往往会忽略多路数据内在重要的关系特征。此外,大多数的多路数据包含较大信息量,因而所构建的数据结构分布较为复杂,导致表示多路数据的张量数据的分布过于稀疏,使得这些深度学习技术往往无法进行充分的学习。

再者,与传统分类方法相比,深度学习的分类方法一种是“黑盒”方法,即难以准确描述其内部机理,因而难以找出哪些高阶特征对于对分类模型而言是重要的或不重要的。

因此,有必要提供一种信息处理技术,能够分析以张量数据形式表示的多路数据的稀疏结构的逻辑关系,据此进行降采样以保留重要的高阶特征。

发明内容

在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

本公开的目的在于一种对张量数据进行降采样的信息处理装置和信息处理方法,在保留张量数据的高阶特征的同时减小张量数据的存储空间和处理成本,提高用于张量数据的分类模型的分类准确性。

为了实现本公开的目的,根据本公开的一个方面,提供了一种信息处理装置,包括:提取单元,被配置成将多路数据转换为张量数据并且提取张量数据的核心张量;聚类单元,被配置成对核心张量执行聚类处理;贡献度计算单元,被配置成针对核心张量的每个簇,计算张量数据的各分量数据的贡献度;以及降采样单元,被配置成基于贡献度对张量数据执行降采样处理。

根据本公开的另一方面,提供了一种信息处理方法,包括:将多路数据转换为张量并且提取张量的核心张量;核心张量执行聚类处理;针对核心张量的每个簇,计算张量数据的各分量数据的贡献度;以及基于贡献度对张量数据执行降采样处理。

根据本公开的再一方面,还提供了能够实现上述的信息处理方法的计算机程序。此外,还提供了具有至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述的信息处理方法的计算机程序代码。

根据本公开的信息处理技术,能够分析以张量形式表示的多路数据的稀疏结构的逻辑关系,据此进行降采样以获取重要的高阶特征,降低多路数据的存储空间和处理成本,提高用于张量数据的分类模型的分类准确性。

附图说明

参照下面结合附图对本公开实施方式的说明,会更加容易地理解本公开的以上和其它目的、特点和优点,在附图中:

图1是分别示出使用表格、图形和张量来表示作为示例的网络业务日志的多路数据的示意图;

图2是示出作为示例的3阶张量数据分解的示意图;

图3是示出作为示例的使用Deep Tensor方法训练分类模型的示意图;

图4是示出根据本公开的实施方式的用于对张量数据进行降采样的信息处理装置的框图;

图5是示出提取单元提取核心张量的处理的示意图;

图6是示出空间中的各个局部的样本分布的示意图;

图7是示出根据本公开的实施方式的贡献度计算单元的框图;

图8是示出根据本公开的实施方式的用于对张量数据进行降采样的信息处理方法的流程图;以及

图9示出可用来实现根据本公开的实施方式的信息处理装置和信息处理方法的通用机器的结构简图。

具体实施方式

在下文中,将参照所附的说明性示图详细描述本公开内容的一些实施方式。在用附图标记指示附图的元件时,尽管相同的元件在不同的附图中示出,但相同的元件将由相同的附图标记表示。此外,在本公开内容的以下描述中,在有可能使本公开内容的主题不清楚的情况下,将省略对并入于本文中的已知功能和配置的详细描述。

本文中使用的术语仅用于描述特定实施方式的目的,而非旨在限制本公开。如本文所使用的,除非上下文另外指出,否则单数形式旨在也包括复数形式。还将理解的是,说明书中使用的术语“包括”、“包含”和“具有”旨在具体说明所陈述的特征、实体、操作和/或部件的存在,但是并不排除一个或更多个其他的特征、实体、操作和/或部件的存在或添加。

除非另有定义,否则本文中使用的包括技术术语和科学术语的所有术语具有与本发明构思所属领域技术人员通常理解的含义相同的含义。将进一步理解的是,诸如在常用词典中定义的那些术语应该被解释为具有与其在相关领域的上下文中的含义一致的含义,除非在此明确定义否则不应以理想化或过于正式的意义来解释。

在下面的描述中,阐述了许多具体细节以提供对本公开的全面理解。本公开可以在没有这些具体细节中的一些或所有具体细节的情况下实施。在其他实例中,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的部件,而省略了与本公开关系不大的其他细节。

目前在大数据分析领域中,众多数据常常以多路数据(multi-way data)的形式存在。多路数据通常具有彼此相关的多个数据类型,可以反映各个数据类型之间的关系。网络业务日志是多路数据的典型示例,其可以呈现源IP地址(src IP)、目标IP地址(dst IP)和端口(Port)之间的关系。

多路数据可以以多种形式来表现。图1分别示出了使用表格、图形和张量来表示作为示例的网络业务日志的多路数据的示意图。

图1中的(a)是用表格表示的网络业务日志的多路数据。

图1中的(b)是用图形表示的网络业务日志的多路数据,其中每条业务记录(LogID)用椭圆形节点表示。

图1中的(c)是用张量表示的网络业务日志的多路数据,其中元素src IP、dst IP和Port之间关系用非零元素(即灰色的块)表示。

众所周知,张量是标量、矢量和矩阵进一步泛化。标量可以被理解为0阶张量,矢量可以被理解为1阶张量,而矩阵可以被理解为2阶张量。图1中的(c)所示的示例具有3阶张量的形式。张量可以具有更高阶的形式,通常阶数d≥3的张量可以被理解为矩阵的d维泛化。在这里,阶数d是空间维度(spatial dimension),因而张量可以被视为多维数组。本文中所讨论的张量具有3阶或更高阶的阶数。然而,本领域技术人员应认识到,本文所提出的信息处理技术同样适用于0-2阶的张量,即标量、矢量和矩阵。

类似于矩阵分解,张量分解可以用于降维处理、稀疏数据填补和隐性关系挖掘。目前通常采用Tucker方法来对张量数据进行分解。

图2示出了作为示例的3阶张量数据分解的示意图。

假设X是大小为n

X≈G×

其中3阶张量数据G的大小为r

随着深度学习的发展,提出了例如Deep Tensor、图卷积神经网络等技术,其使用张量数据作为样本数据对分类模型进行训练,从而得到能够对张量数据的进行处理的分类模型。

图3示出了作为示例的使用Deep Tensor方法训练分类模型的示意图。

如图3中所示,Deep Tensor方法将张量数据分解为因子矩阵和核心张量,并且将核心张量输入到卷积神经网络模型,随后基于分类结果与实际结果之间的误差来进行反向传播。通过上述过程的迭代,可以最终得到分类模型和目标核心张量。所得到的分类模型可以对张量数据进行处理。

特别地,如图3中所示,Deep Tensor方法的矩阵分解过程可以分两个步骤进行。在第一步骤中,对因子矩阵进行优化,使得目标核心张量与因子矩阵的乘积尽可能接近输入的张量数据。在第二步骤中,对核心张量进行优化,使得核心张量与经优化的因子矩阵的乘积尽可能接近输入的张量数据。此外,Deep Tensor方法的反向传播过程是基于分类误差来对目标核心张量进行调整的过程。通过Deep Tensor方法,可以获得分类模型和目标核心张量。

利用Deep Tensor方法训练的分类模型可以用作预测模型,应用于网络入侵检测、信贷逾期预测、药物发掘等众多领域。

上文对张量数据及其相关处理的简单介绍的目的在于使本领域技术人员易于理解本公开的技术方案,但是以上介绍并非本公开的核心内容,因而不做更详细的说明。

张量数据通常具有稀疏的结构,导致需要较大的空间来存储张量数据,并且随之带来了较高的处理成本。因此,本公开的思想在于提出一种对高阶稀疏张量数据进行降采样的信息处理技术,其能够在保留张量数据中的重要特征以及重要特征之间的关联的同时滤除不重要的信息,以减小张量数据的尺寸和稀疏度,提高用于张量数据的分类模型的分类准确性。

为便于理解,下面结合信贷逾期预测的具体示例来描述本公开的实施方式。然而,本领域技术人员应认识到,本公开的技术方案同样可以应用于其他能够以张量数据表示的多路数据的处理,例如网络入侵检测、银行电信诈骗、药物挖掘等应用领域。所有这些变型方案均应涵盖于本公开的范围内。

具体地,对于信贷逾期预测,可以基于贷款人的通话记录来预测还贷逾期行为。下表1给出了贷款人的通话记录的示例。

[表1]

贷款人在三个月内的通话记录通常在200条至20000条的范围内。在这些通话记录中有许多通话记录与还贷逾期行为的预测关联甚少,导致所构造的张量数据是极为稀疏的,因而有必要对其进行降采样处理。

图4示出了根据本公开的实施方式的用于对张量数据进行降采样的信息处理装置400的框图。

根据本公开的实施方式的信息处理装置400包括提取单元401、聚类单元402、贡献度计算单元403和降采样单元404。接下来将对提取单元401、聚类单元402、贡献度计算单元403和降采样单元404中的每个单元的配置进行详细的说明。

根据本公开的实施方式,提取单元401可以将多路数据转换为张量数据并且提取张量数据的核心张量。

以表1中的多路数据为例,提取单元401可以将申请人、联系人和通话方式分别作为节点1、节点2和节点3,从而生成3阶张量数据。此外,表1中的各行数据构成了张量数据的分量数据,在表1的示例中,分量数据可以用矩阵(2阶张量)来表示。

此外,可以将通话时长、电话类型、通话时间等其他的多个特征作为节点的属性标签。

尽管本文以3阶张量数据为例描述了本公开的实施方式,但是本公开不限于此。本领域技术人员应认识到,本公开的实施方式可以扩展至更高阶的张量数据,这些变型方案同样涵盖于本公开的范围内。

根据本公开的实施方式,提取单元401可以使用例如Deep Tensor方法对张量数据进行分解,从而得到核心张量和一个或更多个因子矩阵。这里,因子矩阵的数量与张量数据的阶数相对应。对于基于表1中的多路数据的3阶张量数据,存在3个因子矩阵。

具体地,如上文所述,假设张量数据集x

图5示出了提取单元401提取核心张量的处理的示意图。结合图3参照图5,对于张量数据x,根据上文描述的Deep Tensor方法可以得到其核心张量

应当理解,尽管本公开以使用Deep Tensor方法获得核心张量为例描述了本公开的实施方式,但是本公开不限于此。本领域技术人员应认识到,根据本公开的教导,可以设想利用通过其他深度学习方法获得的分类模型和目标核心张量来获得核心张量的变型方案,所有这些变型方案应涵盖于本公开的范围内。

以上表1中的数据为例,为了实现对张量数据的降采样,本公开引入了贡献度的概念。该贡献度可用于衡量表1中的各行数据(即分量数据)对于分类的重要性。

根据本公开的实施方式,为了能够真实地反映分类模型在被预测样本上的行为,可以使用核心张量

然而,如果利用全部n个核心张量

图6示出了空间中的各个局部的样本分布的示意图。如图6所示,可以使用由圆圈表示的各个局部的样本分布(由虚线表示)来构成关于全部样本数据的空间全局分布(由实线表示)。

因此,根据本公开的实施方式,聚类单元402可以对核心张量

特别地,根据本公开的实施方式,可以使用例如K-means聚类方法对核心张量

K-means聚类方法用于将样本数据聚类成K个簇(类别)(如图6中所示的圆圈)。具体地,K-means聚类方法首先随机选取K个聚类中心点,并且针对每个训练样本计算其与聚类中心点的距离以据此确定其应属于哪个簇。随后,针对每个簇,基于属于该簇的训练样本的分布重新计算该簇的中心点。通过重复以上步骤直到各个簇的中心点位置不变或变化很小为止,这样可以得到样本数据的K个簇。

K-means聚类方法属于无监督学习,能够极为高效地得到全局最优解。

K-means聚类方法对于本领域技术人员而言是已知的,因此在本文中不对其细节进行更详细的说明。

为了使得所选取的扰动数据与整体数据在空间分布上接近,应在整体数据中均匀地选择扰动数据。因此,根据本公开的实施方式,从n个核心张量

各个核心张量

其中k表示第k个簇,L是属于第k个簇的核心张量

通过对式(2)表示的代价函数进行优化,可以将n个核心张量

应当理解,尽管本公开使用K-means聚类方法为例描述了本公开的实施方式,但是本公开不限于此。本领域技术人员应认识到,根据本公开的教导,可以设想使用其他聚类方法来对核心张量进行聚类的变型方案,所有这些变型方案应涵盖于本公开的范围内。

随后,贡献度计算单元403可以针对核心张量的每个簇,计算张量数据的各分量数据的贡献度。图7示出了根据本公开的实施方式的贡献度计算单元403的示例性框图。

如图7所示,贡献度计算单元403可以包括样本分布确定子单元4031,其可以针对核心张量的每个簇,使用该簇中包含的核心张量作为扰动样本来获得该簇的样本分布。

根据本公开的实施方式,簇的样本分布可以用线性回归模型来表示。

具体地,根据本公开的实施方式,样本分布确定子单元4031可以针对聚类单元402获得的K个簇分别训练K个线性回归模型g

根据本公开的实施方式,样本分布确定子单元4031可以针对K个簇中的第k个簇,随机选择p个核心张量

为了提高线性回归模型g

其中μ是根据经验确定的系数,用于调整收敛速度,可以被理解为学习率。

训练线性回归模型g

其中,f

此外,如图7所示,贡献度计算单元403还可以包括贡献度计算子单元4032,其基于簇的样本分布来计算该簇中的每个张量数据中的各个分量数据的贡献度CS

具体地,根据如上文所述的张量分解,张量x可以由下式(6)表示。

其中,d为张量的阶数,C

因此,根据本公开的实施方式,基于上式(3),可以通过下式(7)来计算各分量数据的贡献度CS

应当理解,尽管本公开以使用线性回归模型来描述训练样本的分布为例描述了本公开的实施方式,但是本公开不限于此。本领域技术人员应认识到,根据本公开的教导,可以设想使用其他方法来描述训练样本的分布的变型方案,所有这些变型方案应涵盖于本公开的范围内。

对于上表1中所示的数据,通过上述提取单元401、聚类单元402和贡献度计算单元403的处理,可以获得如下表2所示的构成张量数据的各条分量的贡献度。

表2

这里,张量数据的各分量数据针对不同的类别分别具有相应的贡献度。贡献度是相对的概念,表示各分量数据对于特定类别的分类贡献的比较。针对某一类别的贡献度越大表明该分量数据对于将张量数据分类为该类别的相关度越大,贡献度为负表明该分量数据对于将张量数据分类为该类别是负相关的。

根据本公开的实施方式,在确定张量数据的各分量数据的贡献度之后,降采样单元404可以基于贡献度对张量数据执行降采样处理。

降采样单元404可以根据不同的策略基于贡献度对张量数据执行降采样处理。

例如,根据本公开的实施方式,如果张量数据的某一分量数据贡献度为零,表明该分量数据对于分类的贡献为零,因此降采样单元401可以通过删除该分量数据来执行降采样。

此外,例如,根据本公开的实施方式,降采样单元404可以基于构成张量数据的分量数据的数目来确定对张量数据执行降采样的策略。

特别地,可以计算张量数据的各分量数据的总贡献度,并且根据总贡献度对张量数据执行降采样处理。根据下式(8)计算分量数据的总贡献度CS。

如上式(8)所示,张量数据的某一分量数据的总贡献度等于该分量数据所属的张量数据的真实类别的贡献度减去其他类别的贡献度的总和,其中true_class表示张量数据的真实类别,{others}表示除真实类别之外的其他类别。

假设表1中的数据所呈现的张量数据的真实类别是“逾期”,则以上表2中的第一行数据为例,该行数据的总贡献度为0.051-0.0019,即0.0491。

随后,降采样单元404可以根据各分量数据的总贡献度来决定滤除哪些分量数据。

根据本公开的实施方式,如果构成张量数据的分量数据的数目较少,则可以采用根据总贡献度的数值和分量数据的数目进行降采样的策略。例如,假设分量数据的数目为1000条,则可以保留总贡献度最大的800条分量数据,并且滤除剩余的分量数据,从而实现对张量数据的降采样。

此外,根据本公开的实施方式,如果构成张量数据的分量数据的数目较大,则可以采用根据总贡献度的正态分布进行降采样的策略。例如,假设分量数据的数目多于1000条,则可以计算这些分量数据的总贡献度的标准差σ和平均值avg。例如,对于某一分量数据,如果该分量数据的总贡献度CS满足下式(9),则可以认为该分量数据对于分类的贡献较小,因而应被滤除。

avg-CS>3σ式(9)

这里,判断分量数据的数目是较多还是较少的标准可以根据实际应用场景而具体确定。

此外,总贡献度的标准差σ和平均值avg的计算可以针对特定的张量数据进行,也可以针对K个簇中的每个簇分别计算。

本领域技术人员应认识到,上文描述的降采样策略的实施例仅是降采样单元基于贡献度对张量数据进行降采样的具体示例,然而本公开不限于此。本领域技术人员基于本公开的教导,可以设想其他变型方案来基于贡献度对张量数据进行降采样,所有这些变型方案应涵盖于本公开的范围内。

通过根据本公开的实施方式的用于对张量数据进行降采样的信息处理装置400的处理,可以通过滤除张量数据中的对分类无贡献或贡献较小的分量数据来对张量数据进行降采样,同时保留了张量数据中的高阶特征。

因此,根据本公开的信息处理装置能够分析以张量形式表示的多路数据的稀疏结构的逻辑关系,据此进行降采样以保留重要的高阶特征,降低多路数据的存储空间和处理成本,提高用于张量数据的分类模型的分类准确性。

相应地,本公开还提出了一种用于对张量数据进行降采样的信息处理方法。

图8是示出根据本公开的实施方式的信息处理方法800的流程图。

信息处理方法800开始于步骤S801。随后,在步骤S802中,将多路数据转换为张量数据并且提取张量数据的核心张量。根据本公开内容的实施方式,步骤S802中的处理可以例如通过根据上文参照图4至7描述的提取单元401来实现,因而这里不再赘述其细节。

随后,在步骤S803中,对核心张量执行聚类处理。根据本公开内容的实施方式,步骤S803中的处理可以例如通过根据上文参照图4至7描述的聚类单元402来实现,因而这里不再赘述其细节。

随后,在步骤S804中,针对核心张量的每个簇,计算张量数据的各分量数据的贡献度。根据本公开内容的实施方式,步骤S804中的处理可以例如通过根据上文参照图4至7描述的贡献度计算单元403来实现,因而这里不再赘述其细节。

随后,在步骤S805中,基于贡献度对张量数据执行降采样处理。根据本公开内容的实施方式,步骤S805中的处理可以例如通过根据上文参照图4至7描述的降采样单元404来实现,因而这里不再赘述其细节。

最后,信息处理方法800结束于步骤S806。

根据本公开的对高阶稀疏张量数据进行降采样的信息处理装置和信息处理方法,能够在保留张量数据中的重要特征以及重要特征之间的关联的同时滤除不重要的信息,减少张量数据的尺寸和稀疏度,提高用于张量数据的分类模型的分类准确性。

图9是示出可用来实现根据本公开的实施方式的信息处理方法和信息处理装置的通用机器900的结构简图。通用机器900可以是例如计算机系统。应注意,通用机器900只是一个示例,并非暗示对本公开的信息处理方法和信息处理装置的使用范围或者功能的局限。也不应将通用机器900解释为对上述信息处理方法或信息处理装置中示出的任一组件或其组合具有依赖或需求。

在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中,还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件也连接到输入/输出接口905:输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡例如LAN卡、调制解调器等)。通信部分909经由网络例如因特网执行通信处理。根据需要,驱动器910也可连接到输入/输出接口905。可拆卸介质911例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上,使得从中读出的计算机程序可根据需要被安装到存储部分908中。

在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。

此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本公开的信息处理方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本公开的范围内。

上面已通过框图、流程图和/或实施方式进行了详细描述,阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。

综上,在根据本公开的实施方式中,本公开提供了如下方案,但不限于此:

方案1.一种信息处理装置,包括:

提取单元,被配置成将多路数据转换为张量数据并且提取所述张量数据的核心张量;

聚类单元,被配置成对所述核心张量执行聚类处理;

贡献度计算单元,被配置成针对所述核心张量的每个簇,计算所述张量数据的各分量数据的贡献度;以及

降采样单元,被配置成基于所述贡献度对所述张量数据执行降采样处理。

方案2.根据方案1所述的信息处理装置,其中,所述张量数据为三阶或更高阶的张量数据。

方案3.根据方案1所述的信息处理装置,其中,所述提取单元被配置成对所述张量数据进行分解,从而得到所述核心张量和一个或更多个因子矩阵,所述因子矩阵的数量与所述张量数据的阶数相对应。

方案4.根据方案3所述的信息处理装置,其中,所述提取单元被配置成使用DeepTensor方法对所述张量数据进行分解。

方案5.根据方案1所述的信息处理装置,其中,所述聚类单元被配置成使用K-means聚类方法对所述核心张量进行聚类。

方案6.根据方案1所述的信息处理装置,其中,所述贡献度计算单元包括:

样本分布确定子单元,其被配置成针对所述核心张量的每个簇,使用该簇中包含的核心张量作为扰动样本来获得该簇的样本分布,

贡献度计算子单元,其被配置成基于该簇的样本分布来计算该簇中的每个张量数据中的各个分量数据的贡献度。

方案7.根据方案6所述的信息处理装置,其中,所述簇的样本分布用线性回归模型来表示。

方案8.根据方案1所述的信息处理装置,其中,所述降采样单元被配置成通过删除所述张量数据中的贡献度为零的分量数据来执行降采样。

方案9.根据方案1所述的信息处理装置,其中,所述降采样单元被配置成基于构成所述张量数据的分量数据的数目来确定对所述张量数据执行降采样的策略。

方案10.一种信息处理方法,包括:

将多路数据转换为张量数据并且提取所述张量数据的核心张量;

所述核心张量执行聚类处理;

针对所述核心张量的每个簇,计算所述张量数据的各分量数据的贡献度;以及

基于所述贡献度对所述张量数据执行降采样处理。

方案11根据方案10所述的信息处理方法,其中,所述张量数据为三阶或更高阶的张量数据。

方案12.根据方案10所述的信息处理方法,其中,通过对所述张量数据进行分解来提取所述核心张量并且获得一个或更多个因子矩阵,所述因子矩阵的数量与所述张量数据的阶数相对应。

方案13.根据方案12所述的信息处理方法,其中,使用Deep Tensor方法对所述张量数据进行分解。

方案14.根据方案10所述的信息处理方法,其中,通过使用K-means聚类方法对所述核心张量进行聚类。

方案15.根据方案10所述的信息处理方法,其中,计算所述张量数据的各分量数据的贡献度的步骤包括:

针对所述核心张量的每个簇,使用该簇中包含的核心张量作为扰动样本来获得该簇的样本分布,

基于该簇的样本分布来计算该簇中的每个张量数据中的各个分量数据的贡献度。

方案16.根据方案15所述的信息处理方法,其中,所述簇的样本分布用线性回归模型来表示。

方案17.根据方案10所述的信息处理方法,其中,通过删除所述张量数据中的贡献度为零的分量数据来执行降采样。

方案18.根据方案10所述的信息处理方法,其中,基于构成所述张量数据的分量数据的数目来确定对所述张量数据执行降采样的策略。

方案19.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被计算机执行时使得所述计算机执行根据权利要求10至18中任一项所述的信息处理方法。

尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

相关技术
  • 信息处理方法、用于使计算机实施该信息处理方法的程序、实施该信息处理方法的信息处理装置及信息处理系统
  • 位置确定处理装置、位置确定处理方法、位置确定处理程序、移动信息处理装置、移动信息处理方法、移动信息处理程序和存储介质
技术分类

06120112986176