掌桥专利:专业的专利平台
掌桥专利
首页

一种基于表函数的数据处理方法、装置以及计算机存储介质

文献发布时间:2023-06-19 11:16:08


一种基于表函数的数据处理方法、装置以及计算机存储介质

技术领域

本发明涉及信息计算领域,更具体地说,涉及一种基于表函数的数据处理方法、装置以及计算机存储介质。

背景技术

目前,随着信息网络技术的飞速发展,特别是云计算、5G、物联网等的发展,使得大数据、远程管理、实时控制、AI等应用成为可能。随着各行各业信息化进程的不断推进,在信息化带来的快速便捷的信息处理的同时,在大规模的业务中,各行各业的信息化应用随之面临海量信息处理难题。针对目前的大数据和大规模信息处理需要大的计算能力问题,常规方法是采用高型能计算,或者寻找更先进的计算方法,如量子计算、类脑计算等。然而。高性能计算存在计算资源的堆砌的问题,受到硬件极限的限制,在计算资源达到一定的量后,计算能力将不再提高。对于先进的量子计算、类脑计算等方法,目前还没有成熟和成型的计算体系可供应用。

因此,需要一种能够在海量数据信息中快速、准确地查找到用户需要的内容,满足用户的需求的方法。

发明内容

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于表函数的数据处理方法、装置以及计算机存储介质,可以快速、准确地查找到用户需要的内容,满足用户的需求。

本发明解决其技术问题所采用的一种技术方案是,构造一种基于表函数的数据处理方法,包括:

S1、基于学科分类表对认知内容进行分类表征,以形成不同的表征类别和编码;

S2、针对不同的表征类别和编码采用不同的计算方法进行分类处理;

S3、根据所述表征类别、所述编码和分类结果构建数据存储模块;

S4、根据所述表征类别、所述编码和分类计算方法,离线生成对应不同输入信息的输出结果,并基于预设的表函数模板生成输入输出真值映射关系表;

S5、根据输入信息通过采用自适应共振网络的多级模式搜索算法在所述输入输出真值映射关系表中进行查询,并基于模式相似度阈值计算方法输出数据处理结果。

进一步地,所述步骤S1进一步包括、

S11、基于人脑认知功能结构,对物理世界或问题空间的认知内容进行分类表征,建立对应于人脑认知功能类别的知识表征体系;

S12、根据不同表征类别的不同属性特征,建立相应的数据结构,形成不同表征类别的不同编码。

进一步地,所述步骤S12进一步包括、

S121、针对不同表征类别的不同属性特征定义不同的数据结构以建立脑功能分区对应属性特征数据结构;

S122、对所述脑功能分区对应属性特征数据结构进行编码,不同的编码对应不同的数据结构。

进一步地,所述步骤S2进一步包括、

S21、针对不同的表征类别和编码,构建相应的算法库;

S22、针对不同的表征类别及编码输入信息,调用不同的算法进行计算和处理。

进一步地,所述步骤S3进一步包括、

S31、采用可扩展存储模型,对不同表征类别的数据分别进行建模;

S32、针对不同表征类别的数据,采用不同的数据压缩方式进行存储。

进一步地,所述步骤S4进一步包括:

S41、将不同表征类别的表征信息集作为输入集;

S42、根据所述表征类别、所述编码和分类计算方法,采用网格化方法,对网格划分的每一个输入值,离线计算生成对应的输出结果,遍历整个输入集的输入值,生成对应的输出结果集;

S43、基于预设的表函数模板生成输入输出真值映射关系表;

S44、生成存算一体的数据库。

进一步地,所述映射关系表包括:一对一、一对多、多对一映射模板。

进一步地,所述步骤S5进一步包括:

S51、接收到计算任务,计算任务开始;

S52、采用自适应共振网络的多级模式搜索算法,采用并行分发的方式,在所述输入输出真值映射关系表的输入空间中进行搜索,采用模式相似度阈值计算方法,判定所述输入信息与所述输入输出真值映射关系表中的输入模式进行匹配度,将满足匹配的所述输入信息对应的输入值作为需要计算的求解问题的输入真值;

S53、根据所述输入真值搜索结果,通过映射关系表征查表,在所述输入输出真值映射关系表的输出空间中进行查询,直接输出与所述输入真值对应的所述输入输出真值映射关系表中的输出真值,得出数据处理结果。

本发明解决其技术问题所采用的另一种技术方案是,构造一种基于表函数的数据处理装置,包括:

表征模块,用于基于学科分类表对认知内容进行分类表征,以形成不同的表征类别和编码;

分类计算模块,用于针对不同的表征类别和编码采用不同的计算方法进行分类处理;

数据存储模块,用于根据所述表征类别、所述编码和分类结果构建数据存储模块;

搜索匹配模块,用于根据所述表征类别、所述编码和分类计算方法,离线生成对应不同输入信息的输出结果,并基于预设的表函数模板生成输入输出真值映射关系表;

输出模块,用于根据输入信息通过采用自适应共振网络的多级模式搜索算法在所述输入输出真值映射关系表中进行查询,并基于模式相似度阈值计算方法输出数据处理结果。

本发明解决其技术问题所采用的再一种技术方案是,构造一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于表函数的数据处理方法。

实施本发明的基于表函数的数据处理方法、装置以及计算机存储介质,可以快速、准确地查找到用户需要的内容,满足用户的需求。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中、

图1是根据本发明的优选实施例的基于表函数的数据处理方法的流程图;

图2是根据本发明的优选实施例的基于表函数的数据处理方法采用的无限深方势阱数据存储模型示意图;

图3是根据本发明的优选实施例的基于表函数的数据处理装置的原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明涉及的基于表函数的数据处理方法、装置以及计算机存储介质,基于人脑认知功能结构,对物理世界(或问题空间)的认知内容进行分类表征(或描述),建立对应于人脑认知功能类的知识表征体系,结合分类表征及属性特征数据的特点,构建相应数据存储模型,采用一对一映射模板,即一个输入对应一个输出的方式,形成映射关系表,或者采用一对多、多对一的方式,根据输入值对应的输出结果值的对应关系,建立映射关系表,通过映射关系表征查表,在映射表的输出空间中进行查询,直接输出与输入值对应的表中的输出值,可以快速、准确地查找到用户需要的内容,满足用户的需求。

图1是根据本发明的优选实施例的基于表函数的数据处理方法的流程图。如图1所示,在步骤S1中,基于学科分类表对认知内容进行分类表征,以形成不同的表征类别和编码。

在本发明的优选实施例,该步骤进一步包括基于人脑认知功能结构,对物理世界或问题空间的认知内容进行分类表征,建立对应于人脑认知功能类别的知识表征体系;根据不同表征类别的不同属性特征,建立相应的数据结构,形成不同表征类别的不同编码。

优选地,可以基于人脑认知功能结构,采用形式化描述方法,对物理世界或问题空间的认知内容进行分类表征,建立对应于人脑认知功能类别的知识表征体系。其中,基本类别的物理属性分类是指依据基本类别的划分,以及相应基本类别的不同属性按人脑功能的66个分区进行映射,继承脑功能结构的类间连接关系,形成信息分类的属性及连接关系。采用形式化描述方法进行分类表征是指采用一定的形式化方法对基本类别和属性特征进行表征,包含运动、色彩、空间拓扑结构、时间序列、语言、热、声、光、点、磁、能等,形成数值、符号、图像、语音、视频等表征结果。覆盖知识图相关信息,以及相关知识体系。

优选地,根据不同表征类别的不同属性特征,建立相应的数据结构,形成不同表征类别的不同编码可以进一步包括:针对不同表征类别的不同属性特征定义不同的数据结构以建立脑功能分区对应属性特征数据结构;对所述脑功能分区对应属性特征数据结构进行编码,不同的编码对应不同的数据结构。

具体的,对分类表征的不同属性特征类定义不同的数据结构,如空间拓扑结构的数据结构,语言的数据结构,声音的数据结构等,形成脑功能分区的对应属性类特征数据结构。对建立的脑功能分区对应属性类特征数据结构进行编码,不同的编码对应不同的数据结构。

在步骤S2中,针对不同的表征类别和编码采用不同的计算方法进行分类处理。即根据不同表征类别及编码,对不同的表征类别采用不同的计算算法进行计算和处理。具体包括针对不同的表征类别和编码,构建相应的算法库;针对不同的表征类别及编码输入信息,调用不同的算法进行计算和处理。

在本发明的进一步的优选实施例中,首先,构建算法库,针对表征类别和属性特征编码,构建相应的处理算法对该类数据进行计算。如数值类处理算法、符号类处理算法、语音类处理算法、图像类处理算法等。针对不同的表征类别及编码输入信息,调用不同的算法进行计算和处理。

在步骤S3中,根据所述表征类别、所述编码和分类结果构建数据存储模块。优选地,可以根据所述表征类别、所述编码和分类结果,基于预设的数据存储模型,对相应的数据进行压缩存储。例如采用可扩展存储模型,对不同表征类别的数据分别进行建模;针对不同表征类别的数据,采用不同的数据压缩方式进行存储。

在本发明的优选实施例中,首先要构建数据存储模型,这是根据存算一体,以及快速存取需要,结合分类表征及属性特征数据的特点,构建相应数据存储模型。主要表现为依据不同的数值、符号、图像、语音、视频等类型,以及不同类型的运动、色彩、空间拓扑结构、时间序列、语言、热、声、光、点、磁、能等特征属性数据,采用可扩展存储模型,如一维无限深势阱模型,对不同表征分类的属性特征的数据分别建模。并且,所述数据存储模型满足离散化的薛定谔方程的高压缩比指数存储模型,如图2所示无限深方势阱,U表示势能,区域II为一无限深势阱,底部势能为0,顶部势能可以无限扩展。以该模型存储数据,不同的势能层面表示了不同编码类型的数据库表,总体可存储的数据类型和规模是可以弹性扩展的。针对不同表征类型的数据,采用不同的数据压缩方式,对该表征类数据进行存储。数据压缩方式根据表示类型数据不同属性特征,采用不同的压缩算法,主要包括文本数据压缩、图像数据压缩、音频数据压缩、视频数据压缩算法等,均采用无损压缩算法,不采用有损压缩算法。可选的,文本压数据可采用游程编码、算术编码等算法;图像数据采用TIFF(Tagged ImageFile Format)、PNG(Portable Network Graphic Format)、GIF(Graphics InterchangeFormat)等算法;音频数据采用FLAC(Fee Lossless Audio Codec)格式、TAK(Tom's AudioKompressor)格式等算法;视频数据采用H.264等算法。

在步骤S4中,根据所述表征类别、所述编码和分类计算方法,离线生成对应不同输入信息的输出结果,并基于预设的表函数模板生成输入输出真值映射关系表。优选地,将不同表征类别的表征信息集作为输入集;根据所述表征类别、所述编码和分类计算方法,采用网格化方法,对网格划分的每一个输入值,离线计算生成对应的输出结果,遍历整个输入集的输入值,生成对应的输出结果集;基于预设的表函数模板生成输入输出真值映射关系表;生成存算一体的数据库。

在本发明的进一步的优选实施例中,首先,将不同类别的表征信息集作为输入集,确定输入集,再确定输出集,依据分类表征、编码和分类计算算法,采用网格化方法,对网格划分的每一个输入值,离线计算生成对应的输出信息结果值。然后,遍历整个输入集的网格输入值,生成对应结果值输出集。基于统一的表函数模板,形成相应结果的输入输出真值映射关系表。可选的采用一一映射模板,及一个输入对应一个输出的方式,形成映射关系表。或者采用一对多、多对一的方式,根据输入值对应的输出结果值的对应关系,建立映射关系表。其中表函数模板简单的可用二维表实现或多维表实现,具体根据数据类型和映射关系在实际实现时具体设计。本领域技术人员可以根据本发明的教导和本领域中的公知常识进行相应设计。

在步骤S5中,根据输入信息通过采用自适应共振网络的多级模式搜索算法在所述输入输出真值映射关系表中进行查询,并基于模式相似度阈值计算方法输出数据处理结果。进一步地,接收到计算任务,计算任务开始;采用自适应共振网络的多级模式搜索算法,采用并行分发的方式,在所述输入输出真值映射关系表的输入空间中进行搜索,采用模式相似度阈值计算方法,判定所述输入信息与所述输入输出真值映射关系表中的输入模式进行匹配度,将满足匹配的所述输入信息对应的输入值作为需要计算的求解问题的输入真值;根据所述输入真值搜索结果,通过映射关系表征查表,在所述输入输出真值映射关系表的输出空间中进行查询,直接输出与所述输入真值对应的所述输入输出真值映射关系表中的输出真值,得出数据处理结果。

在本发明的进一步的优选实施例中,自适应共振网络,例如自适应共振网络ART3(Adaptive Resonance Theory network 3)的多级模式搜索算法,是由Carpenter和Grossberg提出的自组织神经网络模型,由比较层、识别层、识别阈值和重置模块。比较层负责接收输入样本,并将其传递给识别层神经元,识别层每个神经元对应一个模式类,神经元数目可以在训练过程中动态增长以增加新的模式类。属于无教师的学习网络,初始不需要确定有多少个神经元。共有3种形式,分别为ART1、ART2和ART3。其中,ART1含有并行架构的主-从式算法(leader-follower algorithm),在算法的激活及匹配函数中运用了集合运算,主要处理只含0与1的影像(即黑白)识别问题/二进制信号;ART2可以处理灰度(即模拟值)输入,用于处理连续模拟信号;ART3具有多级搜索架构,它融合了前两种结构的功能并将两层神经网络扩展为任意多层的神经元网络。

其中,上述模式相似度阈值计算方法主要包括文本相似度计算方法,及向量空间余弦的相似度计算方法。并且,文本相似度计算方法主采用SIF(Smooth InverseFrequency)来进行计算,过程如下:

加权:SIF取句中词嵌入的平均权重。每个词嵌入都由a/(a+p(w))进行加权,其中a的值经常被设置为0.01,而p(w)是词语在语料中预计出现的频率。

常见元素删除:接下来,SIF计算了句子的嵌入中最重要的元素。然后它减去这些句子嵌入中的主要成分,可以删除与频率和句法有关的变量。

最后,SIF使一些不重要的词语的权重下降,例如but、just等,同时保留对语义贡献较大的信息。

所述向量空间余弦的相似度计算方法用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。通过设定相似度阈值,即可完成相似度判断。

同样地,在本发明的其他优选实施例中,还可以采用其他的自适应共振网络和/或模式相似度阈值计算方法,本领域技术人员可以采用本领域中已知的任何自适应共振网络和/或模式相似度阈值计算方法来实现本发明。

本发明涉及的基于表函数的数据处理方法,基于人脑认知功能结构,对物理世界(或问题空间)的认知内容进行分类表征(或描述),建立对应于人脑认知功能类的知识表征体系,结合分类表征及属性特征数据的特点,构建相应数据存储模型,采用一对一映射模板,即一个输入对应一个输出的方式,形成映射关系表,或者采用一对多、多对一的方式,根据输入值对应的输出结果值的对应关系,建立映射关系表,通过映射关系表征查表,在映射表的输出空间中进行查询,直接输出与输入值对应的表中的输出值,可以快速、准确地查找到用户需要的内容,满足用户的需求。

图3是根据本发明的优选实施例的基于表函数的数据处理装置的原理框图。如图3所示,本发明的基于表函数的数据处理装置100包括表征模块110、分类计算模块120、数据存储模块130、搜索匹配模块140和输出模块150。所述表征模块110用于基于学科分类表对认知内容进行分类表征,以形成不同的表征类别和编码。所述分类计算模块120用于针对不同的表征类别和编码采用不同的计算方法进行分类处理。所述数据存储模块130用于根据所述表征类别、所述编码和分类结果构建数据存储模块。所述搜索匹配模块140用于根据所述表征类别、所述编码和分类计算方法,离线生成对应不同输入信息的输出结果,并基于预设的表函数模板生成输入输出真值映射关系表。所述输出模块150用于根据输入信息通过采用自适应共振网络的多级模式搜索算法在所述输入输出真值映射关系表中进行查询,并基于模式相似度阈值计算方法输出数据处理结果。优选的,所述数据存储模块130具体用于针对不同表征类型的数据,采用不同的数据压缩方式对该表征类数据进行存储。

本领域技术人员知悉,所述表征模块110、分类计算模块120、数据存储模块130、搜索匹配模块140和输出模块150可以是任何硬件模块,软件模块,或者软硬件模块,其可以一一对应地执行前述基于表函数的数据处理方法的对应步骤。例如,所述表征模块110可以进一步用于,基于人脑认知功能结构,对物理世界或问题空间的认知内容进行分类表征,建立对应于人脑认知功能类别的知识表征体系;根据不同表征类别的不同属性特征,建立相应的数据结构,形成不同表征类别的不同编码。所述分类计算模块120可进一步用于针对不同的表征类别和编码,构建相应的算法库;针对不同的表征类别及编码输入信息,调用不同的算法进行计算和处理。所述数据存储模块130可进一步用于采用可扩展存储模型,对不同表征类别的数据分别进行建模;针对不同表征类别的数据,采用不同的数据压缩方式进行存储。所述搜索匹配模块140可进一步用于将不同表征类别的表征信息集作为输入集;根据所述表征类别、所述编码和分类计算方法,采用网格化方法,对网格划分的每一个输入值,离线计算生成对应的输出结果,遍历整个输入集的输入值,生成对应的输出结果集;基于预设的表函数模板生成输入输出真值映射关系表;生成存算一体的数据库。所述输出模块150可进一步用于接收到计算任务,计算任务开始;采用自适应共振网络的多级模式搜索算法,采用并行分发的方式,在所述输入输出真值映射关系表的输入空间中进行搜索,采用模式相似度阈值计算方法,判定所述输入信息与所述输入输出真值映射关系表中的输入模式进行匹配度,将满足匹配的所述输入信息对应的输入值作为需要计算的求解问题的输入真值;根据所述输入真值搜索结果,通过映射关系表征查表,在所述输入输出真值映射关系表的输出空间中进行查询,直接输出与所述输入真值对应的所述输入输出真值映射关系表中的输出真值,得出数据处理结果。

基于本发明的教导,本领域技术人员能够实现各种对应前述基于表函数的数据处理方法的基于表函数的数据处理装置,在此就不再累述了。

进一步地,本发明还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序包含能够实现本发明方法的全部特征,当其安装到计算机系统中时,可以实现本发明的方法。本文件中的计算机程序所指的是、可以采用任何程序语言、代码或符号编写的一组指令的任何表达式,该指令组使系统具有信息处理能力,以直接实现特定功能,或在进行下述一个或两个步骤之后实现特定功能、a)转换成其它语言、编码或符号;b)以不同的格式再现。

该计算机可读介质包括但不限于U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明是通过具体实施例进行说明的,本领域技术人员应当明白,在不脱离本发明范围的情况下,还可以对本发明进行各种变换及等同替代。另外,针对特定情形或材料,可以对本发明做各种修改,而不脱离本发明的范围。因此,本发明不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于表函数的数据处理方法、装置以及计算机存储介质
  • 一种基于表函数的数据搜索方法、系统及计算机存储介质
技术分类

06120112859448