掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多目标智能优化算法的大数据降维方法

文献发布时间:2023-06-19 18:37:28


一种基于多目标智能优化算法的大数据降维方法

技术领域

本发明涉及数据处理技术领域,尤其涉及一种基于多目标智能优化算法的大数据降维方法。

背景技术

“大数据”的产生往往伴随着大量的冗余数据噪声,造成这些数据噪声的原因有很多,然而,对于一些尚未使用现代计算机技术的传统行业来说,收集数据的目标可能会非常模糊。不同的生产环境所需要记录的数据不尽相同,在最后采集数据时,便会采集许多可能对实际生产并无用处的冗余数据导致在对数据进行处理时,会降低计算数据的效率和精度。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于多目标智能优化算法的大数据降维方法、设备、存储介质及装置,旨在解决因数据中存在大量的冗余数据而导致计算数据的效率和精度降低的技术问题。

为实现上述目的,本发明提供一种基于多目标智能优化算法的大数据降维方法,所述一种基于多目标智能优化算法的大数据降维方法包括以下步骤:

对待处理数据特征集进行离散化处理,获得第一数据特征集;

根据所述第一数据特征集中各特征数据的初始适应度值进行特征数据选取,获得第二数据特征集;

根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集;

从所述优化后的目标特征集中选取适应度值最优的目标特征子集;

根据所述适应度值最优的目标特征子集删除所述待处理数据特征集中的冗余数据。

可选地,所述根据所述适应度值最优的目标特征子集删除所述待处理数据特征集中的冗余数据的步骤之后,还包括:

根据优化概率模型确定所述第一数据特征集的被优化概率;

根据所述被优化概率调整所述第一数据特征集,并返回所述根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集的步骤,直至第一数据优化次数满足预设条件。

可选地,所述优优化概率模型为:

式中,p

可选地,所述根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集的步骤之后,还包括:

对所述被优化的特征数据进行标记;

统计所述第一数据特征集中的各被优化的特征数据的被标记次数;

在所述被标记次数达到预设次数时,删除所述被标记次数达到预设次数的特征数据;

确定所述第一数据特征集中待优化数据,并返回所述根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集的步骤,直至第二数据优化次数满足所述预设条件。

可选地,所述根据所述适应度值最优的目标特征子集删除所述待处理数据特征集中的冗余数据的步骤之后,还包括:

更新所述第一数据特征集中所有特征数据的适应度值,并对所述所有特征数据的适应度值进行排序;

根据排序结果和预设比例选取更新后第一数据特征集中适应度值最优的数据;

确定与所述适应度值最优的数据的相邻特征数据;

将所述适应度值最优的数据和所述相邻特征数据添加至所述第二数据特征集。

可选地,所述将所述适应度值最优的数据和所述相邻特征数据添加至所述第二数据特征集的步骤之后,还包括:

根据所述第一数据优化次数和所述第二数据优化次数确定数据优化总数;

在所述数据优化总数达到预设优化总数时,完成对所述待处理数据特征集中的冗余数据的处理。

可选地,所述对待处理数据特征集进行离散化处理,获得第一数据特征集的步骤之前,还包括:

根据预设数据集中的特征数量和所述预设数据集的数量对预设数据集进行初始化,获得待处理数据特征集。

此外,为实现上述目的,本发明还提出一种基于多目标智能优化算法的大数据降维设备,所述一种基于多目标智能优化算法的大数据降维设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行一种基于多目标智能优化算法的大数据降维程序,所述一种基于多目标智能优化算法的大数据降维程序配置为实现如上文所述的一种基于多目标智能优化算法的大数据降维方法。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有一种基于多目标智能优化算法的大数据降维程序,所述一种基于多目标智能优化算法的大数据降维程序被处理器执行时实现如上文所述的一种基于多目标智能优化算法的大数据降维方法。

此外,为实现上述目的,本发明还提出一种基于多目标智能优化算法的大数据降维装置,所述一种基于多目标智能优化算法的大数据降维装置包括:数据集获取模块和数据处理模块;

所述数据集获取模块,用于对待处理数据特征集进行离散化处理,获得第一数据特征集;

所述数据集获取模块,还用于根据所述第一数据特征集中各特征数据的初始适应度值进行特征数据选取,获得第二数据特征集;

所述数据集获取模块,还用于根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集;

所述数据集获取模块,还用于从所述优化后的目标特征集中选取适应度值最优的目标特征子集;

所述数据处理模块,用于根据所述适应度值最优的目标特征子集删除所述待处理数据特征集中的冗余数据。

本发明公开了一种基于多目标智能优化算法的大数据降维方法,该方法包括:对待处理数据特征集进行离散化处理,获得第一数据特征集;根据第一数据特征集中各特征数据的初始适应度值进行特征数据选取,获得第二数据特征集;根据第二数据特征集对第一数据特征集进行数据优化,获得优化后的目标特征集;从优化后的目标特征集中选取适应度值最优的目标特征子集;根据适应度值最优的目标特征子集删除待处理数据特征集中的冗余数据。本发明根据第二数据特征集对第一数据特征集进行优化,并根据优化后的目标特征子集中适应度值最优的目标特征子集对待处理数据特征集进行处理,从而提高待处理数据特征集在各种数据处理流程中处理效率和精度。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的一种基于多目标智能优化算法的大数据降维设备的结构示意图;

图2为本发明一种基于多目标智能优化算法的大数据降维方法第一实施例的流程示意图;

图3为本发明一种基于多目标智能优化算法的大数据降维方法第二实施例的流程示意图;

图4为本发明一种基于多目标智能优化算法的大数据降维方法第三实施例的流程示意图;

图5为本发明一种基于多目标智能优化算法的大数据降维方法一实施例的一种基于多目标智能优化算法的大数据降维流程图;

图6为本发明一种基于多目标智能优化算法的大数据降维装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的一种基于多目标智能优化算法的大数据降维设备结构示意图。

如图1所示,该一种基于多目标智能优化算法的大数据降维设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM),也可以是稳定的存储器(Non-volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对一种基于多目标智能优化算法的大数据降维设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及一种基于多目标智能优化算法的大数据降维程序。

在图1所示的一种基于多目标智能优化算法的大数据降维设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述一种基于多目标智能优化算法的大数据降维设备通过处理器1001调用存储器1005中存储的一种基于多目标智能优化算法的大数据降维程序,并执行本发明实施例提供的一种基于多目标智能优化算法的大数据降维方法。

基于上述硬件结构,提出本发明一种基于多目标智能优化算法的大数据降维方法的实施例。

参照图2,图2为本发明一种基于多目标智能优化算法的大数据降维方法第一实施例的流程示意图,提出本发明一种基于多目标智能优化算法的大数据降维方法第一实施例。

步骤S10:对待处理数据特征集进行离散化处理,获得第一数据特征集。

需要说明的是,本实施例的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算机服务设备,例如,基于多目标智能优化算法的大数据降维设备等,或者是其他能够实现相同或相似功能的电子设备,本实施例对此不加限制。

应理解的是,“大数据”的产生往往伴随着大量的冗余数据噪声,造成这些数据噪声的原因有很多。其中,“不成熟的数据采集手段”和“原始数据自身的噪声”为两大主要原因。比如,在农业数据采集的过程中,采集数据的传感器可能受到来自自然界天气、动物等不确定因素的影响;或者在医学界,医学仪器的一点点小缺陷也可能带来一些数据上的偏差。最主要的是,对于一些尚未使用现代计算机技术的传统行业来说,收集数据的目标可能会非常模糊。不同的生产环境所需要记录的数据不尽相同,在最后采集数据时,便会采集许多可能对实际生产并无用处的冗余数据。上述的两类都是采集仪器可能带来的数据噪声。更进一步来说,最近五到十年,社交媒体的不断发展,也促进了各互联网公司推荐算法的发展。社交网络中的用户数据生来就具有冗余性,其中包含的信息有的准确可用,有的可能只是毫无价值的垃圾信息。因此,从海量数据中提取出对生产有利的信息无疑是一大挑战。

在大量的冗余信息中,降低数据维度是学术界关注最多的冗余数据处理手段。“特征提取”和“特征选择”是其中两个重要的步骤,特征提取能在毫无规律的元数据中取出可能有用的规范化信息;特征选择可以从大量的特征中选择出更具有代表性的特征子集。这些特征子集具有能够降低数据维度(即提高数据计算效率)和提升机器学习任务的最终性能的效果。为了解决数据特征冗余问题,本文将从特征提取的角度出发,提出一种基于人工蜂群算法的多目标特征选择算法,针对学术界公开的多个数值型数据集进行特征选择,从冗余的特征中选择更具有代表性的特征子集,提高数据集在机器学习算法中的计算效率和学习精度。

人工蜂群算法是由Karaboga于2010年左右提出的进化算法。该算法最初提出时致力于解决单目标优化问题,其在单目标优化上求解的质量高,收敛速度快。因此,该算法也应非常适合多目标优化问题。2011年,Reza等人也在其论文中证实了其多目标优化的能力。在人工蜂群算法的过程中,算法模拟了三种不同类型的蜜蜂的觅食行为。首先,引领蜂(Employee Bee)在所有的食物源中寻找较为优势的食物源并对找到的食物源进行更新;之后,跟随蜂(Onlooker Bee)将根据引领蜂找的的食物的适应度值大小进行食物选取并更新。若某一个食物在经过有限次更新之后,其适应度值没有得到提升,此时侦察蜂(ScoutBee)便会抛弃此食物,并寻找一个新的食物。每一轮经过三种不同蜜蜂对食物源进行选取、更新之后,食物的质量——适应度值也会得到优化。最终在经过有限的迭代次数之后,寻找到最优的食物源,作为问题的解。

需要说明的是,本实施例对初始数据集进行离散化处理获得第一数据特征集,根据第一数据特征集中各数据的适应度值获得第二数据特征集,通过第二数据特征集对第一数据特征集各数据进行优化,将第一数据特征集中各数据优化值对应的适应度值与第一数据特征集中各数据的适应度值进行对比,如果第一数据特征集中各数据优化值大于第一数据特征集中各数据的适应度值,则删除各数据优化数据值对应的数据,删除的数据代表着数据集中冗余的数据。本实施例针对人工蜂群算法的过程和特征选择问题发特点,对人工群算法通过对数据集进行离散化处理以及从第一数据特征集中选择第二数据特征集,利用第二数据特征集对第一数据特征集进行处理,筛选出冗余数据这两个方面进行优化,使其能更好地适应于特征选择的问题。

需要说明的是,本实施例通过阶跃函数对每个变量做离散化处理,将数据集中连续的变量处理为离散型的变量。对冗余数据进行处理的最重要的两个部分分别是特征选择和特征提取,对数据集进行离散化处理是在特征选择这个部分进行。

可以理解的是,本实施例是基于多目标人工蜂群算法对冗余数据进行处理,多目标人工蜂群算法的设计旨在模拟蜜蜂觅食的行为。在整个觅食的周期中,一共有三种不同种类的蜜蜂:引领蜂、跟随蜂和侦察蜂。算法的计算空间中,存在一定数量的可行解,被定义为食物源。首先引领蜂出发寻找食物源并对食物源进行首轮优化。当这些食物源被找到之后,跟随蜂随即出发,并以这些食物源的质量为依据,对食物源进行优化。当一个食物源在固定的周期内没有得到优化时,引领蜂则会转变为侦察蜂,对这些食物源进行抛弃,并在解空间中进行随即搜索,找到新的食物源。

可以理解的是,特征选择通过删除不必要的、冗余和嘈杂的信息来减少数据集中的特征数量,并同时保持相对良好的分类精度。、

在特征选择的问题上,通常将特征选取与不被选取表示为二位变量,即选取为1,落选为0,因此,对于数据集S而言,其特征被选取的一个解可表示为:X=(x

此时,特征选择的一个解为X=(x

可以理解的是,待处理数据特征集中是各种特征数据,例如:姓名、班级和年龄等特征数据,对待处理数据特征集进行离散化处理,获得的第一数据特征集中每个数据特征子集通过0和1进行表示,例如,其中一个数据特征子集为x

进一步地,为了提高计算数据的效率和精度,本实施例步骤S10可包括:

根据预设数据集中的特征数量和所述预设数据集的数量对预设数据集进行初始化,获得待处理数据特征集。

可以理解的是,预设数据集的数量可以是自行定义的,在读取到预设数据集中的特征数量和预设数据集的数量后获得待处理数据特征集,具体表现形式如下:

X

其中第i个解可表示为:X

式中,X

步骤S20:根据所述第一数据特征集中各特征数据的初始适应度值进行特征数据选取,获得第二数据特征集。

需要说明的是,在第一轮对第一数据特征集中的冗余数据进行处理时,会根据第一数据特征集中各特征数据的适应度值确定第二数据特征集,之后每次进行对第一数据特征集中冗余数据的处理都会将一些适应度值高的第一数据特征集中的数据存储在第二数据特征集中。

需要说明的是,一般地,在特征选取问题上,常见将特征选择最小化特征子集和后续任务的准确率(或错误率)作为冲突的目标值。对于特征选择的一个解X=(x

n表示总的特征数量,x

其中,TP、FP、TN以及FN分别表示真正例、假正例、真反例以及假反例。这样便将两个目标值皈依到0、1之间。

需要说明的是,f

步骤S30:根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集。

需要说明的是,从第二数据特征集中选取一个数据A,从第一数据特征集中选取一个数据B,经过计算让数据A靠近数据B并获得数据B的中间解,具体计算过程可表示为:v

需要说明的是,在获得B的中间解后,计算B的中间解的适应度值,将B的中间解的适应度值与B的适应度值进行比较,如果小于B的适应度值,则将优化后B的特征子集添加至目标特征集中。

需要说明的是,对于数据A和数据B而言,其索引必须限定为不相等。r为[-1,1]之间的一个随机数,能够使得数据B在数据A附近寻找新解。从上述公式中不难看出,当所选取的两个数据越接近时,其更新的扰动会越来越小,其更新的步长也会逐渐降低,此时可以看作是数据达到了局部最优解。

应理解的是,通过上述计算方式,根据第二数据特征集中的数据将第一数据特征集中所有数据的中间解计算出来。

步骤S40:从所述优化后的目标特征集中选取适应度值最优的目标特征子集。

可以理解的是,适应度值最优的目标特征子集代表目标特征子集中的特征数据是比较优质的,不属于冗余数据。

进一步地,为了提高对冗余数据的识别精度,因此本实施例步骤S40可包括:

对所述被优化的特征数据进行标记;

统计所述第一数据集中的各被优化的特征数据的被标记次数;

在所述被标记次数达到预设次数时,删除所述被标记次数达到预设次数的特征数据;

确定所述第一数据集中待优化数据,并返回所述根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集的步骤,直至第二数据优化次数满足所述预设条件。

需要说明的是,如果中间解对应的适应度值大于第一数据特征集中各数据的初始适应度值时,对第一数据特征集中各数据进行标记并记录第一数据特征集中各特征数据的标记次数。

需要说明的是,在第一数据特征集中各数据的被标记次数达到预设次数时,表示达到预设次数的数据属于冗余数据,需要删除该数据并在数据集中重新选取待优化的数据。

可以理解的是,在确定了待优化数据后,同样需要根据第二数据特征集中的数据对该待优化数据进行计算确定优中间解以及待优化数据中间解的适应度值,并将待优化数据中间解的适应度值与待优化数据的适应度值进行比较,如果待优化数据中间解的适应度值大于待优化数据的适应度值,则表示该待优化数据属于冗余数据需要删除,反之,则对该待优化数据进行标记并记录其标记次数。

需要说明的是,确定待优化数据的可以是V

需要说明的是,为了防止一直往复寻找待优化数据并判断其是否属于冗余数据,对上述循环过程设置了疲劳值参数,也就是优化次数,在优化次数达到疲劳值参数时,上述循环终止。

步骤S50:根据所述适应度值最优的目标特征子集删除所述待处理数据特征集中的冗余数据。

可以理解的是,在第二数据特征子集的中间解的适应度值大于第一数据特征集中数据的适应度值时,表示该数据属于冗余数据,删除该数据,在第二数据特征子集的中间解小于第一数据特征集中数据的适应度值时,对该数据进行标记。

在具体实现中,例如,待处理数据特征集其中一个特征子集表示为x

为了便于理解,参照图5进行说明,图5为一种基于多目标智能优化算法的大数据降维流程图,数据集的特征数量n、数据集的数量p、预设优化总数i和被标记次数f,预设优化总数和被标记次数初始化为0。

本实施例通过对待处理数据特征集进行离散化处理,获得第一数据特征集;根据第一数据特征集中各特征数据的初始适应度值进行特征数据选取,获得第二数据特征集;根据第二数据特征集对第一数据特征集进行数据优化,获得优化后的目标特征集;从优化后的目标特征集中选取适应度值最优的目标特征子集;根据适应度值最优的目标特征子集删除待处理数据特征集中的冗余数据。本实施例根据第二数据特征集对第一数据特征集进行优化,并根据优化后的目标特征子集中适应度值最优的目标特征子集对待处理数据特征集进行处理,从而提高待处理数据特征集在各种数据处理流程中处理效率和精度。

参照图3,图3为本发明一种基于多目标智能优化算法的大数据降维方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明一种基于多目标智能优化算法的大数据降维方法的第二实施例。

在第二实施例中,所述步骤S50,包括:

步骤S501:根据优化概率模型确定所述第一数据特征集的被优化概率。

需要说明的是,通过优化概率模型计算出第一数据特征集中所有数据的被优化概率,根据所有数据的被优化概率判断是否进行优化。例如,如果数据的被优化概率大于0.8时对该数据进行优化。

需要说明的是,通过优化概率模型选择出需要进行优化的数据的选取概率在[0,1]区间内,并且适应度值越高的数据,被选取的概率越大

进一步地,为了加快冗余数据的处理速度,因此本实施例步骤S501可包括:

所述优优化概率模型为:

式中,p

需要说明的是,适应度值体现为最小化问题时numerator=fit

步骤S502:根据所述被优化概率调整所述第一数据特征集,并返回所述根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集的步骤,直至第一数据优化次数满足预设条件。

需要说明的是,根据被优化概率从第一数据特征集中选择特征数据,从第二数据特征集中选择特征数据,通过该特征数据对第一数据特征集中被优化概率选择出的数据进行优化,获得被优化概率选择出的数据的中间解,计算出中间解的适应度值并与被优化概率选择出的数据的适应度值进行对比,再根据对比结果选择获得优化后的目标特征集并对被优化概率选择出的数据进行标记。

需要说明的是,通过被优化概率从第一数据特征集中选择特征数据,能增加第一数据特征集中的优质数据的选择机会,也有利于从第一数据特征集中选择适应度值高的特征数据存储至第二数据特征集中。

本实施例根据优化概率模型确定所述第一数据特征集的被优化概率;根据所述被优化概率调整所述第一数据特征集,并返回所述根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集的步骤,直至第一数据优化次数满足预设条件。本实施例通过优化概率模型确定第一数据特征集中各特征数据的被优化概率,根据被优化概率从第一数据特征集中选择特征数据并通过第二数据特征集确定被优化概率选择的特征数据的中间解,根据中间解确定对应的适应度值并与被优化概率选择的数据的适应度值进行比较,根据比较结果获得优化后的目标特征集,从而提高计算数据的效率和精度。

参照图4,图4为本发明一种基于多目标智能优化算法的大数据降维方法第三实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明一种基于多目标智能优化算法的大数据降维方法的第三实施例。

在第三实施例中,所述步骤S50之后,还包括:

步骤S501’:更新所述第一数据特征集中所有特征数据的适应度值,并对所述所有特征数据的适应度值进行排序。

需要说明的是,每次处理完待处理数据特征集中的冗余数据后,第一数据特征集中的特征数据的适应度值会发生变化,从而需要重新确定第一数据特征集中所有数据的适应度值。

可以理解的是,对第一数据特征集中所有特征数据的适应度值从高到低进行排序。

步骤S502’:根据排序结果和预设比例选取更新后第一数据特征集中适应度值最优的数据。

需要说明的是,预设比例可以是一个ε的比例指,根据预设比例从排序结果中选择ε个数据。

步骤S503’:确定与所述适应度值最优的数据的相邻特征数据。

需要说明的是,考虑到本实施例的解结构的特殊性,即各维度的变量均为0或1的整型数值,其排列符合二进制的特点。因此,本实施例在计算主要第一数据特征集中各数据高适应度值的近邻数据时,采用海明距离作为其标准。海明距离是以理查德·卫斯里·海明的名字命名的,海明在误差检测与校正码的基础性论文中首次引入这个概念。在通信中累计定长二进制字中发生翻转的错误数据位,所以它也被称为信号距离。其主要的计算过程为:对于两个登场的二进制编码,对它们进行按位求逻辑异或。并统计结果二进制串中的1的个数。即比较两个编码每一位的数值是否相同。综上所述,两个解的距离可表示为:

其中,sum()方法的作用为对数值串中的所有数字进行求和,

需要说明的是,从适应度值高的数据附近找到与其距离最短的k个数据作为次要数据,最短的k个数据可以是用户自行设置选择的数量。

步骤S504’:将所述适应度值最优的数据和所述相邻特征数据添加至所述第二数据特征集。

需要说明的是,每次处理完冗余数据后,都会出现优质特征数据,需要将这些优质特征数据存储至第二数据特征集中。

进一步地,为了判断第一数据特征集中的冗余数据是否处理完成,因此本实施例步骤S504’可包括:

根据所述第一数据优化次数和所述第二数据优化次数确定数据优化总数;

在所述数据优化总数达到预设优化总数时,完成对所述待处理数据特征集中的冗余数据的处理。

可以理解的是,预设优化总数可以是用户自行设置,也可以算法根据实际情况确定最优的预设优化总数,本实施例对比不加以限制。

本实施例更新所述第一数据特征集中所有特征数据的适应度值,并对所述所有特征数据的适应度值进行排序;根据排序结果和预设比例选取更新后第一数据特征集中适应度值最优的数据;确定与所述适应度值最优的数据的相邻特征数据;将所述适应度值最优的数据和所述相邻特征数据添加至所述第二数据特征集。本实施例每次处理完第一数据特征集的冗余数据后重新确定第一数据特征集中的适应度值,根据预设比例挑选出适应度值高的特征数据与其相邻特征数据,将适应度值高的特征数据和与其相邻的特征数据添加至第二数据特征集中,在根据第二数据特征集对第一数据特征集进行优化时,从而为算法的收敛提供大致的方向并加快算法的收敛速度。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有一种基于多目标智能优化算法的大数据降维程序,所述一种基于多目标智能优化算法的大数据降维程序被处理器执行时实现如上文所述的一种基于多目标智能优化算法的大数据降维方法。

此外,参照图6,本发明实施例还提出一种基于多目标智能优化算法的大数据降维装置,所述一种基于多目标智能优化算法的大数据降维装置包括:数据集获取模块10和数据处理模块20;

所述数据集获取模块10,用于对待处理数据特征集进行离散化处理,获得第一数据特征集;

所述数据集获取模块10,还用于根据所述第一数据特征集中各特征数据的初始适应度值进行特征数据选取,获得第二数据特征集;

所述数据集获取模块10,还用于根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集;

所述数据集获取模块10,还用于从所述优化后的目标特征集中选取适应度值最优的目标特征子集;

所述数据处理模块20,用于根据所述适应度值最优的目标特征子集删除所述待处理数据特征集中的冗余数据。

本实施例通过对待处理数据特征集进行离散化处理,获得第一数据特征集;根据第一数据特征集中各特征数据的初始适应度值进行特征数据选取,获得第二数据特征集;根据第二数据特征集对第一数据特征集进行数据优化,获得优化后的目标特征集;从优化后的目标特征集中选取适应度值最优的目标特征子集;根据适应度值最优的目标特征子集删除待处理数据特征集中的冗余数据。本发明根据第二数据特征集对第一数据特征集进行优化,并根据优化后的目标特征子集中适应度值最优的目标特征子集对待处理数据特征集进行处理,从而提高待处理数据特征集在各种数据处理流程中处理效率和精度。

基于本发明上述一种基于多目标智能优化算法的大数据降维装置第一实施例,提出本发明一种基于多目标智能优化算法的大数据降维装置的第二实施例。

在本实施例中,所述数据处理模块20之后,用于根据优化概率模型确定所述第一数据特征集的被优化概率。

进一步地,所述数据处理模块20之后,还用于根据所述被优化概率调整所述第一数据特征集,并返回所述根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集的步骤,直至第一数据优化次数满足预设条件。

进一步地,所述数据处理模块20之后,还用于所述优优化概率模型为:

进一步地,所述数据集获取模块10之后,还用于对所述被优化的特征数据进行标记。

进一步地,所述数据集获取模块10之后,还用于统计所述第一数据集中的各被优化的特征数据的被标记次数。

进一步地,所述数据集获取模块10之后,还用于在所述被标记次数达到预设次数时,删除所述被标记次数达到预设次数的特征数据。

进一步地,所述数据集获取模块10之后,还用于确定所述第一数据集中待优化数据,并返回所述根据所述第二数据特征集对所述第一数据特征集进行特征数据优化,获得优化后的目标特征集的步骤,直至第二数据优化次数满足所述预设条件。

进一步地,所述数据处理模块20之后,还用于更新所述第一数据特征集中所有特征数据的适应度值,并对所述所有特征数据的适应度值进行排序。

进一步地,所述数据处理模块20之后,还用于根据排序结果和预设比例选取更新后第一数据特征集中适应度值最优的数据。

进一步地,所述数据处理模块20之后,还用于确定与所述适应度值最优的数据的相邻特征数据。

进一步地,所述数据处理模块20之后,还用于将所述适应度值最优的数据和所述相邻特征数据添加至所述第二数据特征集。

进一步地,所述数据处理模块20之后,还用于根据所述第一数据优化次数和所述第二数据优化次数确定数据优化总数。

进一步地,所述数据处理模块20之后,还用于在所述数据优化总数达到预设优化总数时,完成对所述待处理数据特征集中的冗余数据的处理。

进一步地,所述数据集获取模块10之前,还用于根据预设数据集中的特征数量和所述预设数据集的数量对预设数据集进行初始化,获得待处理数据特征集。

本发明所述一种基于多目标智能优化算法的大数据降维装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术分类

06120115632390