掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法和系统

文献发布时间:2024-05-31 01:29:11


数据处理方法和系统

技术领域

本说明书涉及人工智能技术领域,尤其涉及一种数据处理方法和系统,用于确定对目标对象进行有效描述的属性数据。

背景技术

在相关技术中,训练系统可以训练得到神经网络模型,预测系统可以基于该神经网络模型对目标对象的目标描述符值进行预测。

其中,在训练系统用于训练神经网络模型的输入数据为样本数据,样本数据为包括全量描述符的描述符集。

然而,本公开的发明人发现,在训练系统采用全量的描述符对神经网络模型进行训练的情况下,尤其是在全量的描述符的数量较多的情况下,训练系统的训练的时间较长、效率较低,且全量的描述符中可能对训练的贡献相当少,即缺少该部分的描述符对训练效果并不会产生很大的影响,反而会降低训练的效率,因此,如何从全量的描述符中确定相对数量的有效描述符,即如何确定对目标对象进行有效描述的属性数据成了亟待解决的问题。

值得说明的是,上述相关技术的内容仅仅是发明人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领域,也不代表其可以成为本公开的现有技术。

发明内容

本公开提供一种数据处理方法和系统,用于确定对目标对象进行有效描述的属性数据,用以避免上述技术问题。

第一方面,本公开提供一种数据处理方法,用于确定对目标对象进行有效描述的属性数据,包括:

获得描述目标对象的属性的描述符集,所述描述符集包括K个描述符;以及

对所述描述符集进行多次降维迭代以减少所述描述符集中的描述符数量,直至所述多次降维迭代满足预设停止信息,其中所述预设停止信息包括所述多次降维迭代的准确性达到第一预设值、并且所述描述符集中所述描述符的数量变化趋近于不变的有效数量值N,所述准确性用于表征预设的目标模型的预测值与真实值之间的一致性,所述K和所述N均为大于1的整数;

从所述多次降维迭代所获得的描述符中,将出现频率满足预设条件的描述符确定为核心描述符;以及

将所述核心描述符和所述N作为所述属性数据输出。

在一些实施例中,所述预设条件是指所述核心描述符中描述符的最小出现频率与其余描述符中描述符的最大出现频率之间的差异大于预设差异阈值。

在一些实施例中,所述目标模型是基于所述核心描述符和所述N对所述目标对象进行目标描述符值预测的人工智能模型;

所述目标对象是目标材料,所述描述符集中的描述符是所述目标材料已知的描述符;

所述降维迭代是针对所述目标模型的迭代。

在一些实施例中,所述对所述描述符集进行多次降维迭代以减少所述描述符集中的描述符数量,直至所述多次降维迭代满足预设停止信息,包括:

采用遗传算法对所述描述符集进行多次降维迭代以减少所述描述符集中的描述符数量,直至所述多次降维迭代满足所述预设停止信息。

在一些实施例中,所述采用遗传算法对所述描述符集进行多次降维迭代以减少所述描述符集中的描述符数量,直至所述多次降维迭代满足预设停止信息,包括:

在第一次降维迭代的情况下,根据所述描述符集生成初始种群,所述初始种群中包括P个个体,其中所述P为大于1的整数,每一个体为所述描述符集中的多个描述符组成的向量、并且每一个体表征组成该个体的多个描述符中每一描述符被选中或未被选中参与所述多次降维迭代的信息,不同个体中的描述符不完全相同;以及,

在所述初始种群不满足预设停止信息的情况下,对所述P个个体进行遗传操作,得到新种群,并基于所述新种群进入第二次降维迭代,直至得到使得所述多次降维迭代满足所述预设停止信息的目标种群。

在一些实施例中,所述对所述P个个体进行遗传操作,得到新种群,包括:

从所述P个个体中,获得以两个个体为一组的个体组;

针对每一个体组中的每一个体,计算该个体中的描述符的适应度值,其中适应度值用于表征所述目标模型基于个体进行预测的准确程度值;

根据各适应度值对所述初始种群进行更新,得到所述新种群。

在一些实施例中,所述根据各适应度值对所述初始种群进行更新,得到所述新种群,包括:

对每一个体组中适应度值大的个体进行交叉和/或变异,以对所述初始种群进行更新,得到所述新种群;

其中,所述变异是指针对各个体组中适应度值大的至少一个个体,将所述至少一个个体中的至少一个描述符的参与所述多次降维迭代的状态进行调整;

所述交叉是指针对各个体组中适应度值大的两个个体,将所述两个个体中的任意位置的描述符进行互换。

在一些实施例中,所述从所述多次降维迭代的每次降维迭代所获得的描述符中,将出现频率满足预设条件的描述符确定为核心描述符,包括:

计算参与所述多次降维迭代的种群中的各描述符各自对应的出现频率;

根据各出现频率确定所述核心描述符。

在一些实施例中,所述根据各出现频率确定所述核心描述符,包括:

对各出现频率进行降序排列;

在所述降序排列中,第一次相邻两个出现频率之间的差异大于预设差异阈值的情况下,将所述降序排列中第一出现频率的描述符直至第二出现频率的描述符确定为所述核心描述符;

其中,所述第二出现频率为所述相邻两个出现频率中大的出现频率。

第二方面,本公开提供一种数据处理系统,用于确定对目标对象进行有效描述的属性数据,包括:

至少一个存储器,所述存储器包括至少一组指令来推送信息;

至少一个处理器,同所述至少一个存储器进行通讯;

其中,当所述至少一个处理器执行所述至少一组指令时,实施如第一方面任一项所述的方法。

第三方面,本公开提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行第一方面任一项所述的方法。

第四方面,本公开提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;

所述存储器存储计算机执行指令;

所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面任一项所述的方法。

第五方面,本公开提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面。

本公开提供一种数据处理方法和系统,用于确定对目标对象进行有效描述的属性数据,包括:获得描述目标对象的属性的描述符集,描述符集包括K个描述符,对描述符集进行多次降维迭代以减少描述符集中的描述符数量,直至多次降维迭代满足预设停止信息,预设停止信息包括多次降维迭代的准确性达到第一预设值、并且描述符集中描述符的数量变化趋近于不变的有效数量值N,准确性用于表征预设的目标模型的预测值与真实值之间的一致性,K和N均为大于1的整数,从多次降维迭代所获得的描述符中,将出现频率满足预设条件的描述符确定为核心描述符,将核心描述符和N作为属性数据输出,在本实施例中,确定系统通过对描述符集的降维迭代,可以得到在描述符集中描述符的数量基本保持不变、且使得目标模型的预测性能相对较好的有效的描述符数量(即N),并且确定系统通过对参与降维迭代的描述符的出现频率的统计,可以得到出现频率相对较多且对目标模型的预测性能影响较强的描述符(即核心描述符),相应的,确定系统可以将N和核心描述符作为目标对象的属性数据,以提高用于对目标对象进行描述的属性数据的有效性和可靠性。

附图说明

为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例的数据处理方法的应用场景示意图;

图2为本公开实施例的用于确定对目标对象进行有效描述的属性数据的方法的示意图;

图3为本公开实施例的采用遗传算法对描述符集进行多次降维迭代以减少描述符集中的描述符数量,直至多次降维迭代满足预设停止信息的方法的示意图;

图4为本公开实施例的遗传算法的原理示意图;

图5为本公开实施例的遗传算法的效果示意图;

图6为本公开实施例的电子设备的硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应该理解的是,本公开实施例中术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本公开实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本公开实施例中术语“多个”是指两个或两个以上,其它量词与之类似。

本公开中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwiseindicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本公开实施例图示或描述中给出那些以外的顺序实施。

本公开中使用的术语“单元/模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。

为便于读者对本公开的理解,现对本公开的至少部分术语解释如下:

描述符,是指对目标对象进行描述的信息。例如,在目标对象为目标材料的情况下,描述符可以为用于对目标材料的性质进行描述的信息,如描述符可以为用于对目标材料的导电性能进行描述符的信息等;在目标对象为目标语音的情况下,描述符可以为用于对目标语音进行描述的意图和/或音量等;在目标对象为目标文本的情况下,描述符可以为用于对目标文本进行描述的字符等;在目标对象为目标图像的情况下,描述符可以用于对目标图像进行描述的纹理特征、颜色特征、像素特征、位置特征等。

目标描述符值,是指与目标描述符对应的预测值。例如,在目标对象为目标材料的情况下,目标描述符值可以理解为对目标材料的性能进行预测的预测值,如预测值可以为导电率等等,此处不再一一列举。

神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络包括人工神经网络(Artificial Neural Network,ANN)和卷积神经网络(Convolutional Neural Networks,CNN)。

其中,ANN是指由大量的神经元互相连接而形成的复杂网络结构,是对人脑组织结构和运行机制的某种抽象、简化和模拟。ANN有多层和单层之分,每一层包含若干神经元,各神经元之间用带可变权重的有向弧连接,网络通过对已知信息的反复学习训练,通过逐步调整改变神经元连接权重的方法,达到处理信息、模拟输入输出之间关系的目的。

CNN是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward NeuralNetworks),是深度学习(deep learning)的代表算法之一。CNN具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks,SIANN)”。

在相关技术中,预测系统可以基于预先训练好的神经网络模型对目标描述符值进行预测,且神经网络模型可以由预测系统训练得到,也可以由其他系统(如训练系统)训练得到,本实施例不做限定。

例如,神经网络模型由训练系统训练得到为例,预先训练好的神经网络模型是由训练系统基于样本数据训练得到的,样本数据可以为样本描述符。即在神经网络模型的训练阶段,训练系统将样本描述符输入至单级推理的初始网络模型,以基于初始网络模型对样本数据进行预测,输出预测结果(即预测的目标描述符值),预测系统将预测结果与预先标注的真实结果(即真实的目标描述符值)进行比对,得到比对结果,并基于比对结果对初始网络模型的参数进行迭代更新,从而得到训练好的神经网络模型。

相应的,训练系统可以将训练好的神经网络模型传输给预测系统,或者,预测系统在有预测需求时,可以从训练系统中调用训练好的神经网络模型,以基于训练好的神经网络模型进行预测。例如,在应用阶段,预测系统将需要预测的预测数据输入至训练好的神经网络模型,输出预测结果。

且从用以训练神经网络模型的样本数据的数量来看,样本数据的数量为全量的样本数据,即样本描述符为全量的描述符,也就是说,训练系统基于获取到的全量的样本描述符对神经网络模型进行训练。

然而,在训练系统采用全量的样本描述符对神经网络模型进行训练的情况下,尤其是在全量的样本描述符的数量较多的情况下,训练系统的训练的时间较长、效率较低,且全量的样本描述符中可能对训练的贡献相当少,即缺少该部分的样本描述符对训练效果并不会产生很大的影响,反而会降低训练的效率,因此,如何从全量的样本描述符中确定相对数量的有效描述符,即如何确定对目标对象进行有效描述的属性数据成了亟待解决的问题。

值得说明的是,上述相关技术的内容仅仅是发明人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领域,也不代表其可以成为本公开的现有技术。

为了避免上述问题中的至少一种,本公开提出了经创造性劳动的技术构思:确定装置对获得的用于描述目标对象的属性的描述符集进行多次降维迭代,以减少描述符集中的描述符数量,直至得到既不影响目标模型的预测性能(即目标模型的预测性能基本保持稳定)、并且描述符的数量基本保持稳定的属性数据。

在对本公开的用于确定对目标对象进行有效描述的属性数据方法的实现原理进行阐述之前,先对本公开的用于确定对目标对象进行有效描述的属性数据方法的应用场景进行示范性地描述,以加深读者对本公开的用于确定对目标对象进行有效描述的属性数据方法的理解。

图1为本公开实施例的用于确定对目标对象进行有效描述的属性数据的方法的应用场景示意图,其中,本公开的用于确定对目标对象进行有效描述的属性数据方法可以应用于如图1所示的系统100。如图1所示,系统100可以包括目标用户101、客户端102、服务器103以及网络104。

目标用户101可以为触发对目标对象进行有效描述的属性数据进行确定的用户,目标用户101可以在客户端102进行属性数据的确定。

客户端102可以为响应于目标用户102的对目标对象进行有效描述的属性数据进行确定的设备。即本公开的用于确定对目标对象进行有效描述的属性数据方法可以在客户端102上执行。此时,客户端102可以存储有执行本说明书描述的用于确定对目标对象进行有效描述的属性数据的方法的数据或指令,并可以执行或用于执行数据或指令。在一些实施例中,客户端102可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。

如图1所示,客户端102可以与服务器103进行通信连接。其中,服务器103可以与一个客户端102进行通信连接,也可以与多个客户端102进行通信连接。在一些实施例中,客户端102可以通过网络104与服务器103交互,以接收或发送消息等。

在一些实施例中,客户端102可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容,或其任意组合。在一些实施例中,移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备,或其任意组合。在一些实施例中,智能家居装置可包括智能电视、台式电脑等,或任意组合。在一些实施例中,智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等,或其任意组合。在一些实施例中,机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中,客户端102可以包括文本采集设备,用于采集检索词。

在一些实施例中,客户端102可以安装有一个或多个应用程序(Application,APP)。APP能够为目标用户101提供通过网络104同外界交互的能力以及界面。APP包括但不限于:网页浏览器类APP程序、搜索类APP程序、聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序、即时通信工具、邮箱客户端、社交平台软件等等。在一些实施例中,客户端102上可以安装有目标APP。目标APP能够为客户端102采集检索词。

服务器103可以是提供各种服务的服务器,例如对客户端102上采集的多个账号对应的用户数据集合和账号登录信息,并对多个账号确定各自对应的目标对象进行有效描述的属性数据提供支持的后台服务器。

在一些实施例中,本公开提供的用于确定对目标对象进行有效描述的属性数据的方法可以在服务器103上执行。此时,服务器103可以存储有执行本说明书描述的用于确定对目标对象进行有效描述的属性数据的方法的数据或指令,并可以执行或用于执行数据或指令。

在一些实施例中,服务器103可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。同理,服务器103可以与一个客户端103通信连接,并接收该客户端103发送的数据,也可以与多个客户端103通信连接,并接收各客户端103各自发送的数据。

网络104为用于在客户端102和服务器103之间提供通信连接的介质。网络104可以促进信息或数据的交换。如图1所示,客户端102和服务器103可以分别与网络104连接,并且通过网络104互相传输信息或数据。

在一些实施例中,网络104可以是任何类型的有线或无线网络,也可以是其组合。例如,网络104可以包括电缆网络,有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公共交换电话网(Public Switched Telephone Network,PSTN)、蓝牙网络TM、短程无线网络(ZigBeeTM)、近场通信(Near Field Communication,NFC)网络或类似网络。

在一些实施例中,网络104可以包括一个或多个网络接入点。例如,网络104可以包括有线或无线网络接入点,如基站或互联网交换点,通过该接入点,客户端102和服务器103的一个或多个组件可以连接到网络104以交换数据或信息。

应该理解的是,图1中的客户端102、服务器103和网络104的数量仅仅是示意性的。根据实现需要,可以具有任意数量的客户端102、服务器103和网络104。且本公开提供的用于确定对目标对象进行有效描述的属性数据的方法可以完全在客户端102上执行,也可以完全在服务器103上执行,还可以部分在客户端102上执行,部分在服务器103上执行。

也就是说,图1和针对图1的上述描述,只是用于示范性地阐述本公开的用于确定对目标对象进行有效描述的属性数据的方法可能适用的应用场景,而不能理解为对应用场景的限定。

请参阅图2,图2为本公开实施例的用于确定对目标对象进行有效描述的属性数据的方法的示意图。如图2所示,该方法包括:

S201:获得描述目标对象的属性的描述符集,其中,描述符集包括K个描述符,K为大于1的整数。

示例性的,本实施例的执行主体可以为用于确定对目标对象进行有效描述的属性数据的装置(下文简称为确定装置),确定装置可以为服务器,也可以为终端设备,也可以为处理器,也可以为芯片,等等,此处不再一一列举。

若确定装置为服务器,则确定装置可以为独立的服务器,也可以为集群服务器;可以为云端服务器,也可以为本地服务器,本实施例不做限定。

示例性的,结合图1所示的应用场景,确定装置可以为客户端,也可以为服务器,也可以为包括客户端和服务器的系统。

本实施例对获得描述符集的方式不做限定,例如:

一个示例中,确定装置可以与其他装置连接,并接收由其他装置发送的描述符集。示例性的,以图1所示的应用场景为例,确定装置可以为如图1所示的服务器,其他装置可以为如图1所示的客户端,用户可以通过APP或非APP的方式在客户端上输入描述符集,以触发客户端向服务器发送描述符集。

另一个示例中,确定装置可以提供载入描述符集的工具,用户可以通过该载入描述符集的工具将描述符集传输至确定装置。

其中,载入描述符集的工具可以为用于与外接设备连接的接口,如用于与其他存储设备连接的接口,通过该接口获取外接设备传输的描述符集;载入描述符集的工具也可以为显示装置,如确定装置可以在显示装置上输入载入描述符集功能的界面,用户可以通过该界面将描述符集导入至确定装置,确定装置获取导入的描述符集。

S202:对描述符集进行多次降维迭代以减少描述符集中的描述符数量,直至多次降维迭代满足预设停止信息,其中,预设停止信息包括多次降维迭代的准确性达到第一预设值、并且描述符集中描述符的数量变化趋近于不变的有效数量值N,准确性用于表征预设的目标模型的预测值与真实值之间的一致性,N为大于1的整数。

其中,降维迭代可以理解为确定装置减少描述符集中的描述符数量,以测试减少数量后的描述符对目标模型的预测值与真实值之间的一致性的影响,并不断重复该测试操作。相应的,预设停止信息可以理解为确定装置不断进行测试操作,直至在某次测试操作时,确定装置确定减少数量后的描述符使得目标模型的预测值与真实值之间的满足一致性达到要求(即一致性相对较高),而且在满足一致性维度的要求的情况下减少数量后的描述符集中剩余的描述符数量基本保持不变。

也就是说,N是指描述符集中剩余的描述符数量为使得目标模型的预测值与真实值之间满足一致性要求、并且描述符数量不再继续减少时的描述符集中剩余的描述符数量,我们可以将该数量N称为有效数量值N。

本实施例对第一预设值的大小不做限定,具体可以由确定装置基于需求、历史记录、以及试验等方式确定。例如,在可靠性需求相对较高的场景的情况下,确定装置可以将第一预设值设置为相对较大的值;反之,在可靠性需求相对较低的场景的情况下,确定装置可以将第一预设值设置为相对较小的值。

在一些实施例中,S202可以包括:采用遗传算法对描述符集进行多次降维迭代以减少描述符集中的描述符数量,直至多次降维迭代满足预设停止信息。

也就是说,在一种可能实现的技术方案中,确定装置可以采用遗传算法与网络模型相结合的方式进行多次降维迭代。

示例性的,结合图3可知,确定装置采用遗传算法对描述符集进行多次降维迭代以减少描述符集中的描述符数量,直至多次降维迭代满足预设停止信息,可以包括如下步骤:

S301:在第一次降维迭代的情况下,根据描述符集生成初始种群,其中,初始种群中包括P个个体,P为大于1的整数,每一个体为描述符集中的多个描述符组成的向量、并且每一个体表征组成该个体的多个描述符中每一描述符被选中或未被选中参与多次降维迭代的信息,不同个体中的描述符不完全相同。

示例性的,描述符集中包括909个描述符,在第一次降维迭代的情况下,确定装置基于909个描述符生成初始种群,初始种群中包括多个个体,如包括一千个个体,一个个体为一个向量,即初始种群中包括一千个向量,且针对该一千个向量中的每一个向量,该向量中包括多个描述符参与第一次降维迭代的信息,例如,在该向量中,被选中参与第一次降维迭代的描述符用1表示,没被选中的描述符用0表示。

S302:在初始种群不满足预设停止信息的情况下,对P个个体进行遗传操作,得到新种群。

示例性的,将初始种群作为目标模型的输入数据输入至目标模型,目标模型基于初始种群对目标对象的目标描述符值进行预测,得到预测描述符值,在确定装置基于预测描述符值确定初始种群不满足预设停止信息的情况下,确定装置对初始种群进行遗传操作,以得到新种群。

在一些实施例中,结合图3可知,S302可以包括如下步骤:

S3021:从P个个体中,获得以两个个体为一组的个体组。

也就是说,确定装置基于初始种群构建多个个体组,一个个体组包括两个个体,即一个个体组包括两个向量。

S3022:针对每一个体组中的每一个体,计算该个体中的描述符的适应度值,其中,适应度值用于目标模型基于个体进行预测的准确程度值。

同理,针对每一个体,确定装置可以将该个体作为目标模型的输入数据,确定装置运行目标模型,目标模型基于该个体确定预测值,确定装置基于预测值与真实值之间的差异计算得到该个体中的描述符的适应度值。

S3023:根据各适应度值对初始种群进行更新,得到新种群。

在一些实施例中,S3023可以包括:对每一个体组中适应度值大的个体进行交叉和/或变异,以对初始种群进行更新,得到新种群。其中,变异是指针对各个体组中适应度值大的至少一个个体,将至少一个个体中的至少一个描述符的参与多次降维迭代的状态进行调整。交叉是指针对各个体组中适应度值大的两个个体,将两个个体中的任意位置的描述符进行互换。

示例性的,如图4所示,确定装置基于909个描述符生成多个(如一千个)向量,在任意一个向量中,被选中参与遗传算法的描述符用1表示,没被选中的描述符用0表示,确定装置在运行遗传算法(如图4中所示的“遗传”)的情况下,确定装置可以先随机将两个向量(如图4中所示的“R1

其中,如图4所示,确定装置可以对向量R2

值得说明的是,在确定装置进行交叉变异操作的情况下,确定装置可以选择向量中的某一个值实现,也可以选择多个值实现。上述示例只是以一个值为例进行的示范性地说明,而不能理解为对本实施例的交叉变异操作的限定。

上述示例是从交叉和变异两个方面对确定装置确定新种群进行阐述,在另一些实施例中,确定装置也可以仅从交叉的维度确定新种群,或者,确定装置也可以仅从变异的维度确定新种群,实现原理可以参见上述示例,此处不再赘述。

值得说明的是,由于适应度值与目标模型的预测性能正相关,即适应度值大的个体更能影响目标模型的预测性能,因此,确定装置基于大的适应度值进行交叉和/或变异以得到新种群,可以提高确定相对更能影响目标模型的预测性能的目标种群,即可以通过确定新种群的可靠性而提高确定目标种群的效率。

S303:基于新种群进入第二次降维迭代,直至得到使得多次降维迭代满足预设停止信息的目标种群。

相应的,结合上述示例,确定装置在获得新种群的情况下,基于新种群进入第二次降维迭代,以此类推,直至确定装置获得满足预设停止信息的种群(即目标种群)。

S203:从多次降维迭代所获得的描述符中,将出现频率满足预设条件的描述符确定为核心描述符。

示例性的,确定装置是以不断减少描述符集中的描述符数量的方式对描述符集进行降维迭代的,因此,确定装置在每次降维迭代中所采用的描述符数量是不相同的,即在每次降维迭代中所采用的描述符是不相同的。

相应的,在该步骤中,确定装置以每次降维迭代所采用的描述符中的各描述符的出现频率为基准,确定出现频率满足预设条件的描述符,并将满足预设条件的出现频率对应的描述符确定为核心描述符。

也就是说,某描述符的出现频率为该描述符在多次降维迭代中出现的频繁程度,相对而言,该描述符在多次降维迭代中出现越频繁,说明该描述符对目标模型的性能(如上述示例中的准确性,即目标模型的预测值与真实值之间的一致性)影响程度越大。因此,核心描述符可以理解为描述符集中,对目标模型的性能影响相对更大的描述符。

在一些实施例中,预设条件是指核心描述符中描述符的最小出现频率与其余描述符中描述符的最大出现频率之间的差异大于预设差异阈值。

示例性的,基于描述符对目标模型的性能的影响程度,可以将描述符分为核心描述符和非核心描述符(即其余描述符),且各描述符具有各自对应的出现频率。也就是说,各核心描述符具有各自对应的出现频率,该出现频率中存在最小的出现频率(即最小出现频率),同理,各非核心描述符也具有各自对应的出现频率,而该出现频率中存在最大的出现频率(即最大出现频率),而预设条件是指最小出现频率与最大出现频率之间的差值较大(如大于预设差异阈值)。

同理,本实施例对预设差异阈值的大小不做限定,可以由确定装置基于需求、历史记录、以及试验等方式确定。

在本实施例中,确定装置结合出现频率和预设差异阈值确定预设条件,以便基于预设条件确定核心描述符,可以实现对描述符集中的描述符的筛选的准确性,以使得筛选得到的核心描述符可以降低训练目标模型的效率、并且可以得到可靠性相对较高的目标模型。

在一些实施例中,目标模型是基于核心描述符和N对目标对象进行目标描述符值预测的人工智能模型。目标对象是目标材料,描述符集中的描述符是目标材料已知的描述符。降维迭代是针对目标模型的迭代。

示例性的,目标对象可以为目标材料,目标描述符值可以为目标材料的导电率,人工智能模型可以为以根据核心描述符和N确定的描述符作为输入数据、以导电率作为输出的人工智能模型。

其中,输入数据中包括核心描述符,还包括基于N和核心描述符的数量从非核心描述符中选取的非核描述符。例如,输入数据中的非核心描述符的数量、以及核心描述符的数量之和为N,即输入数据中的非核心描述符的数量为N减去核心描述符的数量,并且输入数据中的非核心描述符为非核心描述符中的任意描述符。

本实施例对人工智能模型的结构和类型等不做限定,例如人工智能模型可以为包括CNN和ANN的网络结构。

结合上述示例,降维迭代可以为确定装置针对人工智能模型执行的操作,且降维具体可以理解为对描述符集中的描述符的数量的减少、以及基于降维后的描述符集对人工智能模型进行的训练,整个过程是迭代的过程,即不断循环执行的过程,直至该循环过程满足预设停止信息。

例如,在第i次降维迭代的情况下,确定装置在描述符集i-1的基础上减少描述符数量,得到描述符集i,并将描述符集i作为人工智能模型i-1的输入以对人工智能模型的目标描述符值的预测能力进行训练,得到人工智能模型i,且在第i次降维迭代不满足预设停止信息的情况下,进入第i+1次降维迭代,同理,在第i+1次降维迭代的情况下,确定装置在描述符集i的基础上减少描述符数量,得到描述符集i+1,并将描述符集i+1作为人工智能模型i的输入以对人工智能模型的目标描述符值的预测能力进行训练,得到人工智能模型i+1,且在第i+1次降维迭代不满足预设停止信息的情况下,进入第i+2次降维迭代,以此类推,直至在第i+k次降维迭代满足预设停止信息。其中,i和k均为大于1的整数。

相应的,结合图5所示,横坐标为多次降维迭代的次数(如图5中所示的“次数”),总坐标包括两个维度的内容,一个维度的内容为基于初始种群生成的向量的数量,可以为如图5中所示的一千个,一个维度的内容为预测结果的准确度。图5中包括两条曲线,一条曲线为描述符的维度的曲线(如图5中所示的“b”),另一条曲线为准确度的曲线(如图5中所示的“a”)。

从图5可知,在确定装置基于遗传算法进行降维迭代的场景中,随着降维迭代的次数的增加,在降维迭代的次数达到一定阈值(如图5中所示50次左右)的情况下,准确度、以及描述符的数量基本保持不变,如准确度基本上维持在0.95,描述符的数量基本上维持在20个。

因此,有效数量值N可以理解为在降维迭代中,描述符维度基本稳定而不再下降,且准确度也基本稳定而不下降时的描述符的数量。而核心描述符可以基于参与降维迭代的各描述符的统计次数确定。如确定装置确定参与降维迭代的每一描述符的出现频率,即降维迭代中描述符的出现次数,并从各出现频率中确定出现频率较高的多个描述符作为核心描述符,如将出现频率最高的前L个描述符作为核心描述符,且核心描述符中最小出现频率与非核心描述符中最大出现频率之间的差值较大,如该最小出现频率与最大出现频率之间的差异存在各描述符中首次频率断崖式下跌的情况。

在一些实施例中,结合图2可知,S203可以包括如下步骤:

S2031:计算参与多次降维迭代的种群中的各描述符各自对应的出现频率。

示例性的,种群与降维迭代之间存在对应关系,即确定装置用于不同降维迭代中的种群是不同的,而不同的种群所包括的描述符是至少部分不同的,因此,不同的描述符参与降维迭代的次数可能不同,如某些描述符可能参与了更多次数的降维迭代,而某些描述符可能参与了更少次数的降维迭代,在该步骤中,确定装置对参与了降维迭代的描述符的参与频率(即出现频率)进行计算。

S2032:根据各出现频率确定核心描述符。

由于各描述符的出现频率表征了各描述符参各自与降维迭代的参与程度,因此,在此基础上,确定装置可以基于各描述符各自对应的参与程度确定核心描述符。

在一些实施例中,S2032可以包括如下步骤:

第一步骤:对各出现频率进行降序排列。

第二步骤:在降序排列中,第一次相邻两个出现频率之间的差异大于预设差异阈值的情况下,将降序排列中第一出现频率的描述符直至第二出现频率的描述符确定为核心描述符。其中,第二出现频率为相邻两个出现频率中大的出现频率。

示例性的,确定装置对各出现频率从大到小进行排序,得到包括各出现频率的降序排列,确定装置可以依次对降序排列中的相邻出现频率进行大小比对,以判断相邻出现频率之间的大小差异是否大于预设差异阈值,如果是,则说明相邻出现频率对应的两个出现频率之间差异较大,则确定装置可以将降序排序中的第一出现频率的描述符直至该相邻出现频率中的较小出现频率的描述符确定为核心描述符。

例如,降序排列中包括出现频率F1、出现频率F2、直至出现频率Fa,确定装置确定现频率F1与出现频率F2之间的大小差异是否大于预设差异阈值,如果是,则将出现频率F1的描述符与出现频率F2的描述符确定为核心描述符,反之,则确定装置继续确定现频率F2与出现频率F3之间的大小差异是否大于预设差异阈值,如果是,则将出现频率F1的描述符与出现频率F3的描述符确定为核心描述符,反之,则继续确定现频率F3与出现频率F4之间的大小差异是否大于预设差异阈值,以此类推,此处不再一一列举。

结合上述示例针对预设条件的描述可知,本实施例中的第二出现频率为预设条件中的最小出现频率,而预设条件中的最大出现频率为相邻两个出现频率中小的出现频率。

在本实施例中,确定装置通过排序的方式确定核心描述符,可以实现快速定位出现频率变化较大(即大于预设差异阈值)的相邻两个出现频率,从而可以实现快速确定核心描述符,即可以提高确定核心描述符的效率。

S204:将核心描述符和N作为属性数据输出。

示例性的,在确定装置获得核心描述符和N之后,可以将核心描述符和N输出给训练装置,以便训练装置基于核心描述符和N确定目标模型的输入数据,从而使得在预测装置运行目标模型的情况下,目标模型基于输入数据输出目标对象的目标描述符值。

结合上述分析,N为描述符的有效数量值,核心描述符为对目标模型的性能造成影响的描述符,因此,在训练阶段,训练装置基于N和核心描述符确定目标模型的输入数据,以避免将全量的描述符作为目标模型的输入数据,即可以减少输入数据的数量,且不会影响目标模型的预测效果。

值得说明的是,上述示例只是用于示范性地说明,本公开的用于确定对目标对象进行有效描述的属性数据的方法可能的实现方式,而不能理解为对本公开的用于确定对目标对象进行有效描述的属性数据的方法的实现方式的限定。示例性的,在上述技术构思的基础上,可以将上述中的部分技术特征组合,得到新的实施例;也可以在上述示例的基础上增加新的技术特征,得到新的实施例;也可以在上述示例的基础上减少部分技术特征,得到新的实施例;也可以将上述示例中的部分技术特征替换为其他的技术特征;也可以将上述示例中的部分技术特征和顺序进行调整,得到新的实施例,等等,此处不再一一列举。

根据上述技术构思,本公开还提供了一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行如上任一实施例所述的用于确定对目标对象进行有效描述的属性数据的方法。

根据上述技术构思,本公开还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上任一实施例所述的用于确定对目标对象进行有效描述的属性数据的方法。

根据上述技术构思,本公开还提供了一种数据处理系统,用于确定对目标对象进行有效描述的属性数据,包括:

至少一个存储器,所述存储器包括至少一组指令来推送信息;

至少一个处理器,同所述至少一个存储器进行通讯;

其中,当所述至少一个处理器执行所述至少一组指令时,实施如上任一实施例所述的用于确定对目标对象进行有效描述的属性数据的方法。

根据上述技术构思,本公开还提供了一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;

所述存储器存储计算机执行指令;

所述处理器执行所述存储器存储的计算机执行指令,以实现如上任一实施例所述的用于确定对目标对象进行有效描述的属性数据的方法。

其中,图6为本公开实施例的电子设备600的硬件结构图。电子设备600可以执行如上任一实施例所述的用于确定对目标对象进行有效描述的属性数据的方法。

以本公开实施例的用于确定对目标对象进行有效描述的属性数据的方法应用于如图1所示的应用场景为例,对电子设备600的阐述如下:

在如上任一实施例所述的用于确定对目标对象进行有效描述的属性数据的方法在客户端102上执行的情况下,电子设备600可以是客户端102。在如上任一实施例所述的用于确定对目标对象进行有效描述的属性数据的方法在服务器103上执行的情况下,电子设备600可以是服务器103。在如上任一实施例所述的用于确定对目标对象进行有效描述的属性数据的方法部分在客户端102上执行,部分在服务器103上执行的情况下,电子设备600可以是客户端102和服务器103。

如图6所示,电子设备600可以包括至少一个存储介质601和至少一个处理器602。在一些实施例中,电子设备600还可以包括通信端口603和内部通信总线604。同时,电子设备600还可以包括输入/输出(Input/Output,I/O)组件605。

内部通信总线604可以连接不同的系统组件,包括存储介质601、处理器602和通信端口603。I/O组件605支持电子设备600和其他组件之间的输入/输出。通信端口603用于电子设备600同外界的数据通信,比如,通信端口603可以用于电子设备600同网络104之间的数据通信。通信端口603可以是有线通信端口也可以是无线通信端口。

存储介质601可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质,也可以是暂时性存储介质。比如,所述数据存储装置可以包括磁盘6011、只读存储介质(Read-Only Memory,ROM)6012或随机存取存储介质(Random Access Memory,RAM)6013中的一种或多种。存储介质601还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码,所述计算机程序代码可以包括执行本说明书提供的用于确定对目标对象进行有效描述的属性数据的方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器602可以同至少一个存储介质601以及通信端口603通过内部通信总线604通信连接。至少一个处理器602用以执行上述至少一个指令集。当电子设备600运行时,至少一个处理器602读取所述至少一个指令集,并且根据所述至少一个指令集的指示,执行本说明书提供的用于确定对目标对象进行有效描述的属性数据的方法。处理器602可以执行用于确定对目标对象进行有效描述的属性数据的方法包含的所有步骤。处理器602可以是一个或多个处理器的形式,在一些实施例中,处理器602可以包括一个或多个硬件处理器,例如微控制器,微处理器,精简指令集计算机(Reduced Instruction Set Computer,RISC),专用集成电路(Application Specific Integrated Circuit,ASIC),特定于应用的指令集处理器(Application Specific Instruction Processor,ASIP),中心处理单元(Central Processing Unit,CPU),图形处理单元(graphics processing unit,GPU),物理处理单元(Physics Processing Unit,PPU),微控制器单元,数字信号处理器(DigitalSignal Processor,DSP),现场可编程门阵列(Field Programmable Gate Array,FPGA),高级RISC机器(ARM),可编程逻辑器件(Programmable Logic Device,PLD),能够执行一个或多个功能的任何电路或处理器等,或其任何组合。仅仅为了说明问题,在本说明书中电子设备600中仅描述了一个处理器602。然而,应当注意,本说明书中电子设备600还可以包括多个处理器,因此,本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行,也可以由多个处理器联合执行。例如,如果在本说明书中电子设备600的处理器602执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同处理器602联合或分开执行(例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。

本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中,使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

相关技术
  • 一种数据实时处理系统及数据实时处理方法
  • 基于大数据分析平台的发电大数据预处理方法及系统
  • 数据处理设备、数据处理方法、程序转换处理设备和程序转换处理方法、程序转换处理设备、数据处理设备、程序转换处理方法和数据处理方法、数据处理设备、数据处理方法、程序分析处理设备和程序分析处理方法、数据处理设备、历史保存设备、数据处理方法和程序、以及编译处理设备
  • 处理装置、处理方法、数据处理装置、数据处理系统、数据处理方法和程序
技术分类

06120116623280