掌桥专利:专业的专利平台
掌桥专利
首页

模型推荐方法、装置、设备及存储介质

文献发布时间:2023-06-19 13:49:36


模型推荐方法、装置、设备及存储介质

技术领域

本申请涉及计算机领域,尤其涉及一种模型推荐方法、装置、设备及存储介质。

背景技术

人工智能的流行,对于建模,算法的需求越来越高,大部分行业都希望通过算法实行预测,或者精细化运营的需求。例如保险行业,可以通过模型识别有保险意向的用户进行营销,智慧城市中,会根据人流量预测未来一段时间内哪些地方人流量增加,加紧安排交警或者人员巡逻。所以很多机构会购入建模平台,但是建模平台需要使用者有一定的建模基础,判断使用什么模型适合自己的数据。

当前在现有的建模平台上挑选模型时,大部分是将数据把全部的模型跑一变,通过跑出来的模型指标相互比较,选择出来一个更优的模型。由于每个模型都跑一遍,导致挑选模型的等待时间过长。

例如,当需要选择一个模型进行人脸识别时,由于用户不确定哪种模型适合进行人脸识别,所以需要将全部的关于人脸检测的模型都跑一遍,以选择一个最优的模型,这个过程消耗的时间过长,导致用户等待时间过长。

发明内容

本申请提供了一种模型推荐方法、装置、设备及存储介质,用以解决现有的模型选择过程中存在的建模时间长且对建模人员理论理解需求高的问题。

第一方面,提供一种模型推荐方法,包括:

获取待匹配的应用数据;

确定与所述应用数据对应的模型选择参数;

按照所述模型选择参数,确定所述应用数据分别与各模型各自的匹配度;

获取所述匹配度大于匹配度阈值的N个模型;

从所述N个模型中确定向用户推荐的模型。

可选地,确定与所述应用数据对应的模型选择参数,包括:

获取用户所指示的模型的学习类型,所述模型的学习类型包括半监督学习、有监督学习或无监督学习;

确定与所述应用数据对应的数据概况向量,所述数据概况向量用于按照预设的模型选择维度描述所述应用数据;

将所述模型的学习类型和所述数据概况向量作为所述模型选择参数。

可选地,所述模型选择维度包括以下至少一种:

数据的维度数量;

数据的字符类型占比;

数据的数值类型占比;

数据缺失比例;

模型的输出方式。

可选地,从所述N个模型中确定向用户推荐的模型,包括:

确定N个所述模型各自的模型类型;

从每个所述模型类型中随机选择一个模型作为目标模型;

将所述目标模型作为向所述用户推荐的模型。

可选地,从所述N个模型中确定向用户推荐的模型,包括:

获取适于所述N个模型的输入参数,所述输入参数为所述应用数据中的维度参数;

从所述应用数据中提取维度参数属于所述输入参数的目标数据;

将所述目标数据分别输入N个所述模型,得到N个输出结果;

分别确定各所述输出结果的准确度;

将所述准确度最高的模型作为向所述用户推荐的模型。

可选地,确定与所述应用数据对应的模型选择参数之前,还包括:

确定与所述应用数据对应的数据输入规范,所述数据输入规范指示所述应用数据包含模型匹配所必须的数据类型;

确定所述应用数据符合所述数据输入规范。

可选地,确定与所述应用数据对应的数据输入规范,包括:

确定所述应用数据所属的目标数据类别;

根据预设的数据类别与数据输入规范的映射关系,确定与所述目标数据类别对应的目标数据输入规范;所述数据类别包括文本类或图像类;

将所述目标数据输入规范作为所述数据输入规范。

第二方面,提供一种模型推荐装置,包括:

第一获取单元,用于获取待匹配的应用数据;

第一确定单元,用于确定与所述应用数据对应的模型选择参数;

第二确定单元,用于按照所述模型选择参数,确定所述应用数据分别与各模型各自的匹配度;

第二获取单元,用于获取所述匹配度大于匹配度阈值的N个模型;

第三确定单元,用于从所述N个模型中确定向用户推荐的模型。

第三方面,提供一种电子设备,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;

所述存储器,用于存储计算机程序;

所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的模型推荐方法。

第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的模型推荐方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的技术方案中,获取待匹配的应用数据;确定与应用数据对应的模型选择参数;按照模型选择参数,确定应用数据分别与各模型各自的匹配度;获取匹配度大于匹配度阈值的N个模型;从N个模型中确定向用户推荐的模型。可见,本申请的方案能够提取应用数据中的模型选择参数,并根据模型选择参数向用户推荐模型,大大降低了选择模型时用户的等待时间,同时建模人员理论理解需求较低。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例中模型推荐方法的一种流程示意图;

图2为本申请实施例中模型推荐方法的又一种流程示意图;

图3为本申请实施例中模型推荐装置的结构示意图;

图4为本申请实施例中电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种模型匹配方法,该方法可以应用于任一电子设备中;

该电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、视频矩阵、监控平台、移动互联网设备(MID,MobileInternet Devices)或穿戴式设备等,上述仅是举例,而非穷举,包含但不限于上述装置,当然,上述电子设备还可以为服务器,例如,云服务器。

如图1所示,该方法可以包括以下步骤:

步骤101、获取待匹配的应用数据。

本实施例中,应用数据为模型需要识别检测的数据。应用数据与应用场景相关,在不同的应用场景下,应用数据不同。比如在人脸检测场景下,应用数据为人脸图像数据;在广告推荐的场景系,应用数据为日志数据等。

应用中,该应用数据由用户导入电子设备。

步骤102、确定与应用数据对应的模型选择参数。

其中,模型选择参数为确定应用数据与模型的匹配度的指示参数。

本实施例中,模型选择参数包括模型的学习类型和应用数据对应的数据概况向量。

其中模型的学习类型用于指示模型的学习方式,模型的学习类型包括但不限于半监督学习、有监督学习或无监督学习。

当模型的学习类型为有监督学习时,模型的训练数据既有特征(feature)又有标签(label),通过训练,让模型可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

当模型的学习类型为无监督学习(unsupervised learning)时,模型的训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类"(clustering),其他无监督算法还有:密度估计(densityestimation)、异常检测(anomalydetection)等。

当模型的学习类型为半监督学习时,模型的训练集同时包含有标记样本数据和未标记样本数据,不需要人工干预,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。

应用中,模型选择参数中的模型的学习类型可以由用户指示。

本实施例中,数据概况向量用于按照预设的模型选择维度描述应用数据。

应用中,模型选择维度可以由用户预先设置。该模型选择维度包括以下至少一种:

数据的维度数量;

数据的字符类型占比;

数据的数值类型占比;

数据缺失比例;

模型的输出方式。

其中:

关于数据的维度数量,对于不属于同数据类别的应用数据,评价数据的维度的方式不同。例如对于图像类的数据,该类数据的维度可以用图像的特征向量的维度表示;而对于文本类的数据,该类数据的维度实际可以用其所包括的数据的属性表示。

以征信场景为例,征信场景下文本类的数据包括用户的年龄、性别、年收入、每个月的银行流水以及个人的信用,其中,年龄、性别、年收入、每个月的银行流水以及个人的信用这些都属于该文本类的数据的属性,因此可以确定该文本类数据的维度为5。

关于数据的字符类型占比和数值类型占比,在一些应用场景下,应用数据可能包括字符类型和/或数值类型两种类型的数据,因此可以分别计算字符类型的数据的占比以及数值类型的数据的占比。应理解,存在一些应用场景,既不存在字符类型的数据,也不存在数值类型的数据,此时则不需要计算数据的字符类型占比和数值类型占比。

仍然以征信场景为例,在此场景下,用户的年龄、年收入以及每个月的银行流水的类型为数值类型;而用户的性别的类型则为字符类型。

关于数据缺失比例,同一应用场景下的应用数据通常包括多条应用数据,对于同一属性,不同的应用数据中存在一些应用数据有该属性的属性值,而在另外的一些应用中数据中,其属性值缺失,此时针对这类属性,则可以计算另外的一些应用数据的缺失比例。

仍然以征信场景为例,假定在场景下存在3条应用数据,在这3条应用数据中,一条应用数据的年收入为空,另外两条应用数据的年收入均有对应的属性值,因此此时可以确定针对年收入这一属性,数据缺失比例为1/3=33%。

应理解,当应用数据针对多个属性分别具有数据缺失比例时,可以按照权重对多个数据缺失比例进行求和运算,并将求和运算结果作为该应用数据最终的数据缺失比例。

应用中,根据属性的重要等级的不同,属性所对应的权重的大小不同。通常重要等级越高的属性,其所对应的权重越大。具体应用时,不同的属性对应的权重可以由用户预先设置。

关于模型的输出方式,模型的输出方式包括逻辑回归(Logistic Regression,LR)等。其中逻辑回归模型本质是在线性回归的基础上,套用了一个逻辑函数。回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。

本实施例中,考虑到应用数据大都具有符合的数据输入规范,比如,有些应用数据要求具有字符变量,而有些应用数据要求具有日期类的变量,而有些数据则允许存在重复数据,但同是对重复数据的数量又有限制,因此,为了提高得到的模型选择参数的准确度,在确定与应用数据对应的模型选择参数之前,还可以确定应用数据符合数据输入规范。具体实现时,确定与应用数据对应的数据输入规范,数据输入规范指示应用数据包含模型匹配所必须的数据类型;确定应用数据符合数据输入规范。

本实施例,对于不同的数据类别预先设置了不同的数据输入规范,因此当获取应用数据后,确定应用数据所属的目标数据类别,并根据预设的数据类别与数据输入规范的映射关系,确定与目标数据类别对应的目标数据输入规范,并将目标输入规范作为数据输入规范。

本实施例中,数据类别包括文本类或图像类。

步骤103、按照模型选择参数,确定应用数据分别与各模型各自的匹配度。

应用中,可以通过将模型选择参数输入智能选择模型,并将智能选择模型的输出作为应用数据与各模型各自的匹配度。

其中在使用智能选组模型之前,需要预先采用训练数据对智能选择模型进行训练,训练数据如表一所示:

表一

其中,ID用来唯一标识训练数据;关于数据的维度数量、数据的字符类型占比、数据的数值类型占比、数据缺失比例、模型的输出方式以及模型的学习方式可参见前述描述,此处不再赘述。

通过训练数据对智能选择模型进行训练,使得智能选择模型能够为具有不同的模型选择参数的数据分配不同的模型。

步骤104、获取匹配度大于匹配度阈值的N个模型。

示例性地,当用户设定好模型的学习类型,并将应用数据的模型选择参数输入智能选择模型后,智能选择模型的输出结果可以如表二所示:

表二

需要说明的是,上述表格仅是本实施例的一种示例实现,本实施例对此不作具体限定。

应用中,匹配度阈值可以由用户预先设置。

以表二举例,当匹配度阈值为0.05时,N个模型可以为逻辑回归模型、Xgboost模型。

步骤105、从N个模型中确定向用户推荐的模型。

由于智能选择模型筛选出来的匹配度大于匹配度阈值的模型通常为多个,因此在获得匹配度大于匹配度阈值的模型后,可以从多个模型中随机选择一个模型作为向用户推荐的模型,或将多个模型中与应用数据的匹配度最高的模型作为向用户推荐的模型,或基于模型的模型类型确定最终向用户推荐的模型。

其中基于模型的模型类型确定最终向用户推荐的模型时,确定N个模型各自的模型类型;从每个模型类型中随机选择一个模型作为目标模型;将目标模型作为向用户推荐的模型。

关于模型类型,仍以表二举例,逻辑回归、Xgboost、随机森林、决策树、支持向量机是五个不同的模型类型。

在本申请的另一实施例中,从N个模型中确定向用户推荐的模型时,还可以使N个模型分别识别应用数据,并根据输出结果确定从N个模型中确定向用户推荐的模型。

具体实现时,获取适于N个模型的输入参数以及输出参数,输入参数和输出参数为应用数据中的维度参数;从应用数据中提取维度参数属于输入参数的目标数据;将目标数据分别输入N个模型,得到N个输出结果;分别确定各输出结果的准确度;将准确度最高的模型作为向用户推荐的模型。

应用中,应用数据中的输入参数和输出参数均可以由用户预先指示,比如通过打标签的方式指示。具体实现时,获取应用数据中的各维度参数;显示各维度参数,并获取用户从各维度参数所指示的输入参数和输出参数。

应理解,对于属于不同数据类别的应用数据,评价数据的维度的方式不同。例如对于图像类的数据,该类数据的维度可以用图像的特征向量的维度表示;而对于文本类的数据,该类数据的维度实际可以用其所包括的数据的属性表示。

仍以征信场景为例,假定征信场景下的文本类数据包括用户的年龄、性别、年收入、每个月的银行流水以及个人的信用,其中,用户的年龄、性别、年收入以及每个月的银行流水属于输入参数,而个人的信用属于输出参数,因此可以确定目标数据为用户的年龄、性别、年收入以及每个月的银行流水。

本实施例中,在确定各输出结果的准确度时,既可以通过横向对比的方式实现,也可以通过纵向对比的方式实现。其中横向对比指的是将不同模型的输出结果进行对比,以确定各输出结果的准确度,而纵向对比则指的是将模型的输出结果与预估的结果进行对比,以确定输出结果的准确度,其中,预估的结果可以由用户预先指示。

本申请实施例提供的技术方案中,获取待匹配的应用数据;确定与应用数据对应的模型选择参数;按照模型选择参数,确定应用数据分别与各模型各自的匹配度;获取匹配度大于匹配度阈值的N个模型;从N个模型中确定向用户推荐的模型。可见,本申请的方案能够提取应用数据中的模型选择参数,并根据模型选择参数向用户推荐模型,大大降低了选择模型时,用户的等待时间。

为了更清楚阐述本申请实施例,本申请实施例还提供一种模型推荐方法,如图2所示,可以包括以下步骤:

步骤201、获取应用数据;

步骤202、识别应用数据是否符合数据输入规范,若是执行步骤203,否则结束流程;

步骤203、读取应用数据的维度参数;

步骤204、获取用户基于维度参数所指示的输入参数;

步骤205、获取用户指示的模型的学习类型以及应用数据对应的数据概况向量,并采用训练数据对智能选择模型进行训练;

步骤206、将学习类型和数据概况向量输入智能选择模型中;

步骤207、获取智能选择模型的输出结果,该输出结果指示了应用数据与各模型的匹配度,其中匹配度大于匹配度阈值的模型由N个;

步骤208、将输入参数分别输入N个模型,得到N个模型的输出结果;

步骤209、基于输出结果向用户推荐模型。

基于同一构思,本申请实施例中提供了一种模型推荐装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图3所示,该装置主要包括:

第一获取单元301,用于获取待匹配的应用数据;

第一确定单元302,用于确定与应用数据对应的模型选择参数;

第二确定单元303,用于按照模型选择参数,确定应用数据分别与各模型各自的匹配度;

第二获取单元304,用于获取匹配度大于匹配度阈值的N个模型;

第三确定单元305,用于从N个模型中确定向用户推荐的模型。

可选地,第一确定单元302用于:

获取用户所指示的模型的学习类型,模型的学习类型包括半监督学习、有监督学习或无监督学习;

确定与应用数据对应的数据概况向量,数据概况向量用于按照预设的模型选择维度描述应用数据;

将模型的学习类型和数据概况向量作为模型选择参数。

可选地,模型选择维度包括以下至少一种:

数据的维度数量;

数据的字符类型占比;

数据的数值类型占比;

数据缺失比例;

模型的输出方式。

可选地,第三确定单元305用于:

确定N个模型各自的模型类型;

从每个模型类型中随机选择一个模型作为目标模型;

将目标模型作为向用户推荐的模型。

可选地,第三确定单元305用于:

获取适于N个模型的输入参数,输入参数为应用数据中的维度参数;

从应用数据中提取维度参数属于输入参数的目标数据;

将目标数据分别输入N个模型,得到N个输出结果;

分别确定各输出结果的准确度;

将准确度最高的模型作为向用户推荐的模型。

可选地,该装置还用于:

确定与应用数据对应的模型选择参数之前,确定与应用数据对应的数据输入规范,数据输入规范指示应用数据包含模型匹配所必须的数据类型;

确定应用数据符合数据输入规范。

可选地,该装置还用于:

确定应用数据所属的目标数据类别;

根据预设的数据类别与数据输入规范的映射关系,确定与目标数据类别对应的目标数据输入规范;数据类别包括文本类或图像类;

将目标数据输入规范作为数据输入规范。

基于同一构思,本申请实施例中还提供了一种电子设备,如图4所示,该电子设备主要包括:处理器401、存储器402和通信总线403,其中,处理器401和存储器402通过通信总线403完成相互间的通信。其中,存储器402中存储有可被处理器401执行的程序,处理器401执行存储器402中存储的程序,实现如下步骤:

获取待匹配的应用数据;

确定与应用数据对应的模型选择参数;

按照模型选择参数,确定应用数据分别与各模型各自的匹配度;

获取匹配度大于匹配度阈值的N个模型;

从N个模型中确定向用户推荐的模型。

上述电子设备中提到的通信总线403可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线403可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器402可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器401的存储装置。

上述的处理器401可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的模型推荐方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

相关技术
  • 推荐模型的训练方法、推荐方法、装置、设备及存储介质
  • 模型训练方法、推荐方法、装置、电子设备和存储介质
技术分类

06120113820853