掌桥专利:专业的专利平台
掌桥专利
首页

模型评估方法、装置和计算机设备以及存储介质

文献发布时间:2023-06-19 13:46:35


模型评估方法、装置和计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种模型评估方法、装置和计算机设备以及存储介质。

背景技术

随着计算机技术的发展,出现了机器学习技术,机器学习人工智能技术的核心,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而机器学习模型则是指基于机器学习技术所建立的模型,具体包括决策树以及神经网络等类型的模型。在机器学习建模中,训练数据标签质量影响最终的模型效果。同时,测试集往往没有真实标签,一般通过在训练集中划分部分验证集,来验证某些模型优化如模型结构优化等效果是否变好。然而,当验证集和测试集分布不一致时,往往验证集效果不能体现最终测试集的效果。

目前,可以通过监控训练集中每个样本的损失值,确定的噪声样本。最终根据噪声样本的比例确定训练数据的标签质量,从而对机器学习模型的效果进行评估。然而这种评估方法需要基于模型训练过程来评估数据质量,依赖于使用的模型结构和模型参数等,导致对于不同的机器学习模型,其评估准确率不稳定。

发明内容

基于此,有必要针对上述技术问题,提供一种能提高机器学习模型评估稳定性的模型评估方法、装置、计算机设备和存储介质。

一种模型评估方法,所述方法包括:

获取模型评估请求以及所述模型评估请求对应的模型训练数据,所述模型训练数据包括数据标签;

提取所述模型训练数据对应的特征信息;

根据所述数据标签对所述模型训练数据进行分类,获取模型训练数据分类结果;

根据所述特征信息以及所述分类结果确定模型训练数据对应的类别重叠参数;

根据所述模型训练数据对应的类别重叠参数获取所述模型评估请求对应的训练评估结果。

一种模型评估装置,所述装置包括:

请求获取模块,用于获取模型评估请求以及所述模型评估请求对应的模型训练数据,所述模型训练数据包括数据标签;

特征提取模块,用于提取所述模型训练数据对应的特征信息;

数据分类模块,用于根据所述数据标签对所述模型训练数据进行分类,获取模型训练数据分类结果;

重叠参数确定模块,用于根据所述特征信息以及所述分类结果确定模型训练数据对应的类别重叠参数;

模型评估模块,用于根据所述模型训练数据对应的类别重叠参数获取所述模型评估请求对应的训练评估结果。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取模型评估请求以及所述模型评估请求对应的模型训练数据,所述模型训练数据包括数据标签;

提取所述模型训练数据对应的特征信息;

根据所述数据标签对所述模型训练数据进行分类,获取模型训练数据分类结果;

根据所述特征信息以及所述分类结果确定模型训练数据对应的类别重叠参数;

根据所述模型训练数据对应的类别重叠参数获取所述模型评估请求对应的训练评估结果。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取模型评估请求以及所述模型评估请求对应的模型训练数据,所述模型训练数据包括数据标签;

提取所述模型训练数据对应的特征信息;

根据所述数据标签对所述模型训练数据进行分类,获取模型训练数据分类结果;

根据所述特征信息以及所述分类结果确定模型训练数据对应的类别重叠参数;

根据所述模型训练数据对应的类别重叠参数获取所述模型评估请求对应的训练评估结果。

上述模型评估方法、装置、计算机设备和存储介质,通过获取模型评估请求以及模型评估请求对应的模型训练数据,模型训练数据包括数据标签;提取模型训练数据对应的特征信息;根据数据标签对模型训练数据进行分类,获取模型训练数据分类结果;根据特征信息以及分类结果确定模型训练数据对应的类别重叠参数;根据模型训练数据对应的类别重叠参数获取模型评估请求对应的训练评估结果。本申请通过在得到模型的模型训练数据后,基于模型训练数据的标签类别以及特征,来确定模型训练数据之间的类别重叠参数,而当各类的模型训练数据之间重叠度越高时,往往模型训练会比较困难,因此影响最终的模型效果,因此可以根据模型训练数据对应的类别重叠参数获取模型评估请求对应的训练评估结果,本申请的模型评估过程仅需要根据模型训练数据来进行评估,无需依赖于使用的模型结构和模型参数,可以有效保证模型评估稳定性。

附图说明

图1为一个实施例中模型评估方法的应用环境图;

图2为一个实施例中模型评估方法的流程示意图;

图3为一个实施例中类别重叠度的示意图;

图4为一个实施例中获取类别重叠参数步骤的流程示意图;

图5为一个实施例中根据均值与方差确定同一维度特征之间相似度步骤的流程示意图;

图6为一个实施例中根据JS散度,获取各个类别的模型训练数据中同一维度特征之间的相似度步骤的流程示意图;

图7为一个实施例中根据相似度获取类别重叠参数步骤的流程示意图;

图8为一个实施例中进行模型训练评估过程的输入页面图;

图9为一个实施例中模型训练评估过程的结果图;

图10为一个实施例中模型优化评估过程的输入页面图;

图11为一个实施例中模型优化评估过程的结果图;

图12为一个实施例中预估模型训练效果的整体流程示意图;

图13为一个实施例中模型评估装置的结构框图;

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的机器学习(Machine Learning,ML)领域,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请的方案具体通过如下实施例进行说明:

本申请提供的模型评估方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以向服务器104发送模型评估请求以及待评估的机器学习模型对应的模型训练数据,以通过服务器104来进行相关的机器学习模型评估,并得到机器学习模型的评估结果,服务器104则获取终端102提交的模型评估请求;获取模型评估请求的查询词条对应的原始机器学习模型评估结果;识别查询词条与原始机器学习模型评估结果在预设服务知识图谱的关联关系;基于关联关系,确定原始机器学习模型评估结果中的目标机器学习模型评估结果。而后将最终的机器学习模型评估结果返回给终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在另一个实施例中,非必要的,本申请的机器学习模型评估方法也可以应用于终端,用户可以直接在终端侧执行该方法。在其中一个实施例中,多个服务器可组成为一区块链,而服务器为区块链上的节点。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

在一个实施例中,如图2所示,提供了一种模型评估方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:

步骤201,获取模型评估请求以及模型评估请求对应的模型训练数据,模型训练数据包括数据标签。

其中,模型评估请求是指由终端102发送至服务器104,以请求服务器104对指定的机器学习模型进行评估的请求。机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而机器学习模型则是指基于机器学习技术所建立的模型,具体包括决策树以及神经网络等类型的模型。而模型训练数据是指用于对机器学习模型进行训练的数据,机器学习模型可以理解为函数,而模型训练则是指使用已有的数据(即模型训练数据),通过一些方法(最优化或者其他方法)确定函数的参数,参数确定后的函数就是训练的结果,使用模型就是把新的数据代入函数求值。数据标签具体是指机器学习模型所需要预测的事务,在模型训练过程中,对于有监督训练,可以直接将预测的事物作为标签,如对于分类用的机器学习模型,其标签具体为分类结果。此外,模型训练数据还包含有特征信息,特征是输入机器学习模型进行预测所用的变量数据,可以视为得出最终结果的证据。机器学习主要的工作就是从原始的输入数据中提取出有用的特征,然后根据已有的实例,构造从特征到标签的映射。

具体地,当终端102方的操作人员需要对将要训练或者已经训练完成的机器学习模型进行评估时,由于训练数据的标签质量会影响最终的模型效果,因此可以直接提交模型评估请求以及模型评估请求对应的模型训练数据到服务器104,服务器104则可以根据模型评估请求对应的模型训练数据来进行相应的机器学习模型的评估,从而预估机器学习模型的最终表现。

步骤203,提取模型训练数据对应的特征信息。

其中,如上,特征信息是指是输入机器学习模型进行预测所用的变量数据,可以视为得出最终结果的证据。在一个具体地实施例中,本申请的机器学习模型评估方法具体用于口语考试场景下机器学习模型的评估,则此时,模型训练数据为音频和对应的人工标签。而特征则包含了文本特征和声学特征。文本特征主要包含语义特征、语用特征,关键词特征、文本不流利特征。关键词特征主要包括提取标准答案中的关键词与答题内容的关键词,计算精确率、召回率等。语用特征包括答题内容的词语的多样性,句式的多样性以及基于语言模型分析答题内容的语法准确性。语义特征包含答题内容的主题特征,tf-idf特征等。声学特征主要分为发音准确度、发音流利度、发音韵律度等。发音准确度指音素、单词、句子级别等发音分数。发音流利度包含发音过程中的语速特征、基于时长统计的特征如发音段的平均时长,发音段之间的平均停顿时长等特征。发音韵律度包含对发音节奏感的评估、句子中单词重读正确性评估、句子边界调评估等。

具体地,在进行机器学习模型评估处理时,本申请具体通过分析模型训练数据的数据标签和特征分布,设计一个衡量数据标签不同类别之间的重叠程度的算法,基于计算得到的标签类别重叠参数,不同类别之间样本越重叠,则最终模型效果可能越差。因此,在进行评估之前,可以先获取特征信息,而后基于特征信息来进行后续过程的重叠程度计算。

步骤205,根据数据标签对模型训练数据进行分类,获取模型训练数据分类结果。

其中,数据标签具体是指机器学习模型所需要预测的事务,在模型训练过程中,对于有监督训练,可以直接将预测的事物作为标签,如对于分类用的机器学习模型,其标签具体为分类结果。因此,在进行机器学习模型评估时,可以依据数据标签来对模型训练数据进行分类,相同类别下的模型训练数据理论上与相同的预测结果对应(可能出现机器学习模型分类错误的情况,导致相同标签的模型训练数据得到不同的分类结果)。

具体地,本申请具体通过分析模型训练数据的数据标签和特征分布,设计一个衡量数据标签不同类别之间的重叠程度的算法,基于计算得到的标签类别重叠参数,不同类别之间样本越重叠,则最终模型效果可能越差。因此在计算标签类别重叠参数之前,需要先根据数据标签对模型训练数据进行分类,将不同类型的模型训练数据分到不同类中,而后计算不同类的模型训练数据对应的类别重叠参数。

步骤207,根据特征信息以及分类结果确定模型训练数据对应的类别重叠参数。

其中,类别重叠参数用于表征不同类别的数据标签直接的重叠程度,类别重叠参数具体可以通过不同类别的模型训练数据之间的特征信息的关联性来确定。

具体地,在根据分类结果将模型训练数据分为不同类别之后,可以依据模型训练数据对应的特征信息,来建立不同类别的模型训练数据对应的特征集合,而后依据特征集合之间的特征重叠度,来确定模型训练数据对应的类别重叠参数,从而对机器学习模型进行评估。

步骤209,根据模型训练数据对应的类别重叠参数获取模型评估请求对应的训练评估结果。

其中,训练评估结果具体是指通过模型训练数据对机器学习模型进行训练所获得的结果,一般而言,不同类别之间样本越重叠,则最终模型效果可能越差,因此,类别重叠参数越高,则模型评估请求对应的训练评估结果越差。具体地,如图3所示,图中数据包含三个类别1,2,3。左图中三个类别重叠度较高,右图中三个类别重叠度较低。当类别之间重叠度越高时,往往模型训练会比较困难,因此影响最终的模型效果。

具体地,在得到类别重叠参数后,就可以依据模型训练数据对应的类别重叠参数获取模型评估请求对应的训练评估结果,在一个具体地实施例中,可以根据实际的模型需要来设置类别重叠参数的阈值,当类别重叠参数高于或等于预设阈值时,将模型评估请求对应的训练评估结果设置为效果较差,而类别重叠参数低于该预设阈值时,将模型评估请求对应的训练评估结果设置为效果较好。

上述模型评估方法,通过获取模型评估请求以及模型评估请求对应的模型训练数据,模型训练数据包括数据标签;提取模型训练数据对应的特征信息;根据数据标签对模型训练数据进行分类,获取模型训练数据分类结果;根据特征信息以及分类结果确定模型训练数据对应的类别重叠参数;根据模型训练数据对应的类别重叠参数获取模型评估请求对应的训练评估结果。本申请通过在得到机器学习模型的模型训练数据后,基于模型训练数据的标签类别以及特征,来确定模型训练数据之间的类别重叠参数,而当各类的模型训练数据之间重叠度越高时,往往模型训练会比较困难,因此影响最终的模型效果,因此可以根据模型训练数据对应的类别重叠参数获取模型评估请求对应的训练评估结果,本申请的模型评估过程仅需要根据模型训练数据来进行评估,无需依赖于使用的模型结构和模型参数,可以有效保证机器学习模型评估稳定性。

在一个实施例中,如图4所示,步骤207包括:

步骤401,根据分类结果确定模型训练数据对应的分类类别。

步骤403,根据模型训练数据对应的特征信息,获取模型训练数据的特征表示。

步骤405,根据特征表示获取各个类别的模型训练数据中每个特征的均值与方差。

步骤407,根据均值与方差,确定各个类别的模型训练数据中同一维度特征之间的相似度。

步骤409,根据相似度获取模型训练数据对应的类别重叠参数。

其中,分类类别是指各个模型训练数据所属的分类类别信息,可以根据分类结果将模型训练数据分类,从而得到各个模型训练数据对应的分类类别。特征表示具体可以为一个向量,代表一个分类类别的模型训练数据内所有特征的合并。同一维度特征之间的相似度,具体可以用每个类别下每个特征与其他类别每个特征的距离参数表示,在其中一个实施例中,距离参数具体可以为JS散度(Jensen-Shannon divergence)。在另外的实施例中,还可以通过KL散度(Kullback-Leibler divergence)等来表示距离参数。

具体地,对于计算不同类别的模型训练数据之间的类别重叠参数,具体可以通过计算确定各个类别的模型训练数据中同一维度特征之间的相似度来进行。首先,可以将模型训练数据按照数据标签对应的分类结果进行划分。具体地,每个分类类别的标签下包含m

F(l

F

其中F

而后对每个类别中的每个特征计算其均值和方差,具体公式如下:

mean(F

std(F

其中,mean(F

而后根据计算出的均值和方差,确定各个类别的模型训练数据中同一维度特征之间的相似度;并根据相似度获取模型训练数据对应的类别重叠参数。本实施例中,先获取模型训练数据的特征表示,而后基于特征表示来计算每个特征的均值和方差,从而有效计算各个类别的模型训练数据中同一维度特征之间的相似度,并确定最终的类别重叠参数,可以有效保证类别重叠参数计算的准确性。

在其中一个实施例中,如图5所示,步骤407包括:

步骤502,根据均值与方差,基于高斯分布对各个类别的模型训练数据进行随机采样,获取各个类别的模型训练数据中每个特征的特征分布。

步骤504,根据特征分布确定各个类别的模型训练数据中同一维度特征之间的相似度。

其中,高斯分布也称正态分布或者常态分布,高斯分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用高斯分布来描述。本申请主要通过高斯分布来进行采样,从而确定特征分布,从而基于特征分布来进行同一维度特征之间的相似度的计算,并降低计算过程的复杂度,提高机器学习模型评估的效率。

具体地,在确定各个类别的模型训练数据中同一维度特征之间的相似度假设时,可以每个特征都是符合高斯分布的,因此基于步骤305中得到的每个类别下的每个特征的均值和方差,基于高斯分布进行随机采样,采样出该类别下该特征的分布。而后计算每个类别下每个特征与其他类别每个特征的距离参数。本实施例中,通过高斯分布来进行随机采样,从而得到特征的特征分布,并基于特征分布来确定各个类别的模型训练数据中同一维度特征之间的相似度,可以有效保证相似度计算的准确性,同时提高计算过程的计算效率。

在其中一个实施例中,特征分布包括所述特征分布下各个类别的模型训练数据中各个特征的概率密度函数,如图6所示,步骤504包括:

步骤601,根据概率密度函数确定各个类别的模型训练数据中同一维度特征之间的JS散度。

步骤603,根据JS散度,获取各个类别的模型训练数据中同一维度特征之间的相似度。

其中,JS散度度量了两个概率分布的相似度,是基于KL散度的变体,解决了KL散度非对称的问题。一般地,JS散度是对称的,其取值是0到1之间。定义具体为:

其中p(x)为其中一个类别下特征的概率密度函数,q(x)为另一个类别下特征的概率密度函数。最终可以得到类别为i的和类别为j的特征的距离向量。

具体地,可以根据概率密度函数确定各个类别的模型训练数据中同一维度特征之间的JS散度,而后根据JS散度,获取各个类别的模型训练数据中同一维度特征之间的相似度。在计算得到JS散度后,可以根据下列公式得到类别为i的和类别为j的特征的距离向量:

D

d

其中d

在其中一个实施例中,如图7所示,步骤409包括:

步骤702,根据相似度获取每个类别的模型训练数据对应的区分度。

步骤704,获取所有类别的模型训练数据对应的平均区分度,得到模型训练数据对应的类别重叠参数。

其中,区分度用于表示当前类别的模型训练数据与其他类别模型训练数据之间的重叠度大小,区分度越高,说明重叠度越小。

具体地,在计算类别重叠参数时,可以先依次计算每个类别的模型训练数据所对应的区分度,而后基于所有类别的平均区分度值来得到最终的类别重叠参数。首先,在区分度计算时,选取每个类别与其他类别距离最大的特征的相似度来作为该类别与其他类别的区分度,即Max(D

Di=mean([max(

而后计算所有类别的平均区分度值为最终类别重叠参数class_overlap。

class_overlap=mean([D1,D2,…Dk])

本实施例中,通过相似度来获取每个类别的模型训练数据对应的区分度,而后基于平均区分度来进行类别重叠参数的估计,可以有效保证类别重叠参数计算的准确性。

在其中一个实施例中,步骤209之后,还包括:对模型评估请求对应的机器学习模型进行测试;获取模型评估请求对应的模型测试数据、以及模型测试数据对应的分类结果数据;将模型测试数据作为模型训练数据,将分类结果数据作为训练数据分类结果,获取模型评估请求对应的测试评估结果。

其中,模型测试数据与模型训练数据的结构类似。不同的是,模型训练数据对机器学习模型进行训练的数据,而模型训练数据对训练完成的机器学习模型进行测试的数据。模型训练数据包括数据标签,而模型测试数据不包括标签。可以通过模型测试数据,来判断训练完成的机器学习模型是否可用。模型测试数据在输入机器学习模型后,可以得到相应的分类识别结果。因此,还可以通过本申请的机器学习模型评估方法,来对机器学习模型的测试过程进行评估。在评估时,可以将模型测试数据作为模型训练数据,将分类结果数据作为训练数据分类结果,其中分类结果数据相当于将模型训练数据输入到机器学习模型后得到的后验结果,而训练数据分类结果则是根据先验的模型标签所得到的先验分类结果,此处用后验结果来代表先验结果,从而在模型测试的评估过程中不需要使用标签数据。而后执行类似于独权的步骤,先提取模型训练数据对应的特征信息,从而得到这些模型测试数据对应的优化前类别重叠参数;根据优化前类别重叠参数获取模型评估请求对应的优化前测试评估结果。

具体地,本申请的机器学习模型评估方法还可以对机器学习模型的测试过程进行评估。具体地,这个过程可以参照上述对模型训练过程的评估过程,先提取模型测试数据对应的特征信息;根据模型测试数据对应的分类结果数据对模型测试数据进行分类,获取模型测试数据分类结果;根据特征信息以及模型测试数据分类结果来确定模型测试数据对应的类别重叠参数;根据模型测试数据对应的类别重叠参数获取模型评估请求对应的优化前测试评估结果。上述过程的具体步骤可以参照上述内容中的对应实施例。本实施例中,针对机器学习模型的测试过程,通过模型测试数据以及对应的分类结果数据,来计算模型测试数据对应的优化前类别重叠参数,从而进行优化前测试评估结果的估计,可以有效对模型测试过程进行评估。

在其中一个实施例中,获取模型评估请求对应的测试评估结果之后,还包括:对机器学习模型进行优化;对优化后的机器学习模型进行测试,获取模型评估请求对应的分类结果优化数据;将模型测试数据作为模型训练数据,将分类结果优化数据作为训练数据分类结果,获取模型评估请求对应的优化后测试评估结果;根据测试评估结果以及优化后测试评估结果,获取模型优化评估结果。

具体地,本申请中的模型评估装置,还可适用于模型优化效果的评估,通过对比优化前后机器学习模型对应的优化评估结果,来确定模型优化是否达到了优化效果。在进行模型优化效果评估时,先获得优化前的测试评估结果。而后将模型测试数据输入到优化后的机器学习模型中,得到分类结果优化数据。而后,与上述针对模型训练的评估过程类似,将模型测试数据作为模型训练数据,将分类结果优化数据作为训练数据分类结果,重新执行提取模型训练数据对应的特征信息的步骤,获取模型测试数据对应的优化后类别重叠参数。通过优化前类别重叠参数以及优化后类别重叠参数的对比,来判断模型优化前后的效果,如果优化前类别重叠参数相比优化后类别重叠参数更高,则说明模型优化后,类别重叠参数下降了,模型的效果得到了提升。而如果优化前类别重叠参数相比优化后类别重叠参数更低,则说明模型优化后,类别重叠参数上升了,模型的效果下降了。本实施例中,基于模型优化前的测试集预测结果和模型优化后的测试集预测结果,计算优化前后的类别重叠程度的变化,以此衡量模型优化前后效果是否提升,可以有效对模型的优化效果进行识别。

在其中一个实施例中,本申请的模型评估方法用于实现口语考试场景下的机器学习模型评估领域,主要应用于英语口语考试训练引擎中。口语考试中包含客观题型如朗读题型和开放题型中,如看图说话等。在应用时,具体可以应用于模型训练过程的评估以及模型优化过程的评估,对于模型训练过程,具体可以参照图8以及图9,如图8所示,用户可以通过点击上传数据的按钮,而后通过选定来上传相应的训练数据。如图9所示,通过机器学习模型评估后,可以直接输出数据质量,通过数据质量,就可直接得到机器学习模型对应的模型效果预估。而对于模型优化的过程,则可以参照图10以及图11,通过先后输入模型训练数据、分类结果数据以及分类结果优化数据,而后点击图10中的模型优化按钮,则可以如图11所示,直接得到对应的模型优化结果。

其具体的评估过程可以参照图12,首先,获取机器学习模型对应的训练数据以及测试数据,而后通过特征提取模块来提取训练数据与测试数据的特征,而后,结合模型训练数据的标签以及特征,来进行模型训练过程对应的数据质量评估,得到训练数据质量以及模型训练过程的评估结果。而对于模型的优化过程,则需要通过优化前的模型测试结果以及特征,以及优化后的模型测试结果以及特征的对比,来进行模型优化效果的评估结果。

在一个具体的实施例中,本申请用于在口语考试不同题型的基模型进行测试,具体包括情景提问题型、快速应答题型、口头作文以及半开放题型进行测试。每种题型包含至少两道题目,每个题目包含250条训练样本,1400条测试样本。评估指标为皮尔逊相关系数,以及一致率(即标签与模型预测值小于一定阈值的概率)。计算基模型的测试集预测值与人工标签的相关度与一致率,作为基模型的模型效果。对模型进行参数调优,以及模型结构更改。看优化的模型的测试集测试集预测值与人工标签的相关度与一致率,作为优化后模型的模型效果。如果相关度和一致率前后有提升,说明模型效果有所提升。用该值作为模型效果提升的标签,上升为1,不上升为0。利用本发明的类别重叠度分析方法,分析测试集前后的类别重叠度变化。如果类别重叠度提升,类别间距离变小,则预测模型效果下降,即预测值为0,否则为1。最终计算精确率和召回率。最终精确率达到80%,召回率达到100%。基于本申请中的类别重叠度,可以预估模型优化后效果是否下降。

应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图13所示,提供了一种模型评估装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:请求获取模块1302、特征提取模块1304、数据分类模块1306、重叠参数确定模块1308和模型评估模块1310,其中:

请求获取模块1302,用于获取模型评估请求以及模型评估请求对应的模型训练数据,模型训练数据包括数据标签。

特征提取模块1304,用于提取模型训练数据对应的特征信息。

数据分类模块1306,用于根据数据标签对模型训练数据进行分类,获取模型训练数据分类结果。

重叠参数确定模块1308,用于根据特征信息以及分类结果确定模型训练数据对应的类别重叠参数。

模型评估模块1310,用于根据模型训练数据对应的类别重叠参数获取模型评估请求对应的训练评估结果。

在其中一个实施例中,重叠参数确定模块1308具体用于:根据分类结果确定模型训练数据对应的分类类别;根据模型训练数据对应的特征信息,获取模型训练数据的特征表示;根据特征表示获取各个类别的模型训练数据中每个特征的均值与方差;根据均值与方差,确定各个类别的模型训练数据中同一维度特征之间的相似度;根据相似度获取模型训练数据对应的类别重叠参数。

在其中一个实施例中,重叠参数确定模块1308还用于:根据均值与方差,基于高斯分布对各个类别的模型训练数据进行随机采样,获取各个类别的模型训练数据中每个特征的特征分布;根据特征分布确定各个类别的模型训练数据中同一维度特征之间的相似度。

在其中一个实施例中,重叠参数确定模块1308还用于:根据概率密度函数确定各个类别的模型训练数据中同一维度特征之间的JS散度;根据JS散度,获取各个类别的模型训练数据中同一维度特征之间的相似度。

在其中一个实施例中,重叠参数确定模块1308还用于:根据相似度获取每个类别的模型训练数据对应的区分度;获取所有类别的模型训练数据对应的平均区分度,得到模型训练数据对应的类别重叠参数。

在其中一个实施例中,还包括模型优化评估模块,用于:对模型评估请求对应的机器学习模型进行测试;获取模型评估请求对应的模型测试数据、以及模型测试数据对应的分类结果数据;将模型测试数据作为模型训练数据,将分类结果数据作为数据标签,获取模型评估请求对应的测试评估结果。

在其中一个实施例中,模型优化评估模块还用于:对机器学习模型进行优化;对优化后的机器学习模型进行测试,获取模型评估请求对应的分类结果优化数据;将模型测试数据作为模型训练数据,将分类结果优化数据作为训练数据分类结果,获取模型评估请求对应的优化后测试评估结果;根据所述测试评估结果以及所述优化后测试评估结果,获取模型优化评估结果。

关于模型评估装置的具体限定可以参见上文中对于模型评估方法的限定,在此不再赘述。上述模型评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型评估数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型评估方法。

本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

技术分类

06120113807113