掌桥专利:专业的专利平台
掌桥专利
首页

深度学习模型的可视化训练方法、介质、设备及装置

文献发布时间:2024-04-18 19:54:45


深度学习模型的可视化训练方法、介质、设备及装置

技术领域

本申请涉及深度学习领域,具体涉及一种深度学习模型的可视化训练方法、介质、设备及装置。

背景技术

深度学习,是机器学习的一种。在深度学习模型的训练过程中,需要对深度学习参数进行设置与调优。

相关技术中,在对深度学习模型进行调优时,多是通过技术人员根据自身经验进行参数的选择,并在参数选择完成之后,对参数对应的模型性能进行测试,以决定最终模型。这种方式所训练得到的模型,其准确率完全取决于技术人员的经验,最终模型的准确率无法得到保证。并且,训练过程耗费时间长。

发明内容

鉴于上述问题,本申请提供了一种深度学习模型的可视化训练方法,能够对深度学习模型进行遍历训练,极大地提高了深度学习模型参数设置的便利性和准确性,进而提高最终深度学习模型的识别准确率,降低训练所需时间成本。

为实现上述目的,发明人提供了深度学习模型的可视化训练方法,包括:获取历史数据,并对所述历史数据进行处理,以生成训练数据;获取用户对于预设可视化模块的操作指令,并根据所述操作指令生成待训练深度学习模型对应的可视化训练链路;获取所述可视化训练链路中每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数;根据所述每个可视化模块对应的训练参数、所述待训练深度学习模型的超参数和所述遍历参数对待训练深度学习模型进行遍历训练,以及基于遍历训练的结果生成所述遍历参数对应的多指标变化训练图像。

区别于现有技术,上述技术方案首先以可视化的方式获取深度学习模型的具体层数和连接关系,极大地提高了深度学习模型设置的便利性。接着,通过可视化的方式获取对应的参数、超参数和遍历参数;然后,根据获取到的参数、超参数和遍历参数对深度学习模型进行遍历训练,并根据遍历训练的结果生成多指标变化训练图像;如此,用户无需对参数进行细微的调整,即可通过遍历训练结果生成的多指标变化训练图像直观地查看不同遍历参数对于最终深度学习模型准确率的影响,并且,可以直观地发现那些参数的调整对模型过拟合产生了主要影响。

在一些实施例中,所述预设可视化模块包括预训练网络模型模块、图像识别模型模块、循环神经网络模块和神经网络层模块。

在一些实施例中,所述待训练深度学习模型的超参数包括模型学习率、训练大小、训练次数、dropout比率、正则化数值、优化器参数。

在一些实施例中,根据所述每个可视化模块对应的训练参数、所述待训练深度学习模型的超参数和所述遍历参数对待训练深度学习模型进行遍历训练,包括:根据所述每个可视化模块对应的训练参数、所述待训练深度学习模型的超参数和所述遍历参数生成多个训练指令,将所述多个训练指令分别发送给多个服务器,以便所述多个服务器根据接收到的训练指令并行进行相应的模型训练。

在一些实施例中,基于遍历训练的结果生成所述遍历参数对应的多指标变化训练图像,包括:获取每个服务器对应的模型训练结果,并对所有服务器的模型训练结果进行融合,以得到所述遍历参数对应的多指标变化训练图像。

在一些实施例中,该训练方法还包括:获取所述多指标变化训练图像中的准确率最高值和训练收敛速度极值;基于所述准确率最高值和所述训练收敛速度极值获取相应的调优模型,并将所述调优模型的参数作为调优参数。

为了实现上述目的,本发明提供了一种计算机可读存储介质,其上存储有深度学习模型的可视化训练程序,该深度学习模型的可视化训练程序被处理器执行时实现如上所述的深度学习模型的可视化训练方法。

为了实现上述目的,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上所述的深度学习模型的可视化训练方法。

为了实现上述目的,本发明提供了一种深度学习模型的可视化训练装置,包括:获取模块,所述获取模块用于获取历史数据,并对所述历史数据进行处理,以生成训练数据;可视化模块,所述可视化模块用于获取用户对于预设可视化模块的操作指令,并根据所述操作指令生成待训练深度学习模型对应的可视化训练链路;所述可视化模块还用于获取所述可视化训练链路中每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数;训练模块,所述训练模块用于根据所述每个可视化模块对应的训练参数、所述待训练深度学习模型的超参数和所述遍历参数对待训练深度学习模型进行遍历训练,以及基于遍历训练的结果生成所述遍历参数对应的多指标变化训练图像。

在一些实施例中,所述预设可视化模块包括预训练网络模型模块、图像识别模型模块、循环神经网络模块和神经网络层模块。

上述发明内容相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明。

附图说明

附图仅用于示出本申请具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本申请的限制。

在说明书附图中:

图1为根据本发明实施例的深度学习模型的可视化训练方法的流程示意图;

图2为根据本发明实施例的可视化界面示意图;

图3为根据本发明实施例的可视化模块参数设置示意图;

图4为根据本发明实施例的多服务器遍历训练过程示意图;

图5为根据本发明实施例的多指标变化训练图像示意图;

图6为根据本发明实施例的深度学习模型的可视化训练装置的方框示意图。

具体实施方式

为详细说明本申请可能的应用场景,技术原理,可实施的具体方案,能实现目的与效果等,以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本申请中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。

除非另有定义,本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本申请。

在本申请的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的105表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及

同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。

在本申请中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或110操作之间存在任何实际的数量、主次或顺序等关系。

在没有更多限制的情况下,在本申请中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述,意在涵盖非排他性的包含,这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要115素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。

与《审查指南》中的理解相同,在本申请中,“大于”、“小于”、“超过”

等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。

此外,在本申请实施例的描述中“多个”的含义是两个以上(包括两个),与120之类似的与“多”相关的表述亦做此类理解,例如“多组”、“多次”等,除非另有明确具体的限定。

在本申请实施例的描述中,所使用的与空间相关的表述,诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”

“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”125“周向”等,所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系,仅是为了便于描述本申请的具体实施例或便于读者理解,而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作,因此不能理解为对本申请实施例的限制。

除非另有明确的规定或限定,在本申请实施例的描述中,所使用的“安130装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如,所述“连接”可以是固定连接,也可以是可拆卸连接,或成一体设置;其可以是机械连接,也可以是电连接,也可以是通信连接;其可以是直接相连,也可以通过中间媒介间接相连;其可以是两个元件内部的连通或两个元件的相互作用关系。对于本申请所属技术领域的技术人员而言,可以根据具体情况理解上述用语在本申请实施例中的具体含义。

请参阅图1,图1为根据本发明实施例的深度学习模型的可视化训练方法的流程示意图;如图1所示,该深度学习模型的可视化训练方法包括以下步骤:

S101,获取历史数据,并对历史数据进行处理,以生成训练数据。

也就是说,对待训练深度学习模型所对应的历史数据进行收集,并对收集得到的历史数据进行处理,以生成相应的训练数据。

其中,历史数据的选取方式可以有多种。例如,传感器的感应信息,摄像头得到的图像信息,业务流程中获取到的历史数据等,在此不对历史数据的具体形式进行限定。

其中,训练数据的生成方式可以有多种。例如,通过人工标定的方式对图像信息中的目标信息进行标注;或者,文本分类任务中,将分类好的数据放入分类好的文件夹;命名实体识别任务将数据标注上BIO标签。

S102,获取用户对于预设可视化模块的操作指令,并根据操作指令生成待训练深度学习模型对应的可视化训练链路。

在一些实施例中,预设可视化模块包括预训练网络模型模块、图像识别模型模块、循环神经网络模块和神经网络层模块。

作为一种示例,如图2所示,首先,预设可视化模块,以形成模型选择去,在该模型选择区中,包括预训练网络模型模块、图像识别模型模块、循环神经网络模块和神经网络层模块。具体地,预训练网络模型模块中包括transformer网络模型、Bert网络模型和gpt网络模型;图像识别模型模块中包括LeNet-5识别模型、Inception-v1识别模型、Inception-v4识别模型、AlexNet识别模型、Inception-v3识别模型、ResNeXt-50识别模型、VGG-16识别模型、ResNet-50识别模型、DenseNet识别模型、ConvNeXt识别模型、Xception识别模型、RegNet识别模型;循环神经网络模块中包括RNN神经网络、LSTM神经网络、BiLSTM神经网络、GRU神经网络、HMM神经网络、CRF神经网络;神经网络层模块包括卷积层、池化层、Flatten层、Dropout层、全连接层、Embedding层。接着,用户可以通过模型选择去对需要的模型进行选择;具体地,用户对于预设可视化模块的操作指令可以是对于可视化模块的点击、输入可视化模块对应的唯一编码、对可视化模块进行拖拽等。进而,在获取用户对于预设可视化模块的操作指令之后,能够根据操作指令生成待训练深度学习模型对应的可视化训练链路。如图2所示,假设待训练深度模型用于文本分类任务,用户根据需要将相应的可视化模块拖拽到模型可视化区域中,形成可视化链路:数据-Bert网络模型-卷积层-池化层-全连接层。

S103,获取可视化训练链路中每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数。

也就是说,在形成可视化训练链路之后,获取用户对于每一个可视化模块的设置,以获取每个可视化模块所对应的训练参数。同时,获取用户对于深度学习模型超参数的设置以及遍历参数的设置。

作为一种示例,如图3所示,首先,对于每一个可视化模块,预设相应的参数设置模板,接着,通过获取用户对于预设参数模板中每一项的操作(例如,调整上调按键或者下调按键、直接输入参数值等)来获取每一个可视化模块对应的参数。

在一些实施例中,待训练深度学习模型的超参数包括模型学习率、训练大小、训练次数、dropout比率、正则化数值、优化器参数。

其中,遍历参数的设置方式可以有多种。

作为一种示例,首先,选择输入词长大小作为遍历参数;接着,设置其对应的范围在800~3600之间,以300为步长进行遍历训练。需要说明的是,可支持多参数的组合方式来进行遍历,并且,遍历参数的选择可以根据实际经验中最容易影响训练结果的情况进行选择。

S104,根据每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数对待训练深度学习模型进行遍历训练,以及基于遍历训练的结果生成遍历参数对应的多指标变化训练图像。

在一些实施例中,根据每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数对待训练深度学习模型进行遍历训练,包括:根据每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数生成多个训练指令,将多个训练指令分别发送给多个服务器,以便多个服务器根据接收到的训练指令并行进行相应的模型训练。

作为一种示例,如图4所示,首先,根据业务需求的数据格式整理得到训练数据,并将训练数据存储在训练模型平台。接着,训练模型平台在接收到用户通过可视化系统输入的参数(包括可视化模块对应的参数、超参数和遍历参数)之后,根据参数生成训练指令;然后,将训练指令分流传输给各个服务器;接着,各个服务器在接收到训练指令之后,根据训练指令进行相应的模型训练,以得到遍历训练结果;然后,对各个服务器训练得到的结果进行汇集和统计,生成多指标变化训练图像。

在一些实施例中,基于遍历训练的结果生成遍历参数对应的多指标变化训练图像,包括:获取每个服务器对应的模型训练结果,并对所有服务器的模型训练结果进行融合,以得到遍历参数对应的多指标变化训练图像。

也就是说,对多台服务器训练得到的数据进行合并,以生成遍历参数变化时的训练图形。如此,有利于模型开发者选择最佳参数。

具体地,图5为根据本发明实施例的多指标变化训练图像示意图;如图5所示,通过该多指标变化训练图像,模型开发者可以方便地选择其中准确率的最高点、训练收敛最快的模型;接着,根据该模型所对应的参数对最终深度学习模型进行更深化的调优。可以理解,该多指标变化训练图像为模型开发者对于参数的调整提供了指导,将参数对于最终模型的影响进行了可视化210地呈现。极大地缩短了模型开发者在参数选择时所需要耗费的时间。并且,

参数的选择不再基于模型开发者的个人经验,而是基于具体的数据;提高了参数选择的科学性,进而提高最终深度学习模型的识别准确率。

在一些实施例中,该方法还包括:获取多指标变化训练图像中的准确率最高值和训练收敛速度极值;基于准确率最高值和训练收敛速度极值获取相215应的调优模型,并将调优模型的参数作为调优参数。

综上所述,根据本发明实施例地深度学习模型的可视化训练方法,首先以可视化的方式获取深度学习模型的具体层数和连接关系,极大地提高了深度学习模型设置的便利性。接着,通过可视化的方式获取对应的参数、超参数和遍历参数;然后,根据获取到的参数、超参数和遍历参数对深度学习模220型进行遍历训练,并根据遍历训练的结果生成多指标变化训练图像;如此,

用户无需对参数进行细微的调整,即可通过遍历训练结果生成的多指标变化训练图像直观地查看不同遍历参数对于最终深度学习模型准确率的影响,并且,可以直观地发现那些参数的调整对模型过拟合产生了主要影响。

为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,225其上存储有深度学习模型的可视化训练程序,该深度学习模型的可视化训练程序被处理器执行时实现如上所述的深度学习模型的可视化训练方法。

为了实现上述实施例,本发明实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上所述的深度学习模型的可视化训练方法。

230为了实现上述实施例,本发明实施例提出了一种深度学习模型的可视化训练装置,如图6所示,该深度学习模型的可视化训练装置包括:获取模块10、可视化模块20、训练模块30。

其中,获取模块10用于获取历史数据,并对历史数据进行处理,以生成训练数据;

235可视化模块20用于获取用户对于预设可视化模块的操作指令,并根据操作指令生成待训练深度学习模型对应的可视化训练链路;

可视化模块20还用于获取可视化训练链路中每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数;

训练模块30用于根据每个可视化模块对应的训练参数、待训练深度学习240模型的超参数和遍历参数对待训练深度学习模型进行遍历训练,以及基于遍历训练的结果生成遍历参数对应的多指标变化训练图像。

在一些实施例中,预设可视化模块包括预训练网络模型模块、图像识别模型模块、循环神经网络模块和神经网络层模块。

在一些实施例中,待训练深度学习模型的超参数包括模型学习率、训练245大小、训练次数、dropout比率、正则化数值、优化器参数。

在一些实施例中,训练模块30用于根据每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数生成多个训练指令,将多个训练指令分别发送给多个服务器,以便多个服务器根据接收到的训练指令并行进行相应的模型训练。

250在一些实施例中,训练模块30用于获取每个服务器对应的模型训练结果,

并对所有服务器的模型训练结果进行融合,以得到遍历参数对应的多指标变化训练图像。

在一些实施例中,该装置还包括调优模块,该调优模块用于获取多指标变化训练图像中的准确率最高值和训练收敛速度极值;基于准确率最高值和255训练收敛速度极值获取相应的调优模型,并将调优模型的参数作为调优参数。

需要说明的是,上述关于深度学习模型的可视化训练方法的描述同样适用于该深度学习模型的可视化训练装置,在此不做赘述。

综上所述,根据本发明实施例的深度学习模型的可视化训练装置,通过设置获取模块用于获取历史数据,并对历史数据进行处理,以生成训练数据;260可视化模块,可视化模块用于获取用户对于预设可视化模块的操作指令,并根据操作指令生成待训练深度学习模型对应的可视化训练链路;可视化模块还用于获取可视化训练链路中每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数;训练模块,训练模块用于根据每个可视化模块对应的训练参数、待训练深度学习模型的超参数和遍历参数对待训练深度学习模型进行遍历训练,以及基于遍历训练的结果生成遍历参数对应的多指标变化训练图像。能够对深度学习模型进行遍历训练,极大地提高了深度学习模型参数设置的便利性和准确性,进而提高最终深度学习模型的识别准确率,降低训练所需时间成本。

最后需要说明的是,尽管在本申请的说明书文字及附图中已经对上述各实施例进行了描述,但并不能因此限制本申请的专利保护范围。凡是基于本申请的实质理念,利用本申请说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案,以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等,均包括在本申请的专利保护范围之内。

技术分类

06120116381200