掌桥专利:专业的专利平台
掌桥专利
首页

数据挖掘模型管理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:28:50


数据挖掘模型管理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机大数据技术领域,特别是涉及一种数据挖掘模型管理方法、装置、电子设备及存储介质。

背景技术

数据挖掘一般是指通过算法搜索,从海量数据中寻找规律和有价值信息的技术。数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习提供的技术来分析海量数据,利用数据库提供的技术来管理海量数据。换句话说,机器学习为数据挖掘提供了解决实际问题的方法。

数据挖掘生命周期由六个阶段组成:商业理解、数据理解、数据准备、建立模型、模型评估和方法实施。其中,模型全生命周期是指模型从“开发”到“上线”再到“下线”的整个流程,主要包括:数据准备、特征工程、算法实现、模型开发、模型发布、模型监控、模型优化、模型下线等阶段。

在数据驱动决策的今天,越来越多的企业认识到数据是企业重要战略资产。如何从海量数据中挖掘有价值信息,指导企业的智能运营与生产,支撑企业实时、精准、敏捷快速的决策,已成为当下企业迫切的业务需求,特别是在金融、电信、网络等行业。为满足企业上述需求,各类模型开发平台涌现。

就技术应用层面而言,目前的模型开发平台多为机器学习平台,可基本实现从数据准备到模型发布的过程。但这些平台缺乏对模型效果的监控和预警,缺乏模型上下线等流程的管理审批,模型版本混乱,使得企业难以对模型进行有效管理。另外,这些还缺乏对标准化建模流程的指引,亦缺乏对参数选择的指引,使得机器学习模型的开发门槛依然较高。

由于业务人员缺乏模型开发的专业知识和技能,业务人员在实施机器学习的过程中往往感到异常困难,主要体现在以下几个方面:

(1)学习门槛高,代码复杂,缺少可视化的操作界面,缺少标准化流程指引,缺少参数选择指引。

(2)开发效率低,缺乏模型管理的知识和经验,导致模型无法复用,且新开发模型的周期长。

而对于企业而言,在发展数据挖掘技术的过程中,通常面临着以下几个方面的挑战:

(1)开发成本高,培训业务人员的成本高,服务器算力要求高。

(2)模型监控少,模型的开发与部署存在缺口,生产模型的运行效果缺少监控,无法提示模型重新训练或退役。

(3)模型治理难,模型的开发、注册、部署、退役等流程缺乏审批。

发明内容

基于此,本发明的目的在于,提供一种数据挖掘模型管理方法、装置、电子设备及存储介质,提供了标准化的建模流程和工作流模板,降低了开发门槛,提高了开发效率。

第一方面,本发明提供一种数据挖掘模型管理方法,包括以下步骤:

响应于模型部署指令,生成并展示模型部署界面,所述模型部署界面包括已上线的模型名称、已上线的模型对应的状态,和对已注册模型的操作指令按钮;

响应于对已注册模型的操作指令,生成操作审批消息,并发送至对应的决策者;所述对已注册模型的操作指令包括以下至少一项:上线、更新、停用;

获取决策者的审批结果,当所述审批结果指示通过所述操作指令,执行所述操作指令;

其中,所述已注册模型的注册步骤包括:

获取模型注册指令,生成对应的标准建模流程;

获取参数调整指令,并根据所述参数调整指令修改当前模型对应的参数;

获取运行指令,执行所述运行指令对应的操作,并将运行结果展示在画布;

获取模型保存指令,保存当前的模型及对应参数至已注册模型。

进一步地,所述运行指令包括以下至少一项:

数据源文件选取、数据分区、数据质量检查、数据清洗、数据分箱、特征重要性评估、变量共线性检查、算法实现。

进一步地,还包括步骤:

根据当前用户的登录信息,获取该用户的系统权限;

根据所述用户的系统权限,生成该用户的系统界面。

进一步地,还包括步骤:

对于已上线的模型,获取服务监控指令,生成并展示当前模型对应的运行数据;所述运行数据包括以下至少一项:提升度、AUC值、准确率、精确率、召回率;

根据所述运行数据的历史变化情况,生成当前模型的运行性能变化报告。

进一步地,所述模型部署界面以表格形式展示当前已上线部署模型的名称、版本、模型状态、更新时间。

进一步地,还包括步骤:

对于已上线的模型,获取定时任务指令;

根据所述定时任务指令对应的定时调度信息,执行该定时任务,并在执行后生成对应的提醒信息。

进一步地,所述定时任务包括以下至少一项:

模型任务,用于已注册的模型进行周期性更新;

传输任务,用于提供数据迁移服务;

预测任务,用于提供自动化批量推理。

第二方面,本发明还提供一种数据挖掘模型管理装置,包括:

模型部署界面展示模块,用于响应于模型部署指令,生成并展示模型部署界面,所述模型部署界面包括已上线的模型名称、已上线的模型对应的状态,和对已注册模型的操作指令按钮;

操作审批消息生成模块,用于响应于对已注册模型的操作指令,生成操作审批消息,并发送至对应的决策者;所述对已注册模型的操作指令包括以下至少一项:上线、更新、停用;

操作指令指令执行模块,用于获取决策者的审批结果,当所述审批结果指示通过所述操作指令,执行所述操作指令;

其中,所述已注册模型的注册步骤包括:

获取模型注册指令,生成对应的标准建模流程;

获取参数调整指令,并根据所述参数调整指令修改当前模型对应的参数;

获取运行指令,执行所述运行指令对应的操作,并将运行结果展示在画布;

获取模型保存指令,保存当前的模型及对应参数至已注册模型。

第三方面,本发明还提供一种电子设备,包括:

至少一个存储器以及至少一个处理器;

所述存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本发明第一方面任一所述的一种数据挖掘模型管理方法的步骤。

第四方面,本发明还提供一种计算机可读存储介质,

所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种数据挖掘模型管理方法的步骤。

本发明提供的一种数据挖掘模型管理方法、装置、电子设备及存储介质,当用户执行创建模型时,系统提供了行业配套的工作流模板,以及标准化的建模流程组件,大大降低了用户开发模型的门槛。当用户需要查看已注册或已部署模型信息时,都会受到角色权限的严格管控,避免了用户权限过大或过小的情况。当用户需要执行模型部署相关操作时,还需要提请决策者审批,防止用户误操作或越权操作。模型效果的实时监控,可以帮助用户更及时准确地了解模型效果的变化,及时对模型进行优化或停用。

为了更好地理解和实施,下面结合附图详细说明本发明。

附图说明

图1为本发明在一个实施例中使用的一种模型全生命周期管理系统功能框架图;

图2为图1所示的管理系统的操作步骤图;

图3为本发明提供的一种数据挖掘模型管理方法的步骤示意图;

图4为图1所示的管理系统的模型部署界面示意图;

图5为图1所示的管理系统的审批流程图;

图6为图1所示的管理系统的模型任务界面示意图;

图7为图1所示的管理系统的传输任务界面示意图;

图8为图1所示的管理系统的预测任务界面示意图;

图9为本发明提供的一种数据挖掘模型管理装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

针对背景技术中的问题,在一个具体的应用场景中,本申请实施例提供一种模型全生命周期管理系统,如图1所示,该系统包括以下功能模块:工作流管理模块、数据源管理模块、建立模型模块和模型部署模块。

在一个具体的应用场景中,如图2所示,用户使用该系统的步骤包括:

步骤1、创建工作流,填写工作流相关信息;亦在工作流模板库中选取相关的案例,作为工作流模板。

步骤2、配置数据源,支持常见的关系型数据库和云数据库。

步骤3、将“标准流程”中的任一模型“组件”拖拽至建模画布中,即可自动生成相应的标准建模流程。

步骤4、打开画布中的相应组件,可进行数据源文件选取、数据分区、数据质量检查、数据清洗、数据分箱、特征重要性评估、变量共线性检查、算法实现等参数调整。

步骤5、点击“运行”按钮,可对单一或多个组件进行执行操作,亦可执行整个工作流。

步骤6、打开各个组件的“结果页面”,可看到各个组件的运行结果。

步骤7、重复步骤2-步骤6的操作,可以在同一画布中构建多个不同的模型,使用“模型对比”组件,可以对比各个模型间的优劣,便于选择最优的模型。

步骤8、使用“写出数据表”组件可以将训练模型过程中产生的表按照一定的形式导入到某数据源中,做好文件保存和备份。

步骤9、点击“保存”按钮,对画布操作进行保存。

步骤10、点击“模型注册”按钮,跳转至“模型管理”模块,填写模型相关信息,包括:模型名称、模型版本等,便于对模型进行管理。同时,用户可根据权限查看现有的模型。

步骤11、进入“模型部署”界面,用户可根据权限监控已上线的模型的状态,亦可对已注册模型执行上线、更新、停用等操作。

步骤12、用户对已注册模型执行上线、更新、停用等操作时,系统会自动将申请发送至审批系统,待决策者审批后,该操作才会被执行。

基于上述模型全生命周期管理系统,本申请实施例提供一种数据挖掘模型管理方法,如图3所示,该方法包括以下步骤:

S01:响应于模型部署指令,生成并展示模型部署界面,所述模型部署界面包括已上线的模型名称、已上线的模型对应的状态,和对已注册模型的操作指令按钮。

优选的,所述模型部署界面以表格形式展示当前已上线部署模型的名称、版本、模型状态、更新时间。

具体应用中,如图4所示,用户可根据账号权限查看自己建立的模型信息和他人建立分享的公共模型信息。具体的操作/功能如下:

展示每个数据模型的详细信息,如模型ID/名称、创建者、更新时间、最新版本、模型来源等。

点击“操作”中的“停用”按钮,可对对应的现有模型进行停用的操作。

通过在“模型名称”后面的搜索框输入模型ID或名称,精准或模糊查询搜索现有模型。

点击“新模型注册”按钮,可进入模型注册页面。

S02:响应于对已注册模型的操作指令,生成操作审批消息,并发送至对应的决策者;所述对已注册模型的操作指令包括以下至少一项:上线、更新、停用。

S03:获取决策者的审批结果,当所述审批结果指示通过所述操作指令,执行所述操作指令。

在一个优选的实施例中,模型上线部署审批的流程如图5所示,通过决策者审批流程,防止用户误操作或越权操作。

其中,所述已注册模型的注册步骤包括:

S11:获取模型注册指令,生成对应的标准建模流程。

S12:获取参数调整指令,并根据所述参数调整指令修改当前模型对应的参数。

S13:获取运行指令,执行所述运行指令对应的操作,并将运行结果展示在画布。

数据源文件选取、数据分区、数据质量检查、数据清洗、数据分箱、特征重要性评估、变量共线性检查、算法实现。

S14:获取模型保存指令,保存当前的模型及对应参数至已注册模型。

在一个更为优选的实施例中,本发明提供的一种数据挖掘模型管理方法还包括步骤:

S21:根据当前用户的登录信息,获取该用户的系统权限;

S22:根据所述用户的系统权限,生成该用户的系统界面。

通过权限设定,当用户需要查看已注册或已部署模型信息时,都会受到角色权限的严格管控,避免了用户权限过大或过小的情况。有效权限管控,通过用户角色权限,控制已注册模型查看权限,控制模型部署相关操作。

在另一个优选的实施例中,本申请提供的一种数据挖掘模型管理方法还包括以下步骤:

S31:对于已上线的模型,获取服务监控指令,生成并展示当前模型对应的运行数据;所述运行数据包括以下至少一项:提升度、AUC值、准确率、精确率、召回率。

S32:根据所述运行数据的历史变化情况,生成当前模型的运行性能变化报告。

具体应用中,用户通过点击“服务监控”中的图标,控制系统展示模型的运行效果(如提升度、AUC值、准确率、精确率、召回率等),及时告知用户模型的性能变化,利于用户评估模型是否需重新训练、下架等。

在另一个优选的实施例中,本申请提供的一种数据挖掘模型管理方法还包括以下步骤:

S41:对于已上线的模型,获取定时任务指令。

S42:根据所述定时任务指令对应的定时调度信息,执行该定时任务,并在执行后生成对应的提醒信息。

优选的,所述定时任务包括以下至少一项:

模型任务,用于已注册的模型进行周期性更新;

传输任务,用于提供数据迁移服务;

预测任务,用于提供自动化批量推理。

具体应用中,如图6所示,模型任务的具体操作/功能如下:

模型任务支持用新的数据对已注册的模型进行周期性更新;由“模型任务列表”和“新建模型任务”2个选项卡组成。

“模型任务列表”选项以表格形式展示当前已部署自动调度的模型任务,用户可通过该界面管理模型任务,对模型任务进行“增、删、改”操作。

点击“新建任务”,进入“新建模型任务”选项,在该页面用户新建模型任务,指定已注册的模型及数据源,配置定时调度信息、任务依赖、消息推送。

如图7所示,传输任务的具体操作/功能如下:

传输任务提供数据迁移服务,可实现本地数据文件上传、训练数据更新,预测结果下载、模型参数下载、库间数据迁移的自动化调度;由“传输任务列表”和“新建传输任务”2个选项卡组成。

“传输任务列表”选项以表格形式展示当前已部署的传输任务,用户可通过该界面管理传输任务,对传输任务进行“增、删、改”操作。

“新建传输任务”选项中,用户可新建传输任务,指定数据源及目标表,并配置定时调度信息、任务依赖、消息推送。

如图8所示,预测任务的具体操作/功能如下:

预测任务提供自动化批量推理,可根据已有的模型对新数据进行批量预测,分为“预测任务列表”和“新建预测任务”2个选项卡。

“预测任务列表”选项以表格形式展示当前已部署的预测任务,用户可通过该界面管理预测任务,对预测任务进行“增、删、改”操作。

“新建预测任务”选项中,用户可新建预测任务,指定模型及数据源,并配置定时调度信息、任务依赖、消息推送。

本申请实施例还提供一种数据挖掘模型管理装置,如图9所示,该数据挖掘模型管理装置400包括:

模型部署界面展示模块401,用于响应于模型部署指令,生成并展示模型部署界面,所述模型部署界面包括已上线的模型名称、已上线的模型对应的状态,和对已注册模型的操作指令按钮;

操作审批消息生成模块402,用于响应于对已注册模型的操作指令,生成操作审批消息,并发送至对应的决策者;所述对已注册模型的操作指令包括以下至少一项:上线、更新、停用;

操作指令指令执行模块403,用于获取决策者的审批结果,当所述审批结果指示通过所述操作指令,执行所述操作指令;

其中,所述已注册模型的注册步骤包括:

获取模型注册指令,生成对应的标准建模流程;

获取参数调整指令,并根据所述参数调整指令修改当前模型对应的参数;

获取运行指令,执行所述运行指令对应的操作,并将运行结果展示在画布;

获取模型保存指令,保存当前的模型及对应参数至已注册模型。

优选的,所述运行指令包括以下至少一项:

数据源文件选取、数据分区、数据质量检查、数据清洗、数据分箱、特征重要性评估、变量共线性检查、算法实现。

优选的,所述目标检测网络模型为YOLOv5模型。

优选的,还包括:

系统权限获取模块,用于根据当前用户的登录信息,获取该用户的系统权限;

系统界面生成模块,用于根据所述用户的系统权限,生成该用户的系统界面。

优选的,还包括:

运行数据生成模块,用于对于已上线的模型,获取服务监控指令,生成并展示当前模型对应的运行数据;所述运行数据包括以下至少一项:提升度、AUC值、准确率、精确率、召回率;

运行性能变化报告生成模块,用于根据所述运行数据的历史变化情况,生成当前模型的运行性能变化报告。

优选的,所述模型部署界面以表格形式展示当前已上线部署模型的名称、版本、模型状态、更新时间。

优选的,还包括:

定时任务指令获取模块,用于对于已上线的模型,获取定时任务指令;

定时任务执行模块,用于根据所述定时任务指令对应的定时调度信息,执行该定时任务,并在执行后生成对应的提醒信息。

优选的,所述定时任务包括以下至少一项:

模型任务,用于已注册的模型进行周期性更新;

传输任务,用于提供数据迁移服务;

预测任务,用于提供自动化批量推理。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本申请实施例还提供一种电子设备,包括:

至少一个存储器以及至少一个处理器;

所述存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如前所述的一种数据挖掘模型管理方法的步骤。

对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本申请实施例还提供一种计算机可读存储介质,

所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的一种数据挖掘模型管理方法的步骤。

计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(R AM)、只读存储器(R OM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

本发明提供的一种数据挖掘模型管理方法、装置、电子设备及存储介质,当用户执行创建模型时,系统提供了行业配套的工作流模板,以及标准化的建模流程组件,大大降低了用户开发模型的门槛。当用户需要查看已注册或已部署模型信息时,都会受到角色权限的严格管控,避免了用户权限过大或过小的情况。当用户需要执行模型部署相关操作时,还需要提请决策者审批,防止用户误操作或越权操作。模型效果的实时监控,可以帮助用户更及时准确地了解模型效果的变化,及时对模型进行优化或停用。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

技术分类

06120115926276