掌桥专利:专业的专利平台
掌桥专利
首页

基于多模态的运检班组画像生成方法及装置

文献发布时间:2024-04-18 19:54:45


基于多模态的运检班组画像生成方法及装置

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于多模态的运检班组画像生成方法及装置。

背景技术

近年来,输电运检专业不断推进发展方式变革,开展立体巡检、移动作业、综合在线监测、人工智能图像识别、智能运检大数据统计分析等技术的研究和应用,极大提升了输电运检技术管理精益化水平,输电运检设备可视化、智能化建设的同时,也给运检班组带来了很多困难和挑战,其中,班组生产管理日益复杂。

对于运检班组的管理可以基于班组画像进行,但是现如今的班组画像是根据管理人员的平时印象进行确定的,确定定量的数据关系,不具有科学性;及时有部分的运检班组画像是基于数据进行的,也未进行多方面的数据挖掘,使得所述运检班组画像具有片面性,因此如何提升运检班组画像生成精度,成为了亟待解决的问题。

发明内容

本发明提供一种基于多模态的运检班组画像生成方法及装置,其主要目的在于解决基于多模态的运检班组画像生成时精度较低的问题。

为实现上述目的,本发明提供的一种基于多模态的运检班组画像生成方法,包括:

获取运检班组的职员信息,根据所述职员信息生成所述运检班组的多维度标签;

获取所述运检班组的运检设备数据,对所述运检设备数据进行数据清洗,得到所述运检设备数据的标准数据;

对所述标准数据进行指标聚类,得到所述标准数据的指标数据;

根据预设的指标权重算法和所述指标数据生成所述多维度标签的指标权重,其中,所述预设的指标权重算法为:

其中,

利用所述指标权重和所述多维度标签构建所述运检班组的班组画像。

可选地,所述根据所述职员信息生成所述运检班组的多维度标签,包括:

对所述职员信息进行特征提取,得到所述职员信息的职员特征;

根据预设的业务需求确定所述职员特征的职员属性,按照所述职员属性对所述职员信息进行信息分类,得到所述职员信息的层级信息;

根据所述层级信息确定所述运检班组的多维度标签。

可选地,所述按照所述职员属性对所述职员信息进行信息分类,得到所述职员信息的层级信息,包括:

利用所述职员属性对所述职员信息进行一级分类,得到所述职员信息的一级信息;

根据预设的业务需求对所述一级信息进行二级分类,得到所述一级信息的二级信息;

根据所述一级信息和所述二级信息确定所述职员信息的层级信息。

可选地,所述对所述运检设备数据进行数据清洗,得到所述运检设备数据的标准数据,包括:

对所述运检设备数据进行重复值删除,得到所述运检设备数据的一级数据;

对所述一级数据进行缺失值填充,得到所述一级数据的二级数据;

对所述二级数据进行错误值改正,得到所述二级数据的三级数据,确定所述三级数据为所述运检设备数据的标准数据。

可选地,所述对所述标准数据进行指标聚类,得到所述标准数据的指标数据,包括:

S11、对所述标准数据进行样本随机化选取,得到所述标准数据的随机样本;

S12、对所述标准数据进行特征随机化选取,得到所述标准数据的随机特征;

S13、选取所述随机特征中的其中一个随机特征作为分裂特征,根据所述分裂特征、所述随机样本和预设的决策阈值构建特征决策树;

S14、重复步骤S11- S13,直至所述特征决策树的数目等于预设的决策树数目阈值;

S15、汇集所有所述特征决策树生成所述标准数据的随机森林,利用所述随机森林生成所述标准数据的指标数据。

可选地,所述对所述标准数据进行指标聚类,得到所述标准数据的指标数据,包括:

S16、根据预设的类别确定所述标准数据的聚类中心,根据预设的距离公式确定所述聚类中心和所述标准数据的标准距离;

S17、根据所述标准距离确定所述标准数据的新中心点,判断所述新中心点和所述聚类中心的中心距离;

S18、根据所述中心距离与预设的距离阈值确定所述新中心点与所述聚类中心是否一致,当所述新中心点与所述聚类中心一致时,确定所述聚类中心为目标中心;

S19、当所述新中心点与所述聚类中心一致时,重复步骤S16- S18,直至所述新中心点与所述聚类中心一致。

可选地,所述根据预设的距离公式确定所述聚类中心和所述标准数据的标准距离,包括:

利用如下预设的距离公式生成所述聚类中心和所述标准数据的标准距离:

其中,

可选地,所述根据预设的指标权重算法和所述指标数据生成所述多维度标签的指标权重,包括:

确定所述指标数据的指标属性,根据所述指标属性和所述多维度标签生成所述指标数据的判断矩阵;

对所述判断矩阵进行一致性验证,确定通过所述一致性验证的判断矩阵为目标矩阵;

根据所述目标矩阵和预设的指标权重算法生成所述多维度标签的指标权重。

可选地,所述利用所述指标权重和所述多维度标签构建所述运检班组的班组画像,包括:

根据预设的指标阈值对所述指标权重进行重要性选取,得到所述指标权重的关键权重;

确定所述关键权重对应的多维度标签为目标标签,根据所述目标标签和所述关键权重生成所述运检班组的班组画像。为了解决上述问题,本发明还提供一种基于多模态的运检班组画像生成装置,所述装置包括:

多维度标签模块,用于获取运检班组的职员信息,根据所述职员信息生成所述运检班组的多维度标签;

数据清洗模块,用于获取所述运检班组的运检设备数据,对所述运检设备数据进行数据清洗,得到所述运检设备数据的标准数据;

指标聚类模块,用于对所述标准数据进行指标聚类,得到所述标准数据的指标数据;

指标权重模块,用于根据预设的指标权重算法和所述指标数据生成所述多维度标签的指标权重,其中,所述预设的指标权重算法为:

其中,

班组画像模块,用于利用所述指标权重和所述多维度标签构建所述运检班组的班组画像。

本发明实施例通过职员信息生成运检班组的多维度标签,建立了多维度的画像框架,保障了数据分析的全面性,对获取的运检设备数据进行数据清洗,确保了数据的准确性,对生成的标准数据进行指标聚类,得到所述标准数据的指标数据,是为了建立起所述指标数据和所述多维度标签的关联性,并根据关联性对所述指标数据和所述多维度标签进行加权处理,进一步修正了运检班组画像的准确度,因此本发明提出基于多模态的运检班组画像生成方法及装置,可以解决运检班组画像精度较低的问题。

附图说明

图1为本发明一实施例提供的基于多模态的运检班组画像生成方法的流程示意图;

图2为本发明一实施例提供的生成多维度标签的流程示意图;

图3为本发明一实施例提供的生成指标权重的流程示意图;

图4为本发明一实施例提供的基于多模态的运检班组画像生成装置的功能模块图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请实施例提供一种基于多模态的运检班组画像生成方法。所述基于多模态的运检班组画像生成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于多模态的运检班组画像生成方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示,为本发明一实施例提供的基于多模态的运检班组画像生成方法的流程示意图。在本实施例中,所述基于多模态的运检班组画像生成方法包括:

S1、获取运检班组的职员信息,根据所述职员信息生成所述运检班组的多维度标签。

在本发明实施例中,所述运检班组可以存在于电力公司中,也可以存在于通信公司中,假设,所述运检班组存在于电力公司中,所述运检班组指在电力公司中,由对电力设备或电力线路进行维修的维修人员组成的班组;所述职员信息是指所述运检班组中运检人员的人员信息,其中,所述职员信息包括但不限于:职员姓名、工号、手机号码、年龄、学历、技能证书、工作经历等。

详细地,所述多维度标签是对所述运检班组的职员信息的表征,例如,所述多维度标签可以是员工姓名,或者是员工工号,或者是员工账号等,所述多维度标签具有唯一标识性。

在本发明实施例中,参图2所示,所述根据所述职员信息生成所述运检班组的多维度标签,包括:

S21、对所述职员信息进行特征提取,得到所述职员信息的职员特征;

S22、根据预设的业务需求确定所述职员特征的职员属性,按照所述职员属性对所述职员信息进行信息分类,得到所述职员信息的层级信息;

S23、根据所述层级信息确定所述运检班组的多维度标签。

详细地,所述特征提取可以利用循环神经网络,或者是卷积神经网络,或者是Transformer模型。

进一步地,所述职员特征可以表征为向量形式,假设,所述运检班组的职员总数为5,那么,运检班组中的职员可以表征为

进一步地,所述预设的业务需求可以包括维修、开发、审核、行政、技术等,所述职员属性可以是维修属性、开发属性、审核属性、行政属性和技术属性;对所述职员信息进行信息分类可以利用索引进行挑选,或者用决策树进行分类,或者利用欧氏距离进行分类,或者利用相似度进行分类。

详细地,所述按照所述职员属性对所述职员信息进行信息分类,得到所述职员信息的层级信息,包括:

利用所述职员属性对所述职员信息进行一级分类,得到所述职员信息的一级信息;

根据预设的业务需求对所述一级信息进行二级分类,得到所述一级信息的二级信息;

根据所述一级信息和所述二级信息确定所述职员信息的层级信息。

详细地,所述层级信息是指层级分类后的职员信息。

S2、获取所述运检班组的运检设备数据,对所述运检设备数据进行数据清洗,得到所述运检设备数据的标准数据。

在本发明实施例中,所述运检设备数据是指电力设备的维修时间、购入时间、销售厂家、维修次数、使用时间、维修配件、维修职员和维修周期等;所述数据清洗是为了获取可以进行聚类的数据,因为错误的、缺失的、重复的数据都会影响数据分析的结果。

详细地,所述标准数据是指经过数据矫正后的运检设备数据。

在本发明实施例中,所述对所述运检设备数据进行数据清洗,得到所述运检设备数据的标准数据,包括:

对所述运检设备数据进行重复值删除,得到所述运检设备数据的一级数据;

对所述一级数据进行缺失值填充,得到所述一级数据的二级数据;

对所述二级数据进行错误值改正,得到所述二级数据的三级数据,确定所述三级数据为所述运检设备数据的标准数据。

详细地,所数据清洗也叫做数据预处理,一般进行数据清洗需要通过这些步骤进行处理:删除重复值,缺失值处理,一致化处理,数据排序处理,异常值处理。

进一步地,删除数据中的重复数据值是指只会保留重复数据的第一条数据;原始数据中可能会出现数据值缺失,即数据集中存在无数据的数据单元格,在数据分析时会影响结果,需要将缺失的数据值进行补全;数据集中会存在某一个数据列的数据值标准不一致或命名规则不一致的情况,可以使用分列功能将不一致的数据列中的数据值进行拆分。

S3、对所述标准数据进行指标聚类,得到所述标准数据的指标数据。

在本发明实施例中,所述对所述标准数据进行指标聚类是指根据去欸的那个所述标准数据的分类依据,再根据分类依据对所述标准数据进行分类,得到所述标准数据的指标数据。

在本发明实施例中,所述对所述标准数据进行指标聚类,得到所述标准数据的指标数据,包括:

S11、对所述标准数据进行样本随机化选取,得到所述标准数据的随机样本;

S12、对所述标准数据进行特征随机化选取,得到所述标准数据的随机特征;

S13、选取所述随机特征中的其中一个随机特征作为分裂特征,根据所述分裂特征、所述随机样本和预设的决策阈值构建特征决策树;

S14、重复步骤S11- S13,直至所述特征决策树的数目等于预设的决策树数目阈值;

S15、汇集所有所述特征决策树生成所述标准数据的随机森林,利用所述随机森林生成所述标准数据的指标数据。

详细地,所述随机森林具有良好的泛化和抗噪声能力;所述随机森林通过集成学习的Bagging思想将多棵树集成的一种算法:它的基本单元就是决策树,将一个输入样本进行分类,就需要将它输入到每棵树中进行分类,将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器。

进一步地,对所述标准数据进行样本随机化选取是指从所述标准数据的数据集中每次随机取一个样本,然后放回,重复N次,得到第一个决策树数据集M1;所述对所述标准数据进行特征随机化选取是指在构建决策树的过程中,当需要分裂时,随机从T个特征中抽取t个特征,其中,t远小于T。

详细地,构建决策树的过程都按照步骤S12的方法进行,如果选取的分裂特征与父节点一样,则不再分裂,整个过程特征数量为T1,过程中不剪枝,生成第一颗决策树。最后一步是重复步骤S11- S13,构建大量的决策树,这样就构建了随机森林。对于结果的输出,采用投票的方式决定最后的分类。

在本发明实施例中,所述对所述标准数据进行指标聚类,得到所述标准数据的指标数据,包括:

S16、根据预设的类别确定所述标准数据的聚类中心,根据预设的距离公式确定所述聚类中心和所述标准数据的标准距离;

S17、根据所述标准距离确定所述标准数据的新中心点,判断所述新中心点和所述聚类中心的中心距离;

S18、根据所述中心距离与预设的距离阈值确定所述新中心点与所述聚类中心是否一致,当所述新中心点与所述聚类中心一致时,确定所述聚类中心为目标中心;

S19、当所述新中心点与所述聚类中心一致时,重复步骤S16- S18,直至所述新中心点与所述聚类中心一致。

详细地,所述预设的类别为电源维修、发动机维修、控制器维修等;确定电源、发动机和控制器为所述标准数据的聚类中心。

进一步地,聚类是在事先并不知道任何样本标签的情况下,通过数据之间的内在关系把样本划分为若干类别,使得同类别样本之间的相似度高,不同类别之间的样本相似度低。

详细地,通过迭代寻找若干个聚类中心的一种划分方案,使得聚类结果对应的损失函数最小。

详细地,所述根据预设的距离公式确定所述聚类中心和所述标准数据的标准距离,包括:

利用如下预设的距离公式生成所述聚类中心和所述标准数据的标准距离:

其中,

S4、根据预设的指标权重算法和所述指标数据生成所述多维度标签的指标权重。

在本发明实施例中,所述指标权重用来表征所述运检班组的职员的运检能力。

在本发明实施例中,参图3所示,所述根据预设的指标权重算法和所述指标数据生成所述多维度标签的指标权重,包括:

S31、确定所述指标数据的指标属性,根据所述指标属性和所述多维度标签生成所述指标数据的判断矩阵;

S32、对所述判断矩阵进行一致性验证,确定通过所述一致性验证的判断矩阵为目标矩阵;

S33、根据所述目标矩阵和预设的指标权重算法生成所述多维度标签的指标权重。

详细地,所述预设的指标权重算法将定量分析与定性分析结合起来,有效确定了所述多维度标签的指标权重。

详细地,所述判断矩阵是根据所述指标属性和所述指标数据的重要性确定的,所述指标数据的重要性是指对所述指标数据进行重要性层次划分,重要性用0-1的数据进行表示。

进一步地,所述一致性验证是指根据随机一致性指标和定义一致性指标确定的,利用所述随机一致性指标和所述定义一致性指标生成定义一致性比率,判断所述定义一致性比率和预设的比率阈值的大小,从而生成所述判断矩阵的目标矩阵。

详细地,所述预设的指标权重算法为:

其中,

S5、利用所述指标权重和所述多维度标签构建所述运检班组的班组画像。

在本发明实施例中,所述利用所述指标权重和所述多维度标签构建所述运检班组的班组画像,包括:

根据预设的指标阈值对所述指标权重进行重要性选取,得到所述指标权重的关键权重;

确定所述关键权重对应的多维度标签为目标标签,根据所述目标标签和所述关键权重生成所述运检班组的班组画像。

详细地,所述预设的指标阈值是用来确定所述指标权重的重要性的,只有关键权重对应的目标标签才是可以用来确定所述运检班组的班组画像,例如:当所述预设的指标阈值为1,指标权重为2时,所述指标权重才可以确认为关键权重。

进一步地,多模态是指由多维度标签以及多类别的指标数据进行加权处理所得到的,多模态的运检班组画像就是由多维度标签和指标数据构成的关键权重进行表征的运检班组画像。

本发明实施例通过职员信息生成运检班组的多维度标签,建立了多维度的画像框架,保障了数据分析的全面性,对获取的运检设备数据进行数据清洗,确保了数据的准确性,对生成的标准数据进行指标聚类,得到所述标准数据的指标数据,是为了建立起所述指标数据和所述多维度标签的关联性,并根据关联性对所述指标数据和所述多维度标签进行加权处理,进一步修正了运检班组画像的准确度,因此本发明提出基于多模态的运检班组画像生成方法,可以解决运检班组画像精度较低的问题。

如图4所示,是本发明一实施例提供的基于多模态的运检班组画像生成装置的功能模块图。

本发明所述基于多模态的运检班组画像生成装置100可以安装于电子设备中。根据实现的功能,所述基于多模态的运检班组画像生成装置100可以包括多维度标签模块101、数据清洗模块102、指标聚类模块103、指标权重模块104及班组画像模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

所述多维度标签模块101,用于获取运检班组的职员信息,根据所述职员信息生成所述运检班组的多维度标签;

所述数据清洗模块102,用于获取所述运检班组的运检设备数据,对所述运检设备数据进行数据清洗,得到所述运检设备数据的标准数据;

所述指标聚类模块103,用于对所述标准数据进行指标聚类,得到所述标准数据的指标数据;

所述指标权重模块104,用于根据预设的指标权重算法和所述指标数据生成所述多维度标签的指标权重,其中,所述预设的指标权重算法为:

其中,

所述班组画像模块105,用于利用所述指标权重和所述多维度标签构建所述运检班组的班组画像。

在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术分类

06120116381354