掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于机器学习技术领域,特别涉及一种基于机器学习技术构建审计用户画像的方法。

背景技术

机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一,用户画像作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,在机器学习领域得到了广泛应用。用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。随着大数据技术在国内迅猛发展,以及审计行业对数据分析需求的持续增加,如何高效的获取有效信息已逐渐成为将工程审计与用户画像技术相融合的主要推动力。传统的用户画像技术主要依靠大数据及数据挖掘技术处理,例如,传统的用户画像技术主要是通过大数据进行画像,一般针对个人用户的历史数据,抽象出个人的偏好,活跃时间,活动范围等,通过标签的精细化处理,可以满足以商业化为目的的精准推送,但针对企业用户,需要用户画像更为具立体化,需要在时间,空间,人物关联,任职部门,参与项目等方面对相关人员进行画像,而传统的用户画像无法满足企业用户的需求。

发明内容

为了解决上述问题,本发明提供一种基于机器学习技术构建审计用户画像的方法,以解决传统的用户画像无法满足审计企业用户需求的问题。

为实现上述目的,本发明提供了一种基于机器学习技术构建审计用户画像的方法,包括以下步骤:

获取企业用户的原始工程审计数据;

基于原始工程审计数据构建用户特征数据集;

对用户特征数据集进行特征提取,得到用户特征数据子集;

对用户特征数据子集进行特征选择,生成用户画像训练集及其索引标签;

将用户画像训练集与预测模型进行匹配,并将符合预期匹配结果的训练集输出,得到用户画像模型。

根据本发明的一个具体实施例,获取企业用户的原始工程审计数据包括:利用词袋模型从审计材料中获取企业用户的原始工程审计数据,其中原始工程审计数据包括用户属性数据和用户行为数据。

根据本发明的一个具体实施例,基于原始工程审计数据构建用户特征数据集包括:

从原始工程审计数据中选取多个用户特征数据;

对多个用户特征数据进行结构化处理,得到用户特征数据集。

根据本发明的一个具体实施例,对多个用户特征数据进行结构化处理,得到用户特征数据集包括:将多个用户特征数据按照人物关系、参与项目、工作时间、任职部门以及人员职务和决策内容进行分类,并根据分类结果创建用户特征数据集。

根据本发明的一个具体实施例,对用户特征数据集进行特征提取,得到用户特征数据子集包括:

采用主成分分析法从用户特征数据集中获取每个用户的人物关系、工作时间和参与项目的关联度;

根据关联度从用户特征数据集中选取多个关键特征数据,并基于多个关键特征数据创建用户特征数据子集。

根据本发明的一个具体实施例,用户特征数据子集包括属性特征数据子集和行为特征数据子集,对用户特征数据子集进行特征选择,生成用户画像训练集及其索引标签包括:

采用信息增益方法计算所述用户特征数据子集中的属性特征数据子集的信息增益,并基于信息增益选取多个用户特征数据构成用户画像训练集;

通过调用逻辑回归算法生成用户画像训练集中的每个用户特征数据的键值对,形成用户画像训练集的索引标签。

根据本发明的一个具体实施例,将所述用户画像训练集与预测模型进行匹配,并将符合预期匹配结果的训练集输出,得到用户画像模型包括:

对用户画像训练集进行标准化处理,得到标准化训练模型;

将标准化训练模型与预测模型进行匹配和评价,当评价符合预期匹配结果时,将符合预期匹配结果的训练集输出,得到用户画像模型,否则对用户画像训练集进行纠正,并输出纠正后的用户画像训练集。

一种基于机器学习技术构建审计用户画像的系统,包括:

数据采集模块,用于获取企业用户的原始工程审计数据;

特征构建模块,用于基于原始工程审计数据构建用户特征数据集;

特征提取模块,用于对用户特征数据集进行特征提取,得到用户特征数据子集;

特征选择模块,用于对用户特征数据子集进行特征选择,生成用户画像训练集及其索引标签;

训练集评价与导出模块,用于将用户画像训练集与预测模型进行匹配,并将符合预期匹配结果的训练集输出,得到用户画像模型。

一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。

一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。

与现有技术相比,本发明提供的一种基于机器学习技术构建审计用户画像的方法,将用户画像技术应用到工程审计模型中,通过深度学习算法的训练对数据集进行抽象建模,学习,形成对工程审计有效的训练集。本发明针对工程审计用户,通过在时间,空间,人物关联,任职部门,参与项目等方面对相关人员进行画像,通过特征工程构建了一个可标签化的训练集,该训练集使创建的用户画像更具立体化,通过本发明的用户画像构建方法,对于数据来源广泛,结构差异性大,内容复杂多样的工程审计企业数据,可以快速形成智能工程审计模型,可用于快速识别审计疑点。

附图说明

图1是根据本发明一实施例提供的一种基于机器学习技术构建审计用户画像的方法流程图。

图2是根据本发明一实施例提供的构建用户特征数据集的方法流程图。

图3是根据本发明一实施例提供的特征提取方法流程图。

图4是根据本发明一实施例提供的特征选择方法流程图。

图5是根据本发明一实施例提供的生成用户画像模型方法流程图。

图6是根据本发明一实施例提供的一种基于机器学习技术构建审计用户画像的系统结构示意图。

具体实施方式

为了使本领域技术人员更加清楚地理解本发明的概念和思想,以下结合具体实施例详细描述本发明。应理解,本文给出的实施例都只是本发明可能具有的所有实施例的一部分。本领域技术人员在阅读本申请的说明书以后,有能力对下述实施例的部分或整体作出改进、改造、或替换,这些改进、改造、或替换也都包含在本发明要求保护的范围内。

在本文中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。在本文中,术语“一”、“一个”和其它类似词语并不意在表示只存在一个事物,而是表示有关描述仅仅针对事物中的一个,事物可能具有一个或多个。在本文中,术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系,而不能视作表示空间结构上的关系。例如,“A包括B”意在表示在逻辑上B属于A,而不表示在空间上B位于A的内部。另外,术语“包含”、“包括”和其它类似词语的含义应视为开放性的,而非封闭性的。例如,“A包括B”意在表示B属于A,但是B不一定构成A的全部,A还可能包括C、D、E等其它元素。

在本文中,术语“实施例”、“本实施例”、“一实施例”、“一个实施例”并不表示有关描述仅仅适用于一个特定的实施例,而是表示这些描述还可能适用于另外一个或多个实施例中。本领域技术人员应理解,在本文中,任何针对某一个实施例所做的描述都可以与另外一个或多个实施例中的有关描述进行替代、组合、或者以其它方式结合,替代、组合、或者以其它方式结合所产生的新实施例是本领域技术人员能够容易想到的,属于本发明的保护范围。

实施例1

本发明的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施方式的实践了解到。结合图1-图5,本发明实施例提供的一种基于机器学习技术构建审计用户画像的方法,包括以下步骤:

S1:获取企业用户的原始工程审计数据;

S2:基于原始工程审计数据构建用户特征数据集;

S3:对用户特征数据集进行特征提取,得到用户特征数据子集;

S4:对用户特征数据子集进行特征选择,生成用户画像训练集及其索引标签;

S5:将用户画像训练集与预测模型进行匹配,并将符合预期匹配结果的训练集输出,得到用户画像模型。

具体的,步骤S1获取企业用户的原始工程审计数据,其中原始工程审计数据包括用户属性数据和用户行为数据。用户属性数据为静态数据,静态数据一般是人员的基本信息,例如职员姓名、职务、任职时间、参与项目等,用户行为数据为动态数据,动态数据通常记录于参与活动的变更日志中,例如常用的后端日志数据、前端埋点数据等。本发明实施例通过词袋模型获取企业用户的原始工程审计数据,词袋模型是一个在自然语言处理和信息检索下被简化的表达模型,此模型下,用一个袋子装着句子或是文件的文字这些词的方式表现,这种表现方式不考虑文法以及词的顺序,利用词袋模型将审计材料中的整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量的每一个维度代表一个单词,通过计算每一维度的权重来反映该单词在文章的重要程度,进而通过权重的大小来获取人员相关的标签,权重越大的标签和人员活动关系越密切,可多维度,立体化人物画像。通常采用TF-IDF算法计算单词的权重,计算公式为:

TF-IDF(t,d)=TF(t,d)×IDF(t)

式中,TF-IDF(t,d)为单词t在文档d中的权重,TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性,N为文章总数,N′为包含单词t的文章总数。

具体的,步骤S2基于原始工程审计数据构建用户特征数据集还包括:

S2-1:从原始工程审计数据中选取多个用户特征数据;

S2-2:对多个用户特征数据进行结构化处理,得到用户特征数据集。

步骤S2-2具体包括将多个用户特征数据按照人物关系、参与项目、工作时间、任职部门以及人员职务和决策内容进行分类,并根据分类结果创建用户特征数据集。

特征构建指的是从原始数据中自动的构建新的特征的过程,例如一组具有明显物理意义(比如Gabor、几何特征、纹理特征)或者统计意义的特征。本发明实施例在构建用户特征数据集的过程中,首先从原始工程审计数据中选取若干个用户特征数据,再将若干个用户特征数据按照人物关系、参与项目、工作时间、任职部门以及人员职务和决策内容进行分类,得到的分类结构构成用户特征数据集。以经责审计为场景,需要从组织机构和管理,文件审批工作流程,会议召集,决策执行程序,工作汇报关系等材料中,构建包含参与人员的职务,职责,参与范围,所属组织,参与时间以及共事人员等用户特征数据的用户特征数据集。

具体的,步骤S3对用户特征数据集进行特征提取,得到用户特征数据子集还包括:

S3-1:采用主成分分析法从用户特征数据集中获取每个用户的人物关系、工作时间和参与项目的关联度;

S3-2:根据关联度从用户特征数据集中选取多个关键特征数据,并基于多个关键特征数据创建用户特征数据子集。

特征提取的目的是通过特征转换的方式得到一组具有明显物理或统计意义的特征,例如Gabor、几何特征[角点、不变量]、纹理[LBP HOG],主要通过对构建的特征数据集进行降维,获取关键的内容。本发明实施例采用PCA(Principal Component Analysis,主成分分析法)的降维提取方法对用户特征数据集进行特征提取。PCA的思想是通过坐标轴转换,寻找数据分布的最优子空间。例如在三维空间中有一系列数据点,它们分布在过原点的平面上,如果采用自然坐标系的x,y,z三个轴表示数据,需要三个维度,但实际上这些数据点都在同一个二维平面上,如果通过坐标轴转换使得数据所在平面和x,y平面重合,就可以通过新的x’、y’轴来表示原始数据,并且没有任何损失,因此完成了降维的目的,并且这两个新的坐标轴就是需要找的主成分。具体包括以下步骤:

步骤1:对样本数据进行中心化处理;

步骤2:求样本协方差矩阵;

步骤3:对协方差矩阵进行特征值分解,将特征值从大到小排列;

步骤4:取特征值前n个最大的对应的特征向量W1,W2,...,Wn,进而将原来m维的样本降低到n维。

本发明实施例采用主成分分析法从用户特征数据集中获取每个用户的人物关系、工作时间和参与项目的关联度,进一步包括:采用PCA算法计算用户特征数据集中各用户特征向量的方差和特征值,由于方差越大,特征值越大,信息量也越大,因此删除方差较小的特征,保留方差较大的特征,通过关联各个表和数据结构,获取人物关系、工作时间和参与项目的关联度,再根据关联度从用户特征数据集中选取多个关键特征数据,并基于多个关键特征数据创建用户特征数据子集,用户特征数据子集中的数据为用户关联性最大的特征数据,是用户画像的基础,通过对用户特征数据集进行特征提取,实现了对用户特征数据集的高维特征向量进行降维的目的,生成适合训练的低维度特征向量的用户特征数据子集。

具体的,步骤S4对用户特征数据子集进行特征选择,生成用户画像训练集及其索引标签,其中用户特征数据子集包括属性特征数据子集和行为特征数据子集,所述步骤S4还包括:

S4-1:采用信息增益方法计算用户特征数据子集中的属性特征数据子集的信息增益,并基于信息增益选取多个用户特征数据构成用户画像训练集;

S4-2:通过调用逻辑回归算法生成用户画像训练集中的每个用户特征数据的键值对,形成用户画像训练集的索引标签。

特征选择就是将已经结构化的数据通过特征项和类别项之间的关联性来衡量,目的是从给定的特征集合中挑选一组最具统计意义的特征子集,本发明实施例为保证模型简单,降低计算复杂度,提高计算效率,最大限度的剔除多余的特征,构建用户画像相关特征的用户画像训练集,特征选择通常是在将特征的重要程度量化之后再进行选择,本发明实施例采用信息增益的方法作为特征选择的方法,在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要,代表关联性越强,该特征越应该保留。例如:给定训练集D,假设所有属性均为离散型,对属性子集A,假定根据其取值将训练集D分成了V个子集:D1,D2,…,Dv,可以计算属性子集A的信息增益,其计算公式如下:

式中,g(D,A)为最符合子集A的特征信息,H(D)为训练集D的特征信息,H(D|A)为训练集D与属性子集A关联性较小的特征信息,H(D

信息增益越大,表明属性子集A包含的有助于分类的信息越多。对于每个候选特征子集,可以基于训练集D来计算其信息增益来获取多个用户特征数据构成用户画像训练集。通过上述特征工程中的特征构建、特征提取和特征选择,对于数据来源广泛,结构差异性大,内容复杂多样的企业数据,可以快速构建用户画像训练集。在完成构建用户画像训练集后,通过recommend.scala文件对逻辑回归算法的调用,生成用户画像训练集中的每个用户特征数据的键值对,键值对是存储在数据库中的最简单的组织形式,键(key)即关键字,值(Value)即对应于键的属性值,并且每一键对应唯一值,生成的键值对形成了用户画像训练集的Key、Value形式的索引标签。例如XX人,担任职务、总经理,任职时间、2018年9月-2020年6月,参与项目、某公司招投标管理,过往经历、担任某部门经理。

具体的,步骤S5将用户画像训练集与预测模型进行匹配,并将符合预期匹配结果的训练集输出,得到用户画像模型还包括:

S5-1:对用户画像训练集进行标准化处理,得到标准化训练模型;

S5-2:将标准化训练模型与预测模型进行匹配和评价,当评价符合预期匹配结果时,将符合预期匹配结果的训练集输出,得到用户画像模型,否则对用户画像训练集进行纠正,并输出纠正后的用户画像训练集。

通过对用户画像训练集进行标准化模型处理,并和预测模型进行匹配并进行评价,评价是否符合预期匹配结果,例如是否可以快速从原始数据中获取Key、Value标签。当评价符合预期匹配结果时,将符合预期匹配结果的用户画像训练集输出,得到用户画像模型,当评价结果与预期结果存在偏差,则对用户画像训练集进行纠正,并输出纠正后的用户画像训练集。

实施例2

如图6所示,本发明实施例提供了一种基于机器学习技术构建审计用户画像的系统,包括:

数据采集模块1,用于获取企业用户的原始工程审计数据;

特征构建模块2,用于基于所述原始工程审计数据构建用户特征数据集;

特征提取模块3,用于对所述用户特征数据集进行特征提取,得到用户特征数据子集;

特征选择模块4,用于对所述用户特征数据子集进行特征选择,生成用户画像训练集及其索引标签;

训练集评价与导出模块5,用于将所述用户画像训练集与预测模型进行匹配,并将符合预期匹配结果的训练集输出,得到用户画像模型。

实施例3

本发明实施例还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个实施例中所述的步骤,例如图1所示的步骤S1~S5,或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如图6所示的模块1~模块5。

示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述终端设备可以是计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是终端设备的示例,并不构成对所述终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例4

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

实施例5

本发明实施例以一个具体实例对本发明提出的方法进行详细说明,具体如下所述:

首先通过内部网络及各个业务系统,以文件传输或接口对接的方式从组织机构和管理,文件审批工作流程,会议召集,决策执行程序,工作汇报关系等材料中获取需建立用户画像人员的原始数据,并存储到数据库中,默认情况下数据库每晚24点以增量方式导入到hive中,主要构建三张表,用户行为表,历史操作表,项目预期表。然后在hive中通过中间表和调用python文件等一系列操作,将数据进行处理,形成算法模型的入口数据和特征构建数据,构建人物关系,参与项目,任职部门,工作时间,决策内容等特征。再通过scala文件产生所有准备数据,并直接load到hive中去做数据处理。找到人员和项目直接或间接的关联关系,形成特征提取。如三公经费,专业资金支付等相关人员的参与情况。数据处理完后进行建模,构建特征索引,通过recommend.scala文件对逻辑回归算法的调用,产生模型子集文件,形成Key、Value标签样式。例如XX人,担任职务、总经理,任职时间、2018年9月-2020年6月,参与项目、某公司招投标管理,过往经历、担任某部门经理。最后导出训练集,对训练集进行标准化模型处理,并和预测的模型进行匹配并进行评价,评价是否符合预期,例如是否可以快速从原始数据中,获取上述Key、Value标签。训练过程是通过特征工程算法获取的上述信息,和人工查询的信息是否有偏离,如果偏离,纠正算法。最终得到的符合预期的模型即为用户画像模型。

综上所述,本发明提供的一种基于机器学习技术构建审计用户画像的方法,将用户画像技术应用到工程审计模型中,通过深度学习算法的训练对数据集进行抽象建模,学习,形成对工程审计有效的训练集。本发明针对工程审计用户,通过在时间,空间,人物关联,任职部门,参与项目等方面对相关人员进行画像,通过特征工程构建了一个可标签化的训练集,该训练集使创建的用户画像更具立体化,通过本发明的用户画像构建方法,对于数据来源广泛,结构差异性大,内容复杂多样的工程审计企业数据,可以快速形成智能工程审计模型,可用于快速识别审计疑点。

以上结合具体实施方式(包括实施例和实例)详细描述了本发明的概念、原理和思想。本领域技术人员应理解,本发明的实施方式不止上文给出的这几种形式,本领域技术人员在阅读本申请文件以后,可以对上述实施方式中的步骤、方法、装置、部件做出任何可能的改进、替换和等同形式,这些改进、替换和等同形式应视为落入在本发明的范围内。本发明的保护范围仅以权利要求书为准。

技术分类

06120113791346