掌桥专利:专业的专利平台
掌桥专利
首页

资源流量数据的生成方法、装置、计算机设备、存储介质

文献发布时间:2024-04-18 20:02:40


资源流量数据的生成方法、装置、计算机设备、存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种资源流量数据的生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着科学技术的发展,对应产生的数据量也越来越大。其中,财务数据由于是每个企业都会涉及到的数据,尤为明显。现金流量是企业在一定会计期间按照现金收付实现制,通过一定经济活动,包括经营活动、投资活动、筹资活动和非经常性项目,而产生的现金流入、现金流出及其总量情况的总称,即企业在一定时期的现金和现金等价物的流入和流出的数量。现金流量按来源性质不同分为三类:经营活动产生的现金流量、投资活动产生的现金流量和筹资活动产生的现金流量。现金流量的分析可以对企业获取现金的能力、偿债能力、收益质量、投资活动和筹资活动做出评价。

相关技术中,企业在获取凭证中的资源流量数据进行分析时,需要对凭证数据中的资源流量项(例如现金流量项目、会计科目、核算维度等)进行预先设置和指定,使得能够直接获取到需要的资源流量项的数据,但是企业的凭证数据项目众多和复杂,还要适配各类业务分析需求,使得项目预设配置时间成本高,精确配置难,导致资源流量数据生成的效率较低。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高资源流量数据的生成效率的资源流量数据的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面,本申请提供了一种资源流量数据的生成方法。所述方法包括:

获取凭证数据;

对所述凭证数据进行处理,得到待处理影响因子数据;

计算所述待处理影响因子数据与参考影响因子数据之间的匹配度;

根据所述匹配度确定所述凭证数据对应的资源流量数据。

在其中一个实施例中,所述对所述凭证数据进行处理,得到待处理影响因子数据,包括:

若所述凭证数据中存在资源值为负向的凭证分录,则将所述负向的凭证分录转换为正向的凭证分录,得到第一凭证数据;

根据凭证分录的属性对所述第一凭证数据进行资源合并,得到第二凭证数据;

对所述第二凭证数据进行资源交互双方配对处理,得到预设格式的凭证数据;

对所述预设格式的凭证数据中的初始影响因子数据进行归一化处理,得到所述待处理影响因子数据。

在其中一个实施例中,所述计算所述待处理影响因子数据与参考影响因子数据之间的匹配度,包括:

获取初始影响因子权重;

根据所述初始影响因子权重对所述待处理影响因子数据进行加权计算,得到加权影响因子数据;

计算所述加权影响因子数据与基准原点之间的第一距离;

基于所述第一距离,计算所述待处理影响因子数据与参考影响因子数据之间的匹配度。

在其中一个实施例中,所述基于所述第一距离,计算所述待处理影响因子数据与参考影响因子数据之间的匹配度,包括:

基于资源流量模型获取所述参考影响因子数据对应的第二距离;

计算所述第一距离与所述第二距离之间的匹配度,并将所述第一距离与所述第二距离之间的匹配度,作为所述待处理影响因子数据与参考影响因子数据之间的匹配度。

在其中一个实施例中,所述根据所述匹配度确定所述凭证数据对应的资源流量数据,包括:

若存在至少两个第二距离相同,并且所述第二距离与所述第一距离的匹配度最高,则根据初始影响因子权重,从所述至少两个第二距离对应的参考影响因子数据中确定与所述第一距离所对应的待处理影响因子数据匹配度最高的参考影响因子数据,作为目标影响因子数据;

将所述目标影响因子数据对应的资源流量数据,作为所述第一距离对应的待处理影响因子数据的资源流量数据。

在其中一个实施例中,所述资源流量模型构建方式,包括:

获取第一训练数据集;所述第一训练数据集包括第一影响因子数据和第一资源流量数据;

对所述第一影响因子数据进行归一化处理,得到归一化后的第一影响因子数据;

根据预设影响因子权重对所述归一化后的第一影响因子数据进行加权计算,得到第一加权影响因子数据;

计算所述第一训练数据集中每条数据的第一加权影响因子数据与基准原点之间的基准距离;

根据所述基准距离、预设影响因子权重以及所述第一资源流量数据,生成所述资源流量模型。

在其中一个实施例中,所述方法还包括:

获取第二训练数据集;所述第二训练数据集包括第二影响因子数据;

对所述第二影响因子数据进行归一化处理,得到归一化后的第二影响因子数据;

进行预设次数的迭代计算,得到预设数量的候选距离,其中,每次迭代计算包括:对所述预设影响因子权重进行随机偏移,得到偏移后的影响因子权重;基于所述偏移后的影响因子权重对所述归一化后的第二影响因子数据进行加权计算,得到第二加权影响因子数据;计算所述第二训练集中每条数据中的第二加权影响因子数据与基准原点之间的候选距离;

根据每个所述候选距离与所述基准距离之间的匹配情况,从偏移后的影响因子权重中确定目标影响因子权重,并根据所述目标影响因子权重优化所述资源流量模型。

第二方面,本申请还提供了一种资源流量数据的生成装置。所述装置包括:

凭证数据获取模块,用于获取凭证数据;

数据预处理模块,用于对所述凭证数据进行处理,得到待处理影响因子数据;

匹配度计算模块,用于计算所述待处理影响因子数据与参考影响因子数据之间的匹配度;

资源流量数据确定模块,用于根据所述匹配度确定所述凭证数据对应的资源流量数据。

第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取凭证数据;

对所述凭证数据进行处理,得到待处理影响因子数据;

计算所述待处理影响因子数据与参考影响因子数据之间的匹配度;

根据所述匹配度确定所述凭证数据对应的资源流量数据。

第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取凭证数据;

对所述凭证数据进行处理,得到待处理影响因子数据;

计算所述待处理影响因子数据与参考影响因子数据之间的匹配度;

根据所述匹配度确定所述凭证数据对应的资源流量数据。

第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

获取凭证数据;

对所述凭证数据进行处理,得到待处理影响因子数据;

计算所述待处理影响因子数据与参考影响因子数据之间的匹配度;

根据所述匹配度确定所述凭证数据对应的资源流量数据。

上述资源流量数据的生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取凭证数据,对凭证数据进行处理,得到待处理影响因子数据,计算待处理影响因子数据与参考影响因子数据之间的匹配度,根据该匹配度确定凭证数据对应的资源流量数据,无需预先配置和指定资源项目,可以自动得到凭证数据对应的资源流量数据,提高了资源流量数据的生成效率,同时还可以避免人为预先配置所掺杂的不可控因素,可以提高生成的资源流量数据的准确性。

附图说明

图1为一个实施例中资源流量数据的生成方法的应用环境图;

图2为一个实施例中资源流量数据的生成方法的流程示意图;

图3为一个实施例中步骤206的流程示意图;

图4为一个实施例中资源流量模型的优化流程示意图;

图5为一个实施例中资源流量数据的生成方法的流程示意图;

图6为一个实施例中资源流量数据的生成装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的资源流量数据的生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102向服务器104发送凭证数据,服务器104获取到终端102发送的凭证数据,服务器104对凭证数据进行处理,得到待处理影响因子数据,并计算待处理影响因子数据与参考影响因子数据之间的匹配度,根据该匹配度确定凭证数据对应的资源流量数据,资源流量数据可以用于生成资源流量表,资源流量表例如为现金流量表等。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

可以理解地,本申请实施例不仅可以用于上述服务器和终端相交互的应用场景中,也可以单独应用于终端或者单独应用于服务器所对应的场景。

在一个实施例中,如图2所示,提供了一种资源流量数据的生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤202至步骤208。

步骤202,获取凭证数据。

服务器获取凭证数据,可以通过接收其他终端或者服务器发送的凭证数据,从而获取凭证数据,也可以是通过服务器自身的人机交互接口获取凭证数据。

其中,凭证数据是指没有经过任何数据处理过程的会计凭证数据,即企业原始记录的会计凭证上的数据。会计凭证是记录经济业务、明确经济责任、按一定格式编制的据以登记会计账簿的书面证明。按编制程序和用途分类,会计凭证按其编制程序和用途的不同,分为原始凭证和记账凭证,原始凭证又称单据,是在经济业务最初发生之时即行填制的原始书面证明,如销货发票、款项收据等,记账凭证又称记账凭单,是以审核无误的原始凭证为依据,按照经济业务的事项的内容加以归类,并据以确定会计分录后所填制的会计凭证。它是登入账簿的直接依据,常用的记账凭证有收款凭证、付款凭证、转账凭证等。本实施例中的凭证数据包括原始凭证的数据或者记账凭证的数据。

步骤204,对凭证数据进行处理,得到待处理影响因子数据。

服务器可以对凭证数据进行处理,得到预设格式的凭证数据,其中,预设格式的凭证数据包括待处理影响因子数据。待处理影响因子数据是指对凭证数据对应的资源流量数据产生影响的因素,待处理影响因子数据包括但不限于是会计账簿、会计科目、核算维度、借贷方向或者其他预设字段。其中,核算维度,是定义会计科目需要辅助核算的维度和范围。可以理解地,可以自定义任何业务资料,例如被服务方、供应商、工程项目等为核算维度,核算维度的数量可以包括多个,在此不作具体限制。

在一个可选的实施例中,可以对凭证数据的格式进行转换,得到预设格式的凭证数据。例如,可以对凭证数据中的资源值的借贷方向进行转换,转换为同一借贷方向的资源值;或者是对相同属性的凭证分录进行合并,以减少后续计算的数据量;或者,对资源交互双方进行配对处理,即,同一条分录数据中具有成对出现的资源交互双方所对应的交易数据。进而从预设格式的凭证数据中提取初始影响因子数据,对初始影响因子数据进行归一化处理,得到待处理影响因子。

本实施例中,凭证数据可以是同一账簿的多个或一个凭证的数据。

步骤206,计算待处理影响因子数据与参考影响因子数据之间的匹配度。

其中,参考影响因子数据是预设的影响因子数据,可以根据训练数据对机器学习模型进行训练得到,也可以是由用户预先定义的影响因子数据。参考影响因子数据是表征对资源流量数据产生影响的标准因素。

可选地,服务器计算待处理影响因子数据与参考影响因子数据之间的匹配度,可以通过计算待处理影响因子数据与参考影响因子数据之间的距离来进行表征。例如,可以通过KNN(K-Nearest Neighbor,K最邻近算法)、SVM(Support Vector Machine,支持向量机)来计算待处理影响因子数据与参考影响因子数据之间的距离。也可以直接计算待处理影响因子数据与参考影响因子数据之间的匹配度,例如通过朴素贝叶斯算法等。

可选地,待处理影响因子数据设置有相应的影响因子权重,可以通过影响因子权重对待处理影响因子数据进行加权,得到加权后的影响因子数据,然后计算加权后的影响因子数据与参考影响因子数据之间的匹配度。

步骤208,根据该匹配度确定凭证数据对应的资源流量数据。

本实施例中,根据待处理影响因子数据与参考影响因子数据之间的匹配度可以确定凭证数据对应的资源流量数据。例如,可以选取待处理影响因子数据与参考影响因子数据之间的匹配度最高所对应的参考影响因子数据对应的资源流量数据,作为待处理影响因子数据对应的资源流量数据,也就是作为凭证数据对应的资源流量数据。

上述资源流量数据的生成方法中,通过获取凭证数据,对凭证数据进行处理,得到待处理影响因子数据,计算待处理影响因子数据与参考影响因子数据之间的匹配度,根据该匹配度确定凭证数据对应的资源流量数据,可以自动得到凭证数据对应的资源流量数据,相对通过预先配置指定资源流量项的方式,提高了资源流量数据的生成效率,同时还可以避免人为预先配置所掺杂的不可控因素,可以提高生成的资源流量数据的准确性。另外,用户可以根据需要定义任意的待处理影响因子,可以适用于更广泛的应用场景。本申请实施例能够应用于各种业务系统中,如企业资源计划系统(Enterprise Resource Planning,ERP)、企业管理系统、财务系统、人力系统、供应链系统等,适用的应用场景较广。

在一些实施例中,对凭证数据进行处理,得到待处理影响因子数据的步骤204,包括:

若凭证数据中存在资源值为负向的凭证分录,则将负向的凭证分录转换为正向的凭证分录,得到第一凭证数据;根据凭证分录的属性对第一凭证数据进行资源合并,得到第二凭证数据;对第二凭证数据进行资源交互双方配对处理,得到预设格式的凭证数据;对预设格式的凭证数据中的初始影响因子数据进行归一化处理,得到待处理影响因子数据。

本实施例中,若凭证数据中存在资源值为负向的凭证分录,则该凭证分录为负向凭证分录,将负向的凭证分录转换为正向的凭证分录,得到第二凭证数据。其中,正向和负向用于表征借贷方向,例如,若凭证数据为对应收款凭证的数据,而凭证数据中某一条凭证分录对应的数据为付款相关的数据,则该凭证分录为负向的凭证分录。在一个可选的示例中,若凭证数据中存在资源值为负向的凭证分录,则将该凭证分录变换为相反借贷方向,即正向的凭证分录,可以将凭证分录转换为与凭证数据的借贷方向相反的描述,如付款类型的凭证分录的资源值为负向,则将该凭证分录转换为收款类型的描述,即转换为正向的凭证分录。可以理解地,在凭证数据中,一条记录对应的凭证数据为一个凭证分录。本实施例可以统一转换为正向的凭证分录,也可以统一转换为负向的凭证分录,即,将正向的凭证分录转换为负向的凭证分录,具体可以根据实际应用场景进行选择。

服务器可以根据凭证分录的属性对第一凭证数据进行资源合并,得到第二凭证数据。其中,凭证分录的属性可以包括科目、核算维度、资源类型、借贷方向等,科目用于表征不同的凭证科目,资源类型表征不同类型的资源。可选地,可以将相同科目、相同核算维度、相同资源类型或者相同借贷方向中至少一种的凭证分录进行合并,得到第二凭证数据。

服务器可以对第二凭证数据进行资源交互双方配对处理,得到预设格式的凭证数据。资源交互双方配对处理,是指对同一资源对象的交互双方实现配对并位于同一条凭证数据中,例如,A向B支付了2个资源,则相应地存在B接收到A支付的2个资源,即,A与B之间在一个交互维度上形成了一个配对数据。即,每条预设格式的凭证数据包括至少一个资源交互双方形成的配对数据。可以理解地,每条预设格式的凭证数据可以包括多个资源交互双方形成的配对数据,每个配对数据对应的科目或者维度等是对资源流量数据产生影响的因素,即为初始影响因子数据。

服务器对预设格式的凭证数据中的初始影响因子数据进行归一化处理,得到待处理影响因子数据。归一化处理是将初始影响因子数据处理为0和1之间的数值,得到待处理影响因子数据。归一化处理,例如可以通过特征缩放法、内码法或者序号法中的至少一种进行归一化处理。其中,特征缩放法可以将初始影响因子数据中对资源流量数据的影响较大的初始影响因子数据用代号拼接,作为归一化的依据;内码法可以通过初始影响因子数据的数字类型所对应的内码作为归一化依据,其中,内码可以理解为编号标识;序号法可以通过将初始影响因子数据所对应的字符标识经过排序后的序号作为归一化依据。

可以理解地,本实施例中对凭证数据进行处理得到待处理影响因子数据的执行流程并不是必须要按照上述顺序执行,可以根据实际应用场景进行执行顺序的调整,例如,可以先对凭证数据根据凭证分录的属性进行资源合并,然后再进行凭证分录的方向的转换,等。

本实施例中,若凭证数据中存在资源值为负向的凭证分录,则将负向的凭证分录转换为正向的凭证分录,得到第一凭证数据,根据凭证分录的属性对第一凭证数据进行资源合并,得到第二凭证数据,对第二凭证数据进行资源交互双方配对处理,得到预设格式的凭证数据,对预设格式的凭证数据中的初始影响因子数据进行归一化处理,得到待处理影响因子数据,可以实现快速得到预设格式的凭证数据,继而对初始影响因子数据进行归一化处理,可以提高待处理影响因子数据的处理效率,进而提高资源流量数据的生成效率。

在一些实施例中,计算待处理影响因子数据与参考影响因子数据之间的匹配度的步骤206,包括以下步骤302至步骤308。

步骤302,获取初始影响因子权重。

初始影响因子权重,是指待处理影响因子数据对应的权重。初始影响因子权重可以是预设的权重,也可以是通过模型训练得到的权重。初始影响因子权重用于表征待处理影响因子数据对资源流量数据的影响程度,初始影响因子权重越大表征待处理影响因子数据对资源流量数据的影响程度越大。

步骤304,根据初始影响因子权重对待处理影响因子数据进行加权计算,得到加权影响因子数据。

服务器可以根据初始影响因子权重对待处理影响因子数据进行加权计算,得到加权影响因子数据。可选地,可以是将初始影响因子权重和对应的待处理影响因子数据相乘,得到加权影响因子数据。

步骤306,计算加权影响因子数据与基准原点之间的第一距离。

本实施例中,可以将基准原点理解为坐标原点,预设格式的凭证数据中的每一条凭证分录对应坐标系中除坐标原点之外的一个点,而每一条凭证分录中对应有多个加权影响因子数据,每个加权影响因子数据相当于是该点上的一维空间坐标值,也就是说,每一条凭证分录中加权影响因子数据的数量为对应坐标系的维数。计算加权影响因子数据与基准原点之间的第一距离,可以通过欧氏距离、曼哈顿距离中的至少一种计算得到,例如可以同时计算欧式距离和曼哈顿距离,然后将计算欧式距离和曼哈顿距离的平均值作为第一距离。

步骤308,基于第一距离,计算待处理影响因子数据与参考影响因子数据之间的匹配度。

本实施例中,可以通过距离来表征待处理影响因子数据和参考影响因子数据之间的匹配度,距离越接近表征待处理影响因子数据和参考影响因子数据之间的匹配度越大,反之,距离差距越大表征待处理影响因子数据和参考影响因子数据之间的匹配度越小。可选地,加权影响因子数据与基准原点之间的距离为第一距离,参考影响因子数据与基准原点之间的距离为第二距离,可以根据第一距离和第二距离,来确定待处理影响因子数据和参考影响因子数据之间的匹配度。

本实施例中,通过获取初始影响因子权重,根据初始影响因子权重对待处理影响因子数据进行加权计算,得到加权影响因子数据,计算加权影响因子数据与基准原点之间的第一距离,基于第一距离,计算待处理影响因子数据与参考影响因子数据之间的匹配度,即通过距离计算待处理影响因子数据与参考影响因子数据之间的匹配度,可以提高待处理影响因子数据与参考影响因子数据之间的匹配度的计算效率,进而提高资源流量数据的生成效率。

在一些实施例中,所述基于所述第一距离,计算待处理影响因子数据与参考影响因子数据之间的匹配度,包括:

基于资源流量模型获取参考影响因子数据对应的第二距离;计算第一距离与第二距离之间的匹配度,并将第一距离与第二距离之间的匹配度,作为待处理影响因子数据与参考影响因子数据之间的匹配度。

资源流量模型,是指基于凭证数据可以生成资源流量数据的模型。资源流量模型中存储有参考影响因子数据对应的第二距离,即第二距离是参考影响因子数据与基准原点之间的距离。服务器计算第一距离和每个第二距离之间的匹配度,将第一距离和第二距离之间的匹配度作为待处理影响因子数据与参考影响因子数据之间的匹配度。其中,第一距离和第二距离越接近,即第一距离和第二距离之间的差距越小,第一距离和第二距离的匹配度越大,第一距离和第二距离之间的差距越大,第一距离和第二距离的匹配度越小。

本实施例中,通过基于资源流量模型获取参考影响因子数据对应的第二距离;计算第一距离与第二距离之间的匹配度,并将第一距离与第二距离之间的匹配度,作为待处理影响因子数据与参考影响因子数据之间的匹配度,可以提高得到待处理影响因子数据与参考影响因子数据之间的匹配度的效率。

在一些实施例中,根据匹配度确定凭证数据对应的资源流量数据,包括:

若存在至少两个第二距离相同,并且第二距离与第一距离的匹配度最高,则根据初始影响因子权重,从至少两个第二距离对应的参考影响因子数据中确定与第一距离所对应的待处理影响因子数据匹配度最高的参考影响因子数据,作为目标影响因子数据;将目标影响因子数据对应的资源流量数据,作为第一距离对应的待处理影响因子数据的资源流量数据。

本实施例中,第二距离是参考影响因子数据与基准原点之间的距离,第二距离包括多个,针对资源流量模型中的第二距离,是基于模型训练数据集中的参考影响因子数据计算得到的,每条模型训练数据集中的参考影响因子数据对应一个第二距离,不同的参考影响因子数据对应的第二距离可能相同。若存在至少两个第二距离相同,并且第二距离与第一距离的匹配度最高,那么需要从第二距离对应的参考影响因子数据中确定一个与第一距离对应的待处理影响因子数据最匹配的目标影响因子数据,可以根据初始影响因子权重,从至少两个第二距离对应的参考影响因子数据中确定与第一距离对应的待处理影响因子数据匹配度最高的参考影响因子数据作为目标影响因子数据,将目标影响因子数据对应的资源流量数据,作为第一距离对应的待处理影响因子数据的资源流量数据,将所有待处理影响因子数据的资源流量数据,作为凭证数据对应的资源流量数据。

在一个可选的实施例中,可以根据初始影响因子权重由大到小的顺序,依次比较至少两个第二距离对应的参考影响因子数据中与第一距离对应的待处理影响因子数据之间的匹配度,直到同一初始影响因子权重对应的各个参考影响因子数据不一致时,将该初始影响因子权重对应的各个参考影响因子数据中与待处理影响因子数据最接近的参考影响因子数据作为目标影响因子数据。例如,存在两个第二距离相同,且该两个第二距离与第一距离的匹配度最高,该两个第二距离对应的参考影响因子数据分别为A={A1,A2,A3,A4,A5}和B={B1,B2,B3,B4,B5},初始影响因子权重为{P1,P2,P3,P4,P5},并且初始影响因子权重由大到小的顺序为:P2>P1>P3>P5>P4,则根据初始影响因子权重由大到小的顺序,首先比较P2对应的两个第二距离对应的参考影响因子数据A2和B2,若A2和B2不相同,则比较A2和B2分别与第一距离对应的处理影响因子数据之间的匹配度,若A2与第一距离对应的处理影响因子数据之间的匹配度大于B2与第一距离对应的处理影响因子数据之间的匹配度,则确定参考影响因子数据A为目标影响因子数据;若A2和B2相同,则比较P1对应的两个第二距离对应的参考影响因子数据A1和B1,以此类推,直至确定相应初始影响因子权重对应的第二距离对应的参考影响因子数据中与第一距离对应的待处理影响因子数据匹配度最高的参考影响因子数据,作为目标影响因子数据。

本实施例中,若存在至少两个第二距离相同,并且第二距离与第一距离的匹配度最高,则根据初始影响因子权重,从至少两个第二距离对应的参考影响因子数据中确定与第一距离所对应的待处理影响因子数据匹配度最高的参考影响因子数据,作为目标影响因子数据;将目标影响因子数据对应的资源流量数据,作为第一距离对应的待处理影响因子数据的资源流量数据,可以提高待处理影响因子数据与参考影响因子数据之间匹配的准确性,从而提高得到的资源流量数据的准确性。

在一个实施例中,资源流量模型构建方式,包括:

获取第一训练数据集;其中,第一训练数据集包括第一影响因子数据和第一资源流量数据;对第一影响因子数据进行归一化处理,得到归一化后的第一影响因子数据;根据预设影响因子权重对归一化后的第一影响因子数据进行加权计算,得到第一加权影响因子数据;计算第一训练数据集中每条数据的第一加权影响因子数据与基准原点之间的基准距离;根据基准距离、预设影响因子权重以及第一资源流量数据,生成资源流量模型。

本实施例中,基于第一训练数据集生成资源流量模型,其中,第一训练数据集包括第一影响因子数据和第一资源流量数据,第一资源流量数据例如可以是资源流量主表项目和资源流量附表项目,资源流量主表项目和资源流量附表项目表征各类资源的具体流向,资源流量附表项目是对资源流量主表项目的进一步补充和细化。在一个示例中,第一训练数据集的结构如下表1所示,第一训练数据集包括凭证内码、第一影响因子数据和第一资源流量数据。其中,凭证内码是唯一标识凭证的编码,第一训练数据集中的凭证内码来源于第一影响因子数据对应的凭证数据;本方和对方为交互双方,第一影响因子数据包括科目、核算维度以及其他因子,第一影响因子数据包括交互双方成对出现的流量交互数据;第一资源流量数据包括资源流量主表项目和资源流量附表项目。

表1

对第一影响因子数据进行归一化处理,得到归一化后的第一影响因子数据,根据预设影响因子权重对归一化后的第一影响因子数据进行加权计算,得到第一加权影响因子数据,计算第一训练数据集中每条数据的第一加权影响因子数据与基准原点之间的基准距离,其中,第一训练数据集中每条数据可以理解为第一训练数据集的表中每条记录对应的数据。根据基准距离、预设影响因子权重以及第一资源流量数据生成资源流量模型。可选地,可以将账簿内码、预设影响因子权重、基准距离以及第一资源流量数据生成资源流量模型。账簿内码是指第一资源流量数据所属账簿的编码,账簿内码可以预先设定。在此需要说明的是,资源流量模型可以是存储上述参考影响因子数据、初始影响因子权重、参考影响因子数据对应的第二距离以及相应的资源流量数据的报表。

其中,本实施例中涉及的归一化、加权计算以及距离计算,可以参见上述实施例中相关内容的介绍。

本实施例中,通过第一训练数据集,第一训练数据集包括第一影响因子数据和第一资源流量数据,对第一影响因子数据进行归一化处理,得到归一化后的第一影响因子数据,根据预设影响因子权重对归一化后的第一影响因子数据进行加权计算,得到第一加权影响因子数据,计算第一训练数据集中每条数据的第一加权影响因子数据与基准原点之间的基准距离,根据基准距离、预设影响因子权重以及第一资源流量数据,生成资源流量模型,该资源流量模型可以实现快速生成资源流量数据,避免了通过人工指定资源流量项,能够提高资源流量数据的生成效率。

上述实施例介绍了资源流量模型的生成过程,下述主要是介绍资源流量模型的优化过程,具体主要是优化资源流量模型中所存储的数据。

在一些实施例中,如图4所示,上述资源流量数据的生成方法还包括资源流量模型的优化流程,包括以下步骤402至步骤408。

步骤402,获取第二训练数据集;其中,第二训练数据集包括第二影响因子数据。

步骤404,对第二影响因子数据进行归一化处理,得到归一化后的第二影响因子数据。

获取第二训练数据集,第二训练数据集与第一训练数据集不同,第二训练数据集包括第二影响因子数据,对第二影响因子数据进行归一化处理,可以得到归一化后的第二影响因子数据。可选地,第二训练集可以是通过下述方式得到:对凭证数据进行处理,得到待处理影响因子数据,计算待处理影响因子数据与资源流量模型中的参考影响因子数据之间的匹配度,将匹配度高于预设匹配度对应的参考影响因子数据进行平衡性校验,其中,平衡性校验是指对资源交互双方的配对准确性进行校验,例如,若参考影响因子数据中存在只有资源交互的其中一方的数据而没有另一方的数据,或者存在资源交互双方,但是资源交互双方对应的金额不同,则平衡性校验未通过。可以将平衡性校验未通过的参考影响因子数据剔除;将匹配度不高于预设匹配度对应的参考影响因子数据加入待确认列表,将待确认列表中的参考影响因子数据进行修正,得到修正后的参考影响因子数据;可以理解地,修正后的参考影响因子数据至少满足通过平衡性校验以及与待处理影响因子数据之间的匹配度高于预设匹配度,修正可以通过修正算法进行修正,或者人工进行修正。那么,则将平衡性校验通过的参考影响因子数据以及修正后的参考影响因子数据作为第二训练数据集。

步骤406,进行预设次数的迭代计算,得到预设数量的候选距离,其中,每次迭代计算包括:对预设影响因子权重进行随机偏移,得到偏移后的影响因子权重;基于偏移后的影响因子权重对归一化后的第二影响因子数据进行加权计算,得到第二加权影响因子数据;计算第二训练集中每条数据中的第二加权影响因子数据与基准原点之间的候选距离。

进行预设次数的迭代计算,得到预设数量的候选距离,即一次迭代计算可得到一个候选距离。每次迭代计算包括:对预设影响因子权重进行随机偏移,得到偏移后的影响因子权重,基于偏移后的影响因子权重对归一化后的第二影响因子数据进行加权计算,得到第二加权影响因子数据,计算第二训练集中每条数据中的第二加权影响因子数据与基准原点之间的候选距离。其中,对预设影响因子权重进行随机偏移,可以通过随机算法或者修正算法实现对预设影响因子权重的随机偏移,例如,可以通过RNN等机器学习算法训练得到。本实施例中,第二训练集中每条数据的第二加权影响因子数据与基准原点之间对应有一个候选距离,即多条数据对应有多个候选距离。

进行迭代计算,是指在上一次计算的基础上进行迭代,即第一次计算是对预设影响因子权重进行随机偏移得到第一偏移影响因子权重,第二次计算时,是在上一次计算得到的第一偏移影响因子权重的基础上进行随机偏移,得到第二偏移影响因子权重,依此类推,进行预设次数的迭代,对应得到预设数量的影响因子权重,也就对应得到预设数量的候选距离。

步骤408,根据每个候选距离与基准距离之间的匹配情况,从偏移后的影响因子权重中确定目标影响因子权重,并根据目标影响因子权重优化资源流量模型。

本实施例中,针对每个基准距离,将各个候选距离与该基准距离进行匹配,得到候选距离与基准距离之间的匹配情况,选取与各个基准距离匹配度最高的候选距离作为目标候选距离,将目标候选距离所对应的偏移后的影响因子权重作为目标影响因子权重,通过目标影响因子权重优化资源流量模型。可选地,可以将资源流量模型中的基准距离以及预设影响因子权重进行优化,将资源流量模型中的基准距离替换为目标候选距离,将预设影响因子权重替换为目标影响因子权重。

在一个可选的实施例中,针对每条数据的第一加权影响因子数据与基准原点之间的基准距离,与进行预设次数的迭代计算后得到的预设数量的候选距离进行匹配,选取与基准距离的匹配度最高的候选距离,作为子目标候选距离,由此分别得到与各个基准距离相匹配的子目标候选距离,对各个子目标候选距离进行频次统计,将频次最高的子目标候选距离作为目标候选距离,将目标候选距离所对应的偏移后的影响因子权重作为目标影响因子权重,通过该目标影响因子权重优化资源流量模型。可选地,可以将资源流量模型中存储的预设影响因子权重替换为目标影响因子权重,从而得到优化后的资源流量模型。优化后的资源流量模型可以生成更加准确的资源流量数据。

可以理解地,生成资源流量模型后,通过资源流量模型可以生成资源流量数据,对所生成的资源流量数据进行校验和修正后,可以作为新的训练数据对资源流量模型进行优化,从而可以不断重复模型应用和模型优化的流程,使得优化后的资源流量模型可以适用于更加丰富的应用场景,生成的资源流量数据也更加准确,从而可以满足企业更加精益化的资源流量统计要求,花费较低成本即可适应企业业务的发展需求。

在一个实施例中,资源流量数据的生成方法如图5所示,以生成现金流量数据为例进行说明。获取历史现金流量数据作为第一训练数据集,对历史现金流量数据中的第一影响因子数据进行归一化处理,得到归一化后的第一影响因子数据,根据预设影响因子权重对归一化后的第一影响因子数据进行加权计算,得到第一加权影响因子数据,通过KNN算法计算历史现金流量数据中的每条数据对应的第一加权影响因子数据与基准原点之间的基准距离,将账簿内码、基准距离、预设影响因子权重和历史现金流量数据中的现金流量主表项目和现金流量附表项目作为模型数据存储,得到资源流量模型。

获取凭证数据,对凭证数据进行拆分、合并处理,得到初始影响因子数据,对初始影响因子数据进行归一化处理得到待处理影响因子数据,基于资源流量模型,获取初始影响因子权重,根据初始影响因子权重对待处理影响因子数据进行加权计算,得到加权影响因子数据,计算加权影响因子数据与基准原点之间的第一距离,计算第一距离与基准距离之间的匹配度,将与第一距离的匹配度由高到低的K个基准距离所对应的历史现金流量数据中的现金流量主表项目和现金流量附表项目的组合,作为凭证数据对应的现金流量数据。将K个基准距离对应的历史现金流量数据中的第一影响因子数据进行平衡性校验,可以将平衡性校验未通过的历史现金流量数据(记为N)剔除,将与第一距离的匹配度不高于预设匹配度的基准距离所对应的历史现金流量数据(记为Q)进行修正,得到修正后的历史现金流量数据;将平衡性校验通过的历史现金流量数据(记为M)以及修正后的历史现金流量数据作为第二训练数据集,基于第二训练数据集对资源流量模型的初始影响因子权重和基准距离进行优化。其中,历史现金流量数据的数量为K+Q,K=M+N,K和Q为正整数,M和N为非负整数。

对第二训练数据集中的第二影响因子数据进行归一化处理,得到归一化后的第二影响因子数据,对预设影响因子权重进行随机偏移,得到偏移后的影响因子权重,基于偏移后的影响因子权重对归一化后的第二影响因子数据进行加权计算,得到第二加权影响因子数据,计算第二训练集中每条数据中的第二加权影响因子数据与基准原点之间的候选距离,迭代计算预设次数上述对预设影响因子权重进行随机偏移,得到偏移后的影响因子权重,基于偏移后的影响因子权重对归一化后的第二影响因子数据进行加权计算,得到第二加权影响因子数据,计算第二训练集中每条数据中的第二加权影响因子数据与基准原点之间的候选距离的步骤,得到预设数据的候选距离,根据每个候选距离与基准距离之间的匹配情况,从偏移后的影响因子权重中确定目标影响因子权重,将资源流量模型中的基准距离替换为目标候选距离,并将预设影响因子权重替换为目标影响因子权重,从而得到优化后的资源流量模型。

可选地,可以不断对资源流量模型进行优化,也可以是当K个基准距离中与第一距离的匹配度均高于预设匹配度的情况下,停止对资源流量模型的优化。其中,预设匹配度可以根据应用场景的不同而不同,也可以根据训练数据集的不同而不同。

上述实施例中,通过构建资源流量模型,通过资源流量模型可以生成凭证数据对应的资源流量数据,对资源流量数据进行校正后作为新的训练数据对资源流量模型进行优化,避免了人工指定和配置大量的资源流量项,并且无法穷举所有情形的问题,实现自动生成资源流量数据,提高资源流量数据的生成效率,还可以不断提高资源流量模型的精准度,从而生成更准确的资源流量数据,满足企业业务发展需求。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的资源流量数据的生成方法的资源流量数据的生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个资源流量数据的生成装置实施例中的具体限定可以参见上文中对于资源流量数据的生成方法的限定,在此不再赘述。

在一个实施例中,如图6所示,提供了一种资源流量数据的生成装置,包括:凭证数据获取模块602、数据预处理模块604、匹配度计算模块606和资源流量数据确定模块608,其中:

凭证数据获取模块602,用于获取凭证数据;

数据预处理模块604,用于对凭证数据进行处理,得到待处理影响因子数据;

匹配度计算模块606,用于计算待处理影响因子数据与参考影响因子数据之间的匹配度;

资源流量数据确定模块608,用于根据匹配度确定凭证数据对应的资源流量数据。

在一个实施例中,数据预处理模块604,还用于若凭证数据中存在资源值为负向的凭证分录,则将负向的凭证分录转换为正向的凭证分录,得到第一凭证数据;根据凭证分录的属性 对第一凭证数据进行资源合并,得到第二凭证数据;对第二凭证数据进行资源交互双方配对处理 ,得到预设格式的凭证数据;对预设格式的凭证数据中的初始影响因子数据进行归一化处理,得到待处理影响因子数据。

在一个实施例中,匹配度计算模块606,还用于获取初始影响因子权重;根据初始影响因子权重对待处理影响因子数据进行加权计算,得到加权影响因子数据;计算加权影响因子数据与基准原点之间的第一距离;基于第一距离,计算待处理影响因子数据与参考影响因子数据之间的匹配度。

在一个实施例中,匹配度计算模块606,还用于基于资源流量模型获取参考影响因子数据对应的第二距离;计算第一距离与第二距离之间的匹配度,并将第一距离与第二距离之间的匹配度,作为待处理影响因子数据 与参考影响因子数据之间的匹配度。

在一个实施例中,资源流量数据确定模块608,还用于若存在至少两个第二距离相同,并且第二距离与第一距离的匹配度最高,则根据初始影响因子权重,从至少两个第二距离对应的参考影响因子数据中确定与第一距离所对应的待处理影响因子数据匹配度最高的参考影响因子数据,作为目标影响因子数据;将目标影响因子数据对应的资源流量数据,作为第一距离对应的待处理影响因子数据的资源流量数据。

在一个实施例中,资源流量数据的生成装置还包括资源流量模型构建模块,用于实现资源流量模型的构建,包括:

获取第一训练数据集;第一训练数据集包括第一影响因子数据和第一资源流量数据;对第一影响因子数据进行归一化处理,得到归一化后的第一影响因子数据;根据预设影响因子权重对归一化后的第一影响因子数据进行加权计算,得到第一加权影响因子数据;计算第一训练数据集中每条数据的第一加权影响因子数据与基准原点之间的基准距离;根据基准距离、预设影响因子权重以及第一资源流量数据,生成资源流量模型。

在一个实施例中,资源流量数据的生成装置还包括资源流量模型优化模块,用于获取第二训练数据集;第二训练数据集包括第二影响因子数据;对第二影响因子数据进行归一化处理,得到归一化后的第二影响因子数据;进行预设次数的迭代计算,得到预设数量的候选距离,其中,每次迭代计算包括:对预设影响因子权重进行随机偏移,得到偏移后的影响因子权重;基于偏移后的影响因子权重对归一化后的第二影响因子数据进行加权计算,得到第二加权影响因子数据;计算第二训练集中每条数据中的第二加权影响因子数据与基准原点之间的候选距离;根据每个候选距离与基准距离之间的匹配情况,从偏移后的影响因子权重中确定目标影响因子权重,并根据目标影响因子权重优化资源流量模型。

上述资源流量数据的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储资源流量数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资源流量数据的生成方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述资源流量数据的生成方法的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述资源流量数据的生成方法的步骤。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述资源流量数据的生成方法的步骤。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 在线数据流量计费方法、装置、设备及计算机存储介质
  • 数据库脚本生成方法、装置、计算机设备及存储介质
  • 保单打印数据生成方法、装置、计算机设备和存储介质
  • 数据同步生成方法、装置、计算机设备以及存储介质
  • 数据同步生成方法、装置、计算机设备以及存储介质
  • 网页资源数据生成方法、装置、计算机设备及存储介质
  • 资源数据报表生成方法、装置、计算机设备和存储介质
技术分类

06120116586181