导航：首页> 农业；林业；畜牧业；狩猎；诱捕；捕鱼>融合网络特征的神经网络预测金融数据的方法

融合网络特征的神经网络预测金融数据的方法

文献发布时间：2023-06-19 11:39:06

技术领域

本发明涉及一种复杂网络与金融数据挖掘技术，尤其是一种融合网络特征的神经网络预测金融数据的方法。

背景技术

传统的商业投资中，分析师对企业未来收入的判断通常建立在定性分析的基础上，不同分析师的预测差异较大，这导致评估结果很大程度上受分析师的专业水平影响，且准确性难以控制。随着信息化时代的到来，互联网金融行业经历了翻天覆地的变化，以互联网、云计算、大数据、人工智能及区块链为核心的信息技术迅猛发展，正在大规模应用于经济社会各个领域，成为推动各行各业转型升级的重要驱动力。通过算法对社会中各类数据进行处理，能有效地为决策者提供参考信息并辅助决策。资产评估行业作为市场经济的重要参与者，在面对海量数据时，利用大数据构建收入预测模型辅助分析师决策，提供可借鉴的估值预测情况已成为行业中新兴的解决方案。

传统分析师对企业未来收入的判断通常建立在定性分析的基础上，不同分析师的预测差异较大，这导致评估结果很大程度上受分析师的专业水平影响，且这类影响很难控制。

中国专利申请CN201910237356.X提出了一种上市企业投资价值量化计算方法，首先获取目标企业的财务数据，得到分类结果，再根据对上市企业投资价值的影响因子所占权重所形成的预设算法对所述分类结果进行计算,获取投资价值量化计算结果。

中国专利申请CN201810742756.1提出了一种收入预测方法，通过获取待预测群体中每个用户在预测周期内对目标对象执行操作的相关信息，确定该用户对目标对象执行操作的相关特征所对应的特征值，再根据每种渠道的相关特征所对应的群体特征值以及预先训练的渠道收入预测模型，对每种渠道下目标对象的收入进行预测。

中国专利申请CN202010081874.X提出了一种基于纵向联邦学习，构建各自的本地评估模型，确定待评估企业的投资价值,从而对企业做出全面、可靠的评估结果。

以上的这些专利申请虽然能在一定程度上评估企业的价值，但是有以下几个缺点。第一，没有在整个市场的角度上对待预测企业进行评估，预测模型相对片面。第二，评估模型没有考虑企业之间的关联性，比如企业间有很强的内聚性。第三，这些评估模型的参数仅仅是在常见数据上进行二次计算，且没有考虑到企业的层级性。

发明内容

本发明的目的是为克服上述现有技术的不足，提供一种融合网络特征的神经网络预测金融数据的方法，利用企业股价时间序列数据构建了企业关系复杂网络，并将整个企业网络按照聚类思想划分为社区，利用PageRank算法量化企业在复杂网络中的重要程度，最后结合财务指标利用神经网络算法对企业收入进行预测。

为实现上述目的，本发明采用下述技术方案：

一种融合网络特征的神经网络预测金融数据的方法，包括以下步骤：

S1：数据采集，包括动态数据和静态数据；

S2：数据集预处理，包含对数据缺失值和异常值处理；

S3：利用企业股价时间序列数据构建企业关系复杂网络；

S4：利用Louvain算法(即社交网络挖掘之大规模网络的社区发现算法)对网络进行社区划分得到节点的社区性质；

S5：根据企业相关性网络，利用PageRank(即网页排名，又称网页级别)算法企业相关性网络中节点的重要性进行计算，得到节点的PageRank值；

S6：根据相应的指标，对静态数据进行二次计算，构建因变量数据，具体包括以下步骤：

S6.1：增加企业的社区性质，采用One-Hot编码(独热编码)，进行变量维度扩充；

S6.2：增加企业的PageRank值，进行变量维度扩充；

S7：利用神经网络算法对企业收入能力预测评估。

所述步骤S1中，所述动态数据为设定阶段内的股市中全部上市企业的市值，静态数据为企业的财务数据及整体市场数据(即上市企业财务指标中的宏观因素，具体数据见表1中宏观因素部分)。

所述步骤S2中，对样本数据中的空值，采用中位数填充，并对数据进行最大最小法标准化处理，计算公式(1)如下：

，其中z

所述步骤S3，包含以下子步骤：

S3.1，该步骤中以股票价格的时间序列作为该上市企业的动态特征，并计算上市企业之间特征的相关性，采用Pearson相关系数，计算公式(2)如下，假设v

其中t表示时间，Δt为取得此收益的时间段，i、j分别为大于等于1的整数，则任意两种i,j股票之间的Pearson相关系数p

S3.2，通过步骤S3.1得到两上市企业之间的连接关系E＝{e

在这样的计算公式下，相关性强则存在强权连边，相关性弱则弱权连边。

所述步骤S4中，具体包含以下子步骤：

S4.1，初始化节点和社区，将网络中的每个节点看成一个独立的社区，社区的数目与节点个数相同；

S4.2，m表示节点，为正整数，依次尝试把节点m分配到其每个邻居节点所在的社区，计算分配前后模块度变化ΔQ，并保留ΔQ最大的那个邻居节点的社区属性，如果maxΔQ＞0，则把节点m分配ΔQ最大的那个邻居节点所在的社区，否则保持不变；

S4.3，重复S4.2，直到节点社区属性不变；

S4.4，将所有在同一个社区的节点看成一个新节点，社区内节点之间的边的权重转化为新节点的环的权重，社区间的边权重转化为新节点间的边权重；

S4.5，重复S4.1直到整个网络的模块度ΔQ不再变化。

所述步骤S5中，具体包含以下子步骤：

S5.1，初始化节点的PageRank值为PangRank(d

S5.2，根据目标节点的PageRank值和邻居节点权重，遍历网络中的节点，更新节点的PageRank值，计算公式(5)如下

其中PangRank(d

S5.3，计算网络中所有节点的PageRank值更新量Δ，计算公式(6)如下

其中，D代表所有节点的集合，N代表节点的数量，PangRank(d

S5.4，当Δ≤ε时，停止迭代，ε为常数，反之重复步骤S4.2。

所述步骤S6中，构建指标体系时，借鉴多元统计理论中的指标评价原则，同时利用步骤S4和步骤S5中提取到的网络特征指标，进行指标融合，具体包含以下子步骤：

S6.1，增加上市企业的社区性质，采用One-Hot编码，将上市企业节点的社区的属性转化为多位二值型数据，进行变量维度扩充。

S6.2，增加上市企业的PageRank值，进行变量维度扩充。

所述步骤S7中，神经网络模型分为正向传播和反向传播，正向传播过程上一层的输出数据作为下一层的输入数据，然后输入数据需要加权求和加入偏差，并代入激活函数进行计算，具体公式(7)如下：

其中，表示f激活函数，神经网络中的激活函数为Sigmoid激活函数，w

复杂网络是一种以抽象的节点和连边来表示的各类实际关系的方法。作为研究各类学科的重要工具，通过网络图这种数据结构，能够得到实际问题中具体网络的拓扑特征，继而利用这些特征来解决对应的问题。一个具体的网络可以抽象为一个节点集合V和连边集合E组成的图G＝(V,E,W)，其中V包含了所有节点，

神经网络最早由心理学家和神经生物学家提出，神经网络在解决复杂问题时能够提供一种相对简单的方法，因此近年来越来越受到人们的关注。神经网络模型各种各样，从不同的角度对生物神经系统进行不同层次的描述和模拟。代表性的网络模型有BP网络、RBF网络、Hopfield网络、自组织特征映射网络等。

本发明利用上市企业股价时间序列数据构建了企业关系复杂网络，并将整个企业网络按照聚类思想划分为社区，同时量化了单个企业在整个网络中的重要程度，通过社区划分的思想量化了企业在整个市场中的关联关系。通过社区划分及重要节点排序对企业在复杂网络中的特征进行量化，方便分析师直观的了解目标企业在复杂网络中的地位。结合复杂网络指标和上市企业的财务指标，利用神经网络算法进行企业收入能力进行预测评估。

本发明选择上市企业的股市市值和企业财务基本信息数据，在加入网络特征指标后采用神经网络预测模型，最终的预测结果精度较高，增强了评估工作的客观性、科学性和准确性，解决了企业价值评估工作时收入预测中缺乏定量分析的问题，降低分析师在收入预测时主观因素的影响，提高评估工作的客观性和可解释性，达到了实际使用的要求。在真实数据的实验中，融合网络特征参数后模型效果明显改善，模型输出值营业收入增长率(％)的均方误差MSE由0.226下降至0.184，均方误差下降比例达18％，由图7可见，真实值与预测值的偏离程度。事实表明，本专利提出的方法对金融数据有良好的预测能力。

附图说明

图1为本发明建模步骤流程；

图2为利用上市企业股价时间序列数据构建了企业关系复杂网络；

图3为Louvain算法社区发现的流程图；

图4为PageRank算法流程图；

图5为神经网络算法结构示意图；

图6为神经网络算法拟合迭代Loss下降曲线图；

图7为增加网络特征前后拟合的曲线图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

参照图1～图7，本发明以中国A股上市企业为例，对不同企业的收入能力进行预测建模分析。测试样本为2016-2018年的A股上市公司(2020年收入数据尚未公布，故无法使用企业2019年财务数据)，剔除指标体系中数据缺失超过20％、主营业务发生重大变化及ST的公司。

如图1所示，融合网络特征的神经网络预测上市企业收入方法，包括以下步骤：

S1：数据集的采集，主要分为两部分数据，动态数据和静态数据。动态数据为不同上市企业的市值，静态数据为上市企业的财务数据及整体市场数据。

需要采集上市企业的动态数据和静态数据，包含以下子步骤。

S1.1，收集上市企业的股市数据，其中本模型使用的数据来自国泰安数据库，数据采用2016-2018年全部A股的上市企业股票周收盘价。

S1.2，收集市场数据及上市企业的财务数据，如表1所示为上市企业财务指标，包含国内生产总值，中国国际收支平衡，固定资产投资完成额等市场数据，和应收账款周转率，应收账款周转天数等上市企业的财务数据。

表1：上市企业财务指标

S2：数据集预处理，包含了对数据缺失值和异常值处理。对样本数据中的空值，采用中位数填充。此外，由于指标体系中各指标的计量单位和取值范围不同，为避免取值范围差异对预测模型的结果造成较大影响，对数据进行最大最小法(Min-Max scaling)标准化处理。计算公式(1)如下：

其中z

S3：利用上市企业股价时间序列数据构建了企业关系复杂网络，包含以下子步骤：

S3.1，该步骤中我们以股票价格的时间序列作为该上市企业的动态特征，并计算上市企业之间特征的相关性，采用Pearson相关系数，计算公式如下，假设v

其中，t表示时间，Δt为取得此收益的时间段，i、j分别为大于等于1的整数，则任意两种i,j股票之间的Pearson相关系数通过两个变量v

S3.2，通过S3.1得到两两上市企业之间的连接关系E＝{e

在这样的计算公式下，相关性强则存在强权连边，相关性弱则弱权连边。

S4：利用Louvain算法对网络进行社区划分得到节点的社区性质，流程如图3所示，具体包含以下子步骤：

S4.1，初始化节点和社区，将网络中的每个节点看成一个独立的社区，社区的数目与节点个数相同。

S4.2，m表示节点，为正整数，依次尝试把节点m分配到其每个邻居节点所在的社区，计算分配前后模块度变化ΔQ，并保留ΔQ最大的那个邻居节点的社区属性，如果maxΔQ＞0，则把节点m分配ΔQ最大的那个邻居节点所在的社区，否则保持不变。

S4.3，重复S4.2，直到节点社区属性不变。

S4.4，将所有在同一个社区的节点看成一个新节点，社区内节点之间的边的权重转化为新节点的环的权重，社区间的边权重转化为新节点间的边权重。

S4.5，重复S4.1直到整个网络的模块度ΔQ不再变化。

S5：根据上市企业相关性网络，利用PageRank算法上市企业相关性网络中节点的重要性进行计算，得到节点的PageRank值，流程如图4所示，具体包含以下子步骤：

S5.1，初始化节点的PageRank值为PangRank(d

S5.2，根据目标节点的PageRank值和邻居节点权重，遍历网络中的节点，更新节点的PageRank值，计算公式(5)如下

其中PangRank(d

S5.3，计算网络中所有节点的PageRank值更新量Δ，计算公式(6)如下

其中，D代表所有节点的集合，N代表节点的数量，PangRank(d

S6：根据相应的指标，对静态数据进行二次计算，并构建因变量数据。构建指标体系时，本发明借鉴多元统计理论中的指标评价原则，具体计算方式如表1所示。另一方面，我们利用S4和S5中提取到的网络特征指标，进行指标融合，具体包含以下子步骤：

S6.1，增加上市企业的社区性质，采用One-Hot编码，将上市企业节点的社区的属性转化为多位二值型数据，进行变量维度扩充。

S6.2，增加上市企业的PageRank值，进行变量维度扩充。

S7：利用神经网络算法对企业收入能力进行预测评估，如图5所示，神经网络模型分为正向传播和反向传播。正向传播过程上一层的输出数据作为下一层的输入数据，然后输入数据需要加权求和加入偏差，并代入激活函数进行计算，具体公式(7)如下：

其中，表示f激活函数，神经网络中的激活函数为Sigmoid激活函数，w

如上所述为本发明在金融数据挖掘领域中的一种融合网络特征的神经网络预测上市企业收入方法的实施例介绍，本发明选择上市企业在2016-2018年股市市值和企业财务基本信息数据，在加入网络特征指标后采用神经网络预测模型，最终的预测结果精度较高，增强了评估工作的客观性、科学性和准确性，解决了企业价值评估工作时收入预测中缺乏定量分析的问题，降低分析师在收入预测时主观因素的影响，提高评估工作的客观性和可解释性，达到了实际使用的要求。在真实数据的实验中，融合网络特征参数后模型效果明显改善，模型输出值营业收入增长率(％)的均方误差MSE由0.226下降至0.184，由图7可见，真实值与预测值的偏离程度。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：黄泽宇;
专利申请人：山东咨平信息技术服务有限公司;

上一篇：仿蝠鲼胸鳍机构及仿蝠鲼机器人
下一篇：基于田间持水量的膜下滴灌棉花相对产量估算方法