导航：首页> 摄影术；电影术；利用了光波以外其他波的类似技术；电记录术；全息摄影术〔4〕>一种基于机器学习模型算法的债券违约预警识别技术

一种基于机器学习模型算法的债券违约预警识别技术

文献发布时间：2023-06-19 10:54:12

技术领域

本发明涉及人工智能技术领域，具体为一种基于机器学习模型算法的债券违约预警识别技术。

背景技术

尽管债券市场有外部评级参考、有内部评级决策，但是传统的信用评级方法只能解决排序的问题，不能解决风险预警的问题。中外信用评级机构都在信用等级调整滞后上受到质疑，这本质上是源于信用评级方法的问题。很多企业在发债首次评级时都是不错的企业，但随着内外部经营环境的变化，企业的信用风险也会发生变化，有些企业会逐步走向债务违约。

进入大数据时代，信息壁垒越来越低，信息传播速度越来越快。对于机构投资者而言，以往通过资讯优势赚信息不对称价差的时代将不再。传统评级的诸多问题也不断暴露，难以解决。传统信用评级对应的是专家的经验，级别确定人为因素太多，需要一家一家打分确定级别，效率较低。在实际应用上信用评级级别混杂，级别调整滞后，尤其是外部评级，而试图取代外部评级的内部评级又受到信评人员参差不齐，监控效率有限的影响，最终是否预警容易受到人的立场及主观判断影响

发明内容

针对现有技术的不足，本发明提供了一种基于机器学习模型算法的债券违约预警识别技术。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于机器学习模型算法的债券违约预警识别技术A1：数据处理，包括读取数据、预定义字典和特征工程，将所获得的发债企业过去每季财务数据以及其行业类别、所属区域等标签送入模型，进行数据预处理，删除缺失较为严重的特征变量后，对数据进行规则化的缺失值填充，然后进行特征工程。

A2：模型训练，包括对A1中处理的数据进行切分，然后预训练多个模型，获取最优参数后，做模型融合，将不同特征变量进行不同操作，如线性变化、非线性变化、等频分箱、不等频分箱等，非标数据进行Onehot(独热)编码处理等，数据处理完毕后将处理好的数据放入模型训练，通过降采样和升采样技术解决违约企业样本和正常企业样本不平衡的问题，设置白名单来解决噪音数据问题，并运用贝叶斯调参自动调整相关超参数，进而得到训练好的最优模型，运用在实际数据中。

优选的，所述步骤A1中，数据读取包括，读取公司数据，剔除其他数据，只获取产业类企业的相关公司数据，根据先验概率以及特征相关性，人为选择特征，并将企业性质和二级分类重新分类，将城投等企业剔除出去，删除缺失严重的数据，除评级外，某项特征缺失的数据剔除，读取违约的公司和所有的财报数据，缺失特征数目大于12的数据删除，将在白名单中的企业从训练数据中剔除，读取违约的公司和所有的财报数据，缺失特征数目大于12的数据删除，将在白名单中的企业从训练数据中剔除。

优选的，所述设置财报数据中某些样本为违约样本，根据预定义参数不同，违约样本的判定也将不同，将判定为违约的违约样本判定为1，剩余的违约企业财报数据标记为0，财报数据中根据season和delta判预测样本，不参与训练标记为-2，其余的都标记为-1，添加评级日特征。

优选的，所述对应所有年份的中值，各个年份的中值，根据年份和各离散型类别特征做分类的中值，预定义字典。

优选的，所述特征工程包括，将缺失值根据median_dict填入，填入的值为对应年份和各离散型类别特征的中值加权平均和对应年份的中值的加权平均，将企业性质，是否上市，二级分类转换成稀疏矩阵，将总资产做分箱，将某些特征等频分箱，若style＝＝season，将流动值转为月平均值，将某些特征做非线性，将某些特征组合，保存处理好的数据。

优选的，所述数据预处理部分，可以通过均值或众数等方式来对缺失值进行填充。

优选的，所述切分数据包括，定义好所有类型的数据，1为违约数据，0，-1为置信数据，-2为预测数据，由于正负样本极度不均衡，所以设定一定的比例，尽量使正负样本持平，预训练多个模型，获取其最优参数，再做ensemble模型训练，采用贝叶斯优化寻找最优参数，保证每个模型的数据集是随机的，生成各图的特征重要性和总体的特征重要性，对各模型运用voting的思想得出最后的模型。

优选的，所述特征工程部分中可以运用公式运算、成倍数增大或者降低方式对数据进行处理。

优选的，所述选择模型部分，除了XGB，LGB和随机森林机器学习模型，也可以选择逻辑回归、SVM、朴素贝叶斯、K近邻、GBDT、决策树分类以及深度学习算法。

优选的，所述模型调参部分，可以运用网格搜索、手动调参等方式进行参数优化。

本发明提供了一种基于机器学习模型算法的债券违约预警识别技术，相比于传统的以专家打分卡为基础的信用评级方法，基于机器学习的债券违约预警识别技术，可以比外部评级更早发出债券违约预警提示，给每一家发债企业一个动态精确的违约评分，从而可以帮助债券投资者更早发现高风险的债券，及时进行抛售处理，避免违约损失。此外债券违约评分的应用领域还可以拓展到高收益债投资标的选择、股票质押爆仓风险防范、可转债准入筛选、CDS定价、信用债资产五级分类等领域，成为债券投资领域预测未来违约风险的抓手工具。

从预警的领先性(从发出预警信号到违约的时间)、预警的有效性(预警的名单在一定的时间内，最终发生违约或者估值收益率大幅上升的企业占比)和预警的覆盖率(是指某段时间内已经违约的企业,在违约前已发出预警信号的企业占比)三个角度来检验，本专利的训练出来算法模型效果的综合效果最强，可以提前3个季度预警95％的违约企业，且违约预警名单范围很小，其中被错判的企业不到三成。

附图说明

图1为本发明结流程图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图，本发明提供一种技术方案：一种基于机器学习模型算法的债券违约预警识别技术，具体流程如下：

第1步：读取公司数据，剔除其他数据，只获取产业类企业和交通运输的企业的相关公司数据。根据先验概率以及特征相关性，人为选择特征，并将企业性质和二级分类重新分类，将城投等企业剔除出去。删除缺失严重的数据。除评级外，某项特征缺失的数据剔除。

第2步：读取违约的公司和所有的财报数据缺失特征数目大于12的数据删除将在白名单中的企业从训练数据中剔除。

第3步：设置财报数据中某些样本为违约样本，假设违约发生日期在2019年二季度，根据预定义参数不同，违约样本的判定也将不同。将判定为违约的违约样本判定为1，剩余的违约企业财报数据标记为0，财报数据中根据season和delta判预测样本，不参与训练标记为-2，其余的都标记为-1。

第4步：对应所有年份的中值，各个年份的中值，根据年份和各离散型类别特征做分类的中值。

第5步：将缺失值根据median_dict填入，填入的值为(对应年份和各离散型类别特征的中值加权平均和对应年份的中值的加权平均)将企业性质，是否上市，二级分类转换成稀疏矩阵，将总资产做分箱，将某些特征等频分箱。若style＝＝season，将流动值转为月平均值，将某些特征做非线性变化，将某些特征组合，保存处理好的数据。

第6步：切分数据定义好所有类型的数据,1为违约数据，0，-1为置信数据，-2为预测数据，由于正负样本极度不均衡，所以设定一定的比例，尽量使正负样本持平。预训练多个模型，获取其最优参数，再做ensemble。模型训练，采用贝叶斯优化寻找最优参数，保证每个模型的数据集是随机的，生成各图的特征重要性和总体的特征重要性，对各模型运用voting的思想得出最后的模型。

在基于机器学习模型算法研发的基础上，对模型结果进行了可视化展示，开发了相关的应用软件，便于查询和应用模型结果进行债券投资决策判断。

在析鲸信息锐思克大数据分析系统里建立违约预警模块，发布每家发债企业每季度的违约评分，并可以根据最新评级、行业、区域等进行灵活的排序筛选展示。对每个发债企业给出一个违约评分，[0,1]之间，超过0.5的会判为违约，并设置了0.4和0.6两条辅助观察线，将每季度的违约评分画成违约评分走势图，来更好地观察发债企业的违约趋势。根据基于机器学习的模型结果，每季度形成一个债券违约预警名单，对于违约评分超过0.4的进行预警提示分析(阈值可根据实际情况进行调整)，一般在100家左右，约占全部发债企业的2％，来预判未来6-9个月可能违约的债券。

通过对多种方法进行对比，如传统打分卡评级，舆情信息预警和估值价格预警，本发明提供的基于机器学习模型算法的债券违约预警识别技术，无论从预警的覆盖率、预警的有效性和预警的领先性来看，其效果是最好的。

本专利以发债企业的季度财务数据为核心，辅以企业的基本分类特征，包括区域、行业、企业性质、上市与否、违约时间等，来构建数据集；

用机器学习的方法，选择树状模型的各分支模型而非线性模型，对特征逐一进行处理。

从违约企业特征出发，通过横向比对正常企业和违约企业、纵向比对违约企业违约前n年或n季度数据，来提取违约企业的特征和违约临界点。

用二分类的方式划分准确率最高的违约时点违约企业的特征，并去寻找正常企业中具有这些特征的企业，进行预警。

这种基于机器学习的模型算法与传统的以专家打分卡(设定若干个评价要素，对每个评分指标进行连续或离散打分，并赋予不同的权重，最后得出一个加总分数)为核心逻辑的信用评级相比，机器学习算法采用树模型能够更好地找到非线性分割，从而更加精准区分违约企业和非违约企业。同时相对于信用评级衡量评级准确性的核心检验指标违约率，机器学习模型给出的违约评分可以更加精确知道每一家企业的违约风险，更有利于做出投资决策判断。而违约率是同一等级企业违约的概率，并不能确切知道哪一家企业会违约。

而与个人消费信贷领域的机器学习算法模型相比，由于债券领域数据本身的缺陷，如债券违约样本少，数据噪音大，场外因素较多，需要进行数据预处理、特征工程、参数调优的技术处理过程更难，且需要的实际违约样本的检验周期更长。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈毓敏;余哲;张宇阳;李绪生;黄骏;
专利申请人：上海析鲸信息科技有限公司;