掌桥专利:专业的专利平台
掌桥专利
首页

一种基于聚类、同期群分析的企业坏账预测方法

文献发布时间:2024-04-18 19:58:53


一种基于聚类、同期群分析的企业坏账预测方法

技术领域

本发明涉及企业坏账预测技术领域,尤其涉及一种基于聚类、同期群分析的企业坏账预测方法。

背景技术

客户的信用损失预计,或者叫“坏账准备计提”是会计上常见的问题。在权责发生制下,财务会计要求会计处理真实完整反映当期已发生的业务、事实情况,其中就包含对信用损失风险的全面刻画。企业的应收账款并不总能全额收回,平均而言其中的一部分会长期拖欠、无法形成现金回流,乃至最终债务人破产或债务重组等无力偿付。因为此前已经确认收入,故该部分是新增的损失,而该损失并非是在最终确认无法偿还时突然发生,而是在应收账款状态时就已经存在对应的风险了。事实上,随着应收账款账龄的增加,该风险将会不断上升,账龄越久的应收账款越倾向于难以收回。

会计估计即是对一些缺乏完整、准确的确切数字的会计事项,基于现有的信息、发生的交易以及公司内部和外部的数据,根据经验和专业判断做出的某些数值方面的预测或推断。会计估计一方面要考虑科学准确性,另一方面又要考虑财务报告的可理解性,因此模型一般不太复杂,但过于简单的模型又会导致估计失准,因此在不同的准确性-复杂度权衡下,会存在一系列复杂度不同的模型。坏账准备金是会计估计的经典问题,现有的预测方法一般为固定比例法,该方法在预测企业坏账时忽略了太多因素,不够精细,最大的缺陷是忽视了时间推移对信用风险带来的影响,也无法为业务决策提供太大参考,因此亟需种基于聚类、同期群分析的企业坏账预测方法来改变这一现状。

发明内容

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于聚类、同期群分析的企业坏账预测方法。其优点在于对不同账龄确定采取不同的计提比例,计提比例确定后,计算坏账准备总额,最后通过同期群和聚类算法进行验证分析,精细化区分政企客户信用风险特征,重新构建坏账计提比例模型,为应收账款坏账准备计提提供更准确的参考,使财务信息更全面体现信用风险,准确量化风险水平。

为了实现上述目的,本发明采用了如下技术方案:

一种基于聚类、同期群分析的企业坏账预测方法,包括以下步骤:

步骤一:考虑到不同账龄应收账款的信用风险水平不同,收集账龄分布数据;

步骤二:基于账龄分布数据,对不同账龄确定采取不同的计提比例,其中,计提比例r

直接指定:通过直接指定的方法确定r

统计法:基于历史数据对每一账龄下应收账款的下期还款概率做出参数估计,基于估计得到的各概率链式相乘,得到还款曲线,进而得到不同账龄下应收账款最终无法还清的概率;

分组统计法:对样本进行分划,再对每一组内的数据使用统计法,计算还款概率{p

步骤三:计提比例确定后,计算坏账准备总额;

步骤四:根据多期的计提比例r

步骤五:根据各个客户的还款曲线进行聚类,获得多个客户类型,其中,不同客户类型的风险特征不同。

本发明进一步设置为,所述计算还款概率{p

本发明进一步设置为,所述计算坏账准备总额,包括:根据公式

本发明进一步设置为,所述导出期望信用损失比例,包括:根据公式

用下一期账龄j的应收账款与当期账龄j-1的应收账款余额之比

本发明进一步设置为,所述权重根据公式

本发明进一步设置为,p

本发明的有益效果为:该基于聚类、同期群分析的企业坏账预测方法,考虑到不同账龄应收账款的信用风险水平不同,收集账龄分布数据,然后基于账龄分布数据,对不同账龄确定采取不同的计提比例,计提比例确定后,计算坏账准备总额,最后通过同期群和聚类算法进行验证分析,精细化区分政企客户信用风险特征,重新构建坏账计提比例模型,为应收账款坏账准备计提提供更准确的参考,使财务信息更全面体现信用风险,准确量化风险水平。

附图说明

图1为本发明提出的一种基于聚类、同期群分析的企业坏账预测方法的预测流程结构示意图;

图2为本发明提出的一种基于聚类、同期群分析的企业坏账预测方法的原序列和单调后序列示意图;

图3为本发明提出的一种基于聚类、同期群分析的企业坏账预测方法的还款曲线示意图;

图4为本发明提出的一种基于聚类、同期群分析的企业坏账预测方法的SSE指标示意图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

下面详细描述本专利的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。

在本专利的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利的限制。

在本专利的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“设置”应做广义理解,例如,可以是固定相连、设置,也可以是可拆卸连接、设置,或一体地连接、设置。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利中的具体含义。

参照图1,一种基于聚类、同期群分析的企业坏账预测方法,其特征在于,包括以下步骤:

步骤一:考虑到不同账龄应收账款的信用风险水平不同,收集账龄分布数据;

步骤二:基于账龄分布数据,对不同账龄确定采取不同的计提比例,其中,计提比例r

直接指定:通过直接指定的方法确定r

统计法:基于历史数据对每一账龄下应收账款的下期还款概率做出参数估计,基于估计得到的各概率链式相乘,得到还款曲线,进而得到不同账龄下应收账款最终无法还清的概率;

分组统计法:对样本进行分划,再对每一组内的数据使用统计法,计算还款概率{p

步骤三:计提比例确定后,计算坏账准备总额。

在本实施例中,坏账准备总额的计算公式为

统计法的逻辑逻辑用公式描述如下:

其中p

记随机变量B

B

则根据大数定律,当M足够大时,上述随机变量的样本均值

依概率收敛到其均值E(B

衰减权重为

式中w

权重统计量变为

为滞后k期的账龄j-1在次月的还款比例;该统计量仍为无偏一致估计量(因为它是一系列无偏一致估计量的线性加权和)。

步骤四:根据多期的计提比例r

步骤五:根据各个客户的还款曲线进行聚类,获得多个客户类型,其中,不同客户类型的风险特征不同。

聚类算法按照其原理主要可以分为基于划分的聚类、基于密度的聚类和基于层次的聚类。

聚类是机器学习算法中解决无监督分组问题的标准做法。当目标问题需要对一个群体按群体内的相似性和差异性分为多个组,同时又没有现有的可参考的正确分类结果时,常使用聚类方法;它将数据集中的数据分成多个组或簇,使得每个簇内的数据点相似度较高,而不同簇之间的数据点相似度较低。

基于划分的聚类算法原理简单来说就是对一堆散点进行聚类,首先确定将这些散点聚成几类,然后挑选几个点作为初始中心点,根据一定规则迭代重置聚类中心点,直到达到“类内的点都足够近,类间的点都足够远”的目标效果。

优点:对于大型数据集也是简单高效、时间复杂度、空间复杂度低。

缺点:数据集大时结果容易局部最优;需要预先设定K值,且对初始中心点的选取很敏感;对噪声和离群值非常敏感;只用于numerical类型数据;不能解决非凸(non-convex)数据。

特别地,对于还款比例这类数值化特征,常使用K-Means聚类算法。对原始数据进行标准化处理,统一不同维度量纲后,数值化特征使得可以定义不同点之间的距离,K-Means算法得以实施。K-Means算法需要指定聚类个数K。进行完数据的处理、进行以上距离定义与参数指定后,算法按如下步骤运行:

1)随机生成K个初始聚类中心;

2)根据各数据点到各聚类中心的距离,判断数据点属于哪一个聚类中心,将其归入距自己最近的聚类中心,从而得到K个簇;

3)根据上一步生成的对各点的划分,各簇中分别计算新的聚类中心(根据距离定义,该点为到所有点的距离之和最近的点);

4)循环执行2)和3)直至聚类中心不再变化或达到最大迭代次数。

K-Means算法性能好,具有伸缩性,可处理大量数据。但对初始点敏感,且只能识别球状簇。因此常进行多次实验进行取舍。另外K值的选取对算法效果影响较大,可以结合业务知识,以及使用轮廓系数肘点法等聚类评判指标予以选择最适的K值。

基于层次的聚类主要有两种类型:合并的层次聚类和分裂的层次聚类;合并的层次聚类是一种自底向上的聚类算法,从最底层(即每个数据点为一类)开始,每一次合并最相似的类,直到全部数据点都合并到一类时或者达到某个终止条件时停止,大部分层次聚类都是采用这种方法处理;分裂的层次聚类是一种自顶向下的聚类方法,从最顶层(即全部数据点为一类)开始,然后把根节点分裂为一些子类,每个子类再递归地继续往下分裂,直到每个类中仅包含一个数据点。

优点:可解释性好;层次聚类算法能产生高质量的聚类;能很好对K-means不能解决的非球形族进行聚类。

缺点:时间复杂度高(O(m

基于密度的聚类算法的主要目标是寻找被低密度区域分离的高密度区域;与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的簇;基于密度的聚类方法是从数据对象分布区域的密度着手的;如果给定类中的数据对象在给定的范围区域中,则数据对象的密度超过某一阈值就继续聚类;这种方法通过连接密度较大的区域,能够形成不同形状的簇,而且可以消除孤立点和噪声对聚类质量的影响,以及发现任意形状的簇。

优点:对噪声不敏感;能发现任意形状的聚类。

缺点:聚类的结果与参数有很大的关系;DBSCAN用固定参数识别聚类,但当聚类的稀疏程度不同时,相同的判定标准可能会破坏聚类的自然结构,即较稀的聚类会被划分为多个类或密度较大且离得较近的类会被合并成一个聚类。

实现过程

如图2所示,要估计信用损失曲线,需要估计还款概率。这里使用频率估计概率,即账龄j-1的金额在下一期被还掉的比例。对于不同滞后期数的观察,按金额规模和滞后衰减权重加权后取平均。以上内容的详见以上描述。

由于账龄表完整性不能100%确保,对同一客户的追踪观测不一定能形成连续账期,因此,需要严格统一分子分母口径,必须是当期和上期都出现的同一实体客户ID号,才能参与比值指标的分子分母的汇总计算当中。

真实数据中可能还涉及到账务调整带来的不符合账龄表逻辑的增加。对此类递增,对余额序列采取以下的“后向取最大值填充”的变换,使其变为单调递减序列。变换公式如下:

a

以上思路所描述的估计信用损失曲线的步骤如下:

1)框定所有客户或其子集,按账单月份+观察月份归集账龄表汇总应收账款金额;

2)对每个客户每个账单月份下各观察月份的应收账款金额序列单调化处理为递减序列;

3)对每个客户每个账单月份下单调化后的应收账款金额序列,取滞后一期;

4)按账单月份和账龄(账龄可由观察月份与账单月份作差简单得到),汇总所有客户的当期序列值作为分子,滞后一期序列值作为分母,计算比值;

5)对每个账龄下计算出来的一系列比值,按观察月份距今月份对应的权重,计算加权和,作为该账龄的下一期还款概率的点估计;

6)按独立事件乘法原理计算,累乘得到信用损失比例的估计值;

客户风险特征分群方案

如图3所示,鉴于本分析所要刻画的最核心的风险特征就是还款曲线,曲线上的各点都是可量化的还款率,为数值型特征,故拟使用K-Means算法。

考虑到单个客户的还款曲线存在偶然性,统计意义不大,以及数据计算量的影响,这里不使用单个客户,而使用具有业务含义的客户小组参与聚类。

客户小组的划分方式:拟使用客户规模、网龄、行业属性(金融/互联网/环保/公共服务等)/客户类别(政府/国企/民企/外企等),维度间交叉划分为许多个小组。

客户小组中,对所有客户汇总估计还款概率,并得到还款曲线,方法见上节。

聚类算法样本间距离的定义:还款曲线不同期的各值序列转化为向量,计算欧氏距离

即Dist({r

直观上,两条还款曲线之间的距离定义为它们在不同横坐标位置处的差的平方和,即蓝色虚线下方的面积。

聚类效果评价与K值选择:使用轮廓系数作为聚类效果评价指标,使用折线图比较选取最优的K值。

轮廓系数:

某点i的轮廓系数

计算a(i)=average(i向量到所有它属于的簇中其它点的距离)

计算b(i)=min(i向量到某一不包含它的簇内的所有点的平均距离)

那么i向量轮廓系数就为

计算所有点的轮廓系数后求平均,就得到了聚类整体的轮廓系数。轮廓系数的值是介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。

肘点法:

如图4所示,尝试不同K值,分别计算SSE(组内距离平方和),绘制聚类个数为横轴,SSE指标为纵轴的折线图。随着聚类个数增加,SSE一般会减小,但减小的速度越来越慢。在图上找到SSE指标减小开始由陡峭变得平缓的K值,即肘点法选取的K值。

聚类结果应用:使用小组聚成的大类作为客户划分的依据(人工识别聚类的业务意义),固化成为口径。使用每大类全量样本估计,各得到一条还款曲线,作为最终模型估计计提比例的依据。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

相关技术
  • 一种基于主成分分析法和Q聚类分析的科创板拟上市企业估值模型
  • 基于K-均值聚类RBF神经网络的企业用电负荷预测方法
技术分类

06120116507592