掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及数据处理领域,具体而言,涉及一种企业风险评估处理方法及装置。

背景技术

语义分析(Semantic Analysis)是自然语言处理技术的核心任务之一,包括词汇级语义分析、时序语义分析,句子级语义分析等。在分析包含企业风险信息的文本文件时,现有方法是通过人工进行评估,分析效率较低。

针对相关技术中通过人工进行评估企业风险,分析效率较低的问题,尚未提出解决方案。

发明内容

本发明实施例提供了一种企业风险评估处理方法及装置,以至少解决相关技术中通过人工进行评估企业风险,分析效率较低的问题。

根据本发明的一个实施例,提供了一种企业风险评估处理方法,包括:

对企业文本数据进行多角度的语义分析,得到多个风险评估结果;

利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。

可选地,对企业文本数据进行多角度的语义分析,得到多个风险评估结果包括:

对企业文本数据进行词汇级语义分析,得到第一语义分析结果;

对企业文本数据进行时序语义分析,得到第二语义分析结果;

对企业文本数据进行句子级语义分析,得到第三语义分析结果;

其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。

可选地,对企业文本数据进行词汇级语义分析,得到第一语义分析结果包括:

获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;

利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果。

可选地,利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征包括:

将所述风险关键词词库中的风险关键词按照重要性进行排序;

若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;

若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。

可选地,对企业文本数据进行时序语义分析,得到第二语义分析结果包括:

获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;

统计预设时间段内的关键词哑变量特征;

将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。

可选地,对企业文本数据进行句子级语义分析,得到第三语义分析结果包括:

获取对所述企业文本数据进行文本分类得到的多类文本信息;

通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;

分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;

确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。

可选地,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论包括:

将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;

将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;

将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;

将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。

可选地,在对企业文本数据进行多角度的语义分析,得到多个风险评估结果之前,所述方法还包括:

使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。

根据本发明的另一个实施例,还提供了一种企业风险评估处理装置,包括:

语义分析模块,用于对企业文本数据进行多角度的语义分析,得到多个风险评估结果;

聚合模块,用于利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。

可选地,所述语义分析模块包括:

第一分析子模块,用于对企业文本数据进行词汇级语义分析,得到第一语义分析结果;

第二分析子模块,用于对企业文本数据进行时序语义分析,得到第二语义分析结果;

第三分析子模块,用于对企业文本数据进行句子级语义分析,得到第三语义分析结果;

其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。

可选地,所述第一分析子模块包括:

获取单元,用于获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;

转换单元,用于利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果。

可选地,所述转换单元,还用于

将所述风险关键词词库中的风险关键词按照重要性进行排序;

若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;

若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。

可选地,所述第二分析子模块,还用于

获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;

统计预设时间段内的关键词哑变量特征;

将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。

可选地,所述第三分析子模块,还用于

获取对所述企业文本数据进行文本分类得到的多类文本信息;

通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;

分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;

确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。

可选地,所述聚合模块,还用于

将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;

将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;

将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;

将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。

可选地,所述装置还包括:

文本分类模块,用于使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。

根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论,可以解决相关技术中通过人工进行评估企业风险,分析效率较低的问题,通过多个角度得到企业文本数据的风险评估结果,利用集成学习方法对结果进行聚合,得到最终的风险评估结论,达到快速评估企业风险的目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的企业风险评估处理方法的移动终端的硬件结构框图;

图2是根据本发明实施例的企业风险评估处理方法的流程图;

图3是根据本发明实施例的,基于语义分析和集成学习的企业风险评估的示意图;

图4是根据本发明实施例的企业风险评估处理装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的企业风险评估处理方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的企业风险评估处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的企业风险评估处理方法,图2是根据本发明实施例的数企业风险评估处理方法的流程图,如图2所示,该流程包括如下步骤:

步骤S202,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;

步骤S204,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。

通过上述步骤S202至S204,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论,可以解决相关技术中通过人工进行评估企业风险,分析效率较低的问题,通过多个角度得到企业文本数据的风险评估结果,利用集成学习方法对结果进行聚合,得到最终的风险评估结论,达到快速评估企业风险的目的。

本发明实施例中,上述步骤S202具体可以包括:

S2021,对企业文本数据进行词汇级语义分析,得到第一语义分析结果;

进一步的,上述步骤S2021具体可以包括:获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果,具体的,将所述风险关键词词库中的风险关键词按照重要性进行排序;若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。

S2022,对企业文本数据进行时序语义分析,得到第二语义分析结果;

进一步的,上述步骤S2022具体可以包括:获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;统计预设时间段内的关键词哑变量特征;将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。

S2023,对企业文本数据进行句子级语义分析,得到第三语义分析结果;

进一步的,上述步骤S2023具体可以包括:获取对所述企业文本数据进行文本分类得到的多类文本信息;通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。

其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。

本发明实施例中,上述步骤S204具体可与包括:将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。

在一可选的实施例中,在上述步骤S202之前,使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。

图3是根据本发明实施例的,基于语义分析和集成学习的企业风险评估的示意图,如图3所示,包括:

输入企业文本数据后,先使用有监督的文本分类方法(包括但不限于TextCNN、TextRNN等)进行文本分类,包括:本年经营和风险描述文本,近几年经营和风险描述文本,技术创新、主营业务、经营情况、经营计划、核心竞争力、行业情况、风险描述等。企业风险相关的几类文本信息包括技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息等。

语义分析模块中的词汇级语义分析部分,利用风险关键词词库将本年经营和风险描述文本、近几年经营和风险描述文本转换成风险关键词哑变量特征,利用神经网络语言模型将技术创新、主营业务、经营情况、经营计划、核心竞争力、行业情况、风险描述等转换为文本特征向量。即对于文本分类后中出现频率较高的经营情况和风险描述文本,利用经验积累得到的风险关键词词库,将描述文本转换成关键词哑变量特征,即按照风险关键词重要性排序后,描述文本中出现该风险关键词则该哑变量位置特征值为1,描述文本中未出现该风险关键词则该哑变量位置特征值为0,如表1所示。

语义分析模块中的时序语义分析部分,对于文本分类后中出现频率较高的经营情况和风险描述文本,统计近几年(例如近三年或近五年)的关键词哑变量特征,组成时序特征,如表2所示。

表1

表2

语义分析模块中的句子级语义分析部分,对于文本分类得到的几类文本信息(例如技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息等),通过神经网络语言模型(包括但不限于word2vec等),将文本分词后,每个词都转换为固定长度的文本向量,将文本向量取平均得到该文本的文本向量特征,如表3所示。

将上述得到的特征分别输入到分类器1(包括但不限于线性回归等机器学习算法)、分类器2(包括但不限于卷积神经网络等算法)、分类器3(包括但不限于fastText、transformer等算法),分类标签为企业是否存在风险(例如XX远程标签为1,否则标签为0)。

表3

将上述3个分类器的结果,用集成学习模块中的结果融合子模块(例如投票策略,即少数服从多数)进行结果融合,得到最终的评判结果,如表4所示。

表4

实施例2

根据本发明的另一个实施例,还提供了一种企业风险评估处理装置,图4是根据本发明实施例的企业风险评估处理装置的框图,如图4所示,包括:

语义分析模块42,用于对企业文本数据进行多角度的语义分析,得到多个风险评估结果;

聚合模块44,用于利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。

可选地,所述语义分析模块42包括:

第一分析子模块,用于对企业文本数据进行词汇级语义分析,得到第一语义分析结果;

第二分析子模块,用于对企业文本数据进行时序语义分析,得到第二语义分析结果;

第三分析子模块,用于对企业文本数据进行句子级语义分析,得到第三语义分析结果;

其中,所述多个风险评估结果包括所述第一语义分析结果、所述第二语义分析结果以及所述第三语义分析结果。

可选地,所述第一分析子模块包括:

获取单元,用于获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;

转换单元,用于利用预先存储的风险关键词词库,将所述描述文本转换成关键词哑变量特征,得到包括所述关键词哑变量特征的所述第一语义分析结果。

可选地,所述转换单元,还用于

将所述风险关键词词库中的风险关键词按照重要性进行排序;

若所述描述文本中出现所述风险关键词,将关键词哑变量特征设置为1;

若所述描述文本中未出现所述风险关键词,将所述关键词哑变量特征设置为0。

可选地,所述第二分析子模块,还用于

获取对所述企业文本数据进行文本分类后出现频率大于预设阈值的经营情况和风险信息的描述文本;

统计预设时间段内的关键词哑变量特征;

将所述预设时间段内的关键词哑变量特征组成时序特征,得到包括所述时序特征的第二语义分析结果。

可选地,所述第三分析子模块,还用于

获取对所述企业文本数据进行文本分类得到的多类文本信息;

通过神经网络语言模型,将所述多类文本信息进行文本分词,得到多个分词;

分别将所述多个分词中的每个分词转换为预设长度的文本向量,得到多个文本向量;

确定所述多个文本向量的平均值为所述企业文本数据的文本向量特征,得到包括所述文本向量特征的第三语义分析结果。

可选地,所述聚合模块44,还用于

将所述第一语义分析结果输入到第一分类器中,得到第一分类结果;

将所述第二语义分析结果输入到第二分类器中,得到第二分类结果;

将所述第三语义分析结果输入到第三分类器中,得到第三分类结果;

将所述第一分类结果、所述第二分类结果以及所述第三分类结果进行聚合,得到所述风险评估结论。

可选地,所述装置还包括:

文本分类模块,用于使用有监督的文本分类方法对所述企业文本数据进行文本分类,得到多类文本信息,其中,所述多类文本信息至少包括:技术创新情况、主营业务信息、经营情况、经营计划信息、核心竞争力、行业情况、风险信息。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

S1,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;

S2,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。

可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,对企业文本数据进行多角度的语义分析,得到多个风险评估结果;

S2,利用集成学习方法对所述多个风险评估结果进行聚合,得到风险评估结论。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种企业风险评估处理方法及装置
  • 一种小微企业贷款风险评估方法、装置及存储介质
技术分类

06120113177176