掌桥专利:专业的专利平台
掌桥专利
首页

监管事件定性指标提取的方法、装置和系统

文献发布时间:2023-06-19 11:16:08


监管事件定性指标提取的方法、装置和系统

技术领域

本发明涉及计算机技术领域,尤其涉及一种用于监管事件定性指标提取的方法、装置和系统。

背景技术

金融监管实现对包含金融机构和金融业务的整体金融业的检查和监督,金融监管的监管信息来源非常多样化,包含金融业务数据、财务数据等具有定量信息的数据,同时也包含现场检查监管、舆情查看、政务事件等定性信息,通过将监管信息处理为监管指标来实现对被监管对象的评价。目前,针对业务指标、财务指标等具有定量信息的定量指标,可以实现信息处理系统来处理定量信息中的数据,然而针对定性指标,例如监管配合、合规性等需要定性分析的信息,往往通过人工判断。

定性指标的人工衡量方式使得金融监管方的监管指标处理体系无法充分利用信息处理系统带来的实时、批量的大数据获取及处理能力,且人工衡量方式自身存在诸多缺陷,其无法规避人为主观判断因素造成的定性指标误差问题,并且人工核查的信息来源较为单一,例如人工核查中舆情查看指标评价的信息来源限于单一的投诉信访,而受制于人工工作的有限容量和效率,无法实现实时、批量从社交网络、媒体以及其他基于互联网的海量信息源获取舆情,也无法实现定性监管信息的实时、批量化处理,并且一旦被监管对象容量超过人工工作负荷,人工工作甚至无法满足全面的金融业监管需求。

发明内容

有鉴于此,本发明实施例提供一种监管事件定性指标提取的方法、装置和系统,能够从多维度数据来源实时地收集监管信息,利用自然语言处理实现从海量监管信息中提取定性的监管指标的机器学习算法,并且通过针对监管事件场景的事件判断,实现与整体监管指标体系的对接,能够模块化、可扩缩可移植地整合进监管指标体系的应用。通过提供事件级别的语义分析、信息抽取和关联整合,将数据智能、专家知识库和监管指标以工具化结合,在提供定性监管信息的智能采集和处理的同时,提升金融监管的实时性、有效性和效率。

为实现上述目的,根据本发明实施例的一个方面,提供了一种用于监管事件定性指标提取的方法,其特征在于,包括:

获取包含文本内容的监管信息;

对所述监管信息的文本进行语句拆分,获得一个或多个语句,其中每个语句通过机器学习方法来与相应的监管事件类型相关联;

对所拆分的语句进行语义标注,从而抽取信息短语集合,其中信息短语集合中包含一个或多个信息短语,并且每个信息短语与信息维度相关联;

对所述信息短语集合中的每个信息短语执行向量化处理,获得信息向量集合,其中所述信息向量集合中的每个信息向量对应于每个向量化的信息短语;以及

针对所述信息向量集合,使用情感分类处理来获得定性分类结果。

可选地,通过机器学习方法来将每个语句与相应的监管事件类型相关联包括:通过基于机器学习的场景分类过程来确定相应的监管事件类型。

可选地,所述基于机器学习的场景分类过程进一步包括:使用基于人工语料标注数据的机器学习分类方法来对每个语句进行场景分类。

可选地,所述机器学习分类方法为支持向量机分类算法,所述人工语料标注数据是通过专家知识库维护的,包括预定义的针对金融监管的触发词数据。

可选地,所述监管事件类型是基于监管事件场景的分类,包括:行业新闻、现场检查、舆情查看、政务事件,所述监管信息的文本通过所述监管事件场景的分类实现所述定性分类结果与基于监管事件场景的定性监管指标的匹配,使得能够进一步结合定量监管指标实现综合监管评价。

可选地,所述语义标注包括:通过中文命名实体识别,进行BIOES语义标注。

可选地,通过中文命名实体识别进行BIOES语义标注是基于专家知识库中维护的人工语义标注数据来进行的,其中经标注的语句中的所述一个或多个信息短语具有相关联的信息短语归属指示符以及信息维度指示符,每个信息短语中的每个字符对应于该信息短语的信息短语归属指示符,并且每个信息短语的信息维度指示符指示该信息短语的信息维度。

可选地,所述向量化处理是利用金融监管补充语料进行增量训练的词向量编码。

可选地,所述向量化处理进一步包括:将每个信息短语通过所述词向量编码映射至具有向量维度集合中的向量维度的词向量。

可选地,所述向量维度集合中的每个向量维度是基于信息短语所属的语句的监管事件类型来定义的,其中与不同的监管事件类型相对应的信息短语具有所述向量维度集合中的相应子集。

可选地,所述方法进一步包括:在执行所述向量化处理之前,对所述信息短语集合进行预处理,所述预处理包括:分词、去停用词以及字符简繁体编码转换。

可选地,所述情感分类处理是基于深度神经网络的分类处理,包括:

对所述信息向量集合中的每个信息向量,执行特征提取来获得相应的特征向量的特征向量集合;

针对所期望提取的特定定性方面,确定方面嵌入向量;

利用所确定的方面嵌入向量连同每个特征向量来确定注意力权重向量,并且进而确定加权的特征向量集合,其中注意力权重向量指示语句中的各个信息短语针对所述特定定性提取目标而言的相应的重要性程度;以及

通过分类网络,利用所述加权的特征向量集合连同所述特征向量集合来确定表示定性分类结果的条件概率分布,其中所述条件概率分布指示针对所述特定定性方面的结果倾向为正面、负面还是中性。

可选地,所述特征提取是通过长短期记忆网络来实现的,其中针对每个输入的信息向量,所述长短期记忆网络生成相应的隐式特征向量作为输出,以供所述深度神经网络的下一层处理。

可选地,所述分类网络包含全连接层及其输出处的Softmax函数,其中所述加权的特征向量集合连同所述特征向量集合在全连接层经由激活函数处理获得结果表示,并且所述结果表示经由所述Softmax函数转换为所述条件概率分布,其中所述激活函数为tanh函数。

可选地,所述特定定性方面是基于所述监管事件类型,并且所述方法进一步包括:输出所述定性分类结果,其中所述输出包括呈现语句的所述特定定性方面以及针对所述特定定性方面的结果倾向。

可选地,进一步包括:接收对于所述定性分类结果的反馈,并且基于所述反馈来执行调整。

可选地,所述调整包括:

接收所述反馈,其中所述反馈包含指示所述监管信息的语句的定性分类结果正确与否的结果正误指示符以及真实结果指示符;

针对指示所述定性分类结果为误的反馈,利用相应的真实结果来对与所述情感分类处理相关的参数以及训练参数进行调整。

可选地,与所述情感分类处理相关的参数包括以下中的一个或多个:

长短期记忆网络参数;

方面嵌入向量的参数;以及

分类网络的参数。

根据本发明实施例的第二方面,提供一种用于监管事件定性指标提取的装置,其特征在于,包括:监管信息读取模块、监管信息解析模块、监管指标提取模块和监管指标定性模块;其中,

所述监管信息读取模块,用于获取包含文本内容的监管信息,对所述监管信息的文本进行语句拆分,获得一个或多个语句,其中每个语句通过机器学习方法来与相应的监管事件类型相关联;

所述监管信息解析模块,用于对所拆分的语句进行语义标注,从而抽取信息短语集合,其中信息短语集合中包含一个或多个信息短语,并且每个信息短语与信息维度相关联;

所述监管指标提取模块,用于对所述信息短语集合中的每个信息短语执行向量化处理,获得信息向量集合,其中所述信息向量集合中的每个信息向量对应于每个向量化的信息短语;以及

所述监管指标定性模块,用于针对所述信息向量集合,使用情感分类处理来获得定性分类结果。

可选地,所述装置进一步包括监管指标输出模块和监管指标调整模块;其中,

所述监管指标输出模块,用于输出所述定性分类结果,其中所述输出包括呈现语句的所述特定定性方面以及针对所述特定定性方面的结果倾向;以及

所述监管指标调整模块,用于接收对于所述定性分类结果的反馈,并且基于所述反馈来执行调整。

根据本发明实施例的第三方面,提供一种用于监管事件定性指标提取的系统,包括:监管信息库以及采用本发明实施例第一方面提供的方法与所述监管信息库通信连接的定性指标提取服务器。

根据本发明实施例的第四方面,提供一种监管事件定性指标提取的电子设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。

根据本发明实施例的第五方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例第一方面提供的方法。

上述发明中的一个实施例具有如下优点或有益效果:本发明通过从包括相关服务数据库、公共媒体、舆论舆情以及其他可能涉及金融监管信息的数据来源广泛地收集监管信息,能够充分利用各种方面信息的优势,同时不仅结合原有的专用信息源同时能够覆盖广泛的网络资源从而能够主动触达以往金融监控未涉及的信息来源,相比人工监管手段所采集的信息,实现真正全面、多维度的监管覆盖。本发明的定性指标提取技术通过基于监管事件的场景判断的定性指标匹配,不仅实现与总体监管评价体系的对接,从而与定量指标评价整合在统一的评价框架中;同时对监管信息执行监管事件的类型匹配还使得定性指标提取过程能够充分利用不同场景属性,从而大大提高提取的算法效果和效率。此外,本发明的定性指标提取,通过引入基于深度学习的情感分类,将数据智能、专家知识库和监管指标以工具化结合,实现高精度、高通用性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是根据本发明实施例的监管事件定性指标提取的方法的主要流程的示意图;

图2是根据本发明的实施例的、使用情感分类处理获得定性分类结果的主要流程的示意图;

图3是根据本发明的实施例的、示出了注意力机制下示例语句中不同信息短语的注意力权重的示意图;

图4是根据本发明实施例的监管事件定性指标提取的装置的主要模块的示意图;

图5是可以应用本发明实施例的监管事件定性指标提取的方法或监管事件定性指标提取的装置的示例性系统架构500;

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

根据本发明实施例的一个方面,提供了一种监管事件定性指标提取的方法。

本发明的实施例是在示例金融监管的定性指标提取系统的场境下进行描述的。金融监管对被监管对象进行评价所使用的定性指标来源于对非定量信息的处理,这些非定量信息涉及但不限于各种文档、报表、档案、媒体消息、邮件通信、工作文件等文本记录,其来源非常广泛和多样化。在本发明的示例定性指标提取系统中,通过监管信息库来维护用于监管指标提取的监管信息,这些信息可以从相关服务数据库、公共媒体、舆论舆情以及其他可能涉及金融监管事件的各种数据来源获取。监管信息库中可以使用结构化数据形式和非结构化数据形式来维护这些监管信息。由于这些监管信息的来源各异。例如,舆论舆情可以来自于包括web网站、论坛、博客、微博等各种网络公共平台和社交平台,舆情还可以来源于各种投诉信访等内容;现场检查信息可以涉及对被监管对象的现场检查时所报告的各类财务报表、文件档案、原始凭证和规章制度等资料;政务事件可以包括时事新闻、新规新政等。因此,这些监管信息的形式极其多样,信息量巨大,同时一份信息文档可能包含的信息方面也非常复杂,关于同一被监管对象的信息也极有可能分散在来源不同、形式各异的监管信息当中;而这些信息往往具有较好的时效性和信息含量,如果实现从这些信息当中对应的监管事件提取监管体系能够识别的定性指标,将有效实现监管事件的实时监控和预测。但是由于监管信息来源和形式的多样性,为了能够提供有效的定性指标提取信息,本发明的技术通过事件判断来识别的监管信息所对应的监管事件场景,从而通过监管事件的划分实现所提取的定性指标与总体监管体系的整合,并且能够结合定量指标协同进行监管评价。本发明的技术还进一步利用监管事件分类,促进定性指标提取的算法效果和效率。

本申请贯穿全文以“监管信息”来指代监管信息库中所维护的监管信息条目。在此上下文中,一个“监管信息”条目可以对应于:例如监管信息库中所维护的一份现场检查报告的文本条目、一个社交媒体发帖的文本条目或者一份新闻报道文章的文本条目等等。在各个的实施方式中,可以在监管信息库中以各种数据格式来维护“监管信息”的文本条目。在一些实施方式中,每个监管信息具有相关联的信息时间戳、数据录入时间戳、获取来源标识符以及促进信息查询的其他相关信息中的一个或多个。其中,信息时间戳指示相应监管信息的内容发布时间或完成时间,例如:现场检查报告具有相关联的报告完成日、社交媒体发帖具有相关联的帖子发布时间等等。

图1是根据本发明实施例的监管事件定性指标提取的方法的主要流程的示意图,如图1所示,根据本发明实施例的用于监管事件定性指标提取的方法,包括:步骤S101、步骤S102、步骤S103、步骤S104和步骤S105。

步骤S101、获取包含文本内容的监管信息。

在本发明的一些实施方式中,从定性指标提取系统的监管信息库中来获取监管信息,例如监管信息库可以提供应用编程接口(API)来便于实现信息查询。在一些示例实施方式中,可以针对特定的被监管对象、特定的监管事件或者其他期望的信息,以查询的方式从监管信息库获取指标提取所需的监管信息。例如,可以针对特定被监管对象,限定期望的监管信息发布时间并且进一步限定监管信息的来源范围,从而获取符合该特定要求的监管信息。在另一些示例实施方式中,可以通过主动批量传输方式直接从监管信息库接收监管信息,其中可以设置批量传输的频率、容量以及其他传输方式。所获取的监管信息可以包含各种形式的数据,其中至少包含文本内容,例如现场检查报告的文本、新闻报道文章的文本或者社交媒体发帖的文本等。

步骤S102、对所述监管信息的文本进行语句拆分,获得一个或多个语句,其中每个语句通过机器学习方法来与相应的监管事件类型相关联。

在从监管信息库获取监管信息后,将首先执行事件分类。在本发明的示例实施方式中,监管事件分类由场境判断子模块来完成。但是,本领域技术人员可以理解,监管事件分类的操作可以直接在监管信息读取模块中进行,从而将其功能与监管信息读取模块的功能相整合。在另一些实施方式中,监管事件分类可以是由与监管信息读取模块分开的单独模块来执行。通过将监管信息分类为不同的监管事件类型,并基于每个监管信息的特定监管事件类型来执行后续处理,例如:语义标注、情感分析,能够大大缩短后续的处理时间,并提高算法效率。

在一个示例实施例中,监管信息可以被分类为以下类型中的一个:行业新闻、现场检查、舆情查看、政务事件。监管信息分类可以通过自然语言处理领域中已知的各种分类算法来实现。在此示例实施例中,监管事件分类是通过基于人工标注语料数据集的支持向量机(SVM)算法来实现的,其中SVM算法分类过程是基于SVM分类模型。

SVM分类模型的建模需要预先确定的样本数据集。在一些实施方式中,首先以人工方式对参考语料进行标注,对语料中的每个句子中的触发词进行人工标注,将该触发词标注为对应于上述监管事件类型中的一个,从而获得经标注的样本数据集。在其他一些实施方式中,也可以以其他方式进行人工语料标注。通过人工标注获得标注语料数据集后,对语料进行向量化处理,构造执行分类所需的特征向量。在一些实施方式中,可以基于触发词作为待分类对象,根据触发词的语言学特征(语义、词法、句法特征)来构造特征向量。在一些实施方式中,可以在指标提取系统的专家知识库来维护与金融监管相关的触发词数据,并且通过调用专家知识库的应用编程接口(API)来取得触发词数据。在示例实施方式中,特征向量的构造使用潜在语义分析(LSA)模型来进行。接下来,通过选取适当的核函数、分类模型参数在样本数据集上执行SVM模型训练,从而生成SVM分类模型。SVM分类模型可以通过不断扩充样本数据集并迭代地执行训练过程来改善其分类的可靠性,使其分类准确性不断趋近或达到期望的精确度范围。在一些实施方式中,可以选取径向基函数作为核函数,可以通过交叉验证来确定模型参数。

监管信息的分类过程的起始步骤与SVM模型的训练过程的起始步骤类似。在一些实施方式中,可以基于触发词作为待分类对象,根据触发词的语言学特征(语义、词法、句法特征)来构造特征向量。以所构造的特征向量作为对SVM分类模型的输入,SVM模型通过对输入进行处理从而将其映射至相应的输出,从而获得该输入所对应的监管信息的分类结果的表示(即,在示例实施方式中,对应于行业新闻、现场检查、舆情查看、政务事件中的一个类型)。在其他实施方式中,所构造的特征向量可以用于其他分类算法,诸如逻辑回归或者神经网络分类算法等。通过将监管信息划分为行业新闻、现场检查、舆情查看、政务事件的类型,能够实现所提取的定性指标与总体的监管体系整合,并且结合定量指标协同进行监管评价,同时监管事件分类还进一步能够促进后续定性指标提取的算法效果和效率。在其他实施方式中,可以针对不同的指标需求,将监管信息划分为其他不同项目和不同数目的类型。

场景判断子模块通过对监管信息执行监管事件分类,输出监管信息所对应的事件分类的标识符。在一些其他实施方式中,场境判断子模块还可以提供分类过程中所识别的触发词以及相应的语言学特征的表示,以供后续处理过程使用。在一个示例实施方式中,在监管定性指标提取系统中,例如通过定性指标提取数据库,维护监管信息与对应的事件分类及其他相关数据的关联性。在其他一些实施方式中,也可以将与监管信息的相关数据直接作为元数据与监管信息数据关联地存储,由此促进其他模块直接调用监管信息及其元数据,实现模块化部署及架构扩缩。

监管信息的文本,例如示例实施方式中的现场检查报告、社交媒体发帖或者新闻报道文章,通常包含一个或多个语句,在进行定性指标提取之前,需要首先将文本拆分为个体的语句。在示例实施方式中,语句拆分是在监管信息读取模块中执行的。在一些其他实施方式中,语句拆分可以在监管信息读取模块中的子模块执行,或者可以在与监管信息读取模块分开的单独模块来执行。语句拆分可以使用自然语言处理中的各种语句拆分算法来实现。在一些实施方式中,通过基于经验的分类方式实现语句拆分。基于经验的分类方式涉及结合标点规则的句尾判断。在另一些实施方式中,可以结合基于规则的模型实现语句拆分,基于规则的模型可以确定语句的语法特征并且结合标点规则实现句尾判断。进一步的,可以进一步结合基于概率的模型来预测语句中的元素(字词、标点、数字、字符等)作为句尾出现的概率,并且整合基于规则的模型进行特征提取,通过分类器实现语句拆分的句尾判断。经由将监管信息文本进行语句拆分所得到的语句与该监管信息的事件类型相关联。在一个示例实施方式中,在监管定性指标提取系统中,例如通过定性指标提取数据库,维护监管信息的语句与对应的事件分类及其他相关数据的关联性。在其他一些实施方式中,也可以将与监管信息的语句的相关数据直接作为元数据与监管信息的语句关联地存储。

步骤S103、对所拆分的语句进行语义标注,从而抽取信息短语集合,其中信息短语集合中包含一个或多个信息短语,并且每个信息短语与信息维度相关联。

在基于语句执行指标提取过程中,首先需要对所拆分的语句进行语义标注,由此识别语句中所含有的各个实体及其关系。在一个示例实施方式中,对语句的语义标注是使用中文命名实体识别(NER)来实现的。在指标提取系统中维护专家知识库,通过调用专家知识库的API来实现对语句中实体的识别。在专家知识库中,维护NER数据库,其中针对监管定性指标提取系统所涉及的监管事件的场景(例如,行业新闻、现场检查、舆情查看、政务事件)和对象(例如,包含被监管对象的实体名录、监管事件核心词典以及其他监管定制指标提取所涉及的专家数据的实体对应关系等),可以将监管信息文本的语句中实体划分为包括不限于行业、事件、时间、关系、状态、地点、机构等的多个信息维度,建立所识别的实体的索引。在一些示例实施方式中,在定性指标提取数据库中维护所识别的实体与所提取的相关维度中的信息的关联性,实现对实体及其相关联的信息维度的索引。在示例实施方式中,专家知识库中的NER识别的学习过程中,使用专家知识库中维护的人工语义标注数据来进行,并且可以通过专家知识库来维护总体的信息维度的集合。示例的人工标注数据以BIOES方式进行标注,经标注的语句中的每个字符具有相关联的信息短语归属指示符以及信息维度指示符。信息短语归属指示符用于指示每个个体短语的范围,即Begin,表示开始;Intermediate,表示中间;End,表示结尾;Single,表示单个字符;Other,表示其他,用于标记无关字符;信息维度指示符指示每个个体短语的相应信息维度。作为一个示例,一个监管信息文本中拆分的语句为“上海黄浦联合小额贷款有限公司在浦东上海地产(集团)大厦举行开业揭牌仪式”,其标注结果为[B-LOC,E-LOC,B-LOC,E-LOC,B-ORG,I-ORG,I-ORG,I-ORG,I-ORG,I-ORG,I-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O,O,O]。具体的,其中“LOC”指示相应信息短语的信息维度为地点,“ORG”指示相应信息短语的信息维度为机构。由此,每个语句通过NER被识别为各个实体—即字符子集,每个字符子集包含一个或多个字符并且与相应的维度相关联。

在一个示例实施方式中,语义标注过程是基于场景判断所确定的事件类型的标注过程。具体的,示例实施方式中的行业新闻、现场检查、舆情查看、政务事件的事件类型中的每个类型分别具有相应的NER模型,从而实现针对特定场景的实体-维度关联性,这样能够充分利用不同监管事件与其场景相关的文本特征,在改善算法效率的同时,显著缩短语义标注的处理时间。

步骤S104、对所述信息短语集合中的每个信息短语执行向量化处理,获得信息向量集合,其中所述信息向量集合中的每个信息向量对应于每个向量化的信息短语。

每个语句中,与信息维度相关联的信息短语自身仍然具有自然语言的特性,数据处理系统的算法对于表示自然语言的字符直接处理效率非常有限,需要消耗大量的计算资源和存储空间,需要将其转换为机器可读的代码形式。通过将信息短语集合中的每个信息短语进行向量化,可以将信息短语映射至在向量空间维度下的信息向量,从而转换成为便于使用算法处理的形式。在对语句的信息短语进行词向量编码之前,首先需要对语句执行预处理。例如,预处理可以包括:对语句的文本进行分词、去停用词和字符简繁体编码转换。

在示例实施方式中,每个信息向量在向量空间中的维度是通过基于信息短语所属的语句的监管事件类型来定义的,其进一步可以结合语句的信息维度。例如,一个示例信息短语可以归属于舆情查看的监管事件类型,针对该监管事件类型,可以在专家知识库中维护相对应的信息向量维度集合,其中本示例中每个信息向量包含如下所示的五个向量维度:

<金融,监管,舆情,行业,动作>

每个信息短语经由统计学习所建立的映射,可以基于该信息短语在每个向量维度下的相关程度来表示为信息向量。可以理解,向量维度的定义并不限于上述示例,可以具有更多或更少的维度并且每个维度的属性可以不同,并且随着统计学习的进行,向量维度可以被不断优化。

在一个示例实施方式中,信息短语至信息向量的映射是通过利用金融监管补充语料进行增量训练的词向量编码来实现的。增量训练可以从加载预训练词向量开始,首先对词向量编码模型进行初步训练,获得具有初始参数的词向量编码模型。在示例定性指标提取系统中,通过监管信息库维护监管训练数据,其中包含已经过人工标注的金融监管补充语料数据。在初步训练的词向量编码模型上,进一步输入金融监管补充语料数据,可以获得用于期望的应用场境的针对性信息短语至信息向量的映射模型。

在进一步的示例实施方式中,针对监管信息的不同监管事件类型,进一步细化映射模型。例如,继续上面的示例,金融监管补充语料数据中包含分别与行业新闻、现场检查、舆情查看、政务事件的类型相对应的基于类型的语料数据子集。针对每个不同类型的语料数据子集,分别进行增量训练,从而可以得到针对相应的监管事件类型的映射模型。继续刚才的示例向量维度。示例信息短语“现场检查”和“实地走访”经过向量化之后,获得如下的示例信息向量:

现场检查=<0.1,0.8,0.0,0.0,0.1>

实地走访=<0.1,0.5,0.1,0.1,0.2>。

其中,每个信息短语的信息向量中的每个维度下的数值指示该信息短语中针对该向量维度所对应的信息属性的相关性程度。例如,信息短语“现场检查”在“监管”向量维度下,具有更高的相关性,而信息短语“实地走访”在该向量维度下虽然也具有较高的相关性,但相对于“现场检查”相关性更低。而二者在“舆情”向量维度下均具有较低的相关性。信息短语经过向量化得到信息向量之后,可以进一步由机器学习模型进行处理。

在示例实施方式中,在经过机器学习处理之前,可以进一步对向量化所得到的信息向量进行规范化处理。规范化处理包括将各个信息向量的取值范围统一,使得其可以相互比较。规范化处理还可以包括相似信息向量的关联。继续上面的示例,虽然信息短语“现场检查”和“实地走访”二者所对应的信息向量数值上具有差异,但是在向量空间中,二者的相应信息向量的距离与其他向量相比更近,由此,可以将二者识别为相似的信息向量,从而进行关联。对信息向量进行相似关联可以促进后续机器学习的速度,例如可以有助于算法的收敛速度和准确度的改善。

步骤S105、针对所述信息向量集合,使用情感分类处理来获得定性分类结果。

接下来将参考图2来描述针对所述信息向量集合获得定性分类结果的过程。图2是根据本发明的实施例的、使用情感分类处理获得定性分类结果的主要流程的示意图,如图2所示,根据本发明实施例的使用情感分类处理来获得定性分类结果的方法,包括:步骤S201、步骤S202、步骤S203和步骤S204。

步骤S201、对所述信息向量集合中的每个信息向量,执行特征提取来获得相应的特征向量的特征向量集合。

经过向量化的信息短语,具有计算机可读的表示形式。为了实现定性监管指标提取,本发明的技术使用情感分类来对监管信息进行分类。在示例实施方式中,利用深度神经网络并具体结合长短期记忆网络实现机器学习情感分类。长短期记忆(LSTM)网络能够避免循环神经网络(RNN)中可能出现的梯度消失或过暴问题,在本示例实施方式中,使用LSTM网络进行特征提取,将信息向量集合中的信息向量输入经训练的LSTM网络之后可以获得对应的隐层向量。经过特征提取的隐层向量通过深度神经网络的softmax函数再经过线性化后可以最终得出维度大小与最终情感分类的类别数目相同的结果向量。在示例中,结果向量具有三个维度,正面、负面和中性。

步骤S202、针对所期望提取的特定定性方面,确定方面嵌入向量。

为了实现基于监管事件的定性指标提取,本发明的技术在对于语句的定性分析中需要引入针对监管事件的属性的方面嵌入向量,其中针对具有不同倾向的不同方面嵌入向量,同一个语句的情感分类结果可能是截然不同的。下面针对经上文所述的预处理过程的示例语句来示范情感分类的过程:“快鹿集团承诺为金鹿、当天等平台托底,但是东虹桥小额贷款股份有限公司出现兑付困难、可变现的资产成疑,应该立即解释清楚。”经过下面情感分类处理之后,最终可以针对不同的方面得到相应的情感分类结果,例如对于方面“快鹿集团”,该语句的情感分类结果可以是“中性”,而对于方面“东虹桥小额贷款股份有限公司”,该语句的情感分类结果则可以是“负面”。因此,方面嵌入向量的确定是基于期望提取的定性方面,不同的定性方面对应于相应的方面嵌入向量。在示例实施方式中,可以通过专家知识库来维护基于人工标注的参考语料所训练的方面嵌入向量,并且在后续识别过程中根据监督过程对方面嵌入向量的参数不断调整优化。

步骤S203、利用所确定的方面嵌入向量连同每个特征向量来确定注意力权重向量,并且进而确定加权的特征向量集合,其中注意力权重向量指示语句中的各个信息短语针对所述特定定性提取目标而言的相应的重要性程度。

为了使得在LSTM网络基础上能够实现针对不同定性方面的情感分析识别语句元素中重要的部分,需要对机器学习模型进一步加入注意力机制,从而针对不同的特定定性方面可以识别语句的重要部分。在示例实施方式中,可以利用特征向量集合中的每个特征向量分别与方面嵌入向量一起共同构成激活函数的输入,获得LTSM网络的激活输出。在一些实施方式中,可以选择tanh作为激活函数。在其他实施方式中,视情况也可以选择例如sigmoid或者其他激活函数。然后,进一步将所获得的激活输出与相应的特征向量一起输入softmax函数,获得注意力权重向量。

下面参考图3来利用示例语句示范情感分类中的注意力机制。图3示出了注意力机制下示例语句中不同信息短语的注意力权重。具体的,对应的色块颜色深度越深指示相应信息短语的注意力权重越大。可以理解,仅仅为了便于图示,将一个语句拆分为两行来表示,但实际上两行文本共同构成上文的示例语句。在图3的示例中,可以看出,信息短语“托底”、“兑付”、“困难”、“资产”以及“成疑”相对于其他具有更高的注意力权重,并且这些具有较高注意力权重的元素分别与示例的方面“快鹿集团”和“东虹桥小额贷款股份有限公司”在语义上实际对应。由此,通过注意力机制能够有效地实现针对不同的定性方面的情感分类。在示例实施方式中,可以通过专家知识库来维护基于人工标注的参考语料所训练的注意力权重向量,并且在后续识别过程中根据监督过程对注意力权重向量的参数不断调整优化。在确定注意力权重向量之后,利用注意力权重向量对特征向量集合中的每个特征向量进行加权,从而获得加权的特征向量集合。

步骤S204、通过分类网络,利用所述加权的特征向量集合连同所述特征向量集合来确定表示定性分类结果的条件概率分布,其中所述条件概率分布指示针对所述特定定性方面的结果倾向为正面、负面还是中性。

示例实施方式的深度神经网络中最后一层为分类网络,其包括全连接层和在该全连接层输出处的Softmax函数。在一个示例实施方式中,将加权的特征向量集合中的每个加权的特征向量与未经加权的特征向量集合中的每个特征向量共同输入激活函数,得出语句所对应的特征表示。在一些实施方式中,可以选择tanh作为激活函数。该特征表示进一步通过线性化层被转换为维度大小与最终情感分类的类别数目相同的结果向量,其中结果向量的每个维度具有实数数值。最终,经由Softmax函数,结果向量被转换为条件概率分布,从而指示语句经过定性分类之后的结果针对该特定定性方面的倾向为正面、负面和中性中的哪一个。

继续刚才的示例,对于定性方面“快鹿集团”,该示例语句的注意力权重向量集中于信息短语“托底”,并且相应的情感分类结果可以是“中性”。对于方面“东虹桥小额贷款股份有限公司”,该示例语句的注意力权重向量集中于信息短语“兑付困难”和“资产成疑”,并且相应的情感分类结果则可以是“负面”。

在一些实施方式中,示例定性指标提取系统可以执行结果输出,所述输出包括呈现语句的所述特定定性方面以及针对所述特定定性方面的结果倾向。下面的表1中示出了参照上面的示例语句所得出的输出结果的示例:

表1

例如,结果输出中可以显示上述情感分析结果信息和相应的信息短语关键词;此外,结果输出中可以包含对总体监管评价体系的定性指标输出。继续上述示例,该语句经过场景判断被识别为“舆情查看”监管事件类型,由此在监管评价体系中,对于与“东虹桥小额贷款股份有限公司”相关联的“舆情查看”定性指标中,其“负面”的分类结果在后续评价中产生减分的后果。同时,“快鹿集团”在监管评价体系中可以被维护为该“舆情查看”定性指标的关联词。

在进一步的一些实施方式中,示例定性指标提取系统在执行结果输出后,可以接收对于定性分类结果的反馈,反馈包含指示所述监管信息的语句的定性分类结果正确与否的结果正误指示符以及真实结果指示符。基于反馈可以对用于情感分类的深度神经网络进行调整。

在一些示例实施方式中,对于数据的调整是针对接收到指示监管信息的语句的定性分类结果有误的反馈,利用相应的真实结果来对与所述情感分类处理相关的参数以及训练参数进行调整。示例定性指标提取系统中分类处理相关的参数以及训练参数共同维护为模型参数文件。在定性指标提取系统处理真实数据之前,首先利用模型训练数据对分类模型进行训练,从而得到初始化的模型参数文件。之后,利用调整过程来在真实数据上使用定性指标提取系统分类模型进行处理,并且获取人工审查结果的反馈结果。使用微调网络来利用反馈结果的有监督训练过程侧重于历史错误记录数据中的历史数据进行特定的微调。微调网络所进行的参数调整主要涉及分类网络的参数,长短期记忆网络参数以及方面嵌入向量的参数。同时,微调网络还会调整训练过程所涉及的参数,例如衰减步长、衰减系数、测试迭代的样本容量以及迭代地间隔长度。微调过程以迭代的方式不断执行,在真实数据反馈的基础上不断趋近或达到期望的分类精度范围。

根据本发明实施例的第二方面,提供一种监管事件定性指标提取的装置。

图4是根据本发明实施例的监管事件定性指标提取的装置的主要模块的示意图,如图4所示,监管事件定性指标提取的装置400包括:

监管信息读取模块401,获取包含文本内容的监管信息,对所述监管信息的文本进行语句拆分,获得一个或多个语句,其中每个语句通过机器学习方法来与相应的监管事件类型相关联;

监管信息解析模块402,对所拆分的语句进行语义标注,从而抽取信息短语集合,其中信息短语集合中包含一个或多个信息短语,并且每个信息短语与信息维度相关联;

监管指标提取模块403,对所述信息短语集合中的每个信息短语执行向量化处理,获得信息向量集合,其中所述信息向量集合中的每个信息向量对应于每个向量化的信息短语;

监管指标定性模块404,针对所述信息向量集合,使用情感分类处理来获得定性分类结果;以及

可选地,监管指标输出模块405,输出所述定性分类结果,其中所述输出包括呈现语句的所述特定定性方面以及针对所述特定定性方面的结果倾向;以及

可选地,监管指标调整模块406,接收对于所述定性分类结果的反馈,并且基于所述反馈来执行调整。

根据本发明实施例的第三方面,提供一种监管事件定性指标提取的系统,包括:监管信息库以及采用本发明实施例第一方面提供的方法的定性指标提取服务器。

根据本发明实施例的第四方面,提供一种监管事件定性指标提取的电子设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。

根据本发明实施例的第五方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例第一方面提供的方法。

图5示出了可以应用本发明实施例的监管事件定性指标提取的方法或监管事件定性指标提取的装置的示例性系统架构500。

如图5所示,系统架构500可以包括监管信息库501、网络502和服务器503。网络502用以在监管信息库501和服务器503之间提供通信链路的介质。网络502可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用监管信息库501通过网络502与服务器503交互,以接收或发送消息等。监管信息库501可以是具有各种数据库架构,并且利用各种服务器或计算设备通过各种方式来部署。

服务器503可以是实现监管事件定性指标提取的系统,例如响应于用户的查询,提供所查询的监管事件的定性指标提取结果。

应该理解,图5中的监管信息库、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的监管信息库、网络和服务器。

下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括:所述监管信息读取模块,用于获取包含文本内容的监管信息,对所述监管信息的文本进行语句拆分,获得一个或多个语句,其中每个语句通过机器学习方法来与相应的监管事件类型相关联;所述监管信息解析模块,用于对所拆分的语句进行语义标注,从而抽取信息短语集合,其中信息短语集合中包含一个或多个信息短语,并且每个信息短语与信息维度相关联;所述监管指标提取模块,用于对所述信息短语集合中的每个信息短语执行向量化处理,获得信息向量集合,其中所述信息向量集合中的每个信息向量对应于每个向量化的信息短语;以及所述监管指标定性模块,用于针对所述信息向量集合,使用情感分类处理来获得定性分类结果。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取包含文本内容的监管信息;对所述监管信息的文本进行语句拆分,获得一个或多个语句,其中每个语句通过机器学习方法来与相应的监管事件类型相关联;对所拆分的语句进行语义标注,从而抽取信息短语集合,其中信息短语集合中包含一个或多个信息短语,并且每个信息短语与信息维度相关联;对所述信息短语集合中的每个信息短语执行向量化处理,获得信息向量集合,其中所述信息向量集合中的每个信息向量对应于每个向量化的信息短语;以及针对所述信息向量集合,使用情感分类处理来获得定性分类结果。

本发明通过从包括相关服务数据库、公共媒体、舆论舆情以及其他可能涉及金融监管信息的数据来源广泛地收集监管信息,能够充分利用各种方面信息的优势,同时不仅结合原有的专用信息源同时能够覆盖广泛的网络资源从而能够主动触达以往金融监控未涉及的信息来源,相比人工监管手段所采集的信息,实现真正全面、多维度的监管覆盖。本发明的定性指标提取技术通过基于监管事件的场景判断的定性指标匹配,不仅实现与总体监管评价体系的对接,从而与定量指标评价整合在统一的评价框架中;同时对监管信息执行监管事件的类型匹配还使得定性指标提取过程能够充分利用不同场景属性,从而大大提高提取的算法效果和效率。此外,本发明的定性指标提取,通过引入基于深度学习的情感分类,将数据智能、专家知识库和监管指标以工具化结合,实现高精度、高通用性。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 监管事件定性指标提取的方法、装置和系统
  • 事件信息关键词提取方法、监控方法、及其系统和装置
技术分类

06120112859520