一种一套金融交易对话信息分析技术方案

文献发布时间：2023-06-19 12:10:19

技术领域

本发明涉及信息分析技术领域，具体涉及一种一套金融交易对话信息分析技术方案的改进。

背景技术

在金融业务，如债券、资金交易中，90％的时间都发生在交易前的聊天对话上。交易员需要将聊天的信息整理成表单形式(如Excel等)再到交易系统执行交易。将聊天数据整理成有效的结构化数据，需要考虑多个子任务，依据上下文语境的不同划分成不同的业务子类，包括闲聊、一级投标、二级资金、现券、同业存单等业务的分类；根据不同的子类对文本进行信息的结构化抽取，形成结构化的信息总结。同时金融行业，对数据的准确率要求很高，因此需要一套完备的系统。聊天对话场景中，包含不同的业务、不同的交易(如资金交易、现券交易、债券投资等等)，同时掺杂着闲聊等信息。要实现自动将对话信息整理为标准的结构化信息，需要复杂精准的系统。

但是现有的技术，没有形成一套完备的解决方案体系，基于人工填充的方法，是一个费时费力的方式，且会造成大量事务性重复劳动；其次：基于规则引擎的方案，需要许多从业人员提供专家经验，转化成规则，虽然起初冷启动阶段会有比较快的见效，但是不能覆盖全面，多有遗漏。加入部分深度学习算法，仍不能有效保证性能；再次：线上业务复杂，规则不断增加之后也会发生冲突，顾此失彼的情况会愈发频繁；此外，工程开发成本和后期维护及运维的难度也很高。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种一套金融交易对话信息分析技术方案，它通过单轮分类器配合上下文分类器，针对语境不明朗的情况，能够提升分类器的准确率，然后通过将“过滤、分类、解析、结构化、标准化和校验”的各个模块完整的融合为一套系统，具有一定的容错设计，能够保障在金融领域这种对准确率要求很高的行业使用，达到了商用的水平。

为实现上述目的，本发明采用以下技术方案是：它由通用化配置模块1、过滤模块2、分类模块3、解析模块4、结构化模块5、标准化模块6、校验模块7、数据模块8组成，所述通用化配置模块1连接过滤模块2，所述通用化配置模块1依据不同的业务需要，将基于文本、业务，自动配置数据处理并定义配置表，过滤模块2连接分类模块3，所述过滤模块2通过深度学习算法，对文本进行不同业务分类，采用字典和规则库，过滤部分闲聊信息，所述分类模块3用于实现对对话文本的业务分类，分类模块3连接解析模块4，所述解析模块4用于对不同的业务调用相应的解析算法提取核心要素，解析模块4连接结构化模块5，所述结构化模块5用于对解析的要素进行重新排列，形成表格形式数据，结构化模块5连接标准化模块6，所述标准化模块6用于将不同格式的数据，整理成统一的标准形式，标准化模块6连接校验模块7，所述校验模块7采用字典库加函数库的办法，校验解析的各要素是否正确，所述数据模块8分别连接通用化配置模块1、过滤模块2、分类模块3、校验模块7，所述过滤模块2包括了筛选模块21、剔除模块22，筛选模块21与剔除模块22电性连接，所述分类模块3包括了单轮分类器31、上下文分类器32，单论分类器31与上下文分类器32电性连接。

所述分类模块3采用的是基于深度神经网络训练的文本分类器。将不同业务总结出关键词典，经过向量化后，潜入到分类器中，通过加重这些关键词的权重，进行最终的分类，提高了不同业务分类的准确率。

所述上下文分类器32采用自研的深度学习算法模型。上下文分类器32主要功能是“段落切割+意图分类”，通过算法将句子向量化后，判断当前句子和最近的哪几个句子是有关联的。

所述解析模块4采用AlBert+CRF的算法模型。能够快速的对不同业务进行要素的识别提取。

所述标准化模块6采用规则库的形式。通过“债券名、时间、标位、标量、期限、价格”等等各种要素，构建一套标准化函数库，实现各种要素的标准化。

本发明的工作原理：通过通用化配置模块1用户在聊天框中录入文本信息之后，会触发发送指令，将文本信息以及聊天状态信息发送到对话分析系统的服务模块，其中聊天状态信息包括发送方、接收方、会话id、发送时间等信息；同时，服务模块也会从缓存或者数据库中的配置表中读取当前生效的配置，以便后续依据此配置信息，对聊天文本进行解析处理从配置表里提取当前场景生效的配置，根据配置依次进行如下操作：

A.将文本通过过滤模块，将每部分都会根据配置信息调取相应的过滤规则，在通过了所有筛选规则之后，若不符合任意一条剔除规则，那么该信息将会被判定为无价值信息，不需要继续流通到后续的分类、NER解析模块等，直接输出判定结果；反之，则继续流通到分类器模块；

B.通过分类模块3根据不同业务总结出关键词典，经过向量化后，潜入到分类器中，通过加重这些关键词的权重，进行最终的分类，提高了不同业务分类的准确率，分类结束后，便将文本信息流入到分析模块4；

C.通过分析模块4将将文本信息流入到该分类对应的NER实体解析器，并将从文本中抽取出业务所需的实体短语及其类别标签；

D.通过结构化模块5将整体结果进行结构化转换，通过训练神经网络模型，判断各要素的关系，最后整理成标准的表格形式。

E.通过标准化模块6采用规则库的形式。针对“债券名、时间、标位、标量、期限、价格”等等各种要素，构建一套标准化函数库，实现各种要素的标准化。如时间“今天”标准化为“2020-02-10”，如标量“2e”标准化为“20000万”，形成统一的，可机器识别的数据形式。

F.通过校验模块7基于专家经验，构建了一套字典库，采用字典库加函数库的办法，校验解析的数据。对各类金融要素构建了一套验证规则，如“债券代码，必须是六位数的纯数字”，“投标的标位是在某个区间内的数字”等想要的字典库和规则库，通过校验后，对每类数据都会返回“info、warning、error”三类不同的提示信息，告诉用户数据正常、警告(可能有错)和错误。

采用上述技术方案后，本发明有益效果为：1.针对语境不明朗的情况，单轮分类器无法进行识别的问题，本系统结合上文文本，可以提升分类器的准确率，在金融对话领域达到98％以上的召回率和95％以上的解析识别率；2.整个系统模块分工解耦明确，配合配置信息，大大增加了线上切换以及子模块优化、新增功能等的可操性和便利性；3.通过将“过滤、分类、解析、结构化、标准化和校验”的各个模块完整的融合为一套系统，具有一定的容错设计，能够保障在金融领域这种对准确率要求很高的行业使用，达到了商用的水平。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的结构示意图。

图2是本发明中过滤模块2的结构示意图。

图3是本发明中分类模块3的结构示意图。

附图标记说明：通用化配置模块1、过滤模块2、筛选模块21、剔除模块22、分类模块3、单轮分类器31、上下文分类器32、解析模块4、结构化模块5、标准化模块6、校验模块7、数据模块8。

具体实施方式

参看图1-图3所示，本具体实施方式采用的技术方案是：它由通用化配置模块1、过滤模块2、分类模块3、解析模块4、结构化模块5、标准化模块6、校验模块7、数据模块8组成，所述通用化配置模块1连接过滤模块2，所述通用化配置模块1依据不同的业务需要，将基于文本、业务，自动配置数据处理并定义配置表，过滤模块2连接分类模块3，所述过滤模块2通过深度学习算法，对文本进行不同业务分类，采用字典和规则库，过滤部分闲聊信息，所述分类模块3用于实现对对话文本的业务分类，分类模块3连接解析模块4，所述解析模块4用于对不同的业务调用相应的解析算法提取核心要素，解析模块4连接结构化模块5，所述结构化模块5用于对解析的要素进行重新排列，形成表格形式数据，结构化模块5连接标准化模块6，所述标准化模块6用于将不同格式的数据，整理成统一的标准形式，标准化模块6连接校验模块7，所述校验模块7采用字典库加函数库的办法，校验解析的各要素是否正确，所述数据模块8分别连接通用化配置模块1、过滤模块2、分类模块3、校验模块7，所述过滤模块2包括了筛选模块21、剔除模块22，筛选模块21与剔除模块22电性连接，所述分类模块3包括了单轮分类器31、上下文分类器32，单论分类器31与上下文分类器32电性连接。

所述解析模块4采用AlBert+CRF的算法模型。能够快速的对不同业务进行要素的识别提取。

C.通过分析模块4将将文本信息流入到该分类对应的NER实体解析器，并将从文本中抽取出业务所需的实体短语及其类别标签；

D.通过结构化模块5将整体结果进行结构化转换，通过训练神经网络模型，判断各要素的关系，最后整理成标准的表格形式。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：周靖宇;黄嘉鑫;冉小瑜;邹鸿岳;
专利申请人：上海快确信息科技有限公司;

上一篇：一种利用物联网技术的自调节指纹快速录入的辅助设备
下一篇：一种融合规则的文本数字抽取装置