掌桥专利:专业的专利平台
掌桥专利
首页

使用机器学习技术预测机构风险的系统和方法

文献发布时间:2024-04-18 19:58:30


使用机器学习技术预测机构风险的系统和方法

技术领域

本公开总体上涉及用于分析文档的计算机化方法和系统,更具体地,涉及使用计算机化建模来分析所提取的文档数据并预测机构风险的计算机化系统和方法。

背景技术

在当前的环境中,存在着一组织可能寻求对其他组织的特定活动进行一定程度的监控的许多领域,尤其是当这些活动具有机构风险的可能性时(例如,对组织的损害、对消费者的伤害等)。在某些情况下,监查员试图通过从组织的文档中收集信息来识别机构风险。然而,为了使用当前技术来识别这些风险,人们必须手动地审阅成千上万页的文档,有时无法识别关键的风险影响信息,并且常常无法识别文档之间的联系或相关性。有时,这种人工审查可能如此容易出错或缓慢到这样的程度,即机构风险在被机构变为现实之前没有被识别或减轻。此外,这种人工审查可能使得难以识别组织内可能指示机构风险变化的趋势。在许多情况下,重要文档文件经常分散在多个物理位置上,需要大量的人力来执行完整的审阅。即使在使用基本的计算机化系统来帮助文档审阅的情况下,这样的系统也不能有效地工作,例如因为不完全理解可以帮助风险分析的特定文档类型或主题。

在其他环境中,组织可能寻求对其自身的活动进行一定程度的监控,以识别其自身运作的机构风险。然而,在这些情况下,组织通常具有上述缺点。此外,组织可受益于使用从多个组织(例如从在类似行业中运作的其它组织)汇集的数据来识别机构风险的文档分析,但这可能受到难以共享包括个人可识别信息(PII)的文档的阻碍。

在某些情况下,组织可以接收大量的分析信息,所述信息包括不需要的或格式不规范的信息。当通过计算机网络接收时,这种不需要的信息加重网络带宽的负担。另外,组织可能无法使用格式不规范的信息,或者为了转换成可用格式而可能不必要地加重处理资源的负担。

因此,在机构风险管理行业中需要提供可定制的、正确订制的、快速的和准确的风险分析信息。本发明旨在解决这些和其它挑战。

发明内容

本公开的一个方面涉及一种用于实体风险管理的计算机实现的系统。该系统包括被配置为存储指令的非暂时性计算机可读介质和被配置为执行所述指令以执行操作的至少一个处理器。所述操作包括在所述系统与数据源之间建立连接,所述数据源远离所述系统并且与第一实体相关联;从所述数据源接收所述第一机构数据;使用自然语言处理(NLP)分类器从所述机构数据中提取模型输入数据;将机器学习模型应用于所提取的模型输入数据以预测与所述第一实体相关联的风险水平,所述机器学习模型已被训练成使用第二机构数据来预测风险水平;基于所预测的风险水平来生成分析数据;以及基于所述分析数据,向可通信地连接到所述系统的管理设备发送警报。

本公开的另一方面涉及一种用于活动风险管理的计算机实现的系统。该系统包括被配置为存储指令的非暂时性计算机可读介质和被配置为执行所述指令以执行操作的至少一个处理器。所述操作包括访问与交易或个人中的至少一者相关联的文档数据;将所述文档数据归一化;对归一化的文档数据进行分类;从所分类的文档数据中提取模型输入数据;将机器学习模型应用于所提取的模型输入数据以对所述文档数据评分,所述机器学习模型已被训练为生成指示所述交易或个人的有利性的有利性输出;以及基于经评分的文档数据生成分析数据。

本公开的另一方面涉及一种用于提供对模型输出数据的选择性访问的计算机实现的系统。该系统包括被配置为存储指令的非暂时性计算机可读介质和被配置为执行所述指令以执行操作的至少一个处理器。所述操作包括通过应用编程接口(API)从请求者设备接收对数据的API请求,所述API请求标识与所述请求者设备相关联的请求者实体;基于所述API请求来确定数据类型;确定请求者的授权级别;访问与所述数据类型和所述授权级别相对应的第一模型输出数据,所述第一模型输出数据已由被训练为基于文档数据预测风险水平的机器学习模型生成;以及将所述第一模型输出数据发送到所述请求者设备。

本公开的其它方面涉及用于执行上述计算机实现的系统的功能的方法。

本文还讨论了其它系统、方法和计算机可读介质。

附图说明

图1是根据所公开的实施方式的用于预测风险的示例系统架构的示意图。

图2是根据所公开的实施方式的用于预测风险的示例服务器的框图。

图3是根据所公开的实施方式的示例用户设备的框图。

图4是根据所公开的实施方式的用于预测机构风险的示例性过程的流程图。

图5是根据所公开的实施方式的用于分析文档数据的示例性过程的流程图。

图6是根据所公开的实施方式的用于协调分析数据递送访问的示例性过程的流程图。

图7A、图7B、图7C和图7D描绘了根据所公开的实施方式的呈现在用户设备300上的示例界面。

图8描绘了根据所公开的实施方式的借方状态转换模型的示例图。

具体实施方式

所公开的实施方式包括用于处理金融交易的系统和方法。在详细解释本公开的某些实施方式之前,应当理解,本公开在其应用中不限于在以下描述中阐述或在附图中示出的构造细节和部件布置。本公开能够实现除了所描述的实施方式之外的实施方式,并且能够以各种方式实践和执行。而且,应当理解,这里以及附图中使用的措辞和术语是为了描述的目的,而不应当被认为是限制性的。

因此,本领域技术人员将理解,本公开所基于的概念可容易地用作设计用于实现本公开的若干目的的其它结构、方法和系统的基础。

现在将详细参考本公开的当前示例性实施方式,其示例在附图中示出。只要可能,在所有附图中使用相同的附图标记来表示相同或相似的部件。

图1是示出根据所公开的实施方式的用于预测风险的示例系统架构100的示意图。例如,系统架构100可以预测与一个或更多个机构相关的风险,所述机构例如是银行、贷方、支票清算所、财务通知实体、企业(例如汽车经销商)、医院、医疗保健提供者或其他组织。如下所述,系统架构100可以分析文档数据以预测相关风险。系统架构100内的设备可包括至少一个模块(其示例在下面讨论),该模块可包括用于基于文档数据来预测结果的程序、代码、模型、工作流、进程、线程、例程、协同程序、函数或其它处理元素。

在一些实施方式中,系统架构100可包括金融交易系统102,金融交易系统102可全部或部分地存在于银行或其它机构内。虽然该系统被称为金融交易系统,但是该术语仅仅是示例性的,因为存在这样的实施方式,其中金融交易系统102可以与不涉及交易的金融信息相关联,或者可以与不涉及金融的信息相关联。在一些实施方式中,金融交易系统102可以包括至少一个处理设备104,至少一个处理设备104可以是服务器200和/或用户设备300的实例。处理设备104可以执行这里描述的过程的全部或任何部分。在一些实施方式中,金融交易系统102可以包括多个处理设备104,多个处理设备104可以通过任何种类的合适的有线和/或无线局域网(LAN)可通信地联接。在一些实施方式中,金融交易系统102还可以利用云计算技术(例如,用于存储、高速缓存等)。

在一些实施方式中,处理设备104可以包括风险顾问模块106,风险顾问模块106可以存储在存储器230或存储器330中(下面进一步讨论)。在一些实施方式中,风险顾问模块106可以被配置成执行过程400的全部或部分,如下所述。在一些实施方式中,风险顾问模块106可以向金融交易系统102内的设备提供分析信息和/或建议,如下所述。例如,处理设备104可以向风险顾问模块106提供分析结果。

在一些实施方式中,处理设备104可以包括文档顾问模块108,文档顾问模块108可以存储在存储器230或存储器330中(下面进一步讨论)。在一些实施方式中,文档顾问模块108可以被配置成执行过程500的全部或部分,如下所述。在一些实施方式中,文档顾问模块108可被配置成检查特定类型的文档,诸如贷款申请文件。在一些实施方式中,风险顾问模块可以向金融交易系统102内的设备提供分析信息,包括下面讨论的建议。

虽然在同一处理设备104内示出为风险顾问模块106,但是应当注意,风险顾问模块106和文档顾问模块108可以存在于分离的处理设备104上。此外,处理设备104可以包括多个风险顾问模块106、文档顾问模块108或被配置用于实现这里讨论的过程的一部分的任何其他模块。例如,处理设备104可以包括与检查不同类型的文档(例如,贷款申请、帐户申请、取款请求、转帐请求、人员文档等)相关联的多个文档顾问模块108。

在一些实施方式中,金融交易系统102可以与活动分析平台110可通信地连接。例如,金融交易系统102可以通过网络120与活动分析平台110连接。网络120可以是公共或专用网络,并且可以包括但不限于局域网(LAN)、广域网(WAN)、城域网、电气和电子工程师协会(IEEE)802.11无线网络(例如,“Wi-Fi”)、有线网络、网络的网络(例如,因特网)、陆线电话网络、光纤网络和/或蜂窝网络的任何组合。网络120可以连接到其他网络(图1中未示出)以将各种系统组件彼此连接和/或连接到外部系统或设备。在一些实施方式中,网络120可以是安全网络,并且需要密码来访问网络或网络的一部分。

在一些实施方式中,系统架构100可包括活动分析平台110,活动分析平台110可与基于文档数据生成分析相关联。在一些实施方式中,活动分析平台110可以包括至少一个处理设备114,至少一个处理设备114可以是服务器200和/或用户设备300。处理设备114可以执行这里描述的过程的全部或任何部分。在一些实施方式中,活动分析平台110可以包括多个处理设备104,多个处理设备104可以通过任何种类的合适的有线和/或无线局域网(LAN)可通信地联接。在一些实施方式中,活动分析平台110还可利用云计算技术(例如,用于存储、高速缓存等)。

在一些实施方式中,处理设备114可以包括虚拟审计模块116,虚拟审计模块116可以存储在存储器230或存储器330中(下面进一步讨论)。在一些实施方式中,虚拟审计模块116可被配置成执行过程400的全部或部分,如下所述。在一些实施方式中,风险顾问模块可以向金融交易系统102内的设备提供以下讨论的分析信息和/或建议。在一些实施方式中,虚拟审计模块116可以聚集来自多个源(例如,多个金融交易系统102)的文档数据,并且可以基于来自单个源或聚集自多个源的数据来执行风险分析。在一些实施方式中,虚拟审计模块116可周期性地或连续地工作,以在检查新文档时定期地监视组织。在一些实施方式中,虚拟审计模块116可以确定风险分析结果满足警报阈值,并且可以向系统架构100中的设备发送警报。

在一些实施方式中,处理设备114可以包括检查辅助模块118,检查辅助模块118可以存储在存储器230或存储器330中(下面进一步讨论)。在一些实施方式中,检查辅助模块118可以被配置成执行过程400的全部或部分,如下所述。在一些实施方式中,检查辅助模块118可以提供基于用户输入的特定分析信息和/或建议。在一些实施方式中,检查助手模块118可以包括机器学习模型,该机器学习模型随时间学习用户(例如,金融检查者)的偏好并且作为响应调整分析和/或显示参数。作为示例,机器学习模型可以随着时间推移学习特定用户(例如,如由处理设备114处使用的特定用户凭证所标识的)在检查风险预测下的数据时更喜欢访问特定类型的文档,并且可以根据访问频率、访问顺序、花费在特定文档类型上的屏幕时间等来对文档类型评分。基于这些学习到的偏好,机器学习模型可以向用户提供文档列表,其中根据用户偏好分数的强度对文档进行排序。附加地或另选地,处理设备114可以使用检查辅助模块118来提供某些分析结果,检查辅助模块118可以被配置为提供图表、图、列表、过滤器或其他工具,以允许用户对结果(例如,随时间推移的新贷款数量、随时间推移的总资产、实体度量的相对较快的改变速率、两个事件之间的紧密定时等)进行检查。

系统架构100还可包括第三方数据提供者130,第三方数据提供者130可存储能够由根据所公开的实施方式的工具(例如,文档数据分析器232)使用的数据。在一些实施方式中,第三方数据提供者130可以存储与特定领域相关的数据,例如人口统计或经济学。举例来说,第三方数据提供者130可以存储来自美国劳动部的统计数据,例如与就业或收入有关的统计数据。在一些实施方式中,系统架构100内的设备可周期性地从第三方数据提供者130提取最新数据,使得模块可具有可用作模块的输入数据(例如,用于预测机构风险、预测交易或个人的偏好等的模型)的更准确的数据集。在一些实施方式中,活动分析平台110可被配置为(例如,具有多个数据摄取模块)从多个第三方数据提供者130下载数据,并将下载的数据标准化为可由机器学习模型使用的格式(例如,用于过程400)。第三方数据提供者130还可以通过网络120连接到活动分析平台110。

图2是根据所公开的实施方式的在系统架构100中使用的示例服务器200的框图。例如,服务器200可用于金融交易系统102或活动分析平台110中。服务器200可以是被配置成执行存储在存储器中的软件指令以执行与所公开的实施方式一致的一个或更多个过程的一个或更多个计算设备。例如,服务器200可以包括用于存储数据和软件指令的一个或更多个存储器设备以及用于分析数据并执行软件指令以执行基于服务器的功能和操作(例如后端处理)的一个或更多个硬件处理器。在一些实施方式中,服务器200可以是虚拟处理设备(例如,虚拟机或容器),该虚拟处理设备可以加速旋转或减速旋转以满足金融交易系统102、活动分析平台110或其它系统的处理标准。

在图2中,服务器200包括硬件处理器210、输入/输出(I/O)设备220和存储器230。应当注意,服务器200可以包括任何数量的那些组件,并且还可以包括任何数量的任何其它组件。服务器200可以是独立的,或者它可以是子系统的一部分,该子系统可以是较大系统的一部分。例如,服务器200可以表示远程定位并通过网络进行通信的分布式服务器。

处理器210可以包括一个或更多个已知的处理设备,例如微处理器。在一些实施方式中,处理器210可以包括任何类型的单核或多核处理器、移动设备微控制器、中央处理单元等。在操作中,处理器210可以执行计算机指令(例如,程序代码),并且可以根据这里描述的技术来执行功能。计算机指令可以包括例程、程序、对象、组件、数据结构、过程、模块和功能,其可以执行这里描述的特定过程。在一些实施方式中,这些指令可以存储在存储器230、处理器210或其它地方。

I/O设备220可以是被配置为允许服务器200接收和/或发送数据的一个或更多个设备。I/O设备220可以包括一个或更多个客户I/O设备和/或组件,诸如与键盘、鼠标、触摸屏、显示器等相关联的那些。I/O设备220还可以包括一个或更多个数字和/或模拟通信设备,其允许服务器200与其它机器和设备(诸如系统架构100的其它组件)通信。I/O设备220还可以包括被配置为接收输入信息和/或显示或提供输出信息的接口硬件。例如,I/O设备220可以包括被配置为显示用户界面的监视器。

存储器230可以包括被配置为存储由处理器210用来执行与所公开的实施方式相关的功能的指令的一个或更多个存储设备。例如,存储器230可以配置有与程序和/或数据相关联的一个或更多个软件指令。

存储器230可以包括执行服务器200的功能的单个程序或多个程序。另外,处理器210可以执行远离服务器200定位的一个或更多个程序。存储器230还可存储反映系统可用于执行根据所公开的实施方式的操作的任何格式的任何类型的信息的数据。存储器230可以是易失性或非易失性(例如,ROM、RAM、PROM、EPROM、EEPROM、闪存等)、磁的、半导体的、磁带的、光的、可移动的、不可移动的或另一类型的存储设备或有形的(即,非暂时性的)计算机可读介质。

根据所公开的实施方式,服务器200包括被配置为接收一个或更多个文档的文档数据分析器232,在一些实施方式中,所述一个或更多个文档可以从用户设备300接收到。例如,用户设备300可以将一个或更多个文档上载到服务器200可访问的位置,诸如通过使用网络门户或其它接口。同样根据所公开的实施方式,服务器200可以包括统计数据分析器236,统计数据分析器236可以被配置为生成风险预测,风险预测可以基于模型输入数据,诸如总分类账数据。在一些实施方式中,文档数据分析器232和/或统计数据分析器236可以是被配置成操作计算机化模型(例如,机器学习模型)的应用程序。文档数据分析器232和/或统计数据分析器236可被实现为软件(例如,存储在存储器230中的程序代码)、硬件(例如,包含在处理器210中或与处理器210通信的专用芯片)或两者的组合。文档数据分析器232和/或统计数据分析器236可以包括这里描述的任何或所有模块。

在一些实施方式中,文档数据分析器232可以包括分析模型234,分析模型234可以是具有用于生成与文档相关的预测数据的结构、参数和/或任何其他配置元素的模型。在一些实施方式中,统计数据分析器236可以包括分析模型238,分析模型238可以是具有用于生成与机构风险相关的预测数据的结构、参数和/或任何其他配置元素的模型。根据所公开的实施方式,分析模型234和/或238可以是但不限于计算机软件模块、算法、机器学习模型、数据模型、统计模型、自然语言处理(NLP)模块、k最近邻(KNN)模型、最近质心分类器模型、随机森林模型、极端梯度提升模型(XGBoost)、文本聚类模型、递归神经网络(RNN)模型、长短期记忆(LSTM)模型、卷积神经网络模型或另一神经网络模型中的任一个。分析模型234和/或238可被配置成预测单个实体(例如,银行)或多个实体(例如,多个银行)的表现。

在一些实施方式中,模型(例如,分析模型234和/或238)可以是学习阶段中的模型,或者可以被训练到一定程度(例如,由开发者、机器或两者的组合)。例如,训练模型可以包括向模型提供模型训练输入数据,该模型训练输入数据可以是非结构化的或半结构化的(例如,源自一个或更多个文档)或结构化的(例如,总分类帐数据、金融会计元数据等,其中任何一个都可以来自银行)。例如,统计数据分析器236可以接收包括结构化数据和非结构化数据二者的输入数据,这可以提供增强的预测性能。作为另一示例,文档数据分析器232可将一个或更多个文档分类为高级文档类型,并且可执行文档分析和提取操作,根据所公开的实施方式,并如关于过程500进一步详细描述的。模型可以使用模型训练输入数据来生成模型输出(例如,风险水平、对风险的影响因素、用于降低风险的建议等)。模型输入训练数据也可以不与任何特定文档相关联,并且可以是来自银行的总分类帐的数据。在一些实施方式中,可以使用来自单个源(例如,银行)或多个源(例如,多个银行)的输入数据(例如,文档数据、总分类帐信息等)来训练模型。在一些实施方式中,例如在训练被监督的情况下,用户可以向模型指示输出的准确度的量(例如,假阳性、假阴性),其可以是模型的递归反馈回路的一部分(例如,作为后续输入)。在一些实施方式中,开发者可以与模型交互以批准或不批准对模型或模型参数的建议改变(例如,由机器建议)。在这样的交互之后,可以更新模型以反映用户交互和/或机器输入。在一些实施方式中,模型可以继续训练,直到满足输出度量(例如,正确地预测组织失败的阈值数目或百分比,识别风险或风险升高的阈值数目或百分比,正确地识别文本的一部分,准确地分类训练文档的阈值数目或百分比,正确地预测贷款违约的阈值数目或百分比,分类或归类总分类帐账户的阈值数目或百分比等)。在一些实施方式中,不同的输出度量阈值可以用于不同类型的类别,这可以增强预测性能。类别可以是文档类别(例如,贷款申请、新账户申请等)或其它数据类别(例如,总分类账信息的类型,如现金流统计)。在一些实施方式中,模型可以是元模型(例如,多个银行特定模型的模型)。模型可被配置成生成特定分析数据,如下所述。

服务器200还可以通信地连接到一个或更多个数据库240。例如,服务器200可通信地连接到数据库240,数据库240可以是在金融交易系统102和/或活动分析平台110中的计算机系统(例如,数据库服务器计算机)中实现的数据库。数据库240可以包括存储信息并通过服务器200访问和/或管理的一个或更多个存储设备。例如,数据库240可以包括Oracle

在一个示例中,文档数据分析器232可包括调用用于分析与组织(例如,银行)相关联的文档数据的API的指令。在一些实施方式中,API可与金融交易系统102通信以验证文档信息和/或请求附加数据(例如,附加文档、文档信息的确认等)。在一些实施方式中,API通信可(例如,经由移动设备应用程序、文本消息、电话呼叫等)发送到用户设备300或另一服务器200(例如,处理设备104)110以向用户呈现(例如,显示为文本或图形,或播放为声音)。API通信可包括对附加信息的请求,并且可包括例如名、姓、账户名、电话号码、电子邮件地址、密码短语、文档标识号、金融金额、日期、金融产品的类型(例如贷款)或金融产品条件(例如利率)中的一个或更多个。

图3是在根据所公开的实施方式的系统架构100中使用的示例用户设备300的框图。如图3所示,用户设备300可以包括硬件处理器310、用户应用320、存储器330、用户接口340和通信接口350。在一些实施方式中,处理器310可以以类似于处理器210的方式实现,并且存储器330可以以类似于存储器230的方式实现。

处理器310可以包括数字信号处理器、微处理器或另一适当的处理器,以便于执行编码在计算机可读介质中的计算机指令。处理器310可以被配置为专用于基于提取的文档数据预测风险的单独处理器模块。另选地,处理器310可以被配置为共享处理器模块,用于执行与所公开的用于基于所提取的文档数据预测风险的方法无关的用户设备300的其他功能。在一些实施方式中,处理器310可以执行存储在存储器330中的计算机指令(例如,程序代码),并且可以执行根据本公开中描述的示例技术的功能。

存储器330可以包括被提供来存储处理器310可能需要操作的信息的任何适当类型的大容量存储器。存储器330可以是易失性或非易失性、磁性、半导体、磁带、光学、可移动的、不可移动的或另一类型的存储设备或有形(即非暂时性)计算机可读介质,包括但不限于ROM、闪存、动态RAM和静态RAM。存储器330可被配置为存储可由处理器310执行以执行所公开的用于基于所提取的文档数据来预测风险的功能的一个或更多个计算机程序。

用户应用320可以是专用于执行与基于提取的文档数据预测风险相关的功能(例如,修改模型参数、验证模型输出的准确性、指定模型目标等)的模块。用户应用320可以被配置为硬件、软件或其组合。例如,用户应用320可被实现为存储在存储器330中并可由处理器310执行的计算机代码。作为另一示例,用户应用程序320可实施为专用处理器(例如专用集成电路(ASIC)),其专用于进行电子支付。作为又一示例,用户应用程序320可被实现为嵌入式系统或固件,和/或实现为专用计算设备的一部分。

用户接口340可以包括图形接口(例如,显示面板)、音频接口(例如,扬声器)或触觉接口(例如,振动马达)。例如,显示面板可以包括液晶显示器(LCD)、发光二极管(LED)、等离子体显示器、投影或任何其它类型的显示器。音频接口可以包括麦克风、扬声器和/或音频输入/输出(例如,耳机插孔)。

用户接口340还可以被配置为从用户接收输入或命令。例如,显示面板可以实现为触摸屏以接收来自用户的输入信号。触摸屏包括一个或更多个触摸传感器以感测触摸屏上的触摸、刷动和其它手势。触摸传感器不仅可以感测触摸或刷动动作的边界,而且还可以感测与触摸或刷动动作相关联的时间段和压力。附加地或另选地,用户接口340可以包括其他输入设备,诸如键盘、按钮、操纵杆和/或轨迹球。用户接口340可以被配置为将用户输入发送到处理器310和/或用户应用程序320(例如,电子交易应用程序)。

通信接口350可以基于诸如Wi-Fi、LTE、2G、3G、4G、5G等的一个或更多个通信标准来访问网络(例如,网络120)。通信接口350可以将用户设备300连接到另一用户设备300或服务器200。例如,通信接口350可以将一个处理设备连接到另一个(例如,将处理设备104连接到另一个处理设备104,将处理设备104连接到处理设备114等)。在一些实施方式中,通信接口350可以包括近场通信(NFC)模块,以便于用户设备300和其他设备之间的短距离通信。在其它实施方式中,通信接口350可以基于射频识别(RFID)技术、红外数据关联(IrDA)技术、超宽带(UWB)技术、蓝牙

图4是根据所公开的实施方式的用于预测机构风险的示例性过程400的流程图。过程400可由金融交易系统102或活动分析平台110中的计算机实施的系统(例如,服务器200)或由设备(例如,用户设备300)执行。计算机实现的系统可以包括存储指令的存储器(例如,存储器230或330)和被编程为执行指令以实现过程400的处理器(例如,处理器210或310)。过程400可以涉及生成和/或显示某些用户界面,诸如图7A-图7D中所示的那些(例如,在步骤414)。过程400可被实现为存储在存储器230中并可由处理器210执行的一个或更多个软件模块(例如,统计数据分析器236中的API)。为了便于描述,过程400的一些步骤被描述为由诸如处理设备114的特定设备执行。然而,应注意,任何步骤可由系统架构100内的任何设备(例如处理设备104)执行。过程400可并入来自本文所论述的其它过程的步骤的方面。例如,在步骤410提供分析结果可以包括提供如关于过程500的步骤512所描述的分析结果的方面。

参照图4中所示的过程400,在示范性步骤402处,处理设备114可接收可来自数据源且可已由用户设备300生成的机构数据。在接收机构数据之前,处理设备114可建立系统与数据源之间的连接。在一些实施方式中,数据源(例如,金融交易系统102)可以远离系统(例如,活动分析平台110),并且还可以与第一实体(例如,特定银行、贷方、金融顾问、其他金融机构、企业等)相关联。在一些实施方式中,处理设备114可从第一实体(例如,银行)接收第一机构数据,从第二实体接收第二机构数据等。在一些实施方式中,第一实体和第二实体可以是不同的金融机构(例如,银行)或其它类型的组织。在一些实施方式中,处理设备114可周期性地(例如,每天一次,每月一次等)和/或响应于请求(例如,从处理设备114发送到处理设备104的请求)而接收机构文档。在一些实施方式中,对于具有较高预测风险量的机构,处理设备114可以更频繁地发送对机构数据的请求。在一些实施方式中,处理设备可能需要具有不同频率量的不同类型的机构数据,例如,处理设备114可以比机构的固定资产子分类帐(例如,每两天)更频繁地(例如,每天)接收机构的应收帐款子分类帐。以此方式,联网设备可减少由传输特定过程(例如,过程400)的不必要或重复数据所产生的带宽负载。

在一些实施方式中,机构数据可与特定行业(例如金融服务)相关联。例如,机构数据可与总分类账、子分类账的组合(例如,应收帐款、应付帐款、固定资产等)、财务状况表和/或收入表相关联(例如,可包括),其中的任一个可由处理设备(例如,处理设备104)处的应用程序生成为结构化数据。作为其他非限制性示例,机构数据可与以下相关联(例如,可包括):一个或更多个贷款的贷款历史数据、金融资产、金融负债、存款金额、时间段内的净收入、时间段内的盈利(earning)、贷款类型(例如,抵押贷款、汽车贷款等)、贷款起始日期、贷款期、原始本金的数额、收到的付款、滞纳金、逾期天数、调用码(call code)、信用分数、北美工业分类系统(NAICS)数据等。

机构数据可以包括半结构化和/或结构化数据。作为半结构化数据的示例,机构数据可包括标识一组字段内的多个贷款的贷款类型、贷款金额和贷款起始日期的贷款数据,但不符合处理设备114(或系统)被配置成接受作为有效输入(例如,用于输入到数据提取过程)的数据结构。在一些实施方式中,处理设备114可以将半结构化数据转换成可用于过程400的结构化数据(例如,由统计数据分析器236实现)。作为结构化数据的示例,机构数据可包括表或其它数据结构(例如,可移植文档格式(PDF)文件、可扩展标记语言(XML)文件),其中数据元素描述机构的金融度量(例如,资产的总量、负债的总量、接收到的实际支付的现金流的量、计划的现金流的量等)。这样的机构数据可能已经被生成(例如,在用户设备300处)或机器生成(例如,响应于系统接收电子支付、发出贷款等而自动生成)。

再次参考过程400,在示例性步骤404,处理设备114可以提取模型输入数据,该模型输入数据可以从机构数据中提取。在一些实施方式中,处理设备114可实施机器学习模型,所述机器学习模型对机构数据使用自然语言处理(NLP)分类器来确定模型输入数据。举例来说,NLP分类器可学习特定上下文中的特定短语或关键词,所述特定上下文指示(例如)机构数据(例如,在步骤402处接收到的数据)与总分类帐数据的类型(例如,与应收帐款相关的值,其可对应于模型输入中的字段)之间的关联。在一些实施方式中,提取模型输入数据可包括使用机构数据的数据元素与模型输入数据元素(例如,字段)之间的映射。举例来说,NLP分类器可生成机构数据元素与模型输入之间的映射,并且此映射可用于后续数据提取或过程400(或本文中所描述的其它过程)中的步骤的其它迭代中。在一些实施方式中,处理设备114可(例如,使用NLP分类器)使用文本数据(例如,总分类帐账户描述)来构建和/或更新表示机构数据(例如,总分类帐)的树形数据结构。处理设备114可以提取用于生成风险分析信息的多个不同的模型输入。例如,在与金融机构相关的上下文中,处理设备114可以从银行或其他金融机构的总分类账中提取模型输入。继续该示例,处理设备114可以从总分类账中提取现金管理子分类账。模型输入还可以包括账户价值、交易价值、资产价值(例如,家庭价值)、当前违约率、当前拖欠率、历史违约率、历史拖欠率、支付日期、贷款期限、贷款类型、贷款支付历史(例如,包括本金发行、所接收的支付、滞纳金、逾期天数、调用码)、个人人口统计特征(例如,收入量)、经济统计、信用历史、信用分数(例如,在贷款发起处)、地理标识符(例如,邮政编码、城市、州)、分类帐数据(例如,收入量、支出金额、资产量、债务量、调用报告、机构(例如,银行)失败列表、资本比率、流动性量、存款量、执法行动指示符)。在一些实施方式中,所提取的模型输入可以被标记和/或用作对模型进行训练的输入。

在一些实施方式中,处理设备114可以确定机器学习模型(例如,实现过程400的机器学习模型)可能不具有充足的模型输入数据以提供阈值置信度的模型输出。在这些实施方式或其他实施方式中,处理设备114可以显示警告或以其他方式通知用户(例如,在用户设备300处)。举例来说,处理设备114可提供允许处理设备114(例如,用户设备300的实例)的用户请求额外信息(例如,机构数据、遗漏的结构化数据信息、未知模型输入或由于提取错误而未确定的数据等)的用户接口。例如,处理设备114可以在用户界面内提供按钮,当输入设备选择该按钮时,该按钮提示用于数据的另一设备(例如,金融交易系统102内的设备),诸如通过向该另一设备发送警报。在一些实施方式中,处理设备114可以提示另一设备重新提交机构数据,例如通过汇集来自金融交易系统102中的设备的最新交易数据。图7B中被标记为“发启新记录请求”的按钮示出了用于提示附加数据的按钮的示例。附加地或另选地,处理设备114可以(例如,根据机器学习模型)使用统计(例如,时间序列分析)和/或使用来自机构或一组机构的上下文(例如,一年中的时间、过去趋势、当前趋势、模型函数等)的机器学习方法来替换值和/或估算缺失值。

再次参考过程400,在示例性步骤406,处理设备114可以接收第三方数据(例如,从第三方数据提供者130)。例如,处理设备114可以访问补充数据(例如,非机构数据、来自除特定库之外的源的数据等)。例如,补充数据可以来自附加数据源,并且可以涉及人口统计(例如,特定地理的寿命预期)或经济学(例如,就业数据、收入数据)。第三方数据可以是附加模型输入的重要来源,使得处理设备114能够识别可能不明显的风险(如下所述)。

再次参考过程400,在示例性步骤407,处理设备114可以输入特征工程,特征工程可以涉及将原始数据转换成更多信息特征,其可以用于改进机器学习过程。例如,输入特征工程可以包括处理缺失值或低质量数据的任何组合,例如通过利用统计估算方法,将分类数据值转换成用于统计和/或机器学习模型的适当格式以进行处理、缩放数值、归一化来自不同源的数据,创建新的动态特征集,例如时段之间的时滞或增量偏移,确定简单移动平均值或指数移动平均值,确定输入变量中的易变性或范围以描述时间序列数据、和/或另一数据细化操作。特征工程方法可以包括修改输入数据以及基于给定输入数据创建新的导出数据。

再次参考过程400,在示例性步骤408,处理设备114可以将风险模型(例如,机器学习模型)应用于所提取的模型数据。举例来说,处理设备114可将风险模型应用于所提取的模型输入数据以预测与一实体(例如,与在步骤402处接收的第一机构数据相关联的第一实体)相关联的风险水平。在一些实施方式中,风险模型可包括z分数模型,其可产生一实体(例如银行)的风险分数和/或z分数。在一些实施方式中,风险模型可以是已被训练成使用第二机构数据来预测风险水平的机器学习模型,所述第二机构数据可以已从第一实体和/或第二实体接收到。例如,处理设备114可以操作使用来自一个或更多个金融机构(例如银行)的机构数据来训练和/或重新训练的风险模型。每当接收到新数据时和/或周期性地(例如,每天、每周、每月),处理设备114可以操作风险模型。

在一些实施方式中,风险模型可以使用模型输入的组合来生成中间输出。例如,风险模型可以聚合个人贷款值以确定对实体(例如,银行)的债务值的影响。作为另一示例,风险模型可将算法应用于提取的数据以确定与特定银行相关联的信息,诸如流动性的量或欠的总贷款量。作为又一示例,风险模型可以过滤模型输入以产生与特定地理区域相关的数据的中间输出,该区域可能已经由用户选择。风险模型还可以计算一段时间内特定值的变化,例如过去一个月内应收帐款金额的变化。

风险模型可以使用模型输入和/或中间输出的组合来生成最终输出(例如,分析结果)。在一些实施方式中,风险模型可以识别至少一个模型输入或至少一个模型输入中的至少一个变化与交易、资产或实体的失败或风险之间的至少一个相关性。例如,风险模型可以是机器学习模型,其被训练为基于机构数据源实体(例如,文档源实体)的活动的变化来预测风险水平。继续该示例而非限制,风险模型可标识一段时间内结清的贷款的变化率与实体失败(例如,银行失败)的可能性之间的相关性。当然,模型输入和/或中间输出的类别相对于机构可以相对较宽(例如,流动性信息、收入信息、信用风险信息)或粒度(例如,住宅不动产贷款信息、货币市场存款价值、现金头寸信息等)。

在一些实施方式中,风险模型可以应用统计加权和/或离群值方法(诸如标准偏差、Z分数和其他统计分布),以将多个潜在风险分量因子化为复合风险分数。例如,风险模型可以预测风险评分或概率,其可以对应于风险水平(例如,风险评分的范围,其可以表示为“高”、“中”、“低”等),并且其可以被包括在分析结果中。在一些实施方式中,处理设备114可以相对于定义的值(例如,固定值、变量等)来描述风险分数或风险水平,或者可以相对于其他实体的风险分数或水平来描述风险分数或风险水平。例如,在一些实施方式中,处理设备114可以计算一个或更多个实体的z分数,并且z分数的某些范围可以对应于风险水平。例如,大于0且小于2的z分数可被认为是低风险,大于或等于2且小于或等于3.5的z分数可被认为是中风险,而分数大于3.5的z分数可被认为是高风险。

在一些实施方式中,风险模型可以基于预测的风险水平生成分析数据。例如,分析数据可以包括预测的风险水平。在一些实施方式中,第一模型可以被配置为生成基于事件的分类输出,并且第二模型可以被配置为生成似然(例如,概率)得分(如上所述)。例如,第一模型可以生成基于事件的分类输出,该分类输出预测事件的发生(例如,贷款的预期违约、贷款的拖欠以及总分类账状况的显著变化、存款的显著外流、从较低风险到较高风险产品的显著转移)。在一些实施方式中,处理设备114可以例如通过利用统计方法将预测的风险事件和风险概率/比率合并成较高级别的风险分数。在一些实施方式中,风险分数可指示交易、资产或实体将失败的可能性(例如,将来贷款将违约的机会为30%),并且相应的风险水平可包括失败的可能性(例如,第一实体的失败的可能性)。在一些实施方式中,处理设备114可部署机器学习模型以预测(例如,使用机构和/或资产失败的经标记的时序数据集)未来将发生故障的时间,并且可包括此预测值,使得所生成的分析数据包括直到第一实体失败的预测时间量。附加地或另选地,风险模型可以预测可降低风险分数的至少一个模型输入的变化,并且可以将这样的变化指定为具有分析结果的建议。处理设备114可以根据生成的模型输出提供不同的建议。例如,处理设备114可以生成实体降低其负债水平的建议(例如,用于在用户设备300处显示),该建议可以根据机构数据来确定(例如,机器学习模型可以理解负债已基于总分类帐数据的改变而增加),以降低预测的失败风险。

在一些实施方式中,可以通过将机器学习模型应用于补充数据来预测风险水平。作为示例,处理设备114可以将机器学习模型应用于劳动部统计,并且识别在特定地理区域中赚取特定收入量的人与贷款偿还的可能性之间的相关性,贷款偿还的可能性又可以影响实体(例如银行)的失败可能性。附加地或另选地,处理设备114可从类似于提供机构数据的实体的其它实体(例如,银行)接收数据。

在一些实施方式中,基于分析数据,处理设备114可以向可通信地连接到系统(例如,活动分析平台110)的管理设备(例如,处理设备104)发送警报。在一些实施方式中,处理设备114可以周期性地发送警报。附加地或另选地,处理设备114可以在满足传输标准时发送警报。例如,当生成的风险水平超过阈值(例如,在高于“低”的范围内)时,处理设备114可以发送警报。在一些实施方式中,警报传输阈值可以由用户在管理设备处设置。

再次参考过程400,在示例性步骤410,处理设备114可以提供分析结果,所述分析结果可以作为步骤412的结果而生成。在一些实施方式中,分析结果可以包括上述任何风险分数或风险水平。在一些实施方式中,处理设备114可以使用分析数据来生成图形用户界面,该图形用户界面可以包括一定量的分析数据(例如,机构列表和相应的风险分数)和/或模型输入(例如,按新近度排列的注销、按贷款类型排列的贷款、按NAICS部门排列的贷款、按拖欠长度排列的贷款等)。这样的图形用户界面可以包括过滤器,所述过滤器可以允许用户选择影响分析结果的特定分析结果和/或表面数据(例如,模型输入)。例如,用户可选择最小风险分数,并且处理设备114可仅为风险分数等于或高于用户所选最小值的机构提供分析结果。在一些实施方式中,处理设备114可以过滤分析结果以仅包括统计离群值模型输出的结果。附加地或另选地,分析结果可以包括图表,如线图(其可以绘制随时间变化的变量)、如未付贷款的总值、未结贷款数额、结清贷款数额、新地点数量(例如,营业的银行网点)、或与上述模型输入相关的任何其他信息。附加地或另选地,分析结果可以包括地图,该地图可以包括布置在关注区域的地点上的多个指示符,例如处于特定失败风险的银行网点的地点。附加地或另选地,分析结果可以包括银行或其他机构的聚合的总分类账数据,其可以包括利息收入、非利息收入、利息开支、非利息开支和/或其他总分类账类别的改变。在一些实施方式中,图形和可视化可取决于用户交互而被连接和显露,从而允许临时探查(adhoc exploration)。例如,用户可以在第一用户界面(例如,机构列表和相应的风险分数)上选择图形元素(例如,机构标识符),该第一用户界面可以显露具有不同信息的第二用户界面,该信息可以是机构特有的(例如,风险分数随时间变化的图形、风险分数下的数据输入的图形指示符、启动与机构的通信接口的图形元素等)。作为另一示例,对周期到周期变化的图表的深入挖掘用户选择可以揭示底层的、更详细的数据类别的变化的详细图表,诸如特定部分中的贷款增长或特定类型账户中的存款外流。在一些实施方式中,分析结果可以包括来自第三方数据源的信息,该第三方数据源可以是不与被生成了风险分数的机构相关联的实体。例如,处理设备114可以使用API来从公共公司或监管文件的源爬取数据(例如,用于为用户界面插入缺失的结构化数据)、纬度-经度数据(例如,用于生成关注地点的地图)等。处理设备114还可以生成非结构化信息(例如,与贷款相关联的文档数据)与结构化信息(例如,在总分类账中描述的资产)之间的映射。图7A至图7D示出了可以呈现分析结果的用户界面的另外的示例。

在一些实施方式中,处理设备114可以将自然语言生成(NLG)过程应用于来自机器学习模型的模型输出,以产生可以被包括在分析结果中的至少一个短语。例如,处理设备114可以在步骤412将NLG过程应用于风险水平输出,其可以生成帮助用户理解分析结果的短语。作为示例,在该上下文中应用NLG过程可以生成诸如“一周前风险水平升高到中等”、“考虑更密切地监控”或图7A至图7D中所示的任何短语(例如,“在流动性Z分数内,最显著的负面因素是留存收益/总资产比率的降低”)。

再次参考过程400,在示例性步骤412,处理设备114可以更新模型。例如,处理设备114可以基于模型输出和/或用户输入来修改至少一个模型参数。举例来说,处理设备114可基于预测特定银行将失败的模型输出和所述银行未失败或在预测的时间帧内不失败的用户输入来修改至少一个模型参数。在一些实施方式中,处理设备114可基于来自多个实体(例如,不同金融交易系统102)的数据和/或用户输入来更新模型,所述多个实体可与跨越不同地理区域的、可维持不同资产、负债等的多个机构(例如,银行)相关联。定期收集新数据(例如,模型输入、模型输出)可允许处理设备114维持更稳健的模型以在机构风险发生之前识别机构风险。

图5是根据所公开的实施方式的用于分析文档数据的示例性过程500的流程图。过程500可由金融交易系统102或活动分析平台110中的计算机实施的系统(例如,服务器200)或由设备(例如,用户设备300)执行。计算机实现的系统可以包括存储指令的存储器(例如,存储器230或330)和被编程为执行指令以实现过程500的处理器(例如,处理器210或310)。过程500可以连接到生成和/或显示某些用户界面,如图7A至图7D中所示的那些。过程500可被实现为存储在存储器230中并可由处理器210执行的一个或更多个软件模块(例如,文档数据分析器232中的API)。为了便于描述,过程500的一些步骤被描述为由如处理设备104的特定设备执行。然而,应注意,任何步骤可由系统架构100内的任何设备(例如处理设备114)执行。过程500可并入来自本文所论述的其它过程的步骤的方面。例如,在步骤512提供分析结果可以包括提供如关于过程400的步骤410所描述的分析结果的方面。

参考图5所示的过程500,在示例性步骤502,处理设备104可以访问文档数据。在一些实施方式中,文档数据可以与交易(例如,贷款)或个人中的至少一者相关联。在一些实施方式中,文档数据可以与金融机构(例如,银行)相关联,其可以托管金融交易系统102。在一些实施方式中,文档数据可包括物理文档的图像或其它数字表示(例如,PDF文档)。在一些实施方式中,文档数据可以与如金融服务的特定行业相关联。例如,文档数据可以与金融资产、金融负债、一时间段内的净收入、一时间段内的盈利、贷款、存款或支出中的至少一项相关联。

文档数据可以包括结构化和/或非结构化数据。作为非结构化数据的示例,文档数据可包括个人签名或手写笔记(例如,关于贷款申请人的笔记)的图像。作为结构化数据的示例,文档数据可包括与文档相关联的元数据(例如,生成文档的时间、与文档相关联的人、与文档相关联的机构、与文档相关联的产品等)。这样的元数据可以是用户生成的(例如,在用户设备300处)或机器生成的。

再次参照图5所示的过程500,在示例性步骤504,处理设备104可对文档数据(例如,来自步骤504的归一化文档数据)进行分类。在一些实施方式中,例如在对文档数据进行分类之前,处理设备104可以将非结构化数据转换为结构化数据。例如,处理设备104可以对文档执行光学字符识别技术以识别文本并创建机器可读文本。在一些实施方式中,基于机器学习的分类器(例如,随机森林分类器)可以对文档数据进行分类。在一些实施方式中,处理设备104可以使用机器学习分类器来对文档数据进行分类。在一些实施方式中,对归一化文档数据进行分类可以包括识别第一文档数据中的至少一个标记。标记可包括单词、短语、文本的频度、文本相对于文档的位置、文本相对于文档中其它文本的位置、句子、数字、象形标识符或任何视觉指示符,其中的任一个可与文档类型(例如,贷款申请、开户、贷款结清文档等)相关(例如,使用机器学习模型)。在一些实施方式中,标记可基于标记或标记的组合与文档类型之间的用户创建的映射而与文档类型相关联。这样的映射可以在存储器230、数据库240或任何其他存储设备处维护。代替映射或除了映射之外,标记可以基于目标关键字列表或异常与文档类型相关联。附加地或另选地,标记可以通过机器学习模型与文档类型相关联,该机器学习模型可以从文档分类和/或由用户随时间推移作出的市场-文档类型映射中学习,以生成新的关联和/或关联建议。例如,可以通过经由基于用户的预测审查来标记“错误提取”,以随时间改进模型(例如,分析模型234),从而改进可能在提取过程中表现不佳的文档类型的准确性。

再次参考图5所示的过程500,在示例性步骤506,处理设备104可以从文档数据(例如,分类文档数据)中提取可以用作模型输入数据的文本或其他特征。例如,处理设备104可以从分类的(或未分类的)文档数据中提取文本。在一些实施方式中,处理设备104可以基于所分类的文档数据从多个候选提取模型中选择提取模型(例如,被配置为从文档数据中提取文本的模型)。例如,处理设备104可以访问具有用于不同类型的文档或不同实体(例如,金融机构)的列举参数的多个提取模型,并且可以选择为特定文档类型(例如,贷款结清文档)和/或实体(例如,银行)指定(例如,在查找表中)的提取模型,所述特定文档类型和/或实体可能已通过文档数据分类(例如,在步骤504)被识别。在一些实施方式中,处理设备104可以将自然语言处理(NLP)方法应用于分类文档数据以确定特定文本。例如,NLP方法可以学习特定上下文中对文档类型具有较高重要性或对模型输出具有较强影响的特定短语或关键字。例如,处理设备104可以训练NLP模型作为训练阶段的一部分和/或在接收到新文档数据时使用新文档数据。

处理设备104可以提取多个不同的文档特征以生成风险分析信息。例如,在与金融机构相关的上下文中,所提取的文档特征可以包括与账户价值、交易值、资产价值(例如,家庭价值)、支付日期、贷款期限、贷款支付历史(例如,包括本金发行、接收到的付款、滞纳金、逾期天数、调用码)、个人人口统计特征(例如,收入金额)、经济统计、信用历史、信用分数、地理标识符(例如,邮政编码、城市、州)、分类帐数据(例如,收入金额、支出金额、资产金额、债务金额、调用报告、机构(例如,银行)失败列表、资本比率、流动性金额、存款金额、或执法行动指示符)相关的参数。

再次参考图5所示的过程500,在示例性步骤508,处理设备104可以将文本或其他特征(例如,在步骤506提取的)归一化以生成模型输入数据。在一些实施方式中,归一化文档数据可以包括对所提取的文本使用正则表达式解析来清理该文本,这可以使其更适合作为模型输入数据。在一些实施方式中,处理设备104可以将特定文本放置到指定字段中。在一些实施方式中,处理设备104可以执行(例如,在归一化之后)目标分类操作以将字段和/或文本映射到文档类型(例如,用于分类器中,如关于步骤504所讨论的)。例如,处理设备104可以使用用来自一个或更多个机构(例如,银行)的输入数据训练的模型来对字段(账户或贷款类型、产品类型等)进行分类。

在一些实施方式中,处理设备104可以确定机器学习模型(例如,实现过程400的机器学习模型)可能不具有充分的模型输入数据以提供阈值置信度的模型输出。在这些实施方式或其他实施方式中,处理设备104可以显示警告或以其他方式通知用户(例如,在用户设备300处)。例如,处理设备104可以提供允许处理设备104的用户(例如,用户设备300的实例)请求附加信息(例如,文档数据、缺失的结构化数据信息、未知的模型输入、或由于归一化错误、分类错误、提取错误等而未确定的数据)的用户界面。例如,处理设备104可以在用户界面内提供按钮,当由输入设备选择该按钮时,该按钮将为了数据提示另一设备(例如,金融交易系统102内的设备),例如通过向该另一设备发送警报。在一些实施方式中,处理设备104可以提示另一设备重新捕获文档数据,例如通过重新扫描(例如,用文档扫描仪、移动设备相机等)物理文档。图7B中标记为“发起新记录请求”的按钮示出了用于提示附加数据的按钮的示例。附加地或另选地,处理设备104可以(例如,根据机器学习模型)使用统计(例如,时间序列分析)和/或使用来自机构或一组机构的上下文(例如,一年中的时间、过去趋势、当前趋势、模型函数等)的机器学习方法来替换值和/或估算缺失值。

再次参考图5所示的过程500,在示例性步骤510,处理设备104可以将文档分析模型应用于文档数据(例如,分类文档数据)。在一些实施方式中,处理设备104可以基于分类文档数据从多个候选机器学习模型中选择机器学习模型。例如,处理设备104可以访问具有用于不同类型的文档或不同实体(例如,金融机构)的列举参数的多个模型,并且可以选择为特定文档类型(例如,贷款结清文档)和/或实体(例如,银行)指定(例如,在查找表中)的机器学习模型,所述特定文档类型和/或实体可以通过文档数据分类来识别。在一些实施方式中,将文档分析模型应用于文档数据可对文档进行评分。例如,机器学习模型可以已经被训练为生成表示交易(例如,贷款申请)或个人的有利性(例如,要生成的预测收入、预测投资回报、预测偿还可能性、预测逾期付款数等)的有利性输出,并且有利性输出可以包括与交易或个人相关联的风险量。在一些实施方式中,文档的分数可以涉及例如个人将偿还贷款的预测可能性、逾期付款的预测可能性和/或频度、或实体(例如银行)的增加的风险的预测水平。在一些实施方式中,处理设备114可以实现状态转换模型(马尔可夫链模型),例如图8所示的状态转换模型。

在一些实施方式中,机器学习模型可以被训练成至少使用与文档数据相关联的第一金融机构或与附加文档数据相关联的第二金融机构的历史数据来生成有利性输出。例如,机器学习模型可以已经仅使用来自实体(例如,银行)的输入文档或其他输入数据来训练,所述文档数据(例如,贷款数据)是在步骤502从该实体访问的。附加地或另选地,机器学习模型可以已经使用来自一实体的输入文档或其他输入数据进行了训练,该实体不是在步骤502被访问了文档数据的实体。

在一些实施方式中,处理设备104可以应用文档分析模型或其他模型,所述模型被训练为预测模型输入数据中的变化,该变化将改善有利性输出。例如,机器学习模型可以接收一些模型输入(例如贷款申请人的年龄),但是可能缺少其他模型输入(例如先前由应用还清的贷款金额)。机器学习模型可以预测,接收某些附加模型输入(例如,贷款申请人在过去两年中偿还$10,000的贷款)将导致有利性的改变(例如,对由贷款申请人展示的银行风险的预测)。在一些实施方式中,机器学习模型可以预测可以改善投资回报(ROI)的动作。例如,机器学习模型可以通过模型输入(例如,包括贷款申请文档数据、贷款支付文档数据等)的迭代反馈循环来学习个体特征(例如,收入金额、地理区域等)、交易参数(例如,贷款金额、贷款期限等)等的特定组合可以与更大的ROI相关联,并且可以基于被预测为产生更好的模型输出(例如,更高的ROI)的模型输入的变化来向处理设备(例如,处理设备104)提供相应的建议。

参考图5所示的过程500,在示例性步骤512,处理设备104可以提供分析结果。在一些实施方式中,处理设备104可以基于评分的文档数据生成分析数据。在一些实施方式中,提供分析结果可以基于警报阈值(例如,如以上关于过程400所讨论的)。例如,处理设备104可以确定有利性输出是否满足警报标准。如果有利性输出满足警报标准,则处理设备104在显示器或其他输出设备(例如,用户接口340)处生成警报。在一些实施方式中,分析结果可视化可以连接到另一可视化,该另一可视化可以根据用户交互而显露,从而允许临时探查。例如,用户可在第一用户界面上选择图形元素(例如,贷款类别),这可以显露出具有不同信息(例如,贷款类别中具有超过阈值的风险水平的贷款列表)的第二用户界面。应当理解,步骤512的分析结果和用户界面可以包括以上关于过程400所讨论的方面。例如,处理设备104可以提供地图(例如,具有更有风险的贷款资产组合的银行网点的地图)作为分析结果的一部分。

参考图5所示的过程500,在示例性步骤514,处理设备104可以更新模型。例如,处理设备104可以基于模型输出和/或用户输入来修改至少一个模型参数。作为示例而非限制,处理设备114可以基于预测特定个人在接下来的六个月中将错过贷款支付的模型输出和该人进行六个月的所有计划支付的用户输入来修改至少一个模型参数。在一些实施方式中,处理设备104可以基于来自多个实体(诸如不同金融交易系统102)的数据和/或用户输入来更新模型,所述多个实体可以与跨不同地理区域(例如,不同银行网点)分布的相同机构(例如,银行)相关联,所述机构可以维护不同资产、负债等。定期收集新数据(例如,模型输入、模型输出)可以允许处理设备104维护更鲁棒的模型以识别由交易或个人呈现的风险。

图6是根据所公开的实施方式的用于协调分析数据递送访问的示例性过程600的流程图。过程600可由金融交易系统102或活动分析平台110中的计算机实施的系统(例如,服务器200)或由设备(例如,用户设备300)执行。计算机实现的系统可以包括存储指令的存储器(例如,存储器230或330)和被编程为执行指令以实现过程600的处理器(例如,处理器210或310)。过程600可被实现为存储在存储器230中并可由处理器210执行的一个或更多个软件模块(例如,文档数据分析器232中的API)。为了便于描述,过程600的一些步骤被描述为由诸如处理设备104或114的特定设备执行。然而,应注意,任何步骤可由系统架构100内的任何设备(例如处理设备114)执行。虽然相对于API描述了过程600,但是应当注意,可以使用网站上传、使用系统间消息的文件传输协议(FTP)过程或其它形式的适当电子通信。

参照图6所示的过程600,在步骤602,处理设备104可接收API请求。在一些实施方式中,API请求可以从请求者设备(例如,处理设备104)发送,并且可以通过API接收。API请求可以是对数据的API请求,并且可以标识与请求者设备相关联的请求者实体(例如,银行)。通过使用API请求数据,请求者设备可以消除对本地存储的特定程序(例如,特定模块)的需要,这可能需要频繁更新,或者可能以比期望速率快的速率拉取数据,从而不必要地加重带宽负担。此外,如下面进一步解释的,API请求可以是对特定数据集的请求,这减小了否则可以自动发送到请求者设备的数据集的大小。在一些实施方式中,API请求可包括非结构化数据(例如,来自被扫描的文档的数据)、半结构化数据或结构化数据。

再次参考图6所示的过程600,在步骤604,处理设备114可以基于API请求(例如,在步骤602接收到的)来确定数据类型。在一些实施方式中,处理设备114可以基于API请求中的至少一个数据类型参数来确定数据类型。API请求中的参数可以标识以下项中的至少一个:时间范围、地理区域、金融机构、资产价值、资产价值变化、债务价值、债务价值变化、贷款、存款、支出或风险水平阈值。在一个实施方式中,API请求可以是作为服务的对规范化数据的请求,其可涉及对提供用于以用于在客户端应用程序或平台中进一步分析或建模(例如,规范化、粒度数据的建模、可视化、报告等)的格式生成源自银行核心和文档储存库的规范化和高质量数据的过程和服务的API的请求。例如,API请求可以具有指示所请求的特定数据集配置(例如,一个或更多个数据类型)的一个或更多个字段或其他数据结构。继续该示例,API请求可以指示对过去一年中银行的负债中的总资产的改变的匿名聚合数据集的请求。在另一实施方式中,API请求可以是作为服务的对风险数据的请求,其可以包括对提供模型输出风险评分输出、高风险帐户和/或贷款的列表等的API的请求,以及该数据的各种聚集(诸如地理、机构、对等组或贷款类别)。

再次参考图6所示的过程600,在步骤606,处理设备104可以确定请求者(例如,在步骤602从其接收到API请求的设备)的授权级别。在一些实施方式中,根据请求者的授权级别,处理设备104可以仅允许请求者设备访问某些数据集。例如,处理设备104可以维护(例如,在数据库240中)各种授权级别与数据类型之间的一组映射。作为示例,“一般统计”授权级别可被映射到例如随时间推移的新贷款供应的平均变化的数据类型,但可不被映射到例如地理过滤器的数据类型。

再次参考图6所示的过程600,在步骤608,处理设备114可以访问相应的模型输出数据,所述模型输出数据可以对应于在步骤604和606确定的数据类型和授权级别。例如,处理设备114可以从数据存储设备(例如,数据库240)取回数据,或者可以根据需要生成数据(例如,模型输出数据)。在一些实施方式中,处理设备114可以确定请求者设备的授权级别未映射到API请求中的数据类型,并且可以拒绝请求者设备对该数据类型的访问。处理设备114还可以在API请求中没有指示授权级别的情况下拒绝访问。

在一些实施方式中,模型输出数据可以由机器学习模型(例如,由处理设备114实现)生成,该机器学习模型被训练为基于文档数据来预测风险水平。例如,模型输出数据可以包括以上关于过程400和500所讨论的分析结果。在一些实施方式中,文档数据可以根据自然语言处理(NLP)技术从一个或更多个文档中提取,诸如以上关于过程400和500所讨论的那些。在一些实施方式中,模型输出数据可以包括与提供文档数据的实体相关联的至少一个度量。例如,模型输出数据可以包括预测的风险分数或风险水平、机构度量(资产、负债、未结贷款、结清贷款、销售的金融产品等)的预测趋势、用于基于预测的模型输出改变机构度量或本文描述的任何其它数据的建议。

在一些实施方式中,响应于API请求的处理设备114可应用机器学习模型以基于第一模型输出数据和第二模型输出数据预测至少一个度量(例如,机构度量)的改变。例如,至少一个度量的改变可以是基于由被配置为分析贷款申请的机器学习模型生成的第一模型输出数据和由被配置为分析新的储蓄账户开户的机器学习模型生成的第二模型输出数据的。在一些实施方式中,处理设备114可以应用机器学习模型,该机器学习模型被训练为基于文档数据(例如,从贷款申请、支付确认、开户文件等中提取的文档数据)预测多个风险水平。在一些实施方式中,文档数据可以来自不同的金融机构(例如,银行)。附加地或另选地,机器学习模型(例如,所访问的模型输出数据的源)可以进一步被训练为基于人口统计或经济数据来预测风险水平,如以上关于过程400所讨论的。

在一些实施方式中,处理设备114可以确定与请求者设备和/或请求者实体相关联的格式。例如,请求者设备(例如,处理设备104)可托管未由处理设备114实现的API,该API可具有用于所接收数据的特定格式化标准,使得它可由请求者设备API使用。例如,处理设备114可以改变数据序列,将数据配置为特定结构(例如,表、链表、数组、栈、队列、树、图等),向数据流添加报头信息、向数据应用签名运算(例如,散列函数),或者采取另一其它动作来生成可由请求者设备(例如,请求者设备的API)使用的数据流和/或数据批量。以这种方式,可以使不同的系统兼容于有效的信息交换。

在一些实施方式中,处理设备114可以确定模型输出数据中的实体标识信息,诸如人的名字、地址、社会安全号码等。在一些实施方式中,实体标识信息可以与作为不同金融机构的客户的个人相关联,但是所接收的API请求可以来自请求基于从多个金融机构接收到的信息而生成的数据的单个金融机构。在这些或其他情况下,处理设备114可以在将模型输出发送到请求者设备之前(例如,在步骤610)将模型输出数据匿名化。以这种方式,单个金融机构能够访问由机器学习模型使用来自多个金融机构的去匿名的模型输入数据生成的预测数据,而不公开任何去匿名的个人或金融机构专用数据。

再次参考图6所示的过程600,在步骤610,处理设备114可以向请求者发送相应的数据。在一些实施方式中,处理设备114可以将对应的数据发送到从其接收到API请求的同一请求者设备,但是附加地或另选地,可以将对应的数据发送到另一设备,例如如与和请求者设备相同的实体相关联的设备(例如,由与请求者设备相同的金融机构托管的另一设备)。在一些实施方式中,处理设备114可以向请求者设备发送至少一个度量的预测变化。在一些实施方式中,在发送第一模型输出之前,处理设备114可以重新格式化模型输出数据以满足与请求者设备相关联的格式(如以上关于步骤608所讨论的)。

图7A至图7D描绘了根据所公开的实施方式的示例界面700A、700B、700C和700D,它们中的任一个或全部可以呈现在用户设备300上。例如,用户设备300可以是与用户相关联的智能电话,并且界面700A至700D中的任一个可以显示在用户界面340(例如,显示面板或触摸屏)上。这些用户界面中的任一个或全部可以包括包含在过程400和/或500中的数据(例如,风险水平、模型输入值等)。

示例界面700A描绘了排位列表视图,其可以显示多个机构(例如,诸如银行的金融机构)和相关联的信息,例如由机器学习模型生成的分析结果。例如,界面700A可以按预测风险量对机构进行排名,并且可以包括在特定时间段(例如,三个月)内风险的变化量。界面700A可包括与预测的风险或机构相关的其他信息,诸如z分数、百分位等级、机构度量(例如,风险分数的变化、所发放的新贷款的总金额等)。在一些实施方式中,界面700A可包括过滤器、下拉菜单或其他可交互的用户界面元素,这些元素可允许用户确定用于访问和/或生成某些分析结果的特定标准。在一些实施方式中,处理设备(例如,104或114)可以提供界面700A中显示的任何或所有信息(例如,作为过程400、500或600的一部分)。例如,在步骤414,处理设备114可以在界面700A中显示模型输出信息。

示例界面700B描绘了机构细节视图,其可以显示与特定机构(例如,银行)相关联的信息,其中的一些或全部可以由机器学习模型生成。例如,界面700B可包括合计风险得分、信用风险得分、收入风险得分、流动性Z风险得分、或与机构风险相关联的任何其他度量,其中的任一个可与特定银行相关联。在一些实施方式中,界面700B还可以包括示出在一定时间段内风险水平的变化(例如,如由根据过程400的机器学习模型所确定的)的图。在一些实施方式中,界面700B还可以文字或图形的形式呈现信息,所述文字或图形将一个机构的特定度量与另一机构或一组类似机构进行比较(例如,基于资产金额、位置等)。附加地或另选地,界面700B可以包括通过NLG产生的文本,如上所述。在一些实施方式中,处理设备(例如,104或114)可以提供界面700B中显示的任何或所有信息(例如,作为过程400、500或600的一部分)。例如,在步骤414,处理设备114可以在界面700B中显示模型输出信息。

示例界面700C描绘了机构仪表板视图,其还可显示与特定机构(例如,银行)相关联的信息,其中的一些或全部可由机器学习模型生成。例如,界面700C可以显示由机器学习模型使用模型输入生成的整体投资组合风险,所述模型输入诸如贷款冲销的金额和时间、拖欠贷款信息、贷款金额、贷款类型等。界面700C可包括允许用户搜索与机构(例如,银行)相关联的特定文档数据(例如,从贷款应用程序提取的数据)的搜索条。在一些实施方式中,界面700C可显示搜索结果信息或用户界面元素,所述用户界面元素在被选择时显示搜索结果信息,诸如特定金融交易、机构或风险相关信息。在一些实施方式中,界面700C可以显示模型的输入数据,例如扫描的文档、与文档相关联的结构化数据和/或所请求的文档数据。在一些实施方式中,处理设备(例如,104或114)可以提供界面700C中显示的任何或所有信息(例如,作为过程400、500或600的一部分)。例如,在步骤414,处理设备114可以在界面700C中显示模型输出信息。

示例界面700D描绘了搜索结果视图,其可显示与一个或更多个机构相关联的文档信息。在一些实施方式中,可以响应于在另一用户界面处采取的用户动作(例如,在界面700C处输入的搜索)来显示界面700D。例如,用户可以在界面700C处输入与贷款信息相关的搜索参数,并且界面700D可以作为响应而生成。如图7D所示,界面700D可显示与文档或一组文档相关联的信息,诸如贷款,包括产品类型、呼叫代码、名称、图7D中的任何其它列描述符、或描述文档特性的任何其它信息,它们可以已经根据OCR、NLP和机器学习技术的组合(例如,根据上述过程400或500)确定。在一些实施方式中,界面700D可以包括可以提供某些功能的一个或更多个按钮或其他可交互的用户界面元素。例如,用户界面700D可包括按钮,该按钮在被选择时生成虚拟活页夹或将数据元素(例如,与贷款相关联的数据元素)添加到虚拟活页夹。在一些实施方式中,处理设备(例如,104或114)可以提供界面700D中显示的任何或所有信息(例如,作为过程400、500或600的一部分)。例如,在步骤414,处理设备114可以在界面700D中显示模型输出信息。

图8描绘了与所公开的实施方式一致的借款者状态转换模型800的示例图。借款者状态转换模型800可以统计地(例如,根据马尔可夫链)模拟借款者将在不同借款状态之间转换的可能性。在一些实施方式中,转移概率(t0,1,tn,n等)可基于预测,可基于从文档提取的数据(例如,根据过程400)。在一些实施方式中,借款者状态转换模型800可以通过模块、程序、应用程序或其它计算机代码来实现。例如,处理设备114可以执行实现借款人状态转换模型800的模块,以预测特定个人或一组人是否可能贷款违约。在一些实施方式中,处理设备114可以实现与借款人状态转换模型800相对应的模块作为过程400或本文所述的任何其他过程的一部分。当然,也可以使用其它随机模型或其它模型。

可提供一种非暂时性计算机可读介质,所述非暂时性计算机可读介质存储用于处理器(例如,处理器210或310)的指令,所述处理器用于根据上文图4到图6的示例流程图来处理根据本发明中的实施方式的金融交易。例如,存储在非暂时性计算机可读介质中的指令可以由处理器执行以部分地或整体地执行过程400、500或600。非瞬态介质的常见形式包括例如软盘、软盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、光盘只读存储器(CD-ROM)、任何其他光学数据存储介质、具有孔图案的任何物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)和可擦除可编程只读存储器(EPROM)、FLASH-EPROM或任何其他闪存、非易失性随机存取存储器(NVRAM)、高速缓存、寄存器、任何其他存储器芯片或盒及其联网版本。

虽然已经参考本发明的特定实施方式示出和描述了本发明,但是应当理解,在不进行修改的情况下,可以在其他环境中实践本发明。前面的描述是为了说明的目的而给出的。它不是穷举的,并且不限于所公开的精确形式或实施方式。考虑到说明书和所公开实施方式的实践,修改和改编对于本领域技术人员将是显而易见的。

基于书面描述和公开的方法的计算机程序在有经验的开发者的技能范围内。可以使用本领域技术人员已知的任何技术来创建各种程序或程序模块,或者可以结合现有软件来设计各种程序或程序模块。例如,可以在.Net Framework、.Net Compact Framework(和相关语言,诸如Visual Basis、C等)、Java、C++、Objective-C、超文本标记语言(HTML)、HTML/AJAX组合、XML或具有所包括的Java小应用程序的HTML中或借助于.Net Framework、.Net Compact Framework(和相关语言,诸如Visual Basis、C等)来设计程序部分或程序模块。

此外,虽然本文中已描述了说明性实施方式,但所属领域的技术人员基于本发明将了解,任何和所有实施方式的范围具有等效要素、修改、省略、组合(例如,各种实施方式的方面的组合)、适配和/或更改。权利要求中的限制应基于权利要求中使用的语言进行广义解释,而不限于本说明书中描述的或在申请过程中描述的示例。这些示例应被解释为非排他性的。此外,可以以任何方式修改所公开的方法的步骤或所公开的方法的步骤的部分,包括通过将步骤重新排序、插入步骤、重复步骤和/或删除步骤(包括在不同示例性方法的步骤之间)。因此,说明书和实施方式仅是说明性的,真正的范围和精神由所附权利要求及其等同物的全部范围表示。

相关技术
  • 使用机器学习技术使风险最小化
  • 机构风险预测模型的训练方法、机构风险预测方法和装置
技术分类

06120116497166