掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法、设备以及计算机可读存储介质

文献发布时间:2023-06-19 09:29:07


一种数据处理方法、设备以及计算机可读存储介质

技术领域

本申请涉及互联网技术领域,尤其涉及一种数据处理方法、设备以及计算机可读存储介质。

背景技术

随着人工智能的快速发展,智能化数据分析渐渐代替了传统的人工数据分析,如贷款公司、证券公司以及保险公司等业务公司,开始利用人工智能实现自动化数据分析。

现有的自动化数据分析方法,一般需要业务人员预先设定好每个业务分析结果对应的业务分析指标,即可得到分析结果与分析指标的映射关系,将该映射关系配置到业务分析设备中。当需要查询某个用户的业务分析结果时,就可以将该用户的相关指标输入至业务分析设备,业务分析设备即可根据所配置的映射关系自动化地生成针对该用户的业务分析结果。

可见目前的自动化数据分析方法是十分依赖业务人员所创建的映射关系,所以若业务人员的业务经验不足,则很可能会导致所创建的映射关系不够准确,进而导致业务分析设备所输出的业务分析结果不够准确,也可见,过渡依赖业务人员的业务经验,是难以保证自动化输出的业务分析结果的准确性。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备以及计算机可读存储介质,可以在业务数据分析上保证业务分析结果的准确性。

本申请实施例一方面提供了一种数据处理方法,包括:

获取第一用户属性样本文本,获取用于表征第一用户属性样本文本的标准用户属性实体词;

获取用于表征业务分析结果的标准结果实体词,将标准用户属性实体词以及标准结果实体词作为网络节点,根据网络节点构建初始分析图网络;

获取第二用户属性样本文本以及第二用户属性样本文本对应的业务分析结果标签;业务分析结果标签属于标准结果实体词;

根据第二用户属性样本文本与业务分析结果标签之间的关联关系,确定初始分析图网络中的网络节点之间的有向条件概率,得到包含有向条件概率的标准分析图网络;标准分析图网络用于为用户属性文本预测业务分析参考结果。

本申请实施例一方面提供了一种数据处理方法,包括:

获取用户属性文本,获取用于表征用户属性文本的备用标准用户属性实体词;

获取标准分析图网络;标准分析图网络包括网络节点以及网络节点之间的有向条件概率;网络节点由标准用户属性实体词以及标准结果实体词构成;标准用户属性实体词包括备用标准用户属性实体词;标准结果实体词用于表征业务分析结果;

根据备用标准用户属性实体词以及标准分析图网络,确定用户属性文本的业务分析参考结果。

本申请实施例一方面提供了一种数据处理装置,包括:

第一获取模块,用于获取第一用户属性样本文本,获取用于表征第一用户属性样本文本的标准用户属性实体词;

第二获取模块,用于获取用于表征业务分析结果的标准结果实体词,将标准用户属性实体词以及标准结果实体词作为网络节点,根据网络节点构建初始分析图网络;

第三获取模块,用于获取第二用户属性样本文本以及第二用户属性样本文本对应的业务分析结果标签;业务分析结果标签属于标准结果实体词;

确定概率模块,用于根据第二用户属性样本文本与业务分析结果标签之间的关联关系,确定初始分析图网络中的网络节点之间的有向条件概率,得到包含有向条件概率的标准分析图网络;标准分析图网络用于为用户属性文本预测业务分析参考结果。

其中,初始分析图网络包括网络节点之间的有向条件边;

确定概率模块,包括:

第一获取单元,用于根据第二用户属性样本文本与业务分析结果标签之间的关联关系,获取包含第二用户属性样本文本以及业务分析结果标签的有向决策路径;

第二获取单元,用于在初始分析图网络中获取有向决策路径所指示的有向条件边,作为训练有向条件边;

第一确定单元,用于根据有向决策路径,确定训练有向条件边对应的有向条件概率。

其中,标准用户属性实体词包括标准对象实体词以及标准指标实体词;第二用户属性样本文本包括属于标准对象实体词的对象样本文本,以及属于标准指标实体词的指标样本文本;

第二获取单元,包括:

第一确定子单元,用于在初始分析图网络中,将对象样本文本对应的网络节点确定为第一训练网络节点,将指标样本文本对应的网络节点确定为第二训练网络节点,将业务分析结果标签对应的网络节点确定为第三训练网络节点;

第二确定子单元,用于根据有向决策路径,在第一训练网络节点、第二训练网络节点以及第三训练网络节点之间的有向条件边中确定训练有向条件边。

其中,训练有向条件边包括第一训练有向条件边;

第一确定单元,包括:

第一生成子单元,用于根据有向决策路径中的对象样本文本以及指标样本文本之间的关联关系,生成第一训练网络节点指向第二训练网络节点的第一概率;

第三确定子单元,用于将第一概率确定为第一训练有向条件边对应的有向条件概率;其中,第一训练有向条件边是指由第一训练网络节点指向第二训练网络节点的有向条件边。

其中,训练有向条件边包括第二训练有向条件边;

第一确定单元,包括:

第二生成子单元,用于根据有向决策路径中的指标样本文本以及业务分析结果标签之间的关联关系,生成第二训练网络节点指向第三训练网络节点的第二概率;

第四确定子单元,用于将第二概率确定为第二训练有向条件边对应的有向条件概率;其中,第二训练有向条件边是指由第二训练网络节点指向第三训练网络节点的有向条件边。

其中,训练有向条件边包括第三训练有向条件边;有向决策路径包括至少两个指标样本文本;

第一确定单元,包括:

第三生成子单元,用于根据有向决策路径中的至少两个指标样本文本之间的关联关系,生成至少两个第二训练网络节点之间的第二概率;

第五确定子单元,用于将第二概率确定为第三训练有向条件边对应的有向条件概率;至少两个第二训练网络节点包括至少两个指标样本文本分别对应的网络节点;其中,第三训练有向条件边,是根据有向决策路径所包含的至少两个指标样本文本之间的指向顺序,在至少两个第二训练网络节点之间进行连接所得到的有向条件边。

其中,对象样本文本的数量为至少两个,指标样本文本的数量为至少两个;至少两个对象样本文本包括目标对象样本文本,至少两个指标样本文本包括目标指标样本文本;

第一生成子单元,具体用于根据有向决策路径,确定由目标对象样本文本所指向的指标样本文本的数量,作为第一数量;

第一生成子单元,还具体用于根据有向决策路径,确定由目标对象样本文本所指向的目标指标样本文本的数量,作为第二数量;

第一生成子单元,还具体用于根据第一数量以及第二数量,确定第一训练网络节点指向第二训练网络节点的第一概率。

其中,标准用户属性实体词包括标准对象实体词以及标准指标实体词;

第二获取模块,包括:

第二确定单元,用于将标准对象实体词、标准指标实体词以及标准结果实体词确定为网络节点;

第一生成单元,用于根据标准对象实体词对应的网络节点生成网络对象层,根据标准指标实体词对应的网络节点生成网络指标层,根据标准结果实体词对应的网络节点生成网络结果层;

第一连接单元,用于将网络对象层中的每个网络节点,分别与网络指标层中的每个网络节点进行连接,得到第一有向边;

第二连接单元,用于将网络指标层中的每个网络节点,分别与网络结果层中的每个网络节点进行连接,得到第二有向边;

第三确定单元,用于将第一有向边以及第二有向边确定为有向条件边;

第二生成单元,用于根据网络节点以及有向条件边,构建初始分析图网络。

其中,第一获取模块,包括:

第一输入单元,用于将第一用户属性样本文本输入文本识别模型,基于文本识别模型获取用于表征第一用户属性样本文本的原始用户属性实体词;

第二输入单元,用于将原始用户属性实体词输入实体词标准化模型,基于实体词标准化模型,对原始用户属性实体词进行标准化处理,得到标准用户属性实体词。

其中,文本识别模型包括输入层、编码层、隐藏层以及识别层;

第一输入单元,包括:

第一处理子单元,用于基于输入层对第一用户属性样本文本进行切分处理,得到至少两个分词;

第二处理子单元,用于将至少两个分词输入编码层,基于编码层分别对至少两个分词进行编码处理,得到至少两个语义向量;

第三处理子单元,用于将至少两个语义向量输入隐藏层,基于隐藏层分别对至少两个语义向量进行隐藏特征提取处理,得到至少两个隐藏向量;

第四处理子单元,用于将至少两个隐藏向量输入识别层,基于识别层对至少两个隐藏向量进行识别处理,得到用于表征第一用户属性样本文本的原始用户属性实体词。

其中,第二输入单元,包括:

第一获取子单元,用于获取标准样本实体词;

第六确定子单元,用于基于实体词标准化模型,确定标准样本实体词与原始用户属性实体词之间的编辑距离;

第二获取子单元,用于从编辑距离中获取最小编辑距离,将与最小编辑距离对应的标准样本实体词,确定为原始用户属性实体词的标准用户属性实体词。

本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;

上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行本申请实施例中上述一方面中的方法。

本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处理器执行时,以执行本申请实施例中上述一方面中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中上述一方面中的方法。

本申请实施例一方面提供了一种数据处理装置,包括:

第一获取模块,用于获取用户属性文本,获取用于表征用户属性文本的备用标准用户属性实体词;

第二获取模块,用于获取标准分析图网络;标准分析图网络包括网络节点以及网络节点之间的有向条件概率;网络节点由标准用户属性实体词以及标准结果实体词构成;标准用户属性实体词包括备用标准用户属性实体词;标准结果实体词用于表征业务分析结果;

确定结果模块,用于根据备用标准用户属性实体词以及标准分析图网络,确定用户属性文本的业务分析参考结果。

其中,备用标准用户属性实体词包括备用标准对象实体词以及备用标准指标实体词;

确定结果模块,包括:

第一获取单元,用于获取标准分析图网络中的标准结果实体词;

构建路径单元,用于根据备用标准对象实体词、备用标准指标实体词以及标准结果实体词,构建针对用户属性文本的N个备用有向决策路径;其中,一个备用有向决策路径包括一个备用标准对象实体词、至少一个备用标准指标实体词以及一个标准结果实体词;N为正整数;

第二获取单元,用于根据有向条件概率,分别获取N个备用有向决策路径的备用路径概率;

第一确定单元,用于将备用路径概率中的最大备用路径概率确定为目标路径概率,将目标路径概率对应的备用有向决策路径确定为目标有向决策路径;

第二确定单元,用于将目标有向决策路径中的标准结果实体词确定为目标标准结果实体词,根据目标标准结果实体词确定业务分析参考结果。

其中,确定结果模块,还包括:

第三确定单元,用于将目标有向决策路径中的备用标准对象实体词确定为目标标准对象实体词,将目标有向决策路径中的备用标准指标实体词确定为目标标准指标实体词;

输出文本单元,用于根据目标有向决策路径中的指向顺序、目标标准对象实体词、目标标准指标实体词以及目标标准结果实体词,输出用户属性文本的业务分析参考文本。

本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;

上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行本申请实施例中上述一方面中的方法。

本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处理器执行时,以执行本申请实施例中上述一方面中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中上述一方面中的方法。

本申请实施例通过获取第一用户属性样本文本,可以获取用于表征第一用户属性样本文本的标准用户属性实体词;进一步地,获取与第一用户属性样本文本相关联的业务分析结果,再获取用于表征业务分析结果的标准结果实体词,可以将标准用户属性实体词以及标准结果实体词作为网络节点,根据网络节点可以构建初始分析图网络;进一步地,为了基于初始分析图网络得到标准分析图网络,可以获取训练初始分析图网络的样本文本,该样本文本包括第二用户属性样本文本以及第二用户属性样本文本对应的业务分析结果标签;业务分析结果标签属于标准结果实体词;进一步地,可以根据第二用户属性样本文本与业务分析结果标签之间的关联关系,确定初始分析图网络中的网络节点之间的有向条件概率,则可以得到包含有向条件概率的标准分析图网络;标准分析图网络用于为用户属性文本预测业务分析参考结果。上述可知,针对业务数据分析场景中实体词的差异化表达方式,本申请实施例通过获取用于表征第一用户属性样本文本的标准用户属性实体词,以及用于表征业务分析结果的标准结果实体词,来构建初始分析图网络,可以消除差异化的表达,进而提高不同表达的广泛适用性;此外,本申请实施例通过标准分析图网络中的有向条件概率,可以智能地预测用户属性文本的业务分析参考结果,从而可以降低业务数据分析上的资源成本;进一步地,本申请构建标准分析图网络时不需要预先设定好分析结果与分析指标的映射关系,可以避免现有技术中过渡依赖业务人员的业务经验的缺陷,进而可以在业务数据分析上保证业务分析结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图;

图2是本申请实施例提供的一种数据处理方法的流程示意图;

图3是本申请实施例提供的一种数据处理的场景示意图;

图4是本申请实施例提供的一种文本识别模型的结构示意图;

图5是本申请实施例提供的一种数据处理的场景示意图;

图6是本申请实施例提供的一种数据处理方法的流程示意图;

图7是本申请实施例提供的一种数据处理方法的流程示意图;

图8是本申请实施例提供的一种数据处理的场景示意图;

图9是本申请实施例提供的一种数据处理方法的流程示意图;

图10是本申请实施例提供的一种数据处理装置的结构示意图;

图11是本申请实施例提供的一种计算机设备的示意图;

图12是本申请实施例提供的一种数据处理装置的结构示意图;

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为了便于理解,首先对部分名词进行以下简单解释:

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

核保:保险核保是指保险人对投保申请进行分析,决定是否接受承保这一风险,并在接受承保风险的情况下,确定保险费率的过程。在核保过程中,核保人员会按标的物的不同风险类别给予不同的费率,保证业务质量,保证保险经营的稳定性。核保是承保业务中的核心业务,而承保部分又是保险公司控制风险、提高保险资产质量最为关键的一个步骤。

本申请实施例提供的方案涉及人工智能的自然语言处理技术以及深度学习等技术,具体通过如下实施例进行说明。

请参见图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统可以包括分析服务器10a、企业服务器10b、企业服务器10c、…、企业服务器10d以及用户终端集群,用户终端集群可以包括:与企业服务器10b连接的用户终端集群100b,与企业服务器10c连接的用户终端集群100c,…,与企业服务器10d连接的用户终端集群100d。可以理解的是,上述企业服务器可以包括一个或者多个企业服务器,这里将不对企业服务器的数量进行限制;上述用户终端集群可以包括一个或者多个用户终端集群,这里将不对用户终端集群的数量进行限制。

其中,用户终端集群100b可以包括用户终端101b、用户终端102b、…、用户终端103b,用户终端集群100c可以包括用户终端101c、用户终端102c、…、用户终端103c,用户终端集群100d可以包括用户终端101d、用户终端102d、…、用户终端103d。可以理解的是,用户终端集群100b可以包括一个或者多个用户终端,用户终端集群100c可以包括一个或者多个用户终端,用户终端集群100d可以包括一个或者多个用户终端,这里将不对上述用户终端的数量进行限制。

其中,用户终端集群之间可以存在通信连接,例如用户终端101b与用户终端102b之间存在通信连接,用户终端101b与用户终端102c之间存在通信连接,用户终端101b与用户终端103c之间存在通信连接。用户终端集群中的任一用户终端可以与企业服务器之间存在通信连接,例如用户终端101b与企业服务器10b之间存在通信连接,用户终端101b与企业服务器10c之间存在通信连接,用户终端101b与企业服务器10d之间存在通信连接。且企业服务器之间也可以存在通信连接,例如企业服务器10b与企业服务器10c之间存在通信连接,企业服务器10b与企业服务器10d之间存在通信连接。

用户终端集群中的任一用户终端可以与分析服务器10a之间存在通信连接,例如用户终端101b与分析服务器10a之间存在通信连接,用户终端101c与分析服务器10a之间存在通信连接,用户终端101d可以与分析服务器10a之间存在通信连接。同理,任一企业服务器可以与分析服务器10a之间存在通信连接,例如企业服务器10b与分析服务器10a之间存在通信连接,企业服务器10c与分析服务器10a之间存在通信连接,企业服务器10d可以与分析服务器10a之间存在通信连接。

可以理解的是,上述的通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,或通过无线通信方式进行直接或间接地连接,也可以通过其他方式,本申请在此不做限制。

图1中的企业服务器10b可以是保险公司B对应的后台,企业服务器10c可以是保险公司C对应的后台,...,企业服务器10d可以是保险公司D对应的后台;用户终端101b、用户终端102b、…、用户终端103b可以分别为保险公司B的客户(例如投保人)所对应的终端,用户终端101c、用户终端102c、…、用户终端103c可以分别为保险公司C的客户所对应的终端,…,用户终端101d、用户终端102d、…、用户终端103d可以分别为保险公司D的客户所对应的终端。

当企业服务器(可以是企业服务器10b、企业服务器10c或企业服务器10d,为了便于理解,下文以企业服务器10b为例叙述),获取到客户终端(可以是用户终端101b、用户终端102b或用户终端103b,为了便于理解,下文以用户终端101b为例叙述)发送的投保申请,并需要对该投保申请进行处理时,例如分析该投保申请并生成该投保申请对应的核保结论,企业服务器10b可以将投保申请中携带的用户属性文本发送至分析服务器10a。分析服务器10a接收到企业服务器10b所发送的用户属性文本后,基于提前训练好的医学文本结构化模型对用户属性文本进行文本识别处理以及映射处理,将非结构化的用户属性文本中的医学实体词识别出来并且映射到规范的标准表达,得到可以表征该用户属性文本的备用标准用户属性实体词。分析服务器10a基于上述备用标准用户属性实体词,可以得到用户属性文本的目标有向决策路径,基于该目标有向决策路径,可以根据提前训练好的标准分析图网络预测出针对该用户属性文本的业务分析参考文本,该业务分析参考文本包括业务分析参考结果,且该业务分析参考文本还可以包括得到业务分析参考结果的原因。

后续,分析服务器10a可以将生成的业务分析参考文本发送至企业服务器10b,同时,可以将用户属性文本以及业务分析参考文本关联存储至数据库中。当再次获取到同一个投保人所上传的相同用户属性文本时,分析服务器10a可以直接将业务分析参考文本返回至发送用户属性文本的用户终端(可以是企业服务器10b、企业服务器10c或企业服务器10d)。上述数据库可视为电子化的文件柜——存储电子文件(本申请中的电子文件可以指用户属性文本以及业务分析参考文本)的处所,分析服务器10a可以对文件中的用户属性文本以及业务分析参考文本进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

企业服务器10b接收到分析服务器10a发送的业务分析参考文本后,企业终端可以从企业服务器10b中获取到该业务分析参考文本,进而企业终端可以在屏幕上显示该业务分析参考文本,业务分析参考文本可以包括目标有向决策路径中的指向顺序、目标标准对象实体词、目标标准指标实体词以及目标标准结果实体词(即业务分析参考结果所属的标准实体词)。后期,企业服务器10b对应的核保人员可以基于目标标准对象实体词、目标标准指标实体词以及两者之间的指向顺序,对业务分析参考结果进行二次校验。值得注意的是,在保险公司的重大疾病投保场景中,标准分析图网络输出的业务分析参考文本可以为辅助文本,提供给核保人员当做分析参考数据。

可选的,若企业服务器10b的本地存储了训练好的标准分析图网络,以及训练好的医学文本结构化模型,则可以在本地实现输入用户属性文本,经过流程化、自动化的处理后得到该用户属性文本的核保结论(即业务分析参考结果),再根据业务分析参考结果进行后续处理。其中,由于训练医学文本结构化模型以及标准分析图网络涉及到大量的离线计算,因此企业服务器10b本地的医学文本结构化模型以及标准分析图网络可以是由分析服务器10a训练完成后发送至企业服务器10b的。

可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于图1中所提及的用户终端或分析服务器或企业服务器。上述分析服务器或企业服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述用户终端可以是智能手机、平板电脑、笔记本电脑、掌上电脑、台式计算机、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、智能音箱、智能手表等,但并不局限于此。用户终端与分析服务器或企业服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

可以理解的是,本申请提出的自动化数据分析方法可以应用于各种业务数据分析场景,例如贷款公司可以根据本申请提出的自动化数据分析方法分析贷款人的信用数据,以确定是否借贷给贷款人;例如证券公司可以根据本申请提出的自动化数据分析方法分析证券交易数据,以确定后续证券走向等。下文均以保险公司的核保业务数据为例叙述,其他业务数据分析场景可以参见下文的描述。

针对目前保险核保耗费极大人力物力的问题,本申请提出一种基于知识图谱的图推断式的端到端智能核保预测方法,帮助保险公司可以通过用户属性文本(例如体检报告、健康告知书、陪检报告书等基本信息)得到业务分析参考结果(即核保结论)的智能预测。除此之外,考虑到保险行业对于模型解释性的需求,本申请采用了一种可解释性强的策略,帮助保险公司对智能核保预测结果(即业务分析参考结果)进行二次校验,在减少人力物力的情况下充分保证智能核保预测结果的准确率。具体实现过程请参见下文。

进一步地,请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由图1所述的用户终端或分析服务器或企业服务器执行,也可以由用户终端和分析服务器、企业服务器共同执行,在本申请实施例中,以该方法由分析服务器执行为例进行说明。如图2所示,该数据处理过程包括如下步骤:

步骤S101,获取第一用户属性样本文本,获取用于表征第一用户属性样本文本的标准用户属性实体词。

具体的,将第一用户属性样本文本输入文本识别模型,基于文本识别模型获取用于表征第一用户属性样本文本的原始用户属性实体词;将原始用户属性实体词输入实体词标准化模型,基于实体词标准化模型,对原始用户属性实体词进行标准化处理,得到标准用户属性实体词。

其中,文本识别模型包括输入层、编码层、隐藏层以及识别层;基于文本识别模型获取用于表征第一用户属性样本文本的原始用户属性实体词的具体过程可以包括:基于输入层对第一用户属性样本文本进行切分处理,得到至少两个分词;将至少两个分词输入编码层,基于编码层分别对至少两个分词进行编码处理,得到至少两个语义向量;将至少两个语义向量输入隐藏层,基于隐藏层分别对至少两个语义向量进行隐藏特征提取处理,得到至少两个隐藏向量;将至少两个隐藏向量输入识别层,基于识别层对至少两个隐藏向量进行识别处理,得到用于表征第一用户属性样本文本的原始用户属性实体词。

其中,基于实体词标准化模型,对原始用户属性实体词进行标准化处理,得到标准用户属性实体词的具体过程可以包括:获取标准样本实体词;基于实体词标准化模型,确定标准样本实体词与原始用户属性实体词之间的编辑距离;从编辑距离中获取最小编辑距离,将与最小编辑距离对应的标准样本实体词,确定为原始用户属性实体词的标准用户属性实体词。

请一并参见图3,图3是本申请实施例提供的一种数据处理的场景示意图。如图3所示,分析服务器30a获取第一用户属性样本文本30b,可以理解的是,第一用户属性样本文本30b可以包括体检样本报告、健康样本告知书、陪检样本报告书等表征投保人用户属性信息的样本文本,用户属性信息可以包括投保人的疾病信息(即对象)、症状信息(即指标)等。本申请实施例不限定第一用户属性样本文本30b的文本数量,在实际应用时,第一用户属性样本文本30b可以包括至少一个用户属性样本文本。

分析服务器30a将第一用户属性样本文本30b输入至已训练好的医学文本结构化模型30c,医学文本结构化模型30c可以包括文本识别模型以及实体词标准化模型,分析服务器30a基于文本识别模型以及实体词标准化模型,可以将医学实体词从非结构化的第一用户属性样本文本30b中识别出来并且映射到规范的标准表达,得到用于表征第一用户属性样本文本30b的标准用户属性实体词30d。上述的文本识别模型可以是基于命名实体识别技术(Named Entity Recognition,NER)构建的模型,上述的实体词标准化模型可以是基于医学术语标准化系统构建的模型,具体过程请参见下文描述。

请一并参见图4以及图3,图4是本申请实施例提供的一种文本识别模型的结构示意图。如图4所示,文本识别模型可以包括输入层、编码层、隐藏层以及识别层;分析服务器30a将第一用户属性样本文本30b输入至文本识别模型的输入层,假设第一用户属性样本文本30b为“患者发烧”。基于输入层对“患者发烧”进行切分处理,得到至少两个分词,如图4中的4个分词,即“患”、“者”、“发”、“烧”。将“患”、“者”、“发”、“烧”均输入编码层,基于编码层,首先得到4个分词分别对应的初始向量,如图4中所示的E

请再参见图4,将至少两个语义向量(即图4中的T

请再参见图4,将至少两个隐藏向量输入识别层,基于识别层对至少两个隐藏向量进行识别处理,得到每个分词(如图4中所示的“患”、“者”、“发”、“烧”)在第一用户属性样本文本30b中的位置以及分词对应的实体类型,图4中的“患”以及“者”两个分词对应的O,可以表征“患”以及“者”既不是文本识别模型中规定的实体词,也不是某个规定的实体词的开始位置或结束位置;“B-dis”可以表明“发”是疾病实体词的起始节点,“E-dis”可以表明“热”是疾病实体词的结束节点。基于每个分词在第一用户属性样本文本30b中的位置以及对应的实体类型,得到可以表征第一用户属性样本文本30b的原始用户属性实体词。需要理解的是,实际应用时,上述的识别层可以为一个独立的深度神经网络或至少一个深度卷积层(本申请不对卷积层的数量进行限定),例如,识别层为经过预训练所得到的条件随机场(Conditional Random Field,CRF),基于此,在本申请实施例中,识别层需要基于词典数据库进行预先训练,生成CRF模型。

上述可知,文本识别模型是在大规模医学文本语料上训练得到的,训练好的文本识别模型可以识别以下类别的医学实体词:疾病、症状、药物、手术、检验、检查、部位、治疗。

在现实场景中,同一个医学实体词在不同的电子体检报告或健康告知书中,其存在不同的表达方式,如“乳腺癌家族史”、“家族史:乳腺癌”、“家族性乳腺癌”等,这些差异化的表达方式都会增加后续处理的难度,因此,在本申请实施例中,医学文本结构化模型包括基于医学术语标准化系统构建的实体词标准化模型。分析服务器30a获取标准样本实体词,基于实体词标准化模型,确定标准样本实体词与原始用户属性实体词之间的编辑距离;从编辑距离中获取最小编辑距离,将与最小编辑距离对应的标准样本实体词,确定为原始用户属性实体词的标准用户属性实体词,以提高广泛适用性。

医学术语标准化系统可以使用不同的文本距离计算方式,以确定原始用户属性实体词与标准样本实体词之间的文本距离,例如术语标准化距离计算、莱文斯坦距离计算以及Jaro距离(一种字符串编辑距离)计算,或者使用文本相似度计算方式,以确定原始用户属性实体词与标准样本实体词之间的文本相似度,例如SimHash(一种文本相似度)计算以及神经网络语言模型。本申请实施例不限定确定原始用户属性实体词与标准样本实体词之间的距离的方式,下文以基于融合不同信息的加权编辑距离方法为例进行简单叙述,该方法可以包括:1)融合同义词词典的编辑距离;2)融合上下位词的编辑距离。

为了便于叙述,将原始用户属性实体词视作原始字符串A,其长度为m,将标准用户属性实体词视作标准字符串B,其长度为n,m以及n均为正整数。两者的编辑距离定义为将原始字符串A转换成标准字符串B的最小编辑操作数。编辑类型包括字符插入、删除和替换,假设每种类型的代价均为1,构建一个(m+1)*(n+1)的关系矩阵D,基于动态规划的思想,按照从左到右,从上到下的方向计算关系矩阵D中的每个元素。

1)融合同义词(synonyms)的编辑距离计算如公式(1)所示:

d

其中,l

其中a代表同义词的权重,a的取值一般为0.1,同义词簇Syn = {w

2)融合上下位词的编辑距离计算如公式(4)所示:

d

其中,代价f

其中b代表上位词的权重,b的取值一般为0.13。

在实际的应用场景中,同义词以及上下位词并非单独出现,因此本申请综合使用前文提到的两种方法得到最终的编辑距离,综合使用方式可以如公式(7)所示:

其中,d(i,j)表示原始字符串A

最小编辑距离min{D(i,j)}的计算如公式(9)所示:

其中,代价f

上述是以融合同义词的编辑距离以及融合上下文词的编辑距离为例进行说明,实际应用时,医学术语标准化系统可以使用不同的文本距离计算方式。

以医保国际疾病分离(International Congress of Dermatology,ICD)10标准为例,叙述上述提及的标准样本实体词,该标准中一共有3万多个用户属性的标准表达。利用医学术语标准化系统以及医保ICD10标准,对于一条不标准的疾病输入文本(如本申请所述的原始用户属性实体词),基于上面的打分函数从这3万多个候选中选择出分数最高的用户属性标准表达,即标准用户属性实体词。

步骤S102,获取用于表征业务分析结果的标准结果实体词,将标准用户属性实体词以及标准结果实体词作为网络节点,根据网络节点构建初始分析图网络。

具体的,标准用户属性实体词包括标准对象实体词以及标准指标实体词;将标准对象实体词、标准指标实体词以及标准结果实体词确定为网络节点;根据标准对象实体词对应的网络节点生成网络对象层,根据标准指标实体词对应的网络节点生成网络指标层,根据标准结果实体词对应的网络节点生成网络结果层;将网络对象层中的每个网络节点,分别与网络指标层中的每个网络节点进行连接,得到第一有向边;将网络指标层中的每个网络节点,分别与网络结果层中的每个网络节点进行连接,得到第二有向边;将第一有向边以及第二有向边确定为有向条件边;根据网络节点以及有向条件边,构建初始分析图网络。

结合步骤S101以及图3,已训练好的医学文本结构化模型30c可以将医学实体词从非结构化的第一用户属性样本文本30b中识别出来并且映射到规范的标准表达,得到用于表征第一用户属性样本文本30b的标准用户属性实体词30d。可以理解的是,标准用户属性实体词30d可以包括标准对象实体词以及标准指标实体词,例如第一用户属性样本文本30b是一份电子体检报告书,则第一用户属性样本文本30b可以包括投保人的疾病(即对象)以及症状(可以看作指标)。如图3所示,标准对象实体词可以包括标准对象实体词301d、…、标准对象实体词303d,标准指标实体词可以包括标准指标实体词304d、标准指标实体词305d、…、标准指标实体词306d、标准指标实体词307d。

请再参见图3,分析服务器30a可以获取企业服务器30f发送的用于表征业务分析结果的标准结果实体词,标准结果实体词可以包括标准结果实体词301e、…、标准结果实体词303e。其中,业务分析结果可以包括承保、加费承保、除外承保、延期、拒保等,标准结果实体词为针对业务分析结果的标准表达。本申请实施例不对企业服务器30f的数量进行限定,可以为一个保险公司对应的服务器或至少一个保险公司分别对应的服务器。

可选的,分析服务器30a可以从企业服务器30f获取用于表征业务分析结果的原始结果实体词,此时,可以将原始结果实体词输入步骤S101中的医学术语标准化系统(即实体词标准化模型),以得到原始结果实体词对应的标准结果实体词,具体实现过程可以参见步骤S101中针对基于实体词标准化模型,对原始用户属性实体词进行标准化处理,得到标准用户属性实体词的描述,此处不再进行赘述。

可选的,分析服务器30a可以从特定的核保数据库中获取用于表征业务分析结果的原始结果实体词,或用于表征业务分析结果的标准结果实体词,本申请实施例不限定标准结果实体词的由来。

假设分析服务器30a根据第一用户属性样本文本30b提取出2个标准对象实体词,例如图3中的标准对象实体词301d以及标准对象实体词303d,提取出4个标准指标实体词,例如图3中的标准指标实体词304d、标准指标实体词305d、标准指标实体词306d,以及标准指标实体词307d,分析服务器30a获取到2个标准结果实体词,例如图3中的标准结果实体词301e以及标准结果实体词303e。

请再参见图3,分析服务器30a将标准对象实体词301d、标准对象实体词303d、标准指标实体词304d、标准指标实体词305d、标准指标实体词306d、标准指标实体词307d、标准结果实体词301e以及标准结果实体词303e确定为网络节点。分析服务器30a根据标准对象实体词301d以及标准对象实体词303d分别对应的网络节点(如图3中所示的网络节点D1以及网络节点D2)生成网络对象层;根据标准指标实体词304d、标准指标实体词305d、标准指标实体词306以及标准指标实体词307d分别对应的网络节点(如图3中所示的网络节点C1、网络节点C2、网络节点C3以及网络节点C4)生成网络指标层;根据标准结果实体词301e以及标准结果实体词303e对应的网络节点(如图3中所示的网络节点H1以及网络节点H2)生成网络结果层。

分析服务器30a将网络对象层中的网络节点D1,与网络指标层中的每个网络节点分别进行连接,得到第一有向边,例如将网络节点D1与网络节点C1进行连接,得到第一有向边(D1, C1);将网络对象层中的网络节点D2,与网络指标层中的每个网络节点分别进行连接,得到第一有向边,例如将网络节点D2与网络节点C3进行连接,得到第一有向边(D2,C3)。

进一步地,分析服务器30a将网络指标层中的网络节点C1,与网络结果层中的每个网络节点分别进行连接,得到第二有向边,例如将网络节点C1与网络节点H1进行连接,得到第二有向边(C1,H1);将网络指标层中的网络节点C2,与网络结果层中的每个网络节点分别进行连接,得到第二有向边,例如将网络节点C2与网络节点H1进行连接,得到第二有向边(C2, H1);网络指标层中的其他网络节点的连接如上所述,此处不再一一进行赘述。

分析服务器30a可以将第一有向边以及第二有向边确定为有向条件边,如第二有向边(C1, H1)可以表明该边为网络节点C1指向网络节点H1,需要注意的是,有向条件边不可以反方向指向。分析服务器30a根据网络节点以及有向条件边,构建初始分析图网络30g。

值得注意的是,如图3所示,网络指标层的每个网络节点之间也需要连接,因为在指标判断规则中,往往存在某些属性指标先于其他属性指标,例如乳腺结节的指标判断规则中就需要先判断性别再判断年龄,因此判断指标之间需要连接,判断指标之间的连接方式取决于当前已有的大量训练数据(包括下文的第二用户属性样本文本),训练数据能够给出一个清晰的先后规则的判断方式,故此处没有将网络指标层的每个网络节点之间的连接边定义为有向条件边,因为需要根据训练数据确定两个网络指标节点之间的指向。

步骤S103,获取第二用户属性样本文本以及第二用户属性样本文本对应的业务分析结果标签;业务分析结果标签属于标准结果实体词。

具体的,在实际核保业务场景中,规则判断(即指标)往往是存在先后顺序的,例如下文的表1中乳腺癌家族史的示例,核保系统需要先判断性别之后再判断年龄,而其他病史的判断可能是在判断年龄之后再判断性别。因此需要指明的是,当判断指标存在多个时,理论上判断链条也会存在多条,例如核保结论概率 P(H1|C1, C2, D1),基于贝叶斯定理展开得到如下公式(11)以及公式(12):

P(H1|C1, C2, D1) = P(D1) * P(C2|D1) * P(C1|C2) * P(H1|C1) (11)

P(H1|C1, C2, D1) = P(D1) * P(C1|D1) * P(C2|C12) * P(H1|C2) (12)

可以看到公式(11)与公式(12)的区别是先判断网络节点C1还是先判断网络节点C2。正是基于核保规则的复杂,在训练初始分析图网络的时候,需要训练数据,也可以理解成解释链条,即该用户属性样本文本的核保结论是因怎样的推导逻辑得到。结构化的训练数据请一并参见表1,表1是本申请实施例提供的一种训练数据的示例表,表1包括第二用户属性样本文本以及业务分析结果标签,第二用户属性样本文本包括对象样本文本以及指标样本文本。

表1

表1示例了3个第二用户属性样本文本以及其对应的业务分析结果标签,明显地,3个第二用户属性样本文本中所包括的指标样本文本数量不同,则也证明了针对乳腺癌疾病,其核保决策路径中网络指标层的网络节点个数是不确定的,例如乳腺结节,如果投保人的性别是男性,本申请提出的方案就可以直接输出“除外”结论(1个判断指标),而如果投保人是女性,则还需要判断更多指标。

需要注意的是,第二用户属性样本文本以及业务分析结果标签默认为属于标准医学实体词(包括上述的标准对象实体词、标准指标实体词以及标准结果实体词),若训练数据不是标准医学实体词,在训练初始分析图网络时,初始分析图网络中的网络节点对应的实体词可能会与训练数据中所包含的实体词不相同,进而影响训练效率以及训练精度。此时,可以先将训练数据输入步骤S101中的实体词标准化模型,以得到标准医学实体词,具体实现过程可以为:获取标准样本实体词;将训练数据以及标准样本实体词输入实体词标准化模型,基于实体词标准化模型,确定标准样本实体词与训练数据之间的编辑距离;从编辑距离中获取最小编辑距离,将与最小编辑距离对应的标准样本实体词,确定为训练数据的标准用户属性实体词。

步骤S104,根据第二用户属性样本文本与业务分析结果标签之间的关联关系,确定初始分析图网络中的网络节点之间的有向条件概率,得到包含有向条件概率的标准分析图网络;标准分析图网络用于为用户属性文本预测业务分析参考结果。

具体的,初始分析图网络包括网络节点之间的有向条件边;根据第二用户属性样本文本与业务分析结果标签之间的关联关系,获取包含第二用户属性样本文本以及业务分析结果标签的有向决策路径;在初始分析图网络中获取有向决策路径所指示的有向条件边,作为训练有向条件边;根据有向决策路径,确定训练有向条件边对应的有向条件概率。

其中,标准用户属性实体词包括标准对象实体词以及标准指标实体词;在初始分析图网络中获取有向决策路径所指示的有向条件边,作为训练有向条件边的具体过程可以包括:在初始分析图网络中,将对象样本文本对应的网络节点确定为第一训练网络节点,将指标样本文本对应的网络节点确定为第二训练网络节点,将业务分析结果标签对应的网络节点确定为第三训练网络节点;根据有向决策路径,在第一训练网络节点、第二训练网络节点以及第三训练网络节点之间的有向条件边中确定训练有向条件边。

其中,训练有向条件边包括第一训练有向条件边;根据有向决策路径,确定训练有向条件边对应的有向条件概率的具体过程可以包括:根据有向决策路径中的对象样本文本以及指标样本文本之间的关联关系,生成第一训练网络节点指向第二训练网络节点的第一概率;将第一概率确定为第一训练有向条件边对应的有向条件概率;其中,第一训练有向条件边是指由第一训练网络节点指向第二训练网络节点的有向条件边。

其中,训练有向条件边包括第二训练有向条件边;根据有向决策路径,确定训练有向条件边对应的有向条件概率的具体过程可以包括:根据有向决策路径中的指标样本文本以及业务分析结果标签之间的关联关系,生成第二训练网络节点指向第三训练网络节点的第二概率;将第二概率确定为第二训练有向条件边对应的有向条件概率;其中,第二训练有向条件边是指由第二训练网络节点指向第三训练网络节点的有向条件边。

其中,训练有向条件边包括第三训练有向条件边;有向决策路径包括至少两个指标样本文本;根据有向决策路径,确定训练有向条件边对应的有向条件概率的具体过程可以包括:根据有向决策路径中的至少两个指标样本文本之间的关联关系,生成至少两个第二训练网络节点之间的第二概率;将第二概率确定为第三训练有向条件边对应的有向条件概率;至少两个第二训练网络节点包括至少两个指标样本文本分别对应的网络节点;其中,第三训练有向条件边,是根据有向决策路径所包含的至少两个指标样本文本之间的指向顺序,在至少两个第二训练网络节点之间进行连接所得到的有向条件边。

请一并参见图5,图5是本申请实施例提供的一种数据处理的场景示意图。如图5所示,分析服务器50a获取训练数据50b,训练数据50b可以包括第二用户属性样本文本与第二用户属性样本文本对应的业务分析结果标签。在本申请实施例中,假设训练数据50b包括3个训练数据,即图5中所示的训练数据d1,【c1】,

、训练数据d1,【c2】,【c3】,

以及训练数据d1,【c2】,【c3】,【c4】,

。其中,对象样本文本d1属于标准对象实体词,例如表1中的乳腺癌家族史;指标样本文本c1、指标样本文本c2、指标样本文本c3以及指标样本文本c4均属于标准指标实体词,例如表1中的女性、40岁、无相关病史、乳腺超声未见异常;业务分析结果标签h1以及业务分析结果标签h2均属于标准结果实体词,例如表1中的不评、承保等。

需要理解的是,训练数据50b中的训练样本存在先后指向顺序,例如训练数据d1,【c2】,【c3】,

,可以表明投保人患有对象样本文本d1对应的疾病,且在符合指标样本文本c2对应的指标的情况下,还符合指标样本文本c3对应的指标,因此其对应的核保结论为h2。

基于上述,分析服务器50a获取包含第二用户属性样本文本以及业务分析结果标签的有向决策路径50c,如图5所示,针对训练数据d1,【c1】,

,得到有向决策路径d1—>c1—>h1;针对训练数据d1,【c2】,【c3】,

,得到有向决策路径d1—>c2—>c3—>h2;针对训练数据d1,【c2】,【c3】,【c4】,

,得到有向决策路径d1—>c2—>c3—>c4—>h2。

请再参见图5,初始分析图网络50d包括网络节点之间的有向条件边,例如第一有向边(D2, C3)。明显地,训练数据50b包括对象样本文本d1,因此,在初始分析图网络50d中,将对象样本文本d1对应的网络节点D1确定为第一训练网络节点;训练数据50b包括指标样本文本c1、指标样本文本c2、指标样本文本c3以及指标样本文本c4,因此,在初始分析图网络50d中,将指标样本文本c1对应的网络节点C1、指标样本文本c2对应的网络节点C2、指标样本文本c3对应的网络节点C3以及指标样本文本c4对应的网络节点C4确定为第二训练网络节点;训练数据50b包括业务分析结果标签h1以及业务分析结果标签h2,因此,在初始分析图网络50d中,将业务分析结果标签h1对应的网络节点H1以及业务分析结果标签h2对应的网络节点H2确定为第三训练网络节点。

相应地,分析服务器50a根据有向决策路径d1—>c1—>h1,将网络节点D1与网络节点C1之间的有向条件边确定为训练有向条件边,将网络节点C1与网络节点H1之间的有向条件边确定为训练有向条件边;分析服务器50a根据有向决策路径d1—>c2—>c3—>h2,将网络节点D1与网络节点C2之间的有向条件边确定为训练有向条件边,将网络节点C2与网络节点C3之间的有向条件边确定为训练有向条件边,将网络节点C3与网络节点H2之间的有向条件边确定为训练有向条件边;分析服务器50a根据有向决策路径d1—>c2—>c3—>c4—>h2,将网络节点D1与网络节点C2之间的有向条件边确定为训练有向条件边,将网络节点C2与网络节点C3之间的有向条件边确定为训练有向条件边,将网络节点C3与网络节点C4之间的有向条件边确定为训练有向条件边,将网络节点C4与网络节点H2之间的有向条件边确定为训练有向条件边。

其中,根据有向决策路径50c,确定训练有向条件边对应的有向条件概率的具体过程可以请参见下文图6对应的实施例中的描述。

上述可知,针对业务数据分析场景中实体词的差异化表达方式,本申请实施例通过获取用于表征第一用户属性样本文本的标准用户属性实体词,以及用于表征业务分析结果的标准结果实体词,来构建初始分析图网络,可以消除差异化的表达,进而提高不同表达的广泛适用性;此外,本申请实施例通过标准分析图网络中的有向条件概率,可以智能地预测用户属性文本的业务分析参考结果,从而可以降低业务数据分析上的资源成本;进一步地,本申请构建标准分析图网络时不需要预先设定好分析结果与分析指标的映射关系,可以避免现有技术中过渡依赖业务人员的业务经验的缺陷,进而可以在业务数据分析上保证业务分析结果的准确性。

进一步地,请参见图6,图6是本申请实施例提供的一种数据处理方法的流程示意图。如图6所示,该数据处理过程可以包括以下步骤S1041-步骤S1043,且步骤S1041-步骤S1043为图2所对应实施例中步骤S104的一个具体实施例。

步骤S1041,根据有向决策路径,确定由目标对象样本文本所指向的指标样本文本的数量,作为第一数量。

具体的,对象样本文本的数量为至少两个,指标样本文本的数量为至少两个;至少两个对象样本文本包括目标对象样本文本,至少两个指标样本文本包括目标指标样本文本。

每个核保结论(即业务分析参考结果)得到的概率为 P(H

P(H

其中,s、g、k均为正整数,且s小于或等于网络结果层中网络节点的数量,g小于或等于网络指标层中网络节点的数量,k小于或等于网络对象层中网络节点的数量。

其中P(X|Y)表示在Y发生的情况下X发生的概率,例如X等于C

请再参见图5,分析服务器50a在获取到训练数据50b后,可以开始训练初始分析图网络50d。如图5所示例的,当取定训练数据d1,【c2】,【c3】,

时(注意先后顺序),分析服务器50a可以得到如下公式(14):

P(H2|C3, C2, D1) = P(D1) * P(C2|D1) * P(C3|C2) * P(H2|C3) (14)

其中,P(H2|C3, C2, D1)可以表示在投保人符合网络节点D1对应的对象样本文本d1、网络节点C2对应的指标样本文本c2、网络节点C3对应的指标样本文本c3的情况下,得出网络节点H2对应的业务分析结果的概率。

在训练过程中,系统可以设定P(D1)等于1,可以理解的是,在实际应用时,若投保人所提供的用户属性文本中不包括与标准对象实体词相关联的疾病,则系统不会预测该疾病的核保结论,所以可默认疾病(即对象样本文本)的概率为1。因此分析服务器50a需要根据训练数据50b计算P(C2|D1) * P(C3|C2) * P(H2|C3),图6所对应的实施例以确定第一训练网络节点指向第二训练网络节点的第一概率为例进行叙述。

首先确定由目标对象样本文本所指向的指标样本文本的数量,此处可以根据有向决策路径50c确定由目标对象样本文本所指向的指标样本文本的数量,也可以根据训练数据50b确定由目标对象样本文本所指向的指标样本文本的数量,下文以根据训练数据50b确定由目标对象样本文本所指向的指标样本文本的数量示例叙述。显而易见,针对训练数据d1,【c2】,【c3】,

,目标对象样本文本是指对象样本文本d1,根据训练数据50b可知,3个训练数据均包括对象样本文本d1,且分别指向指标样本文本c1、指标样本文本c2以及指标样本文本c2,所以第一数量为3。

针对训练数据d1,【c2】,【c3】,

,目标指标样本文本包括指标样本文本c2以及指标样本文本c3,首先确定指标样本文本c2所指向的指标样本文本的数量,根据训练数据50b可知,3个训练数据中训练数据d1,【c2】,【c3】,

以及训练数据d1,【c2】,【c3】,【c4】,

包括指标样本文本c2,且均指向指标样本文本c3,故指标样本文本c2所指向的指标样本文本的数量为2。再确定指标样本文本c3所指向的指标样本文本的数量,根据训练数据50b可知,3个训练数据中训练数据d1,【c2】,【c3】,

以及训练数据d1,【c2】,【c3】,【c4】,

包括指标样本文本c3,其中一个指标样本文本c3指向业务分析结果标签h2,一个指标样本文本c3指向指标样本文本c4,故指标样本文本c3所指向的指标样本文本的数量为1,指标样本文本c3所指向的业务分析结果标签的数量为1。

步骤S1042,根据有向决策路径,确定由目标对象样本文本所指向的目标指标样本文本的数量,作为第二数量。

具体的,根据有向决策路径50c或者训练数据50b,确定由目标对象样本文本所指向的指标样本文本的数量后,分析服务器50a确定由目标对象样本文本所指向的目标指标样本文本的数量,作为第二数量。显而易见,针对训练数据d1,【c2】,【c3】,

,目标指标样本文本包括指标样本文本c2,值得注意的是,因为在训练数据d1,【c2】,【c3】,

中,对象样本文本d1未指向的指标样本文本c3,所以此处的目标指标样本文本不包括指标样本文本c3。

根据训练数据50b或者有向决策路径50c可知,3个训练数据均包括对象样本文本d1,且分别指向指标样本文本c1、指标样本文本c2以及指标样本文本c2,因为指标样本文本c1不是目标指标样本文本,所以第二数量为2。

针对训练数据d1,【c2】,【c3】,

,计算指标样本文本c2所指向的目标指标样本文本的数量时,目标指标样本文本可以包括指标样本文本c3,明显地,在数据训练50b中,指标样本文本c2所指向的目标指标样本文本的数量为2。针对训练数据d1,【c2】,【c3】,

,计算指标样本文本c3所指向的目标业务分析结果标签的数量时,目标业务分析结果标签可以包括业务分析结果标签h2,明显地,在数据训练50b中,指标样本文本c3所指向的目标业务分析结果标签的数量为1。

步骤S1043,根据第一数量以及第二数量,确定第一训练网络节点指向第二训练网络节点的第一概率。

具体的,在本申请实施例中,以计算初始分析图网络50d中各有向条件边的概率来训练初始分析图网络50d,计算概率的公式如下公式(15)公式(16)以及公式(17)。

其中,count(C

结合上述步骤S1041-步骤S1042以及图5中的训练数据50b,可以得到P(C2|D1)=2/3, P(C3|C2)=1,P(H2|C3)=1。请再参见图5,根据训练数据d1,【c2】,【c3】,

训练初始分析图网络50d,可以生成中间分析图网络50e,明显地,中间分析图网络50e中的网络节点D1与网络节点C2之间的有向条件边带有指向箭头,网络节点C2与网络节点C3之间的有向条件边带有指向箭头,网络节点C3与网络节点H2之间的有向条件边带有指向箭头。

可以理解的是,本申请实施例是以训练数据d1,【c2】,【c3】,

为例进行说明,根据其余训练数据计算两个训练网络节点之间(即训练有向条件边)的有向条件概率可以参见步骤S1041-步骤S1043所对应的实施例的描述,因此不再进行赘述。根据训练数据50b训练初始分析图网络50d,得到训练好的核保图网络(即标准分析图网络),标准分析图网络为有向图,例如上图示例中 D1 —>C2 —>C3—> H2,且标准分析图网络中的有向条件边均携带有向条件概率。

本申请设计了一组实验来验证所提出的核保系统的准确率。实验用1000单核保数据(即训练数据,包括第二用户属性样本文本以及其对应的业务分析结果标签)构成训练集,用500单核保数据构成测试集。训练数据中覆盖的疾病种类为100种。在实验过程中,核保系统的准确率达到了99.6%,另外人工抽查的(500条测试数据中的)20条核保结论的推理链路达到100%的准确率。由此可见本申请提出的核保系统可以有效预测核保结论并给出核保解释。

上述可知,针对业务数据分析场景中实体词的差异化表达方式,本申请实施例通过获取用于表征第一用户属性样本文本的标准用户属性实体词,以及用于表征业务分析结果的标准结果实体词,来构建初始分析图网络,可以消除差异化的表达,进而提高不同表达的广泛适用性;此外,本申请实施例通过标准分析图网络中的有向条件概率,可以智能地预测用户属性文本的业务分析参考结果,从而可以降低业务数据分析上的资源成本;进一步地,本申请构建标准分析图网络时不需要预先设定好分析结果与分析指标的映射关系,可以避免现有技术中过渡依赖业务人员的业务经验的缺陷,进而可以在业务数据分析上保证业务分析结果的准确性。

进一步地,请参见图7,图7是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由图1所述的用户终端或企业服务或分析服务器器执行,也可以由用户终端和分析服务器、企业服务器共同执行,在本申请实施例中,以该方法由企业服务器执行为例进行说明。如图7所示,该数据处理过程包括如下步骤:

步骤S201,获取用户属性文本,获取用于表征用户属性文本的备用标准用户属性实体词。

具体的,将用户属性文本输入文本识别模型,基于文本识别模型获取用于表征用户属性文本的备用原始用户属性实体词;将备用原始用户属性实体词输入实体词标准化模型,基于实体词标准化模型,对备用原始用户属性实体词进行标准化处理,得到备用标准用户属性实体词。

其中,文本识别模型包括输入层、编码层、隐藏层以及识别层;基于文本识别模型获取用于表征用户属性文本的备用原始用户属性实体词的具体过程可以包括:基于输入层对用户属性文本进行切分处理,得到至少两个分词;将至少两个分词输入编码层,基于编码层分别对至少两个分词进行编码处理,得到至少两个语义向量;将至少两个语义向量输入隐藏层,基于隐藏层分别对至少两个语义向量进行隐藏特征提取处理,得到至少两个隐藏向量;将至少两个隐藏向量输入识别层,基于识别层对至少两个隐藏向量进行识别处理,得到用于表征用户属性文本的备用原始用户属性实体词。

其中,基于实体词标准化模型,对备用原始用户属性实体词进行标准化处理,得到备用标准用户属性实体词的具体过程可以包括:获取标准样本实体词;基于实体词标准化模型,确定标准样本实体词与备用原始用户属性实体词之间的编辑距离;从编辑距离中获取最小编辑距离,将与最小编辑距离对应的标准样本实体词,确定为备用原始用户属性实体词的备用标准用户属性实体词。

步骤S201的具体实现过程可以参见图2所对应的实施例中的步骤S101,此处不再展开叙述。

步骤S202,获取标准分析图网络;标准分析图网络包括网络节点以及网络节点之间的有向条件概率;网络节点由标准用户属性实体词以及标准结果实体词构成;标准用户属性实体词包括备用标准用户属性实体词;标准结果实体词用于表征业务分析结果。

具体的,标准用户属性实体词包括标准对象实体词以及标准指标实体词;标准分析图网络包括网络对象层、网络指标层以及网络结果层,其中,网络对象层由标准对象实体词对应的网络节点生成,网络指标层由标准指标实体词对应的网络节点生成,网络结果层由标准结果实体词对应的网络节点生成。

本申请所述的标准分析图网络是图网络(Graph Network, GN的一种应用,其中,图网络是在拓扑空间(topological space)内按图(graph)结构组织以进行关系推理(relational reasoning)的函数集合。在深度学习理论中是图神经网络( graph neuralnetwork, GNN)和概率图模型(Probabilistic Graphical Model, PGM)的推广。图网络由图网络块(GN block)构成,具有灵活的拓扑结构,可以特化为各类连接主义(connectionist)模型,包括前馈神经网络(Feedforward Neural Network)、递归神经网络(Recursive Neural Network)等。更一般的图网络适用于处理具有图结构的数据,例如知识图谱、社交网络、分子网络等。

如图5中所示,本申请中的标准分析图网络共分为三层,分别为网络对象层、网络指标层以及网络结果层,其中,网络对象层是根据第一用户属性样本文本中与疾病相关联的医学实体词组成的,网络指标层是根据第一用户属性样本文本中与症状、指标等相关联的医学实体词组成的,网络结果层是根据与业务分析结果相关联的实体词组成的。

其中,上述疾病可以是指保险核保过程中保险公司重点审查的疾病病种,例如重疾险中经常检查的甲状腺结节和乳腺结节。指标可以指患者的信息(如性别、年龄)或疾病的特定属性(如结节大小),值得注意的是,本申请实施例中是将可能的指标均转化成网络节点,如性别男和性别女是两个单独的网络节点,年龄小于40岁和等于或大于40岁也是两个单独的网络节点。业务分析结果可以是保险公司预先定义的所有可能核保结论,如承保、加费、除外、拒保等。

步骤S203,根据备用标准用户属性实体词以及标准分析图网络,确定用户属性文本的业务分析参考结果。

具体的,备用标准用户属性实体词包括备用标准对象实体词以及备用标准指标实体词;获取标准分析图网络中的标准结果实体词。

根据备用标准对象实体词、备用标准指标实体词以及标准结果实体词,构建针对用户属性文本的N个备用有向决策路径;其中,一个备用有向决策路径包括一个备用标准对象实体词、至少一个备用标准指标实体词以及一个标准结果实体词;N为正整数;根据有向条件概率,分别获取N个备用有向决策路径的备用路径概率;将备用路径概率中的最大备用路径概率确定为目标路径概率,将目标路径概率对应的备用有向决策路径确定为目标有向决策路径;将目标有向决策路径中的标准结果实体词确定为目标标准结果实体词,根据目标标准结果实体词确定业务分析参考结果。

将目标有向决策路径中的备用标准对象实体词确定为目标标准对象实体词,将目标有向决策路径中的备用标准指标实体词确定为目标标准指标实体词;根据目标有向决策路径中的指向顺序、目标标准对象实体词、目标标准指标实体词以及目标标准结果实体词,输出用户属性文本的业务分析参考文本。

请一并参见图8,图8是本申请实施例提供的一种数据处理的场景示意图。如图8所示,企业服务器80a获取用户终端80b发送的用户属性文本80c,该用户属性文本80c用于表示投保人申请投保的基本信息,用户属性文本可以包括电子体检单、电子健康告知书等可以证明投保人身体情况的文本。企业服务器80a获取到用户属性文本80c后,将其输入训练好的医学文本结构化模块80d,得到可以表征用户属性文本80c的备用标准用户属性实体词80e,如图8所示,备用标准用户属性实体词80e可以包括标准对象实体词d10、标准指标实体词c10以及标准指标实体词c30。

企业服务器80a从本地或分析服务器获取与业务分析结果相关联的标准结果实体词80f,假设标准结果实体词80f包括标准结果实体词h10以及标准结果实体词h20。如图8所示,企业服务器80a根据标准对象实体词d10、标准指标实体词c10、标准指标实体词c30、标准结果实体词h10以及标准结果实体词h20构建针对用户属性文本80c的备用有向决策路径,本申请对备用标准用户属性实体词80e和标准结果实体词80f进行汇总,穷举出所有可能的有向决策路径,如图8所示,得到备用有向决策路径d10—>c10—>h10,备用有向决策路径d10—>c10—>h20,备用有向决策路径d10—>c30—>h10,备用有向决策路d10—>c30—>h20,备用有向决策路径d10—>c10—>c30—>h10,备用有向决策路径d10—>c10—>c30—>h20,备用有向决策路径d10—>c30—>c10—>h10,备用有向决策路径d10—>c30—>c10—>h20。

请再参见图8,标准分析图网络80h包括有向条件边以及有向条件边对应的有向条件概率,例如有向条件边(D1,C1),该有向条件边(D1,C1)表明网络节点D1指向网络节点C1,有向条件边(D1,C1)的有向条件概率P(C1|D1)为0.2,有向条件边(D1,C3)的有向条件概率P(C3|D1)为0.9,有向条件边(C1,C3)的有向条件概率P(C3|C1)为0.9,有向条件边(C3,C1)的有向条件概率P(C1|C3)为0,有向条件边(C1,H1)的有向条件概率P(H1|C1)为0.35,有向条件边(C1,H2)的有向条件概率P(H2|C1)为0.8,有向条件边(C3,H1)的有向条件概率P(H1|C3)为1,有向条件边(C3,H2)的有向条件概率P(H2|C3)为0.1。可以理解的是,图8中为了清晰,所示意的标准分析图网络80h没有展示全部的有向条件边以及全部的有向条件概率,但实际应用时,标准分析图网络80h包括全部的有向条件边以及全部的有向条件概率。

假设标准分析图网络80h中的网络节点D1对应的标准对象实体词为标准对象实体词d10,网络节点C1对应的标准指标实体词为标准指标实体词c10,网络节点C3对应的标准指标实体词为标准指标实体词c30,网络节点H1对应的标准结果实体词为标准结果实体词h10,网络节点H2对应的标准结果实体词为标准结果实体词h20。

根据标准分析图网络80h中的有向条件概率,企业服务器80a可以分别获取8个备用有向决策路径的备用路径概率,在本申请实施例中基于贝叶斯定理计算备用路径概率,8个备用路径概率如表2所示,表2是本申请实施例提供的一种备用路径概率的示意表。

表2

请再参见图8,将图8所示的备用路径概率80i(即上述表2所示的8个备用路径概率)中的最大备用路径概率(即P3)确定为目标路径概率,将目标路径概率对应的备用有向决策路径确定为目标有向决策路径80j,可知备用有向决策路径d10—>c30—>h10为目标有向决策路径80j。企业服务器80a可以将目标有向决策路径80j中的标准结果实体词(即标准结果实体词h10)确定为目标标准结果实体词,然后根据目标标准结果实体词确定业务分析参考结果。

进一步地,企业服务器80a将目标有向决策路径80j中的备用标准对象实体词(即标准对象实体词d10)确定为目标标准对象实体词,将目标有向决策路径80j中的备用标准指标实体词(即标准指标实体词c30)确定为目标标准指标实体词。企业服务器80a可以根据目标有向决策路径80j中的指向顺序、标准对象实体词d10、标准指标实体词c30以及标准结果实体词h10,输出用户属性文本80c的业务分析参考文本d10,【c30】,至用户终端80b。用户终端80b获取到业务分析参考文本d10,【c30】,后,投保人可以准确的获取核保结果(即标准结果实体词h10),且能获取核保结论是标准结果实体词h10的原因。

本申请充分利用了图网络结构的可解释性能力,在模型预测输出的时候,将所有的网络节点串联出逻辑链路(即有向决策路径)并输出,给企业的人工核保提供了重要参考,这极大地提高了该智能核保系统的可解释性,使得核保结论更加可信。

上述可知,针对业务数据分析场景中实体词的差异化表达方式,本申请实施例通过获取用于表征第一用户属性样本文本的标准用户属性实体词,以及用于表征业务分析结果的标准结果实体词,来构建初始分析图网络,可以消除差异化的表达,进而提高不同表达的广泛适用性;此外,本申请实施例通过标准分析图网络中的有向条件概率,可以智能地预测用户属性文本的业务分析参考结果,从而可以降低业务数据分析上的资源成本;进一步地,本申请构建标准分析图网络时不需要预先设定好分析结果与分析指标的映射关系,可以避免现有技术中过渡依赖业务人员的业务经验的缺陷,进而可以在业务数据分析上保证业务分析结果的准确性。

本申请提供了一种从用户属性文本(即电子体检报告等)到业务分析参考结果(即核保结论)的端到端的图推断式的新式核保系统。该核保系统采用了最新的AI模型,分别进行了医学文本结构化,核保推理图谱构建,核保网络预测推理,最后得到核保结论。结合上述图2、图6以及图7所对应的实施例,请一并参见图9,图9是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由图1所述的用户终端或分析服务器或企业服务器执行,也可以由用户终端和分析服务器、企业服务器共同执行,在本申请实施例中,以该方法由分析服务器执行为例进行说明。如图9所示,该数据处理过程包括如下步骤:

步骤S901,电子体检报告/电子健康告知书。

具体的,分析服务器获取企业服务器或用户终端发送的电子体检报告/电子健康告知书。可以理解的是,若分析方获取的用户属性文本为纸质形式,则可以通过分析服务器的扫描功能,获取纸质用户属性文本对应的电子用户属性文本。

步骤S902,医学文本结构化模块。

具体的,医学文本结构化模块解决了实际核保场景中广泛适用性差的问题,该模块将半结构化甚至非结构化的用户属性文本经过结构化算法和标准化算法得出规范的医学实体词(即标准用户属性实体词),在此之中,口语化的表达或差异化表达会被映射到同一个标准表达,具体来说,结构化将不同类别疾病、症状、药物、手术、检验、检查、部位、治疗等的同类近似表达统一标准化,确保了图谱中疾病、症状判断以及结论的唯一性,使得图推理的核保模型能够有更宽泛的适应场景和更广的扩展性。其对应的具体过程可以参见图2所对应的实施例中步骤S101的描述,此处不进行赘述。

步骤S903,核保图网络构建模块。

具体的,核保图网络构建模块解决实际核保场景中可扩展性差的问题,该模块充分利用第一用户属性样本文本中提及的医学实体词,并用其构建初始分析图网络,该图网络包括三层(网络对象层、网络指标层、网络结果层)。根据训练数据(即第二用户属性样本文本以及其对应的业务分析结果标签),利用贝叶斯定理确定初始分析图网络中网络节点之间转移的有向概率值,该过程是自动从训练数据中训练初始分析图网络,得到标准分析图网络,不需要人工添加判断规则。

步骤S904,核保图网络预测模块。

步骤S905,核保结论。

具体的,核保图网络预测模块解决实际核保场景中可解释性差的问,利用上一步训练好的标准分析图网络,对新输入的用户属性文本进行基于贝叶斯定理的图推断,最终得到该用户属性文本的核保结论,并且输出推断路径(即目标有向决策路径)作为该核保结论的解释。

本申请提供了一种从电子报告(即用户属性文本)到核保结论(业务分析参考结果)的端到端方式的新式智能核保解决方案。结合先进的人工智能模型(NER模型等),自动生成疾病文本以及判断规则文本,在标准分析图网络上进行推理获得核保结论以及可解释的逻辑。另外本申请提出的图构建方式以及图推断式的核保方法能够很好的利用已有的训练数据,且自动地构建不同种疾病的判断方式,大大减少了开发人员繁重的具体疾病规则开发工作,也实现从电子报告到核保结论的端到端式的连接。对于之后的电子报告,无需人工介入,可以直接给出核保结论。区别于现有的核保模型,本方案利用标准分析图网络做核保结论的推断,在给出核保结论的同时,还能够输出电子报告到核保路径的决策路径,快速地反馈系统作出决策的逻辑判断方式,使得核保业务员能够对核保结论快速进行二次核验,基于此,通过本申请还可以有效降低机构骗保的概率。

进一步地,请参见图10,图10是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该数据处理装置1可以包括:第一获取模块11、第二获取模块12、第三获取模块13以及确定概率模块14。

第一获取模块11,用于获取第一用户属性样本文本,获取用于表征第一用户属性样本文本的标准用户属性实体词;

第二获取模块12,用于获取用于表征业务分析结果的标准结果实体词,将标准用户属性实体词以及标准结果实体词作为网络节点,根据网络节点构建初始分析图网络;

第三获取模块13,用于获取第二用户属性样本文本以及第二用户属性样本文本对应的业务分析结果标签;业务分析结果标签属于标准结果实体词;

确定概率模块14,用于根据第二用户属性样本文本与业务分析结果标签之间的关联关系,确定初始分析图网络中的网络节点之间的有向条件概率,得到包含有向条件概率的标准分析图网络;标准分析图网络用于为用户属性文本预测业务分析参考结果。

其中,第一获取模块11、第二获取模块12、第三获取模块13以及确定概率模块14的具体功能实现方式可以参见上述图2对应实施例中的步骤S101-步骤S104,这里不再进行赘述。

再请参见图10,初始分析图网络包括网络节点之间的有向条件边;

确定概率模块14可以包括:第一获取单元141、第二获取单元142以及第一确定单元143。

第一获取单元141,用于根据第二用户属性样本文本与业务分析结果标签之间的关联关系,获取包含第二用户属性样本文本以及业务分析结果标签的有向决策路径;

第二获取单元142,用于在初始分析图网络中获取有向决策路径所指示的有向条件边,作为训练有向条件边;

第一确定单元143,用于根据有向决策路径,确定训练有向条件边对应的有向条件概率。

其中,第一获取单元141、第二获取单元142以及第一确定单元143的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。

再请参见图10,标准用户属性实体词包括标准对象实体词以及标准指标实体词;第二用户属性样本文本包括属于标准对象实体词的对象样本文本,以及属于标准指标实体词的指标样本文本;

第二获取单元142可以包括:第一确定子单元1421以及第二确定子单元1422。

第一确定子单元1421,用于在初始分析图网络中,将对象样本文本对应的网络节点确定为第一训练网络节点,将指标样本文本对应的网络节点确定为第二训练网络节点,将业务分析结果标签对应的网络节点确定为第三训练网络节点;

第二确定子单元1422,用于根据有向决策路径,在第一训练网络节点、第二训练网络节点以及第三训练网络节点之间的有向条件边中确定训练有向条件边。

其中,第一确定子单元1421以及第二确定子单元1422的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。

再请参见图10,训练有向条件边包括第一训练有向条件边;

第一确定单元143可以包括:第一生成子单元1431以及第三确定子单元1432。

第一生成子单元1431,用于根据有向决策路径中的对象样本文本以及指标样本文本之间的关联关系,生成第一训练网络节点指向第二训练网络节点的第一概率;

第三确定子单元1432,用于将第一概率确定为第一训练有向条件边对应的有向条件概率;其中,第一训练有向条件边是指由第一训练网络节点指向第二训练网络节点的有向条件边。

其中,第一生成子单元1431以及第三确定子单元1432的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。

再请参见图10,训练有向条件边包括第二训练有向条件边;

第一确定单元143可以包括:第二生成子单元1433以及第四确定子单元1434。

第二生成子单元1433,用于根据有向决策路径中的指标样本文本以及业务分析结果标签之间的关联关系,生成第二训练网络节点指向第三训练网络节点的第二概率;

第四确定子单元1434,用于将第二概率确定为第二训练有向条件边对应的有向条件概率;其中,第二训练有向条件边是指由第二训练网络节点指向第三训练网络节点的有向条件边。

其中,第二生成子单元1433以及第四确定子单元1434的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。

再请参见图10,训练有向条件边包括第三训练有向条件边;有向决策路径包括至少两个指标样本文本;

第一确定单元143可以包括:第三生成子单元1435以及第五确定子单元1436。

第三生成子单元1435,用于根据有向决策路径中的至少两个指标样本文本之间的关联关系,生成至少两个第二训练网络节点之间的第二概率;

第五确定子单元1436,用于将第二概率确定为第三训练有向条件边对应的有向条件概率;至少两个第二训练网络节点包括至少两个指标样本文本分别对应的网络节点;其中,第三训练有向条件边,是根据有向决策路径所包含的至少两个指标样本文本之间的指向顺序,在至少两个第二训练网络节点之间进行连接所得到的有向条件边。

其中,第三生成子单元1435以及第五确定子单元1436的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。

再请参见图10,对象样本文本的数量为至少两个,指标样本文本的数量为至少两个;至少两个对象样本文本包括目标对象样本文本,至少两个指标样本文本包括目标指标样本文本;

第一生成子单元1431,具体用于根据有向决策路径,确定由目标对象样本文本所指向的指标样本文本的数量,作为第一数量;

第一生成子单元1431,还具体用于根据有向决策路径,确定由目标对象样本文本所指向的目标指标样本文本的数量,作为第二数量;

第一生成子单元1431,还具体用于根据第一数量以及第二数量,确定第一训练网络节点指向第二训练网络节点的第一概率。

其中,第一生成子单元1431的具体功能实现方式可以参见上述图6对应实施例中的步骤S1041-步骤S1043,这里不再进行赘述。

再请参见图10,标准用户属性实体词包括标准对象实体词以及标准指标实体词;

第二获取模块12可以包括:第二确定单元121、第一生成单元122、第一连接单元123、第二连接单元124、第三确定单元125以及第二生成单元126。

第二确定单元121,用于将标准对象实体词、标准指标实体词以及标准结果实体词确定为网络节点;

第一生成单元122,用于根据标准对象实体词对应的网络节点生成网络对象层,根据标准指标实体词对应的网络节点生成网络指标层,根据标准结果实体词对应的网络节点生成网络结果层;

第一连接单元123,用于将网络对象层中的每个网络节点,分别与网络指标层中的每个网络节点进行连接,得到第一有向边;

第二连接单元124,用于将网络指标层中的每个网络节点,分别与网络结果层中的每个网络节点进行连接,得到第二有向边;

第三确定单元125,用于将第一有向边以及第二有向边确定为有向条件边;

第二生成单元126,用于根据网络节点以及有向条件边,构建初始分析图网络。

其中,第二确定单元121、第一生成单元122、第一连接单元123、第二连接单元124、第三确定单元125以及第二生成单元126的具体功能实现方式可以参见上述图2对应实施例中的步骤S102,这里不再进行赘述。

再请参见图10,第一获取模块11可以包括:第一输入单元111以及第二输入单元112。

第一输入单元111,用于将第一用户属性样本文本输入文本识别模型,基于文本识别模型获取用于表征第一用户属性样本文本的原始用户属性实体词;

第二输入单元112,用于将原始用户属性实体词输入实体词标准化模型,基于实体词标准化模型,对原始用户属性实体词进行标准化处理,得到标准用户属性实体词。

其中,第一输入单元111以及第二输入单元112的具体功能实现方式可以参见上述图2对应实施例中的步骤S101,这里不再进行赘述。

再请参见图10,文本识别模型包括输入层、编码层、隐藏层以及识别层;

第一输入单元111可以包括:第一处理子单元1111、第二处理子单元1112、第三处理子单元1113以及第四处理子单元1114。

第一处理子单元1111,用于基于输入层对第一用户属性样本文本进行切分处理,得到至少两个分词;

第二处理子单元1112,用于将至少两个分词输入编码层,基于编码层分别对至少两个分词进行编码处理,得到至少两个语义向量;

第三处理子单元1113,用于将至少两个语义向量输入隐藏层,基于隐藏层分别对至少两个语义向量进行隐藏特征提取处理,得到至少两个隐藏向量;

第四处理子单元1114,用于将至少两个隐藏向量输入识别层,基于识别层对至少两个隐藏向量进行识别处理,得到用于表征第一用户属性样本文本的原始用户属性实体词。

其中,第一处理子单元1111、第二处理子单元1112、第三处理子单元1113以及第四处理子单元1114的具体功能实现方式可以参见上述图2对应实施例中的步骤S101,这里不再进行赘述。

再请参见图10,第二输入单元112可以包括:第一获取子单元1121、第六确定子单元1122以及第二获取子单元1123。

第一获取子单元1121,用于获取标准样本实体词;

第六确定子单元1122,用于基于实体词标准化模型,确定标准样本实体词与原始用户属性实体词之间的编辑距离;

第二获取子单元1123,用于从编辑距离中获取最小编辑距离,将与最小编辑距离对应的标准样本实体词,确定为原始用户属性实体词的标准用户属性实体词。

其中,第一获取子单元1121、第六确定子单元1122以及第二获取子单元1123的具体功能实现方式可以参见上述图2对应实施例中的步骤S101,这里不再进行赘述。

本申请实施例通过获取第一用户属性样本文本,可以获取用于表征第一用户属性样本文本的标准用户属性实体词;进一步地,获取与第一用户属性样本文本相关联的业务分析结果,再获取用于表征业务分析结果的标准结果实体词,可以将标准用户属性实体词以及标准结果实体词作为网络节点,根据网络节点可以构建初始分析图网络;进一步地,为了基于初始分析图网络得到标准分析图网络,可以获取训练初始分析图网络的样本文本,该样本文本包括第二用户属性样本文本以及第二用户属性样本文本对应的业务分析结果标签;业务分析结果标签属于标准结果实体词;进一步地,可以根据第二用户属性样本文本与业务分析结果标签之间的关联关系,确定初始分析图网络中的网络节点之间的有向条件概率,则可以得到包含有向条件概率的标准分析图网络;标准分析图网络用于为用户属性文本预测业务分析参考结果。上述可知,针对业务数据分析场景中实体词的差异化表达方式,本申请实施例通过获取用于表征第一用户属性样本文本的标准用户属性实体词,以及用于表征业务分析结果的标准结果实体词,来构建初始分析图网络,可以消除差异化的表达,进而提高不同表达的广泛适用性;此外,本申请实施例通过标准分析图网络中的有向条件概率,可以智能地预测用户属性文本的业务分析参考结果,从而可以降低业务数据分析上的资源成本;进一步地,本申请构建标准分析图网络时不需要预先设定好分析结果与分析指标的映射关系,可以避免现有技术中过渡依赖业务人员的业务经验的缺陷,进而可以在业务数据分析上保证业务分析结果的准确性。

进一步地,请参见图11,图11是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,该计算机设备1000可以为上述图2对应实施例中的分析服务器,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:

获取第一用户属性样本文本,获取用于表征第一用户属性样本文本的标准用户属性实体词;

获取用于表征业务分析结果的标准结果实体词,将标准用户属性实体词以及标准结果实体词作为网络节点,根据网络节点构建初始分析图网络;

获取第二用户属性样本文本以及第二用户属性样本文本对应的业务分析结果标签;业务分析结果标签属于标准结果实体词;

根据第二用户属性样本文本与业务分析结果标签之间的关联关系,确定初始分析图网络中的网络节点之间的有向条件概率,得到包含有向条件概率的标准分析图网络;标准分析图网络用于为用户属性文本预测业务分析参考结果。

应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2、图6、图7以及图9所对应实施例中对数据处理方法的描述,也可执行前文图10所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2、图6、图7以及图9中各个步骤所提供的数据处理方法,具体可参见上述图2、图6、图7以及图9各个步骤所提供的实现方式,在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图2、图6、图7以及图9所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

进一步地,请参见图12,图12是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置2可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如,该数据处理装置2为一个应用软件;该数据处理装置2可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示,数据处理装置2可以包括:第一获取模块21、第二获取模块22以及确定结果模块23。

第一获取模块21,用于获取用户属性文本,获取用于表征用户属性文本的备用标准用户属性实体词;

第二获取模块22,用于获取标准分析图网络;标准分析图网络包括网络节点以及网络节点之间的有向条件概率;网络节点由标准用户属性实体词以及标准结果实体词构成;标准用户属性实体词包括备用标准用户属性实体词;标准结果实体词用于表征业务分析结果;

确定结果模块23,用于根据备用标准用户属性实体词以及标准分析图网络,确定用户属性文本的业务分析参考结果。

其中,第一获取模块21、第二获取模块22以及确定结果模块23的具体功能实现方式可以参见上述图7对应实施例中的步骤S201-步骤S203,这里不再进行赘述。

再请参见图12,备用标准用户属性实体词包括备用标准对象实体词以及备用标准指标实体词;

确定结果模块23可以包括:第一获取单元231、构建路径单元232、第二获取单元233、第一确定单元234以及第二确定单元235。

第一获取单元231,用于获取标准分析图网络中的标准结果实体词;

构建路径单元232,用于根据备用标准对象实体词、备用标准指标实体词以及标准结果实体词,构建针对用户属性文本的N个备用有向决策路径;其中,一个备用有向决策路径包括一个备用标准对象实体词、至少一个备用标准指标实体词以及一个标准结果实体词;N为正整数;

第二获取单元233,用于根据有向条件概率,分别获取N个备用有向决策路径的备用路径概率;

第一确定单元234,用于将备用路径概率中的最大备用路径概率确定为目标路径概率,将目标路径概率对应的备用有向决策路径确定为目标有向决策路径;

第二确定单元235,用于将目标有向决策路径中的标准结果实体词确定为目标标准结果实体词,根据目标标准结果实体词确定业务分析参考结果。

其中,第一获取单元231、构建路径单元232、第二获取单元233、第一确定单元234以及第二确定单元235的具体功能实现方式可以参见上述图7对应实施例中的步骤S203,这里不再进行赘述。

再请参见图12,确定结果模块23还可以包括:第三确定单元236以及输出文本单元237。

第三确定单元236,用于将目标有向决策路径中的备用标准对象实体词确定为目标标准对象实体词,将目标有向决策路径中的备用标准指标实体词确定为目标标准指标实体词;

输出文本单元237,用于根据目标有向决策路径中的指向顺序、目标标准对象实体词、目标标准指标实体词以及目标标准结果实体词,输出用户属性文本的业务分析参考文本。

其中,第三确定单元236以及输出文本单元237的具体功能实现方式可以参见上述图7对应实施例中的步骤S203,这里不再进行赘述。

本申请实施例通过获取第一用户属性样本文本,可以获取用于表征第一用户属性样本文本的标准用户属性实体词;进一步地,获取与第一用户属性样本文本相关联的业务分析结果,再获取用于表征业务分析结果的标准结果实体词,可以将标准用户属性实体词以及标准结果实体词作为网络节点,根据网络节点可以构建初始分析图网络;进一步地,为了基于初始分析图网络得到标准分析图网络,可以获取训练初始分析图网络的样本文本,该样本文本包括第二用户属性样本文本以及第二用户属性样本文本对应的业务分析结果标签;业务分析结果标签属于标准结果实体词;进一步地,可以根据第二用户属性样本文本与业务分析结果标签之间的关联关系,确定初始分析图网络中的网络节点之间的有向条件概率,则可以得到包含有向条件概率的标准分析图网络;标准分析图网络用于为用户属性文本预测业务分析参考结果。上述可知,针对业务数据分析场景中实体词的差异化表达方式,本申请实施例通过获取用于表征第一用户属性样本文本的标准用户属性实体词,以及用于表征业务分析结果的标准结果实体词,来构建初始分析图网络,可以消除差异化的表达,进而提高不同表达的广泛适用性;此外,本申请实施例通过标准分析图网络中的有向条件概率,可以智能地预测用户属性文本的业务分析参考结果,从而可以降低业务数据分析上的资源成本;进一步地,本申请构建标准分析图网络时不需要预先设定好分析结果与分析指标的映射关系,可以避免现有技术中过渡依赖业务人员的业务经验的缺陷,进而可以在业务数据分析上保证业务分析结果的准确性。

进一步地,请参见图13,图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示,上述计算机设备2000可以包括:处理器2001,网络接口2004和存储器2005,此外,上述计算机设备2000还可以包括:用户接口2003,和至少一个通信总线2002。其中,通信总线2002用于实现这些组件之间的连接通信。其中,用户接口2003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口2004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图13所示,作为一种计算机可读存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图13所示的计算机设备2000中,网络接口2004可提供网络通讯功能;而用户接口2003主要用于为用户提供输入的接口;而处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:

获取用户属性文本,获取用于表征用户属性文本的备用标准用户属性实体词;

获取标准分析图网络;标准分析图网络包括网络节点以及网络节点之间的有向条件概率;网络节点由标准用户属性实体词以及标准结果实体词构成;标准用户属性实体词包括备用标准用户属性实体词;标准结果实体词用于表征业务分析结果;

根据备用标准用户属性实体词以及标准分析图网络,确定用户属性文本的业务分析参考结果。

应当理解,本申请实施例中所描述的计算机设备2000可执行前文图2、图6、图7以及图9所对应实施例中对数据处理方法的描述,也可执行前文图12所对应实施例中对数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2、图6、图7以及图9中各个步骤所提供的数据处理方法,具体可参见上述图2、图6、图7以及图9各个步骤所提供的实现方式,在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图2、图6、图7以及图9所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

相关技术
  • 一种数据处理方法、装置、计算机设备和计算机可读存储介质
  • 数据处理方法、装置、计算机设备和计算机可读存储介质
技术分类

06120112179944