掌桥专利:专业的专利平台
掌桥专利
首页

产品知识图谱的构建方法、装置、终端以及存储介质

文献发布时间:2023-06-19 11:19:16


产品知识图谱的构建方法、装置、终端以及存储介质

技术领域

本申请属于计算机技术领域,尤其涉及一种产品知识图谱的构建方法、构建装置、构建终端以及存储介质。

背景技术

传统的产品知识图谱构建中,通常基于不同的产品信息,从产品出发,自顶向下构建。例如,在构建保险知识图谱时,通常基于不同的保险信息,从保险产品出发,自顶向下构建。发明人意识到,这种构建方式得到的保险知识图谱中保险知识覆盖率低、风险种类不全面、风险信息单薄,不能很好地从用户角度考虑风险。

发明内容

有鉴于此,本申请实施例提供了一种产品知识图谱的构建方法、构建装置、构建终端以及存储介质,以解决传统方法构建得到的产品知识图谱中,产品知识覆盖率低、包含的风险种类不全面、风险信息单薄的问题。

本申请实施例的第一方面提供了一种产品知识图谱的构建方法,包括:

获取样本用户对应的多个风险点,所述多个风险点用于表示所述样本用户对应的多种风险,其中,一个风险点对应一种风险;

获取多个产品信息,每个产品信息包括产品类别以及所述产品类别对应的多个产品名称;

确定多个产品类别、所述多个产品名称以及所述多个风险点之间的上下位关系,并基于所述上下位关系确定节点属性和存储位置,所述节点属性包括每个产品类别对应的节点属性、每个产品名称对应的节点属性以及每个风险点对应的节点属性,所述存储位置包括每个产品类别对应的存储位置、每个产品名称对应的存储位置以及每个风险点对应的存储位置;

基于所述节点属性和所述存储位置,在预设的图形数据库中存储每个产品类别、所述每个产品名称以及所述每个风险点,得到产品知识图谱。

本申请实施例的第二方面提供了一种产品知识图谱的构建装置,包括:

第一获取单元,用于获取样本用户对应的多个风险点,所述多个风险点用于表示所述样本用户对应的多种风险,其中,一个风险点对应一种风险;

第二获取单元,用于获取多个产品信息,每个产品信息包括产品类别以及所述产品类别对应的多个产品名称;

确定单元,用于确定多个产品类别、所述多个产品名称以及所述多个风险点之间的上下位关系,并基于所述上下位关系确定节点属性和存储位置,所述节点属性包括每个产品类别对应的节点属性、每个产品名称对应的节点属性以及每个风险点对应的节点属性,所述存储位置包括每个产品类别对应的存储位置、每个产品名称对应的存储位置以及每个风险点对应的存储位置;

存储单元,用于基于所述节点属性和所述存储位置,在预设的图形数据库中存储每个产品类别、所述每个产品名称以及所述每个风险点,得到产品知识图谱。

本申请实施例的第三方面提供了一种产品知识图谱的构建终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端上运行时,使得终端执行上述第一方面所述的方法的步骤。

本申请实施例提供的一种产品知识图谱的构建方法、构建装置、构建终端以及存储介质,具有以下有益效果:

构建终端获取用于表示样本用户多种的风险的多个风险点,基于多个风险点、产品信息对应的产品类别、产品名称等,自底向上构建生成产品知识图谱。这种构建产品知识图谱的方式,充分地从用户自身角度考虑,涵盖了用户可能会发生的各种类型、各种程度的风险,使构建生成的产品知识图谱中产品知识覆盖率广、用户可能会发生的风险种类齐全、风险信息丰富。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种产品知识图谱的构建方法的示意流程图;

图2是本申请一实施例提供的部分保险知识图谱示意图;

图3是本申请又一实施例提供的一种产品知识图谱的构建方法的示意性流程图;

图4是本申请又一实施例提供的一种产品知识图谱的构建方法的示意性流程图;

图5是本申请一实施例提供的一种产品知识图谱的构建装置的示意图;

图6是本申请另一实施例提供的一种产品知识图谱的构建终端的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

随着科技的发展,知识图谱广泛的应用于各个行业。例如,传统保险行业是一个知识密集型行业,在保险的售前、售中、售后的各个业务环节中,涉及到大量跨行业知识,包括保险产品、疾病健康知识、风险意外知识、客户当前经济状态、客户人生状态等。建立保险知识图谱,可以把多种行业知识进行关联,将该保险知识图谱应用于问答系统、保险产品推荐系统等场景中,可为用户解答保险相关的问题,为用户推荐保险产品。

传统的保险知识图谱构建中,通常基于不同的保险信息,从保险产品出发,自顶向下构建。发明人意识到,这种构建方式得到的保险知识图谱中保险知识覆盖率低、风险种类不全面、风险信息单薄,不能很好地从用户角度考虑风险。进而导致将该保险知识图谱应用于问答系统时,不能准确地为用户解答保险相关的问题,将该保险知识图谱应用于保险产品推荐系统时,不能抓住用户实际投保需求,给用户推荐的保险产品不准确,影响销售转化率和保险产品的销量。

有鉴于此,本申请提供了一种产品知识图谱的构建方法,该构建方法中,构建终端获取用于表示样本用户多种的风险的多个风险点,基于多个风险点、产品信息对应的产品类别、产品名称等,自底向上构建生成产品知识图谱。这种构建产品知识图谱的方式,充分地从用户自身角度考虑,涵盖了用户可能会发生的各种类型、各种程度的风险,使构建生成的产品知识图谱中产品知识覆盖率广、用户可能会发生的风险种类齐全、风险信息丰富。进一步地,若将该产品知识图谱应用于问答系统,可以准确地为用户解答相关的问题,提升了问答系统解答问题的准确率;若将该产品知识图谱应用于产品推荐系统,可以抓住用户实际需求,给用户推荐最合适的产品,提升了销售转化率和产品销量。

请参见图1,图1是本申请实施例提供的一种产品知识图谱的构建方法的示意流程图。本实施例中产品知识图谱的构建方法的执行主体为构建终端、服务器等,其中,构建终端包括但不限于智能手机、平板电脑、计算机、台式电脑、个人数字助理(Personal DigitalAssistant,PDA)、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本等,服务器包括但不限于独立的服务器、分布式服务器、服务器集群、云服务器等。如图1所示的方法可包括S101~S104,各个步骤的具体实现原理如下。

S101:获取样本用户对应的多个风险点,多个风险点用于表示样本用户对应的多种风险,其中,一个风险点对应一种风险。

风险点用于表示样本用户对应的风险,可以理解为,风险点就是从样本用户自身角度考虑,样本用户可能会发生的各种不同类型、不同程度的风险。一个风险点对应一种风险,多个风险点表示样本用户对应的多种风险。

示例性地,本示例中的风险点可以为样本用户可能会发生的不同类型的风险,例如,风险点可以为样本用户可能会发生的各种疾病(甲亢、高血压、冠心病、肿瘤、脑出血、心梗、抑郁症、先天失聪、先天失明等)。风险点也可以为样本用户可能会发生的各种意外(失业、车祸、溺水、意外失聪、意外失明、收入中断、突然的经济消耗等)。风险点还可以为样本用户发生各种疾病的诱因(年纪大小、家族遗传疾病、不健康的生活方式等)。此处仅为示例性说明,对此不做限定。

获取样本用户对应的多个风险点可以有多种方式。例如,样本用户预设多种不同类型的风险信息,采集样本用户预设的这些不同类型的风险信息,根据这些风险信息生成对应的风险点。或者,在会话日志、评论信息、保险网站、网络杂志等信息中提取风险点。又或者,在基于样本用户预设的多种不同类型的风险信息生成的风险点的基础上,对这些风险点进行随机组合,在随机组合的结果中选取合适的结果作为风险点,进一步丰富风险点的类型。

S102:获取多个产品信息,每个产品信息包括产品类别以及产品类别对应的多个产品名称。

多个产品信息可以由构建终端或服务器从数据库、各个业务终端、各大网站上采集得到。其中,产品信息可以包括保险信息、保险产品信息、业务信息等,每个产品信息包括该产品信息对应的产品类别,以及该产品类别对应的多个产品名称。本实施例中,以产品信息为保险信息为例进行说明,相应地,产品类别为保险类别、产品名称为保险产品。此处仅为示例性说明,对此不做限定。

示例性地,每个保险信息包括该保险信息对应的保险类别(险种类别),以及该保险类别对应的多个保险产品。例如,保险信息可以是关于财产保险的信息、关于人身保险的信息等。

当保险信息为财产保险信息时,该财产保险信息对应的保险类别为财产险;财产险这一保险类别对应多个保险产品,如财产损失保险、责任保险、信用保险等。其中,财产损失保险是指各类有形财产为保险标的的保险产品,如企业财产保险、家庭财产保险、运输工具保险、货物运输保险、工程保险、特殊风险保险、农业保险等;责任保险是指被保险人对第三者的财产损失或人身伤害应负的赔偿责任为保险标的的保险产品,如公众责任保险、产品责任保险、雇主责任保险、职业责任保险等。信用保险是指以各种信用行为为保险标的的保险,如商业信用保险、出口信用保险、合同保证保险、产品保证保险、忠诚保证保险等。此处仅为示例性说明,对此不做限定。

当保险信息为人身保险信息时,该人身保险信息对应的保险类别为人身险;人身险这一保险类别对应多个保险产品,如人寿保险、意外保险、健康保险等。其中,人寿保险可以包括死亡保险、两全保险、年金保险等。意外保险可以包括意外身故保险、意外残疾保险、意外津贴保险等。健康保险可以包括重疾险、医疗险等。

多个保险信息可以由构建终端或服务器从数据库、各个业务终端、各大网站上采集得到。开始采集到的保险相关的数据可以包括结构化数据和非结构化数据。结构化数据是指采集到的信息可直接存储至保险知识图谱中的数据,非结构化数据不可直接存储至保险知识图谱中。例如,非结构化数据可以是口语化数据、未进行划分的一大段文字、包含文字的图片、外文等。当采集到的数据为非结构化数据时,可先将非结构化数据转换为结构化数据。例如,识别到数据为小语种外文,可对该数据进行翻译,得到中文;识别到数据较为口语化,则进行分词、去停用词等处理,并将处理后的数据转换为书面用语;识别到的数据为未进行划分的一大段文字,则分析该段文字,进行划分;识别到的数据为包含文字的图片,识别图片中的文字;针对不同的非结构化数据进行不同的处理,最后得到多个保险信息。此处仅为示例性说明,对此不做限定。

S103:确定多个产品类别、多个产品名称以及多个风险点之间的上下位关系,并基于该上下位关系确定节点属性和存储位置,该节点属性包括每个产品类别对应的节点属性、每个产品名称对应的节点属性以及每个风险点对应的节点属性,该存储位置包括每个产品类别对应的存储位置、每个产品名称对应的存储位置以及每个风险点对应的存储位置。

节点属性可以包括每个产品类别对应的节点属性、每个产品名称对应的节点属性以及每个风险点对应的节点属性、根节点。其中,每个产品类别对应的节点属性可以包括子节点,每个产品名称对应的节点属性可以包括子节点,每个风险点对应的节点属性可以包括叶子节点(末端节点)。

存储位置包括每个产品类别对应的存储位置、每个产品名称对应的存储位置、每个风险点对应的存储位置,以及根节点对应的数据所对应的存储位置。

根节点为产品知识图谱最中心的数据(产品知识图谱的核心信息)对应的节点属性。可以理解为,产品知识图谱是以产品为核心构建的知识图谱,那么产品就可作为保险知识图谱最中心的数据。即产品对应的节点属性为根节点。根节点对应的数据可以为用户根据想要构建的知识图谱预设得到,也可以根据分析获取到的多个产品信息得到,例如,提取获取到的多个产品信息中的关键词,得到“产品”这一关键词,将“产品”作为根节点对应的数据。

示例性地,产品知识图谱可以包括保险知识图谱、保险产品知识图谱等。当产品知识图谱为保险知识图谱时,根节点为保险知识图谱最中心的数据(保险知识图谱的核心信息)对应的节点属性。可以理解为,保险知识图谱是以保险为核心构建的知识图谱,那么保险、保险产品就可作为保险知识图谱最中心的数据。即保险、保险产品分别对应的节点属性为根节点。根节点对应的数据可以为用户根据想要构建的知识图谱预设得到,也可以根据分析获取到的多个保险信息得到,例如,提取获取到的多个保险信息中的关键词,得到“保险”、这一关键词,将“保险”作为根节点对应的数据。

值得说明的是,“保险”或“保险产品”就仅是字面意思,可理解为其用于体现构建好的知识图谱属于哪一类型,并不用于指代某个具体的保险或保险产品。一个保险知识图谱中仅有一个根节点,在本实施例中,根节点对应的数据可以是保险,也可以是保险产品。此处仅为示例性说明,对此不做限定。

本实施例中,以产品信息为保险信息为例进行说明,相应地,产品类别为保险类别、产品名称为保险产品,构建得到的产品知识图谱为保险知识图谱。此处仅为示例性说明,对此不做限定。

确定多个产品类别、多个产品名称以及多个风险点之间的上下位关系。具体地,确定所有的保险信息对应的保险类别、所有的保险产品以及所有的风险点之间的上下位关系。可以根据这些信息之间的所属关系、包含关系确定这些信息之间的上下位关系。例如,A包含B,则A就为上位,B为下位;A包含B,B包含C,则C为B的下位,B为A的下位,A为上位。

示例性地,保险信息为财产保险信息和人身保险信息,该财产保险信息对应的保险类别为财产险,该人身保险信息对应的保险类别为人身险。财产险对应的多个保险产品为家庭财产保险、产品责任保险、雇主责任保险。人身险对应的多个保险产品为死亡保险、意外残疾保险、医疗保险。风险点为家用电器损坏、沙发损坏、轮胎使用过程中爆炸、玩具引发过敏、职业病致伤、职业病致残、正常死亡、意外失聪、意外摔断腿、甲亢、冠心病。财产险为家庭财产保险、产品责任保险、雇主责任保险的上位数据,家庭财产保险为家用电器损坏、沙发损坏的上位数据,相应地,家用电器损坏、沙发损坏为家庭财产保险的下位数据。产品责任保险为轮胎使用过程中爆炸、玩具引发过敏的上位数据,相应地,轮胎使用过程中爆炸、玩具引发过敏为产品责任保险的下位数据。同理,确定其余信息之间的上下位关系。

基于该上下位关系确定节点属性。具体地,所有的风险点均属于下位数据,因此,所有的风险点对应的节点属性均为叶子节点(末端节点)。保险类别均属于上位数据,且在与保险产品之间的关系中属于上位关系,因此,所有的保险类别对应的节点属性均为子节点。保险产品相对于保险类别属于下位数据,相对于风险点属于上位数据,由于图形数据库中的叶子节点(末端节点)只能有一类,因此,所有的保险产品对应的节点属性也均为子节点。

基于该上下位关系以及节点属性,确定存储位置。具体地,根据多个每个保险信息对应的保险类别、多个保险产品、多个风险点之间的上下位关系,以及每个保险类别对应的节点属性、每个保险产品对应的节点属性以、每个风险点对应的节点属性,确定每个保险信息对应的保险类别在预设的图形数据库中对应的存储位置、确定每个保险产品在预设的图形数据库中对应的存储位置,以及确定每个风险点在预设的图形数据库中对应的存储位置。

示例性地,预设的图形数据库中设置了根节点、子节点、叶子节点分别对应的存储位置。根据节点属性可以初步确定这些信息在预设的图形数据库中对应的大概存储位置,再根据上下位关系,进一步确定这些信息准确的存储位置。例如,所有的风险点对应的节点属性均为叶子节点,初步确定这些风险点在预设的图形数据库中存储位置为最底层的叶子节点对应的存储位置。进一步分析每个风险点对应的上位数据,如家用电器损坏、沙发损坏的上位数据为家庭财产保险。家用电器损坏、沙发损坏这两个风险点的存储位置,为图形数据库中家庭财产保险这一子节点下方的叶子节点对应的位置。基于同样的方式,确定每个保险信息对应的保险类别、每个保险产品以及每个风险点分别对应的存储位置。将这些信息存储至预设的图形数据库中对应的位置,得到构建好的保险知识图谱。

此处仅为示例性说明,对此不做限定。

S104:基于节点属性和存储位置,在预设的图形数据库中存储每个产品类别、每个产品名称以及每个风险点,得到产品知识图谱。

本实施例中,以产品信息为保险信息为例进行说明,相应地,产品类别为保险类别、产品名称为保险产品,构建得到的产品知识图谱为保险知识图谱。此处仅为示例性说明,对此不做限定。

预设的图形数据库即为保险知识图谱的雏形,可以理解为保险知识图谱的框架,预设的图形数据库中可预先存储有保险相关的数据。例如,根节点对应的数据可预先存储在预设的图形数据库中,即该图形数据库中可预先存储有“保险”或“保险产品”。再基于每个保险类别对应的节点属性、每个保险产品对应的节点属性以、每个风险点对应的节点属性、每个保险信息对应的保险类别在预设的图形数据库中对应的存储位置、每个保险产品在预设的图形数据库中对应的存储位置,以及每个风险点在预设的图形数据库中对应的存储位置,在该图形数据库中存储每个保险信息对应的保险类别、每个保险产品以及每个风险点,得到保险知识图谱。

预设的图形数据库中也可以预先什么都不存储,基于根节点对应的数据、每个保险类别对应的节点属性、每个保险产品对应的节点属性以、每个风险点对应的节点属性、每个保险信息对应的保险类别在预设的图形数据库中对应的存储位置、每个保险产品在预设的图形数据库中对应的存储位置、每个风险点在预设的图形数据库中对应的存储位置,以及根节点对应的数据所对应的存储位置,在该图形数据库中存储根节点对应的数据、每个保险信息对应的保险类别、每个保险产品以及每个风险点,得到保险知识图谱。

例如,本申请中是基于样本用户对应的风险点出发,构建保险知识图谱的,最底层的信息也就是风险点,因此,每个风险点对应的节点属性为叶子节点(末端节点)。图形数据库中预设了不同的节点属性对应的不同的存储位置。例如,叶子节点在图形数据库中存储位置为该图像数据库的最底端。根节点在图形数据库中存储位置为该图像数据库的最中心。在预设的图形数据库中寻找叶子节点应该存储的位置,得到每个风险点对应的存储位置,此处仅为示例性说明,对此不做限定。

图2是本申请一实施例提供的部分保险知识图谱示意图。可以理解的是,该示意图仅是为了帮助理解,展示的保险知识图谱中一小部分内容,并不代表构建好的整个保险知识图谱。

如图2所示,保险产品/保险即为保险知识图谱中根节点对应的数据,其存储位置也是保险知识图谱中根节点对应的位置。在构建保险知识图谱的过程中,保险产品/保险即为预设的图形数据库中根节点对应的数据,其存储位置也是预设的图形数据库中根节点对应的位置。根据该根节点对应的位置,将保险产品/保险存储至预设的图形数据库中。财产险与人身险对应的节点属性均为子节点,且均为根节点的下位,即均为保险产品/保险的下位数据。因此,财产险与人身险的存储位置为预设的图形数据库中紧挨着根节点下面的子节点所对应的位置。将财产险与人身险存储至预设的图形数据库中紧挨着根节点下面的子节点所对应的位置。

家庭财产保险、产品责任保险、雇主责任保险为具体的保险产品,这些保险产品对应的节点属性均为子节点,即均为财产险的下位数据。因此,家庭财产保险、产品责任保险、雇主责任保险分别对应的存储位置,为预设的图形数据库中财产险下面的子节点对应的位置,将家庭财产保险、产品责任保险、雇主责任保险并排存储至预设的图形数据库中财产险下面的三个子节点对应的位置。对属于同一级别的节点属性对应的数据,在存储时对这些数据的存储顺序不做限定。例如,对于家庭财产保险、产品责任保险、雇主责任保险在图形数据库中的存储顺序不做限定,可以是从左到右家庭财产保险、产品责任保险、雇主责任保险这样存储,也可以是产品责任保险、雇主责任保险、家庭财产保险这样存储。此处仅为示例性说明,对此不做限定。

家用电器损坏、沙发损坏是用户对应的风险点,属于家庭财产保险具体保障的内容,这些风险点对应的节点属性均为叶子节点,具体属于家庭财产保险这一保险产品的下位数据。因此,家用电器损坏、沙发损坏分别对应的存储位置,为预设的图形数据库中家庭财产保险下面的叶子节点对应的位置。将家用电器损坏、沙发损坏并排存储至图形数据库中家庭财产保险下面的叶子节点对应的位置。

轮胎使用过程中爆炸、玩具引发过敏是用户对应的风险点,属于产品责任保险具体保障的内容,这些风险点对应的节点属性均为叶子节点,具体属于产品责任保险这一保险产品的下位数据。因此,轮胎使用过程中爆炸、玩具引发过敏分别对应的存储位置,为预设的图形数据库中产品责任保险下面的叶子节点对应的位置。将轮胎使用过程中爆炸、玩具引发过敏并排存储至图形数据库中产品责任保险下面的叶子节点对应的位置。

职业病致伤、职业病致残是用户对应的风险点,属于雇主责任保险具体保障的内容,这些风险点对应的节点属性均为叶子节点,具体属于雇主责任保险这一保险产品的下位数据。因此,职业病致伤、职业病致残分别对应的存储位置,为预设的图形数据库中雇主责任保险下面的叶子节点对应的位置。

同理,死亡保险、意外残疾保险、医疗保险为具体的保险产品,这些保险产品对应的节点属性均为子节点,即均为人身险的下位数据。因此,死亡保险、意外残疾保险、医疗保险分别对应的存储位置,为预设的图形数据库中人身险下面的子节点对应的位置。将死亡保险、意外残疾保险、医疗保险并排存储至图形数据库中人身险下面的子节点对应的位置。

正常死亡是用户对应的风险点,属于死亡保险具体保障的内容,该风险点对应的节点属性为叶子节点,具体属于死亡保险这一保险产品的下位数据。因此,正常死亡对应的存储位置,为预设的图形数据库中死亡保险下面的叶子节点对应的位置。将正常死亡存储至图形数据库中死亡保险下面的叶子节点对应的位置。

意外失聪、意外摔断腿是用户对应的风险点,属于意外残疾保险具体保障的内容,这些风险点对应的节点属性均为叶子节点,具体属于意外残疾保险这一保险产品的下位数据。因此,意外失聪、意外摔断腿分别对应的存储位置,为预设的图形数据库中意外残疾保险下面的叶子节点对应的位置。将意外失聪、意外摔断腿并排存储至图形数据库中意外残疾保险下面的叶子节点对应的位置。

甲亢、冠心病是用户对应的风险点,属于医疗保险具体保障的内容,这些风险点对应的节点属性均为叶子节点,具体属于医疗保险这一保险产品的下位数据。因此,甲亢、冠心病分别对应的存储位置,为预设的图形数据库中医疗保险下面的叶子节点对应的位置。将甲亢、冠心病并排存储至图形数据库中医疗保险下面的叶子节点对应的位置。

可以理解的是,此处均为示例性说明,对此不做限定。

根据上述方式将根节点对应的数据、每个保险信息对应的保险类别、每个保险产品以及每个风险点,均存储至预设的图形数据库中后,得到构建好的保险知识图谱。可以理解的是,该保险知识图谱可以随时更新,即若获取到新的风险点、新的保险信息(新的保险信息包括该新的保险信息对应的保险类别,该保险类别对应的保险产品),通过S103中的方法,确定新的风险点、新的保险信息对应的保险类别、该保险类别对应的保险产品分别对应的节点属性和分别对应的存储位置,根据新确定的节点属性和存储位置,在构建好的保险知识图谱中存储新的风险点和新的保险信息,实现对保险知识图谱的更新。

本实施例中,构建终端获取用于表示样本用户多种的风险的多个风险点,基于多个风险点、保险信息对应的保险类别、保险产品等,自底向上构建生成保险知识图谱。这种构建保险知识图谱的方式,充分地从用户自身角度考虑,涵盖了用户可能会发生的各种类型、各种程度的风险,使构建生成的保险知识图谱中保险知识覆盖率广、用户可能会发生的风险种类齐全、信息丰富。进一步地,若将该保险知识图谱应用于问答系统,可以准确地为用户解答保险相关的问题,提升了问答系统解答问题的准确率;若将该保险知识图谱应用于保险产品推荐系统,可以抓住用户实际投保需求,给用户推荐最合适的保险产品,提升了销售转化率和保险产品的销量。

如图3所示,图3是本申请又一实施例提供的一种产品知识图谱的构建方法的示意性流程图,可选地,在一种可能的实现方式中,上述S101可包括S1011~S1013,具体如下:

S1011:获取待分析数据,该待分析数据包括会话日志和评论信息,该会话日志包括样本用户咨询保险时生成的会话,该评论信息为样本用户评论保险的信息。

待分析数据可以包括会话日志、评论信息、保险网站中的网页内容、网络杂志中的信息等。对于不同的待分析数据有不同的获取方式,以实际情况为准,对此不做限定。

会话日志包括样本用户咨询保险时生成的会话,可以理解为该会话日志由样本用户与保险工作人员对话时产生的。例如,样本用户通过网页、手机软件(Application,APP)、小程序等方式咨询保险相关信息(保险产品、保险类型、保险保障的内容等)时,会产生聊天信息,构建终端将这些聊天记录整合就得到了会话日志。

评论信息由样本用户评论保险的信息组成。例如,样本用户在网页、APP、小程序中对某些保险产品发表评论,终端将样本用户的评论整合得到评论信息。

对于保险网站中的网页内容、网络杂志中的信息,可在保险网站中提取与保险相关的网页内容,在网络杂志中采集与保险相关的信息。

可以理解的是,待分析数据也可以是预先由其他设备生成,本构建终端获取其他设备发送的待分析数据。还可以由用户将待分析数据上传至本构建终端。此处仅为示例性说明,对此不做限定。

S1012:在待分析数据中提取样本用户的多种风险信息,并基于该样本用户的多种风险信息生成多个候选风险点。

在待分析数据中提取样本用户可能会发生的多种风险信息,基于样本用户可能会发生的多种风险信息,生成多个候选风险点。由于在待分析数据中提取到样本用户可能会发生的多种风险信息中,有些可作为样本用户对应的风险点,有些并不能作为样本用户对应的风险点,因此,此时基于样本用户可能会发生的多种风险信息,生成的是多个候选风险点。对候选风险点进行筛选,可得到样本用户对应的风险点。

对待分析数据进行具体分析,即提取待分析数据中样本用户可能会发生的风险信息、样本用户可能会发生风险的因素、样本用户已经发生的风险等信息,根据这些信息逐一生成候选风险点。

示例性地,当待分析数据为会话日志时,分析会话日志中的具体聊天信息,对该聊天信息进行分词处理,得到多个分词。在多个分词中提取样本用户可能会发生的风险信息、样本用户可能会发生风险的因素、样本用户已经发生的风险等信息,根据这些信息逐一生成候选风险点。

例如,聊天信息为“我出去玩的时候不小心摔断了腿”,对该聊天信息进行分词处理,得到“我/玩/不小心/摔断了腿”。经过人为判断,其中“摔断了腿”是可作为风险点的,就可将该信息提取出来,作为候选风险点,即候选风险点为“摔断了腿”。

又例如,聊天信息为“我坐大巴出去旅游的时候,出了车祸摔断了腿”,“大巴”、“旅游”、“车祸”、“摔断了腿”都是样本用户可能会发生风险的因素,将这些信息分别提取出来,作为候选风险点,即候选风险点为“大巴”、“旅游”、“车祸”、“摔断了腿”。

再例如,聊天信息为“我国庆期间坐飞机出去旅游了”,“飞机”、“旅游”都是样本用户可能会发生风险的因素,将这些信息分别提取出来,作为候选风险点,即候选风险点为“飞机”、“旅游”。此处仅为示例性说明,对此不做限定。

S1013:在多个候选风险点中,确定样本用户对应的多个风险点。

在多个候选风险点中进行筛选,筛选的结果作为样本用户对应的多个风险点。先对多个候选风险点进行去重处理,过滤掉多个候选风险点中相同的候选风险点,再过滤掉去重处理后的多个候选风险点中不能作为最终样本用户对应的风险点的候选风险点,得到样本用户对应的多个风险点。

延续S1012中的例子,上述S1012中得到的候选风险点有“摔断了腿”、“大巴”、“旅游”、“车祸”、“摔断了腿”、“飞机”、“旅游”。对这些候选风险点进行去重处理,得到候选风险点有“摔断了腿”、“大巴”、“旅游”、“车祸”、“飞机”。对去重处理后得到的多个候选风险点,进行人为筛选,得到样本用户对应的多个风险点。例如,将这些候选风险点中的“摔断了腿”、“车祸”作为样本用户对应的风险点。

本实施例中,在待分析数据中挖掘样本用户可能会发生的各种类型、各种程度的风险信息,基于挖掘的这些风险信息生成风险点,使风险点的种类齐全、贴近用户、风险覆盖率广,进而使基于这些风险点构建生成的保险知识图谱中保险知识覆盖率广、用户可能会发生的风险种类齐全、风险信息丰富。

可选地,在一种可能实现的方式中,在S1012之后还可以包括S1014~S1017,具体如下:

S1014:对多个候选风险点进行随机组合,得到多个组合结果。

将多个候选风险点进行随机组合,对于组合的数量不进行限制,可以是两个候选风险点进行组合,也可以是多个候选风险点进行组合,进而得到多个组合结果。

例如,上述候选风险点有“摔断了腿”、“大巴”、“旅游”、“车祸”、“飞机”,将这些候选风险点进行随机组合,可得到“大巴摔断了腿”、“大巴车祸摔断了腿”、“旅游摔断了腿”、“摔断了腿旅游”、“车祸旅游”、“飞机旅游摔断了腿”、“飞机摔断了腿”等多个组合结果。可以理解的是,此处仅示例了个别组合结果,实际组合结果远多于此。

S1015:通过预设的语言评分模型对每个组合结果进行处理,得到每个组合结果对应的评分。

预设的语言评分模型是在网络中获取到的已经训练好的模型,该模型用于评价输入的语句、以及该语句表达的事实的合理性,其训练过程以及对数据的具体处理过程可参考现有技术,此处仅简单描述。

示例性地,将每个组合结果输入至语言评分模型中进行评分处理,该语言评分模型输出每个组合结果对应的评分。例如,“旅游摔断了腿”、“摔断了腿旅游”、“飞机旅游摔断了腿”输入语言评分模型中进行评分处理,该语言评分模型输出“旅游摔断了腿”对应的评分为90,“摔断了腿旅游”显然不符合正常的语句顺序,此时该语言评分模型输出“摔断了腿旅游”对应的评分为35,该语言评分模型输出“飞机旅游摔断了腿”对应的评分为85。此处仅为示例性说明,对此不做限定。

S1016:获取评分大于或等于预设阈值的目标组合结果。

预设阈值由样本用户预先设置,用于判断组合结果是否可以生成相应的风险点。

将每个组合结果对应的评分与预设阈值比较,当评分大于或等于预设阈值时,将该组合结果记为目标组合结果;当评分小于预设阈值时,不做处理或删除该组合结果。

例如,预设阈值为80。“旅游摔断了腿”对应的评分为90,该评分大于预设阈值,将“旅游摔断了腿”这一组合结果标记为目标组合结果。又例如,“摔断了腿旅游”对应的评分为35,该评分小于预设阈值,不对“摔断了腿旅游”这一组合结果进行处理,或者删除“摔断了腿旅游”这一组合结果。此处仅为示例性说明,对此不做限定。

S1017:基于目标组合结果,生成样本用户对应的风险点。

基于所有的目标组合结果,生成样本用户对应的多个风险点。其中,一个目标组合结果生成一个风险点。

例如,预设阈值为80。“旅游摔断了腿”对应的评分为90,该评分大于预设阈值,“旅游摔断了腿”这一组合结果为目标组合结果。可根据“旅游摔断了腿”生成样本用户对应的一个风险点。值得说明的是,在生成风险点时,可适当对目标组合结果的具体表达进行润色。例如,“旅游摔断了腿”对应的风险点可以为“在旅游过程中不小心摔断了腿”、“在旅游过程中摔断了腿”等。

“摔断了腿旅游”对应的评分为35,该评分小于预设阈值,此时,不会根据该“摔断了腿旅游”生成风险点。

“飞机旅游摔断了腿”对应的评分为85,该评分大于预设阈值,“飞机旅游摔断了腿”这一组合结果为目标组合结果。可根据“飞机旅游摔断了腿”生成样本用户对应的一个风险点。对“飞机旅游摔断了腿”进行润色,得到的风险点可以为“坐飞机旅游时,不小心摔断了腿”、“坐飞机旅游时,飞机失事导致摔断了腿”等。此处仅为示例性说明,对此不做限定。

本实施例中,对候选风险点的随机组合,在随机组合的结果中进一步筛选合适的风险作为风险点。进一步扩充了风险点的类型、使风险点的覆盖率更广。例如,在S1013中得到的风险点为“摔断了腿”、“车祸”,通过本实施例中的实现方式,还得到了“坐飞机旅游时,不小心摔断了腿”这一风险点。

可选地,在一种可能实现的方式中,为了使生成的保险知识图谱个更为简洁,便于实际应用过程中查找答案,可对生成的多个风险点进行整合,即将表达同一概念、同一风险的风险点合并为一个风险点,值得说明的是,虽然合并为一个风险点,但存储至图形数据库中时,可将表达同一概念、同一风险的风险点都存储在合并后的风险点对应的存储位置中。

例如,获取到的风险点有甲亢、甲状腺功能亢进、瘿气等,由于甲状腺功能亢进、瘿气是甲亢的别称,其表达的是同一风险,可将甲亢、甲状腺功能亢进、瘿气合并为同一风险点。以甲亢为代表,作为合并后的风险点。值得说明的是,虽然将甲亢、甲状腺功能亢进、瘿气作为同一风险点,但在图形数据库中进行存储时,将甲状腺功能亢进、瘿气也存储在甲亢对应的存储位置中。例如,可以存储为甲亢/甲状腺功能亢进/瘿气。也可用缩略图的形式体现,即叶子节点中可直观看到的信息为甲亢,点击该叶子节点,可展开该叶子节点对应的缩略图,缩略图中展示有甲状腺功能亢进、瘿气。此处仅为示例性说明,对此不做限定。

可选地,在一种可能实现的方式中,获取样本用户对应的多个风险点还可包括:采集样本用户预设的不同类型的风险信息;基于该不同类型的风险信息,生成样本用户对应的风险点。

将可以想到的用户可能会产生的各种类型的风险信息记录在文本中,得到样本用户预设的不同类型的风险信息。获取文本中记录的样本用户预设的不同类型的风险信息,根据这些不同类型的风险信息,生成样本用户对应的多个风险点。其中,一个风险生成对应的一个风险点。

示例性地,样本用户预设的不同类型的风险信息可以为玩具设计不合理导致儿童误食,引发手术或伤害、玩具含有毒成分、家电损坏、沙发损坏、药品导致后遗症、食品中毒、意外失聪、意外失明、意外溺水、旅游中出车祸、飞机失事、被开除、丢失工作、家人生病导致急需用钱、做手术、感染风寒、冠心病、腰椎劳损、高血压、高血脂、年龄过大导致的疾病、遗传病、年龄过小导致的疾病、不孕不育、抽烟导致的肺病、抑郁症、自然灾害等。这些均是从样本用户角度出发,考虑到样本用户可能会发生的各种类型的风险。根据这些不同类型的风险信息,可对应生成多个不同的风险点。

在本实施例中,为了使风险点更贴近用户,更能体现对用户的多方位考虑,可采集表达比较口语化的风险,进而生成比较口语化的风险点。例如,样本用户对应的风险信息可以是耳朵听不见了、眼睛看不见了,书面语表达为失聪、失明,为了更贴近用户,对应的风险点也用“耳朵听不见了”、“眼睛看不见了”来表示。这样表示风险点的另一个好处是,将基于这种表达的风险点生成的保险知识图谱应用于问答系统或者应用于保险产品推荐系统时,更能快速、准确地解答目标用户(可理解为消费者、客户等)的问题,为目标用户推荐更准确的保险产品。因为大多数目标用户在咨询问题时,会倾向于使用口语化的语言表达,那么基于该保险知识图谱可快速、准确地查找到与该目标用户口语化的语言表达相匹配的答案,进而选择出更符合目标用户的保险产品推荐给目标用户,提升了目标用户的体验感,提升了智能交互的友好度。

可选地,在一种可能实现的方式中,在采集样本用户预设的不同类型的风险信息,基于该不同类型的风险信息,生成样本用户对应的风险点之后,还可将此时生成的多个风险点进行随机组合,得到多个组合结果,通过预设的语言评分模型对每个组合结果进行处理,得到每个组合结果对应的评分;获取评分大于或等于预设阈值的组合结果,并基于评分大于或等于预设阈值的组合结果,生成样本用户对应的多个新的风险点。具体的实施方式可参考S1014~S1017中的描述,此处不再赘述。这样进一步地丰富了风险点的类型,扩大用户可能会发生的风险的覆盖率。

如图4所示,图4是本申请又一实施例提供的一种产品知识图谱的构建方法的示意性流程图,可选地,在一种可能的实现方式中,如图4所示的产品知识图谱的构建方法可包括S201~S206。其中,图4所示的步骤S201~S204可参考上述对S101~S104的相关描述,为了简洁,这里不再赘述。下面将具体对步骤S205~S206进行说明。

S205:获取目标用户输入的自然查询语句。

本实施例中,以产品知识图谱为保险知识图谱为例进行说明。

示例性地,目标用户为想要咨询保险相关信息的用户,自然查询语句为目标用户想要咨询的与保险相关的问题。

示例性地,当用户想要咨询与保险相关的信息时,可在终端上的浏览器、应用程序(Application,APP)系统、小程序等输入界面输入自然查询语句,构建终端获取该自然查询语句。其中,目标用户输入的自然查询语句可以是包含逻辑的问句,也可以是普通的自然查询语句,对此不做限定。例如,自然查询语句可以为“正常死亡买什么保险合适”、“如果担心眼睛看不见应该买什么保险”等。此处仅为示例性说明,对此不做限定。

S206:在产品知识图谱中查找与自然查询语句匹配的产品名称,并将产品名称推荐给目标用户。

根据该自然查询语句在该保险知识图谱中查找与该自然查询语句匹配的节点,确认该节点中存储的信息是否为保险产品,若该节点中存储的信息为保险产品,则将该保险产品推荐给目标用户。若该节点中存储的信息不是保险产品,则基于该节点查找与该节点相邻的上位节点或下位节点,判断哪个节点存储的为保险产品,将保险产品推荐给目标用户。

例如,自然查询语句为“如果担心耳朵听不见应该买什么保险”,与该自然查询语句匹配的节点为“意外失聪”,与该“意外失聪”相邻的上位节点存储的信息为“意外残疾保险”,将该“意外残疾保险”推荐给目标用户。

本实施例中,该保险知识图谱应用于保险产品推荐系统,可以抓住用户实际投保需求,给用户推荐最合适的保险产品,提升了销售转化率和保险产品的销量。

可选地,在一种可能的实现方式中,在步骤S104之后、或在步骤S204之后、或在步骤S206之后,还可包括:将所述产品知识图谱上传至区块链中。

本实施例中,以产品知识图谱为保险知识图谱为例进行说明。

在本实施例中,将保险知识图谱上传至区块链中可保证其安全性和对用户的公正透明性。且将保险知识图谱上传至区块链中,借助区块链上文件无法随意篡改的特性,能够避免保险知识图谱被恶意篡改,便于后续根据这些保险知识图谱准确地为用户解答保险相关的问题,给用户推荐最合适的保险产品。

本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参见图5,图5是本申请一实施例提供的一种产品知识图谱的构建装置的示意图。该装置包括的各单元用于执行图1、图3、图4对应的实施例中的各步骤。具体请参阅图1、图3、图4各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图5,包括:

第一获取单元310,用于获取样本用户对应的多个风险点,所述多个风险点用于表示所述样本用户对应的多种风险,其中,一个风险点对应一种风险;

第二获取单元320,用于获取多个产品信息,每个产品信息包括产品类别以及所述产品类别对应的多个产品名称;

确定单元330,用于确定多个产品类别、所述多个产品名称以及所述多个风险点之间的上下位关系,并基于所述上下位关系确定节点属性和存储位置,所述节点属性包括每个产品类别对应的节点属性、每个产品名称对应的节点属性以及每个风险点对应的节点属性,所述存储位置包括每个产品类别对应的存储位置、每个产品名称对应的存储位置以及每个风险点对应的存储位置;

存储单元340,用于基于所述节点属性和所述存储位置,在预设的图形数据库中存储每个产品类别、所述每个产品名称以及所述每个风险点,得到产品知识图谱。

可选地,所述第一获取单元310具体用于:

获取待分析数据,所述待分析数据包括会话日志和评论信息,所述会话日志包括样本用户咨询保险时生成的会话,所述评论信息为样本用户评论保险的信息;

在所述待分析数据中提取样本用户的多种风险信息,并基于所述样本用户的多种风险信息生成多个候选风险点;

在所述多个候选风险点中,确定所述样本用户对应的风险点。

可选地,所述第一获取单元310还用于:

对所述多个候选风险点进行随机组合,得到多个组合结果;

通过预设的语言评分模型对每个所述组合结果进行处理,得到每个所述组合结果对应的评分;

获取评分大于或等于预设阈值的目标组合结果;

基于所述目标组合结果,生成所述样本用户对应的风险点。

可选地,所述第一获取单元310还用于:

采集所述样本用户预设的不同类型的风险信息;

基于所述不同类型的风险信息,生成所述样本用户对应的风险点。

可选地,所述装置还包括:

第三获取单元,用于获取目标用户输入的自然查询语句;

推荐单元,用于在所述产品知识图谱中查找与所述自然查询语句匹配的产品名称,并将所述产品名称推荐给所述目标用户。

可选地,所述装置还包括:

上传单元,用于将所述产品知识图谱上传至区块链中。

请参见图6,图6是本申请另一实施例提供的一种产品知识图谱的构建终端的示意图。如图6所示,该实施例的产品知识图谱的构建终端4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机指令42。所述处理器40执行所述计算机指令42时实现上述各个产品知识图谱的构建方法实施例中的步骤,例如图1所示的S101至S104。或者,所述处理器40执行所述计算机指令42时实现上述各实施例中各单元的功能,例如图5所示单元310至340功能。

示例性地,所述计算机指令42可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段,该指令段用于描述所述计算机指令42在所述产品知识图谱的构建终端4中的执行过程。例如,所述计算机指令42可以被分割为第一获取单元、第二获取单元、确定单元以及存储单元,各单元具体功能如上所述。

所述产品知识图谱的构建终端可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图6仅仅是产品知识图谱的构建终端4的示例,并不构成对产品知识图谱的构建终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述产品知识图谱的构建终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述产品知识图谱的构建终端的内部存储单元,例如产品知识图谱的构建终端的硬盘或内存。所述存储器41也可以是所述产品知识图谱的构建终端的外部存储终端,例如所述产品知识图谱的构建终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述产品知识图谱的构建终端的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机存储介质,计算机存储介质可以是非易失性,也可以是易失性,该计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各个产品知识图谱的构建方法实施例中的步骤。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围,均应包含在本申请的保护范围之内。

相关技术
  • 产品知识图谱的构建方法、装置、终端以及存储介质
  • 一种知识图谱构建方法、装置、可读存储介质及终端设备
技术分类

06120112880753