掌桥专利:专业的专利平台
掌桥专利
首页

文本生成方法及装置

文献发布时间:2024-04-18 19:52:40


文本生成方法及装置

技术领域

本文件涉及数据处理领域,尤其涉及一种文本生成方法及装置。

背景技术

随着互联网技术的发展,业务涉及的业务数据量高速增长中。在实际业务场景中,海量的业务数据中可能隐含有一些特殊的规律。为了满足一些业务的数据分析需求,可能需要对海量的业务数据进行聚类以找出具有代表性的典型业务数据,在聚类过程中,往往难以兼顾高准确性和高代表性,不利于后续的数据分析。

发明内容

本说明书一个或多个实施例提供了一种文本生成方法。所述文本生成方法,包括:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。

本说明书一个或多个实施例提供了一种文本生成装置,包括:文本处理模块,被配置为对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。子主题确定模块,被配置为根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。关系图构建模块,被配置为根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。文本生成模块,被配置为根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。

本说明书一个或多个实施例提供了一种文本生成设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。

本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;

图1为本说明书一个或多个实施例提供的一种文本生成方法处理流程图;

图2为本说明书一个或多个实施例提供的另一种文本生成方法处理流程图;

图3为本说明书一个或多个实施例提供的一种文本生成方法中生成的文本关系图;

图4为本说明书一个或多个实施例提供的一种文本生成装置示意图;

图5为本说明书一个或多个实施例提供的一种文本生成设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。

本说明书提供的一种文本生成方法实施例:

本实施例提供的文本生成方法,通过对文本集合中每个文本进行主题识别处理和知识抽取处理,可以得到每个文本的主题和文本中包含的知识点信息集合,从而结合主题与多个知识点将每个主题划分为多个子主题,针对每个子主题,构建文本关系图,该文本关系图中每个节点对应的目标文本中包含的知识点信息集合为子主题对应的知识点信息组合的子集,使得该文本关系图中各个节点对应的目标文本的主题相同且与子主题对应的知识点信息组合至少具有一部分相同的知识点信息,进而,根据文本关系图生成案例文本,使得该案例文本具有较高的准确性,且案例文本涉及各个知识点,内容较为全面。

参照图1,本实施例提供的文本生成方法,具体包括步骤S102至步骤S108。

步骤S102,对文本集合中每个文本进行主题识别处理,得到每个文本的主题,以及,对每个文本进行知识点抽取处理,得到每个文本中包含的知识点信息集合;知识点信息集合包括至少一种知识点信息;每种知识点信息对应于预设知识点集合中的一个知识点。

文本集合可以是由多个与业务相关的文本构成的集合。

在医学场景下,业务可以是医疗业务,文本集合可以是病历集合,病历集合中的每个文本可以是一个病历文本,病历文本与医疗业务相关。

在异常提交场景下,业务可以是风险控制业务,文本集合可以是异常文本集合,异常文本集合中的每个文本可以是用户遇到异常情况之后向风险控制方提交的用于描述异常情况的一个描述文本,描述文本与风险控制业务相关。

对文本集合中每个文本进行主题识别处理,得到每个文本的主题,可以是将每个文本输入识别模型进行主题识别处理,得到每个文本对应的主题识别结果。

主题识别处理,可以是将文本通过有监督方式划分明确的主题类别,即对文本进行主题分类处理。识别模型可以是一种通过有监督方式训练得到的分类模型。具体地,该识别模型可以是通过将携带有主题标签的样本文本输入待训练的分类模型进行迭代训练所得到的。

具体实施时,可以根据业务预先配置该业务对应的多种主题,每种主题可以用于在该业务对应的应用场景下表征至少一个文本的关键内容。每种主题对应于一个或多个文本,一个文本仅对应于一种主题。

在医学场景下,可以根据医疗业务将主题确定为疾病名称,获取医疗业务的历史病历文本,根据历史病历文本中的疾病名称确定医疗业务对应的多种主题包括:疾病名称1,疾病名称2,疾病名称3,疾病名称4,等等。

历史病历文本可以是医疗业务的历史数据中病人的病历文本,每个病历文本对应于一个病人的一次就诊记录,病历文本可以反映医生在病人本次就诊时所诊断出的病情以及治疗建议。

例如,在基于历史病历文本构建的样本文本集合中:样本文本1携带有主题标签“疾病名称1”,样本文本2携带有主题标签“疾病名称2”,样本文本3携带有主题标签“疾病名称3”,等等。识别模型可以通过将样本文本集合中的各个样本文本输入待训练的分类模型进行迭代训练得到。将文本集合中的每个文本输入识别模型进行主题识别处理,得到每个文本对应的主题识别结果,该主题识别结果是可以预先确定的多种主题(例如,疾病名称1、疾病名称2、疾病名称3,等等)中的一者。

在异常提交场景下,可以根据风险控制业务将主题确定为异常事件类型,获取风险控制业务的历史描述文本,根据历史描述文本对应的异常事件确定风险控制业务对应的多种主题包括:异常事件类型1,异常事件类型2,异常事件类型3,等等。

历史描述文本可以是风险控制业务的历史数据中用户遇到异常情况之后向风险控制方提交的用于描述异常情况的描述文本,每个描述文本对应于一个用户遇到的一个异常交易事件。

例如,在基于历史描述文本构建的样本文本集合中:样本文本1携带有主题标签“异常事件类型1”,样本文本2携带有主题标签“异常事件类型2”,样本文本3携带有主题标签“异常事件类型3”,等等。识别模型可以通过将样本文本集合中的各个样本文本输入待训练的分类模型进行迭代训练得到。将文本集合中的每个文本输入识别模型进行主题识别处理,得到每个文本对应的主题识别结果,该主题识别结果是可以预先确定的多种主题(例如,异常事件类型1,异常事件类型2,异常事件类型3,等等)中的一者。

上述应用场景仅仅是示例性的,文本生成方法还可以用于其他的应用场景,本实施例在此不再赘述。

知识点信息集合包括至少一种知识点信息;每种知识点信息对应于预设知识点集合中的一个知识点。

对每个文本进行知识点抽取处理,可以是按照预先设计的知识点信息,通过实体识别方式,进行知识点抽取以及实体信息的识别。

知识点抽取处理涉及的“知识”通常是清楚的、事实性的信息。

本实施例中的知识点抽取可以是实体抽取,或者说NER(Named EntityRecognition,命名实体识别),主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find&classify,找到命名实体,并进行分类。

NER又称作专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统可以用于从非结构化的文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。只要是业务需要的特殊文本片段都可以称为实体。

预先设计的知识点信息,可以包括多个知识点,以及,每个知识点对应的多种知识点信息,以及,每种知识点信息对应的一个或多个实体。

针对每个文本,在根据预先设计的知识点信息抽取得到实体后,可以确定该实体对应的知识点,以及,在该知识点对应的多种知识点信息中,与该实体对应的一种知识点信息。

知识点信息集合中知识点信息的种数可能小于预设知识点集合中知识点的个数,也可能等于预设知识点集合中知识点的个数。

预设知识点集合可以是预先配置的由多个知识点构成的集合,预设知识点集合中的每个知识点可以根据业务确定。每个知识点可以对应于多种知识点信息。每个知识点对应的多种知识点信息可以根据历史业务数据确定。

知识点可以是文本集合中的一部分文本共有的属性,每个知识点可以反映文本对事物的一个描述角度。在知识点对应的多种知识点信息中,每种知识点信息可以是知识点的一种属性值。在任意两个文本中,若该两个文本中同一知识点对应的知识点信息是两种不同的知识点信息,则说明该两个文本中在同一个描述角度针对事物的描述不同。

在医学场景下,获取医疗业务的历史病历文本,根据历史病历文本提及的症状确定医疗业务对应的多种知识点可以包括:第一部位A,第二部位B,第三部位C,等等。根据历史病历文本确定病人的第一部位A可能具有a1、a2、a3三种症状中的一者,则知识点A对应于三种知识点信息a1、a2以及a3;根据历史病历文本确定第二部位B可能具有b1、b2两种症状中的一者,则知识点B对应于两种知识点信息b1和b2;根据历史病历文本确定第三部位C可能具有c1、c2、c3三种症状中的一者,则知识点C对应于三种知识点信息c1、c2和c3。

考虑到同一部位可能具有多种不同类型的症状,例如,病人头部可能存在疼痛和眩晕两种不同类型的症状,也可以采用另一种方式配置知识点以及知识点对应的多种知识点信息:根据历史病历文本提及的症状确定医疗业务对应的多种知识点可以包括:知识点D:第四部位疼痛症状;知识点E:第四部位瘙痒症状,等等。根据历史病历文本可以确定根据历史病历文本确定病人的第四部位可能存在剧烈疼痛、轻微疼痛以及无疼痛感三种症状中的一者,则知识点D对应于三种知识点信息d1、d2以及d3,d1用于表征第四部位剧烈疼痛,d2用于表征第四部位轻微疼痛,d3用于表征第四部位无疼痛感;根据历史病历文本可以确定病人的第四部位可能有瘙痒感,也可能无瘙痒感,则知识点E对应于两种知识点信息e1和e2,e1用于表征第四部位瘙痒,e2用于表征第四部位无瘙痒感。

示例性地,预设知识点集合包括:知识点A、知识点B、知识点C、知识点D以及知识点E。

病历文本1为:患者第一部位存在a1症状,第三部位存在c3症状,第四部位有轻微疼痛感,建议服用xxx药物,一周后复诊。该病历文本1中包含的知识点信息集合包括:知识点A对应的一种知识点信息a1,知识点C对应的一种知识点信息c3,知识点D对应的一种知识点信息d2。

在病历文本1中,知识点信息集合中知识点信息的种数小于预设知识点集合中知识点的个数。该病历文本1并未提及第二部位的症状,也没有提及第四部位是否瘙痒。

病历文本2为:患者第一部位存在a1症状,第二部位存在b1症状,第三部位存在c3症状,第四部位无疼痛但有瘙痒感,建议服用xxx药物,一周后复诊。

在病历文本2中,知识点信息集合中知识点信息的种数等于预设知识点集合中知识点的个数。

在异常提交场景下,获取风险控制业务的历史描述文本,根据历史描述文本提及的异常交易事件确定风险控制业务对应的多种知识点可以包括:异常交易事件的交易理由A,发生异常交易事件的交易平台B,异常交易事件涉及的交易资源数量C,等等。根据历史描述文本确定异常交易事件的交易理由A可能是a1、a2、a3三种交易理由中的一者,其中,a1用于表征参与优惠活动,a2用于表征处理二手物品,a3用于表征熟人介绍,则知识点A对应于三种知识点信息a1、a2以及a3;根据历史描述文本确定发生异常交易事件的交易平台B可能是交易平台b1和交易平台b2中的一者,则知识点B对应于两种知识点信息b1和b2;根据历史描述文本确定异常交易事件涉及的交易资源数量C可能位于第一数量范围c1、第二数量范围c2以及第三数量范围c3中的一者,则知识点C对应于三种知识点信息c1、c2和c3。

示例性地,预设知识点集合包括:知识点A、知识点B、知识点C。

描述文本1为:我于xx年xx月xx日xx时在b2平台购买用户X1的物品Y1,收到快递后发现该物品Y1是假货,共损失z1元。

y属于第一数量范围c1,则该描述文本1中包含的知识点信息集合包括:知识点B对应的一种知识点信息b2,知识点C对应的一种知识点信息c1。

在描述文本1中,知识点信息集合中知识点信息的种数小于预设知识点集合中知识点的个数。该描述文本1并未提及交易理由。

描述文本2为:因为购物节活动优惠力度较大,我在店铺X2购买了物品Y2,走的平台b1,收到的Y2与商品介绍差距太大了,想找客服退货发现店铺跑路了,共损失z2元。

在描述文本2中,知识点信息集合中知识点信息的种数等于预设知识点集合中知识点的个数。

本实施例提供的一种可选实施方式中,对每个文本进行知识点抽取处理,得到每个文本中包含的知识点信息集合,包括:针对每个文本,按照预设的知识点关键词集合,对文本进行关键词抽取,得到文本中包含的知识点关键词;知识点关键词集合包括预设知识点集合中每个知识点对应的多个预设关键词;每个预设关键词对应于一种知识点信息;将知识点关键词对应的知识点信息确定为文本中包含的一种知识点信息。

具体实施时,可以预先配置知识点关键词集合,该知识点关键词集合包括预设知识点集合中每个知识点对应的多个预设关键词。每个预设关键词可以对应于一种知识点信息,且每种知识点信息可以对应于一个或多个预设关键词。

例如,预设知识点集合包括知识点A和知识点B:知识点A为异常交易事件的交易理由,知识点A对应于三种知识点信息a1、a2以及a3,a1用于表征参与优惠活动,a2用于表征处理二手物品,a3用于表征熟人介绍;知识点B为交易平台,知识点B对应于两种知识点信息b1和b2,b1用于表征交易平台b1,b2用于表征交易平台b2。预先配置的知识点关键词集合可以包括:优惠、便宜、二手、旧物、介绍、平台名称1、平台名称2、平台名称3,等等,其中,“优惠”和“便宜”对应于知识点信息a1,“二手”和“旧物”对应于知识点信息a2,“介绍”对应于知识点信息a3,“平台名称1”为交易平台b1的一种简称,故“平台名称1”对应于知识点信息b1,“平台名称2”为交易平台b2的一种简称,“平台名称3”为交易平台b2的另一种简称,故“平台名称2”和“平台名称3”对应于知识点b2。

具体实施时,在文本集合中,针对每个文本,检测该文本中是否包括知识点关键词集合中的每个预设关键词,根据检测结果确定文本中包含的一个或多个知识点关键词,将检测得到的每个知识点关键词对应的知识点信息确定为文本中包含的一种知识点信息。

例如,文本1为:因为购物节活动优惠力度较大,我在店铺X2购买了物品Y2,走的平台名称1,收到的Y2与商品介绍差距太大了,想找客服退货发现店铺跑路了,共损失z2元。

预先配置的知识点关键词集合包括:优惠、便宜、二手、旧物、介绍、平台名称1、平台名称2、平台名称3,且“优惠”和“便宜”对应于知识点信息a1,“二手”和“旧物”对应于知识点信息a2,“介绍”对应于知识点信息a3,“平台名称1”为交易平台b1的一种简称,故“平台名称1”对应于知识点信息b1,“平台名称2”为交易平台b2的一种简称,“平台名称3”为交易平台b2的另一种简称,故“平台名称2”和“平台名称3”对应于知识点b2。

根据该知识点关键词集合,对上述文本1进行检测,确定文本中包含知识点关键词“优惠”和知识点关键词“平台名称1”,将“优惠”对应的知识点信息a1确定为上述文本1中包含的一种知识点信息,以及,将“平台名称1”对应的知识点信息b1确定为上述文本1中包含的另一种知识点信息。即,知识点信息a1和知识点信息b1共同构成上述文本1中包含的知识点信息集合。

步骤S104,根据主题和知识点信息集合,确定多个子主题;每个子主题归属于一个主题且每个子主题对应于一个知识点信息组合;知识点信息组合包括预设知识点集合中每个知识点的一种知识点信息。

每个主题可以包括多个子主题,且每个子主题仅归属于一个主题。具体实施时,可以在已进行主题分类的基础上将主题进一步划分为多个子主题。

例如,主题1为感冒,主题1可以包括子主题1:流行性感冒,子主题2:病毒性感冒,等等。

具体实施时,预设知识点集合可以包括m个知识点,第1个知识点对应于n1种知识点信息,第2个知识点对应于n2种知识点信息,……,第m个知识点对应于nm种知识点信息,基于m个知识点进行组合,可以得到n1*n2*……*nm个知识点信息组合,其中,每个知识点信息组合包括m个知识点中每个知识点的一种知识点信息。

例如,预设知识点集合包括2个知识点:知识点A对应于知识点信息a1、知识点信息a2以及知识点信息a3;知识点B对应于知识点信息b1和知识点信息b2;知识点C对应于知识点信息c1和知识点信息c2。基于3个知识点进行组合,可以得到3*2*2=12个知识点信息组合,具体为:

组合1:a1,b1,c1;

组合2:a2,b1,c1;

组合3:a3,b1,c1;

组合4:a1,b2,c1;

组合5:a2,b2,c1;

组合6:a3,b2,c1;

组合7:a1,b1,c2;

组合8:a2,b1,c2;

组合9:a3,b1,c2;

组合10:a1,b2,c2;

组合11:a2,b2,c2;

组合12:a3,b2,c2;

考虑到实际应用中,一部分知识点信息不可能同时出现,可以针对每个主题,根据知识点信息集合对各个知识点信息组合进行匹配,得到每个主题对应的实际知识点信息组合。

具体实施时,针对每个主题,根据知识点信息集合对各个知识点信息组合进行匹配,可以是确定每个主题对应的多个知识点信息集合;针对每个主题,在基于预设知识点集合中各个知识点进行排列得到的多个知识点信息组合中,确定与该主题对应的多个知识点信息集合匹配的知识点信息组合,将匹配的知识点信息组合确定为该主题对应的实际知识点信息组合;根据每个实际知识点信息组合,确定对应的子主题。

知识点信息集合与知识点信息组合匹配,可以是知识点信息集合与知识点信息组合中的知识点信息完全一致。

通过执行步骤S102可以获得每个文本的主题和每个文本中包含的知识点信息集合,进而,根据每个文本的主题和每个文本中包含的知识点信息集合,可以确定每个主题对应的多个知识点信息集合。

例如,预设知识点集合包括2个知识点:知识点A对应于知识点信息a1、知识点信息a2以及知识点信息a3;知识点B对应于知识点信息b1和知识点信息b2;知识点C对应于知识点信息c1和知识点信息c2。

文本1:主题1与知识点信息集合1:a1,b1,c1;

文本2:主题1与知识点信息集合2:a1,b1,c2;

文本3:主题2与知识点信息集合3:a2,b1,c2;

文本4:主题1与知识点信息集合4:a1,b2,c2;

……

基于上述各个文本,可以确定主题1对应于知识点信息集合1、知识点信息集合2以及知识点信息集合4。

基于预设知识点集合中3个知识点进行排列,可以得到12个知识点信息组合。

在该12个知识点信息组合中,确定与知识点信息集合1匹配的知识点信息组合,即组合1:a1,b1,c1;确定与知识点信息集合2匹配的知识点信息组合,即组合7:a1,b1,c2;确定与知识点信息集合4匹配的知识点信息组合,即组合10:a1,b2,c2。

将匹配的知识点信息组合,即组合1、组合7以及组合10确定为主题1对应的实际知识点信息组合。

考虑到实际应用中,常常会出现文本中包含的知识点信息集合中知识点信息的种数小于预设知识点集合中知识点的个数,主题和知识点信息集合完全一致的文本数量可能较少,不利于案例文本的生成,可以预先配置预设阈值数量i。在知识点信息集合中知识点信息的种数小于i的情况下,确定该知识点信息集合对应的文本包含的信息过少,不适宜生成案例文本,将该文本舍弃;在知识点信息集合中知识点信息的种数大于等于i的情况下,若知识点信息集合中知识点信息的种数为j,且该知识点信息集合中与目标知识点信息组合具有j种完全一致的知识点信息,则确定该知识点信息集合与目标知识点信息组合匹配。即知识点信息集合与知识点信息组合匹配,可以是知识点信息集合与知识点信息组合中的j种知识点信息完全一致,j小于等于m且j大于等于预设阈值数量i,知识点信息集合仅包括j种知识点信息。

例如,目标知识点信息组合为:a1,b1,c2,i=2。

文本1的知识点信息集合1包括a1,则文本1对应的j=1,j

文本2的知识点信息集合2包括a1和b1,则文本2对应的j=2,j=i,又文本2的知识点信息集合中2种知识点信息与目标知识点信息组合中2种知识点信息完全一致,故知识点信息集合2与目标知识点信息组合匹配。

文本3的知识点信息集合3包括a1、b1和c1,则文本3对应的j=3,j>i,尽管文本3的知识点信息集合中2种知识点信息与目标知识点信息组合中2种知识点信息完全一致,但知识点信息集合3包括3种知识点信息,知识点信息集合3中的c1与目标知识点信息组合的c2不同,故知识点信息集合3与目标知识点信息组合不匹配。

综上,针对每个主题,根据知识点信息集合对各个知识点信息组合进行匹配,得到每个主题对应的实际知识点信息组合,也可以是针对每个主题,根据知识点信息集合与各个知识点信息组合匹配m个知识点,m-1个知识点……i个知识点,得到每个主题对应的实际知识点信息组合。其中,m为预设知识点集合中知识点的数量,i为预设阈值数量。

m个知识点匹配指的是知识点信息集合与知识点信息组合中m种知识点信息完全一致;m-1个知识点匹配指的是知识点信息集合与知识点信息组合中m-1种知识点信息完全一致且知识点信息集合仅包括m-1种知识点信息……i个知识点匹配指的是知识点信息集合与知识点信息组合中i种知识点信息完全一致且知识点信息集合仅包括i种知识点信息。

在另一种可选的实施方式中,可以遍历业务的历史数据,从历史数据中提取每个主题对应的多个实际知识点信息组合,根据每个实际知识点信息组合确定对应的子主题。

在又一种可选的实施方式中,可以遍历文本集合,从文本集合中的各个文本提取每个主题对应的多个实际知识点信息组合,根据每个实际知识点信息组合确定对应的子主题。

本实施例提供的一种可选实施方式中,根据主题和知识点信息集合,确定多个子主题,包括:根据主题,确定文本集合对应的多个候选主题;以及,根据知识点信息集合,确定文本集合对应的每个知识点的多种候选知识点信息;根据多个候选主题以及每个知识点的多种候选知识点信息,生成多个候选知识点信息组合;候选知识点信息组合包括预设知识点集合中每个知识点的一种知识点信息;根据每个文本,在多个候选知识点信息组合中确定冗余组合并剔除,得到文本集合对应的多个知识点信息组合;根据每个知识点信息组合,确定对应的子主题。

根据主题,确定文本集合对应的多个候选主题,可以是将文本集合中每个文本的主题确定为候选主题。文本集合中可能存在多个文本对应于同一个主题,故候选主题的数量小于等于文本集合中文本的数量。

根据知识点信息集合,确定文本集合对应的每个知识点的多种候选知识点信息,可以是在每个候选主题对应的一个或多个文本中,将每个文本中包含的知识点信息集合中的每种知识点信息确定为该候选主题对应的一种候选知识点信息,将每个候选主题对应的每种候选知识点信息确定为文本集合对应的每个知识点的多种候选知识点信息。

根据多个候选主题以及每个知识点的多种候选知识点信息,生成多个候选知识点信息组合,可以是根据每个候选主题对应的每种候选知识点信息,构建该候选主题对应的多个候选知识点信息组合;候选知识点信息组合包括预设知识点集合中每个知识点的一种知识点信息。

根据每个文本,在多个候选知识点信息组合中确定冗余组合并剔除,得到文本集合对应的多个知识点信息组合,可以是遍历文本集合中每个文本,基于遍历结果,在多个候选知识点信息组合中确定冗余组合并剔除,得到文本集合对应的多个知识点信息组合。

基于遍历结果,在多个候选知识点信息组合中确定冗余组合并剔除,可以是,针对每个候选主题对应的每个候选知识点信息组合,确定遍历结果中该候选主题对应的一个或多个文本中是否存在与该候选知识点信息组合匹配的文本,若不存在,则将该候选知识点信息组合确定为冗余组合并剔除。

在文本集合对应的多个知识点信息组合中,根据每个知识点信息组合,可以确定对应的一个子主题。

步骤S106,根据主题和知识点信息集合,构建每个子主题对应的文本关系图;文本关系图包括多个节点;每个节点对应于子主题关联的一个目标文本;目标文本中包含的知识点信息集合为子主题对应的知识点信息组合的子集。

每个子主题可以对应于一个文本关系图,该文本关系图可以包括多个节点,每个节点可以对应于文本集合中该子主题关联的一个目标文本。

目标文本中包含的知识点信息集合为子主题对应的知识点信息组合的子集,可以是子主题对应的知识点信息组合中的每种知识点信息包括目标文本中包含的知识点信息集合中的每种知识点信息。子主题对应的知识点信息组合可以与目标文本中包含的知识点信息集合完全一致,子主题对应的知识点信息组合也可以包括目标文本中包含的知识点信息集合中的每种知识点信息和目标文本中包含的知识点信息集合之外的其他知识点信息。

例如,子主题对应的知识点信息组合包括:a1,b1,c1,d1;目标文本1中包含的知识点信息集合包括:a1,b1,c1;目标文本2中包含的知识点信息集合:a1,b1,c1,d1;目标文本3中包含的知识点信息集合包括:a1,b1,d1。

本实施例提供的一种可选实施方式中,根据主题和知识点信息集合,构建每个子主题对应的文本关系图,包括:根据每个文本、主题和知识点信息集合,确定每个子主题对应的第一候选文本;针对每个子主题,基于子主题对应的第一候选文本,构建子主题对应的初始文本关系图;初始文本关系图包括多个候选节点和多条边;在初始文本关系图中,任意两个具有相同的知识点信息的第一候选文本分别对应的候选节点之间具有一条边;对初始文本关系图进行图聚类,得到聚类结果;根据聚类结果,确定初始文本关系图中的冗余节点;在初始文本关系图中剔除冗余节点,得到子主题对应的文本关系图。

每个子主题归属于一个主题且每个子主题对应于一个知识信息点组合,该知识点信息组合包括预设知识点集合中每个知识点的一种知识点信息。

在此基础上,针对每个子主题,可以在文本集合中确定该子主题归属的主题对应的多个文本;在该多个文本中,可以根据每个文本中包含的知识点信息集合与该子主题对应的知识信息点组合,确定该子主题对应的第一候选文本。

针对每个子主题,基于子主题对应的第一候选文本,构建子主题对应的初始文本关系图,初始文本关系图包括多个候选节点和多条边,每个候选节点对应于一个第一候选文本。

初始文本关系图可以是一种全联通图。

在构图过程中,可以基于两个第一候选文本具有的相同的知识点信息的种数,确定该两个第一候选文本分别对应的候选节点之间的距离。即,若两个第一候选文本具有的相同的知识点信息的种数越多,则该两个第一候选文本分别对应的候选节点之间的距离越近;若两个第一候选文本具有的相同的知识点信息的种数越少,则该两个第一候选文本分别对应的候选节点之间的距离越远,使得在初始文本关系图中相似度较高的多个第一候选文本中每个第一候选文本对应的候选节点聚集在一起。

若两个第一候选文本具有至少一个相同的知识点信息,则在该两个第一候选文本分别对应的候选节点之间连线,以形成两个候选节点之间的一条边。

对初始文本关系图进行图聚类,得到聚类结果,聚类结果可以反映初始文本关系图中候选节点的密集程度。

根据聚类结果,确定初始文本关系图中的冗余节点,可以是在初始文本关系图中将密集程度较高的候选节点确定为目标节点,将目标节点之外的候选节点确定为冗余节点。在初始文本关系图中剔除冗余节点,得到子主题对应的文本关系图

本实施例提供的一种可选实施方式中,根据每个文本、主题和知识点信息集合,确定每个子主题对应的第一候选文本,包括:根据每个文本、主题和知识点信息集合,确定每个子主题对应的第二候选文本;每个第二候选文本中包含的知识点信息集合为子主题对应的知识点信息组合的子集;根据每个第二候选文本对应的知识点数量与每个主题对应的知识点数量阈值,对每个子主题对应的第二候选文本进行筛选,得到每个子主题对应的第一候选文本。

每个子主题归属于一个主题且每个子主题对应于一个知识信息点组合,该知识点信息组合包括预设知识点集合中每个知识点的一种知识点信息。

在此基础上,根据每个文本、主题和知识点信息集合,确定每个子主题对应的第二候选文本,可以是针对每个子主题,在文本集合中确定该子主题归属的主题对应的多个文本;在该多个文本中,可以根据每个文本中包含的知识点信息集合与该子主题对应的知识信息点组合,确定该子主题对应的第二候选文本;每个第二候选文本中包含的知识点信息集合为子主题对应的知识点信息组合的子集。

每个主题可以对应于不同的知识点数量阈值。

根据每个第二候选文本对应的知识点数量与每个主题对应的知识点数量阈值,对每个子主题对应的第二候选文本进行筛选,包括:若第二候选文本对应的知识点数量大于等于该第二候选文本的主题对应的知识点数量阈值,则将该第二候选文本确定为第一候选文本;若第二候选文本对应的知识点数量小于该第二候选文本的主题对应的知识点数量阈值,则舍弃该第二候选文本。

例如,预设知识点集合包括6个知识点,针对主题1,考虑到主题1对应的文本数量巨大,可以将主题对应的知识点数量阈值预先设置为5,进而,可以将第二候选文本中仅包括5种知识点信息且5个知识点均与子主题匹配的文本确定为该子主题对应的第一候选文本,以及,包括6种知识点信息且6个知识点均与子主题匹配的文本确定为该子主题对应的第一候选文本。针对主题2,考虑到主题2对应的文本数量较小,可以将主题对应的知识点数量阈值预先设置为3,进而,可以将第二候选文本中包括k种知识点信息且k个知识点均与子主题匹配的文本确定为该子主题对应的第一候选文本,k大于等于3小于等于6。

其中,k个知识点与子主题匹配可以是由k个知识点中每个知识点对应的知识点信息构成的该第二候选文本中包含的知识点信息集合为该子主题对应的知识信息点组合的子集。

通过设置每个主题对应的知识点数量阈值,可以针对不同的主题分别获得足够数量的文本,使得每个子主题关联有数量大于预设文本数量阈值的目标文本,且目标文本对应的知识点数量尽可能多,有利于子主题对应的案例文本的生成。

通过筛选第二候选文本得到第一候选文本,可以针对每个子主题构建包括至少k个知识点相同的图结构,k对应于该子主题所属的主题。k可以基于先验知识初步设定。

本实施例提供的一种可选实施方式中,对初始文本关系图进行图聚类,得到聚类结果,包括:通过图聚类将初始文本关系图划分为多个关系子图;根据聚类结果,确定初始文本关系图中的冗余节点,包括:在多个关系子图中,将候选节点数量最多的关系子图确定为目标关系子图;将目标关系子图之外的其他关系子图包括的候选节点确定为初始文本关系图中的冗余节点。

具体实施时,可以采用Louvain算法对初始文本关系图进行图聚类处理,将初始文本关系图划分为多个关系子图。

Louvain算法是一种基于模块度的社区发现算法。其基本思想是网络中节点尝试遍历所有邻居的社区标签,并选择最大化模块度增量的社区标签。在最大化模块度之后,每个社区看成一个新的节点,重复直到模块度不再增大。

在多个关系子图中,将候选节点数量最多的关系子图确定为目标关系子图,该目标关系子图可以近似视为初始文本关系图中候选节点最密集的一个关系子图。将目标关系子图之外的其他关系子图包括的候选节点确定为初始文本关系图中的冗余节点,使得初始关系子图中仅保留分布密集且数量多的一部分候选节点。

本实施例提供的一种可选实施方式中,对初始文本关系图进行图聚类,得到聚类结果之前,文本生成方法还包括:通过文本比对模型中的向量生成模块生成每个文本对应的表征向量;在初始文本关系图中,针对每条边,若根据预设向量距离阈值和边连接的两个候选节点分别对应的表征向量确定边为冗余边,则剔除冗余边。

文本比对模型可以包括向量生成模块和比对模块。文本比对模型的输入数据为两个文本,输出数据为该两个文本的比对结果。

具体地,通过向量生成模块可以将输入文本比对模型的两个文本转换为该两个文本分别对应的表征向量,通过比对模块可以根据两个文本分别对应的表征向量,计算两个文本的相似度距离,根据两个文本的相似度距离与预设相似度距离阈值,生成该两个文本的比对结果。该比对结果可以是预设数值范围内的一个数值,该数值用于表征该两个文本是否相似的概率,若数值越接近该预设数值范围的第一边界值,则说明该两个文本相似的概率越高,若数值越接近该预设数值范围的第二边界值,则说明该两个文本相似的概率越低。

本实施方式中,可以利用文本比对模型中的向量生成模块获取每个第一候选文本对应的表征向量并存储,在构图时使用。

针对每条边,可以获取该边连接的两个候选节点分别对应的表征向量,根据获取的两个表征向量计算向量距离,若向量距离大于等于预设向量距离阈值,则将该边确定为冗余边并剔除。

剔除冗余边,即截断弱相似的边连接。

预先注意的是,本实施方式中,先利用向量生成模块获取每个第一候选文本对应的标准向量,再根据预设向量距离阈值和边连接的两个候选节点分别对应的表征向量确定边是否为冗余边,而不是将两个第一候选文本直接输入文本比对模型得到比对结果,具有能够灵活设置预设向量距离阈值的优势,针对不同的子主题对应的初始文本关系图可以设置不同的预设向量距离阈值,针对同一个初始文本关系图,也可以随时调整对应的预设向量距离阈值的数值,无需更改模型参数。

本实施例提供的一种可选实施方式中,文本比对模型通过如下方式训练得到:根据每个文本、主题以及知识点信息集合,构建相似对;相似对包括两个相似文本;两个相似文本的主题和知识点信息集合均相同;根据相似对,对初始文本比对模型进行训练,得到训练后的文本比对模型。

根据每个文本、主题以及知识点信息集合,可以构建包括两个相似文本的相似对,该两个相似文本的主题和知识点信息集合均相同,针对每个相似对可以构建对应的第一标签例如,“1”,该第一标签用于表征两个文本相似,该两个文本相似的概率为1;还可以构建包括两个非相似文本的非相似对,该两个非相似文本的主题和知识点信息集合不同,针对每个非相似对可以构建第二标签,例如,“0”,该第二标签用于表征两个文本不相似,该两个文本相似的概率为“0”。

根据相似对,对初始文本比对模型进行训练,得到训练后的文本比对模型,可以是将相似对和非相似对输入初始文本比对模型进行迭代训练,得到训练后的文本比对模型。

步骤S108,根据每个子主题对应的文本关系图,生成文本集合对应的案例文本。

文本集合对应的案例文本,可以是在文本集合对应的每个子主题对应的案例文本。文本集合对应于多个主题,每个主题对应于多个子主题,每个子主题对应于一个案例文本。

案例文本可以是主题下各个子主题的显示表现。

本实施例提供的一种可选实施方式中,根据每个子主题对应的文本关系图,生成文本集合对应的案例文本,包括:统计每个子主题对应的文本关系图中的节点数量;将节点数量大于等于第一数量阈值的子主题确定为目标子主题;根据目标子主题对应的文本关系图,生成目标子主题对应的案例文本,将目标子主题对应的案例文本确定为文本集合对应的案例文本。

统计每个子主题对应的文本关系图中的节点数量。

目标子主题可以是文本关系图中节点数量阈值大于等于第一数量阈值的子主题。

案例文本可以用于为业务的数据分析提供支持,也可以用于业务相关的技能培训,等等。考虑到案例文本的用途,用于生成案例文本的目标文本的数量大于预设文本数量阈值,使得案例文本具有代表性,存在较高的可参考性。若文本集合中与该子主题关联的目标文本数量过少,基于少量目标文本生成的案例文本很可能存在较大误差,可参考性不高。

例如,文本集合包括1000个文本,其中,100个文本对应于主题1,第一数量阈值为25,在该主题1对应的100个文本中,存在40个较为相似的文本,该40个文本均对应于一个子主题,可以根据该40个文本生成该子主题对应的案例文本。若该100个文本中包括5个较为相似的文本,即便该5个文本对应于一个子主题,仅基于少量文本生成的案例文本很可能不具有可参考性,故没有必要基于5个文本生成该子主题对应的案例文本。

本实施例提供的一种可选实施方式中,根据每个子主题对应的文本关系图,生成文本集合对应的案例文本,包括:针对每个子主题,在子主题对应的文本关系图中,根据每个节点对应的目标文本,统计每个知识点对应的知识点关键词的出现频次;根据出现频次和预设频次阈值,确定每个知识点对应的高频关键词;根据高频关键词,对目标案例文本模板进行填充处理,得到子主题对应的案例文本;目标案例文本模板对应于子主题所归属的目标主题;将每个子主题对应的案例文本确定为文本集合对应的案例文本。

针对每个子主题,在子主题对应的文本关系图中,根据每个节点对应的目标文本,统计每个知识点对应的知识点关键词的出现频次。

每个知识点关键词可以是预先配置的实体词集合中一个实体词。实体词可以是人名、地名、组织机构名、日期时间、专有名词,还可以是按照业务需求确定的特殊文本片段,等等。

例如,针对子主题1,该子主题1对应的文本关系图包括5个节点:节点1、节点2、节点3、节点4、节点5,节点1对应于目标文本1……节点5对应于目标文本5。

在目标文件1中,通过实体抽取,得到知识点A对应的知识点关键词A1,知识点B对应的知识点关键词B2,知识点C对应的知识点关键词C1;

在目标文件2中,通过实体抽取,得到知识点A对应的知识点关键词A2,知识点B对应的知识点关键词B3,知识点C对应的知识点关键词C1;

在目标文件3中,通过实体抽取,得到知识点A对应的知识点关键词A1,知识点B对应的知识点关键词B1,知识点C对应的知识点关键词C1;

在目标文件4中,通过实体抽取,得到知识点A对应的知识点关键词A1,知识点B对应的知识点关键词B1,知识点C对应的知识点关键词C2;

在目标文件5中,通过实体抽取,得到知识点A对应的知识点关键词A1,知识点B对应的知识点关键词B1,知识点C对应的知识点关键词C1。

基于实体抽取的结果,可以统计得到A1的出现频次为4,A2的出现频次为1,B1的出现频次为3,B2的出现频次为1,B3的出现频次为1,C1的出现频次为4,D2的出现频次为1。

根据出现频次和预设频次阈值,确定每个知识点对应的高频关键词,可以是,将出现频次大于预设频次阈值的知识点关键词确定为高频关键词。针对任一知识点,若该知识点对应的高频关键词的数量大于1个,可以将出现频次最高的高频关键词保留,将出现频次并非最高的各个高频关键词剔除。

每个知识点对应的高频关键词,即每个知识点对应的代表性实体词,该高频关键词可以反映子主题关联的多个目标文本中针对该知识点的典型描述。

每个主题可以对应于一个案例文本模板。

根据每个知识点对应的高频关键词,可以对目标案例文本模板中每个知识点对应的待填充区域进行填充处理,得到子主题对应的案例文本。该目标案例文本模板对应于该子主题归属的目标主题。

将每个子主题对应的案例文本确定为文本集合对应的案例文本。

不同的主题可能具有其特殊性,使得同一主题下的多个子主题均具有该特性,与其他主题下的子主题明显不同,例如,在医疗场景下,主题1为疾病名称1,主题2为疾病名称2。该疾病名称1可能注重头部与肩颈的症状,与心脏的关系较小,则该疾病名称1对应的案例文本模板中,将头部对应的知识点放在靠前的位置,将心脏对应的知识点放到最后。该疾病名称2可能注重心脏,头部出现症状的可能性明显小于心脏,则该疾病名称1对应的案例文本模板中,将心脏对应的知识点放在靠前的位置,将头部对应的知识点放到心脏对应的知识点之后的位置。

据此,在生成案例文本时,通过针对每个主题配置对应的案例文本模板,可以使得每个子主题对应的案例文本与该子主题所属的主题的特殊性相符。

综上,本实施例提供的文本生成方法对文本集合中每个文本进行主题识别处理,得到每个文本的主题,以及,对每个文本进行知识点抽取处理,得到每个文本中包含的知识点信息集合;知识点信息集合包括至少一种知识点信息;每种知识点信息对应于预设知识点集合中的一个知识点;根据主题和知识点信息集合,确定多个子主题;每个子主题归属于一个主题且每个子主题对应于一个知识点信息组合;知识点信息组合包括预设知识点集合中每个知识点的一种知识点信息;根据主题和知识点信息集合,构建每个子主题对应的文本关系图;文本关系图包括多个节点;每个节点对应于子主题关联的一个目标文本;目标文本中包含的知识点信息集合为子主题对应的知识点信息组合的子集;根据每个子主题对应的文本关系图,生成文本集合对应的案例文本。

以此,能够结合主题与多个知识点设计构图逻辑,按照该构图逻辑生产的文本关系图能够实现高准确率的典型文本挖掘,且案例文本涉及各个知识点,内容较为全面。

出于与图1实施例相同的技术构思,本说明书提供另一种文本生成方法的实施例:

图2为本说明书一个或多个实施例提供的另一种文本生成方法处理流程图。参见图2,本实施例提供的一种文本生成方法,具体包括步骤S202至步骤S212。

如图2所示,在本实施例中,为实现构图需要先基于主题和多个知识点进行Schema设计。Schema指的是表的模式。

在本实施例中的Schema设计过程中,结构为主题+知识点,即对于每个文本归属为某个主题,并且该文本对应一系列知识点。例如主题为疾病名称,知识点对应哪方面有症状,或主题为异常交易事件,知识点对应异常交易事件的交易理由等。识别案例文本是主题下隐藏的各个子主题的显示表现。

表1示出了本实施例提供的一种文本生成方法中的Schema设计。

表1

步骤S202,主题分类,以及,知识抽取。

步骤S204,构边。

若两个节点分别对应的文本具有至少一种相同的知识点信息,则在该两个节点之间连线,以实现构边。

步骤S206,表征向量生成。

基于主题、知识点构建相似对进行有监督学习,得到每个文本对应的表征向量。

需要注意的是,步骤S204与步骤S206可以同时执行,也可以先执行步骤S204,再执行步骤S206,还可以先执行步骤S206,再执行步骤S204。

步骤S208,边过滤、构图、图提纯。

边过滤可以是基于步骤S206中生成表征向量确定冗余边并剔除。

图提纯可以是进行图聚类,根据聚类结果确定冗余节点并剔除。

步骤S210,实体识别。

步骤S212,案例文本生成。

本实施例提供的文本生成方法与上述实施例提供的文本生成方法在执行过程中类似,阅读本实施例请参照上述实施例的相关内容。

图3为本说明书一个或多个实施例提供的一种文本生成方法中生成的文本关系图。

如图3所示,预设知识点集合包括m个知识点,m=4,预设阈值数量i=2。在知识点信息集合中知识点信息的种数小于i的情况下,确定该知识点信息集合对应的文本包含的信息过少,不适宜生成案例文本,将该文本舍弃,则保留下来的各个文本包含的知识点信息的种数均大于等于i。

表2示出了本实施例提供的对应于目标主题的多个文本中包含的知识点信息集合。

如图3所示,节点301对应的文本中包含的知识点信息:AE;

节点302对应的文本中包含的知识点信息:AE;

节点303对应的文本中包含的知识点信息:AE;

节点304对应的文本中包含的知识点信息:AEN;

节点305对应的文本中包含的知识点信息:AEX;

节点306对应的文本中包含的知识点信息:EN;

节点307对应的文本中包含的知识点信息:EN;

节点308对应的文本中包含的知识点信息:NX;

节点309对应的文本中包含的知识点信息:NX;

节点310对应的文本中包含的知识点信息:AENX。

图3中所有节点形成一个文本关系图,通过图优化可以确定306对应的文本和节点307对应的文本与其他文本的重合信息较少,可以在文本关系图中剔除节点306和节点307,符合实际情况。

本说明书提供的一种文本生成装置实施例如下:

在上述的实施例中,提供了一种文本生成方法,与之相对应的,还提供了一种文本生成装置,下面结合附图进行说明。

参照图4,其示出了本实施例提供的一种文本生成装置示意图。

由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例提供一种文本生成装置,包括:

文本处理模块402,被配置为对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点;

子主题确定模块404,被配置为根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息;

关系图构建模块406,被配置为根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集;

文本生成模块408,被配置为根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。

本说明书提供的一种文本生成设备实施例如下:

对应上述描述的一种文本生成方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种文本生成设备,该文本生成设备用于执行上述提供的文本生成方法,图5为本说明书一个或多个实施例提供的一种文本生成设备的结构示意图。

本实施例提供的一种文本生成设备,包括:

如图5所示,文本生成设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括文本生成设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在文本生成设备上执行存储器502中的一系列计算机可执行指令。文本生成设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入/输出接口505,一个或一个以上键盘506等。

在一个具体的实施例中,文本生成设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对文本生成设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:

对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点;

根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息;

根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集;

根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。

本说明书提供的一种存储介质实施例如下:

对应上述描述的一种文本生成方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种存储介质。

本实施例提供的存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:

对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点;

根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息;

根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集;

根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。

需要说明的是,本说明书中关于存储介质的实施例与本说明书中关于文本生成方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应方法的实施,重复之处不再赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪30年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。

技术分类

06120116331200