掌桥专利:专业的专利平台
掌桥专利
首页

文本的生成方法、装置、存储介质及计算机设备

文献发布时间:2023-06-19 11:49:09


文本的生成方法、装置、存储介质及计算机设备

技术领域

本申请涉及计算机技术领域,具体涉及一种文本的生成方法、装置、存储介质及计算机设备。

背景技术

现有技术中,通过收集常见的比喻句,从比喻句中提取主体和喻体作为训练样本,训练一个模型,通过该模型将主体和喻体进行配对,生成比喻句。但是,这种从比喻句中提取主体和喻体作为训练样本的方式,使得生成的比喻句比较常见,而且比喻句中提取的主体一般为词语,使得生成的比喻句形式单一。另外,模型训练需要大规模标注语料,耗时较长,效率较低,生成效果也不理想。

发明内容

本申请实施例提供一种文本的生成方法、装置、存储介质及计算机设备,能够提高文本的多样性,且提高文本生成效率和生成效果。

本申请实施例提供了一种文本的生成方法,包括:

获取本体;

根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;

从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;所述喻体集合包括至少一个喻体;

根据所述本体和所述目标喻体,生成至少一个目标文本。

可选的,所述根据所述本体的语义,确定所述本体对应的本体属性词汇,包括:

将所述本体输入至预先训练好的语言模型中,使所述预先训练好的语言模型根据所述本体的语义,输出第一预设数量的本体属性词汇。

可选的,所述方法还包括:

从预先构建的知识图谱中获取具有属性关系的三元组集合;所述属性关系表示所述本体或所述喻体与对应的属性词汇之间的关联关系;

根据所述三元组集合,训练所述语言模型,得到训练好的语言模型。

可选的,所述从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体,包括:

确定所述喻体集合中每个喻体对应的喻体属性词汇集合,得到至少一个喻体属性词汇集合;

从所述至少一个喻体属性词汇集合中,确定与所述本体属性词汇相匹配的目标喻体属性词汇集合;

将所述目标喻体属性词汇集合对应的喻体,作为与所述本体属性词汇相匹配的目标喻体。

可选的,所述从所述至少一个喻体属性词汇集合中,确定与所述本体属性词汇相匹配的目标喻体属性词汇集合,包括:

分别将所述至少一个喻体属性词汇集合中的每个喻体属性词汇集合作为候选集合,检测所述候选集合中是否具有与所述本体属性词汇相匹配的目标属性词汇;

若是,则将所述候选集合作为与所述本体属性词汇相匹配的目标喻体属性词汇集合。

可选的,所述检测所述候选集合中是否具有与所述本体属性词汇相匹配的目标属性词汇,包括:

若所述候选集合中具有与所述本体属性词汇相同的喻体属性词汇,则确定所述候选集合中具有与所述本体属性词汇相匹配的目标属性词汇,且所述候选集合中与所述本体属性词汇相同的喻体属性词汇为所述目标属性词汇;

若所述候选集合中不具有与所述本体属性词汇相同的喻体属性词汇,则分别计算所述候选集合中每个喻体属性词汇与每个本体属性词汇的相似度,并在计算的最大相似度大于预设阈值时,确定所述候选集合中具有与所述本体属性词汇相匹配的目标属性词汇,且大于所述预设阈值的相似度所对应的喻体属性词汇为所述目标属性词汇。

可选的,根据所述本体和所述目标喻体,生成至少一个目标文本,包括:

获取所述目标属性词汇;

根据所述本体、所述目标喻体和对应的目标属性词汇,生成至少一个目标文本。

可选的,所述根据所述本体、所述目标喻体和对应的目标属性词汇,生成至少一个目标文本,包括:

确定所述本体、所述目标喻体和对应的目标属性词汇的表示类型;

根据所述本体、所述目标喻体和对应的目标属性词汇的表示类型,确定至少一个文本模板;

将所述本体、所述目标喻体和对应的目标属性词汇填充至每个所述文本模板中,得到至少一个目标文本。

可选的,所述方法还包括:

获取语料集合;

统计所述语料集合中每个名词出现的频率;

将出现频率最高的第三预设数量的名词作为喻体,得到所述喻体集合。

可选的,所述本体的表示类型包括段落、句子、短语或词语。

本申请实施例还提供一种文本的生成装置,包括:

获取模块,用于获取本体;

第一确定模块,用于根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;

第二确定模块,用于从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;所述喻体集合包括至少一个喻体;

生成模块,用于根据所述本体和所述目标喻体,生成至少一个目标文本。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的文本的生成方法中的步骤。

本申请实施例还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上任一实施例所述的文本的生成方法中的步骤。

本申请实施例提供的文本的生成方法、装置、存储介质及计算机设备,通过获取本体;根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;根据所述本体和所述目标喻体,生成至少一个目标文本。本申请实施例通过本体的语义来确定本体的属性,再根据本体的属性,确定相匹配的喻体,提高本体和喻体的多样性,进而提高所生成的文本的多样性,而且采用无监督的方法生成文本,无需大规模标注语料训练模型,提高文本的生成效率和生成效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文本的生成装置的系统示意图。

图2为本申请实施例提供的文本的生成方法的流程示意图。

图3为本申请实施例提供的文本的生成方法中本体与本体属性词汇的关系示意图。

图4为本申请实施例提供的文本的生成方法中喻体与喻体属性词汇的关系示意图。

图5为本申请实施例提供的文本的生成方法的另一流程示意图。

图6为本申请实施例提供的文本的生成装置的结构示意图。

图7为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种文本的生成方法、装置、存储介质及计算机设备。具体地,本申请实施例的文本的生成方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)等终端设备,终端还可以包括客户端,该客户端可以是应用客户端、携带有比喻句生成软件的浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

例如,当该文本的生成方法运行于终端时,终端设备存储有比喻句生成软件。终端设备用于通过图形用户界面与用户进行交互,例如通过终端设备下载安装比喻句生成软件并运行。该终端设备将图形用户界面提供给用户的方式可以包括多种,例如,可以渲染显示在终端设备的显示屏上,或者,通过全息投影呈现图形用户界面。例如,终端设备可以包括触控显示屏和处理器,该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令,该图形用户界面包括生成比喻句的界面,该处理器用于运行比喻句生成软件、生成图形用户界面、响应操作指令以及控制图形用户界面在触控显示屏上的显示。

请参阅图1,图1为本申请实施例提供的文本的生成装置的系统示意图。该系统可以包括至少一个终端1000,至少一个服务器2000,至少一个数据库3000,以及网络4000。用户持有的终端1000可以通过网络4000连接到不同的服务器。终端1000是具有计算硬件的任何设备,该计算硬件能够支持和执行与动画制作相对应的软件产品。另外,终端1000具有用于感测和获得用户通过在一个或者多个触控显示屏的多个点执行的触摸或者滑动操作的输入的一个或者多个多触敏屏幕。另外,当系统包括多个终端1000、多个服务器2000、多个网络4000时,不同的终端1000可以通过不同的网络4000、通过不同的服务器2000相互连接。网络4000可以是无线网络或者有线网络,比如无线网络为WLAN(Wireless Local AreaNetwork,无线局域网)、LAN(Local Area Network,局域网)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外,不同的终端1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他终端或者连接到服务器等。例如,多个用户可以通过不同的终端1000在线从而通过适当网络连接并且相互同步,以支持多人生成比喻句。另外,该系统可以包括多个数据库3000,多个数据库3000耦合到不同的服务器2000,并且可以将比喻句有关的信息,如本体、喻体集合、比喻句等存储于数据库3000中。

本申请实施例提供了一种文本的生成方法,该方法可以由终端或服务器执行。本申请实施例以文本的生成方法由终端执行为例来进行说明。其中,该终端包括触控显示屏和处理器,该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。用户通过触控显示屏对图形用户界面进行操作时,该图形用户界面可以通过响应于接收到的操作指令控制终端本地的内容,也可以通过响应于接收到的操作指令控制对端服务器的内容。例如,用户作用于图形用户界面产生的操作指令包括用于启动比喻句生成软件的指令,处理器被配置为在接收到用户提供的启动比喻句生成软件的指令之后启动比喻句生成软件。触控显示屏是能够感测屏幕上的多个点同时执行的触摸或者滑动操作的多触敏屏幕。处理器可以被配置为响应于用户的触控操作产生的操作指令来呈现对应的界面。

下面结合具体实施例进行详细说明。

在本实施例中,将从文本的生成装置的角度进行描述,该文本的生成装置具体可以集成在计算机设备如终端或服务器等设备中。

请参阅图2,为本发明实施例中文本的生成方法的一个实施例流程示意图。该方法的具体流程可以如下:

步骤101,获取本体。

本实施例中生成的文本是指具有比喻修辞手法的句子或段落,例如生成的文本可以为比喻句、排比句等,其基本结构包括本体、喻体。其中,本体是被比喻的事物,喻体是打比方的事物,本体与喻体之间具有一定的关联关系。

本实施例中的本体为文本类信息,本体可以由用户输入或选取,例如用户在终端的输入框中输入文本内容,使得终端将用户输入的文本内容作为本体,或者用户利用终端阅读文本内容(例如阅读文章等)时,选取所阅读的文本内容的部分或全部内容,终端将用户选取的文本内容作为本体。

用户可以输入或选取文本内容,也可以输入或选取其他格式的内容。在用户输入或选取其他格式的内容时,终端可以清除输入或选取的内容的格式,仅获取其文本内容,以作为本体。

本体的表示形式可以包括段落、句子、短语或词语等。终端可以直接将用户输入或选取的文本内容作为本体,无需做任何处理。终端也可以对用户输入或选取的文本内容进行处理,例如检测用户输入或选取的文本内容作为段落、句子或短语是否完整,语法是否正确等等,若否,终端可以从用户输入或选取的文本内容中提取完整且语法正确的段落、句子、短语或词语,作为本体。例如,用户输入的文本内容为“月亮和”,终端检测该文本内容为不完整的短语,因此终端可以从“月亮和”中提取出完整的词语“月亮”,作为本体。

步骤102,根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇。

本实施例中,本体属性词汇至少用于描述以下之一:本体的意象、形状、大小、颜色、动作等。其中,本体的意象可以是指本体的意境或对本体的抽象情感等,例如描述意象的本体属性词汇可以为美丽、无边无际、辽阔等。本体的动作可以是与本体自有的动作属性相关联的动作,比如,花儿:绽放。

由于本体的表示形式可以包括段落、句子、短语或词语等,而段落、句子、短语等包含的词语较多,若直接根据本体的内容来确定本体属性词汇,会导致本体属性词汇的准确性不高。因此,本实施例根据本体的语义来确定本体属性词汇,提高本体属性词汇的准确性。

其中,本体语义的识别以及本体属性词汇的确定可以通过预先训练好的语言模型来实现。具体地,步骤102中的所述根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇,包括:将所述本体输入至预先训练好的语言模型中,使所述预先训练好的语言模型根据所述本体的语义,输出第一预设数量的本体属性词汇。

预先构建的语言模型可以根据本体的语义进行本体属性词汇预测,即该语言模型先对本体的语义(词向量)进行识别,再根据本体的语义输出相对应的本体属性词汇。由于属性所涵盖的范围较广,语言模型输出的本体属性词汇的数量可能极大,为了避免语言模型输出的本体属性词汇过多,导致后续处理量增加,语言模型中还可以增加打分机制,即在确定本体对应的多个本体属性词汇后,可以根据每个本体属性词汇与本体的相关度,对相应本体属性词汇打分。相关度越高,分值越高。然后,从本体对应的多个本体属性词汇中选取分值排列在前N的本体属性词汇(N为第一预设数量),或者选取分值大于预设分数值的本体属性词汇,作为最终的输出结果。

如图3所示,本体A对应四个本体属性词汇,即本体属性词汇A1、本体属性词汇A2、本体属性词汇A3和本体属性词汇A4。例如,本体为“大海”,本体属性词汇可以为“蓝色”、“深”、“广大”等。

语言模型可以基于目前已构建的知识图谱来训练。具体地,所述方法还包括:从预先构建的知识图谱中获取具有属性关系的三元组样本;所述属性关系表示所述本体或所述喻体与对应的属性词汇之间的关联关系;根据所述三元组样本,训练所述语言模型,得到训练好的语言模型。

知识图谱为一种揭示实体之间关系的语义网络,知识图谱由一条条知识组成,每条知识表示为一个三元组,如(实体1,关系,实体2)、(实体、属性、属性值)等。在获取知识图谱后,可以先对知识图谱进行清洗,即去除知识图谱中不具有属性关系的三元组,仅保留具有属性关系的三元组,该属性关系是指本体与对应的本体属性词汇之间的关联关系,或者喻体与对应的喻体属性词汇之间的关联关系。例如,三元组(实体1,关系,实体2)不具有属性关系,而三元组(实体、属性、属性值)具有属性关系,因此保留三元组(实体、属性、属性值)。三元组(实体、属性、属性值)中的实体可以作为本体或喻体,属性值可以作为本体属性词汇或喻体属性词汇,属性表示实体与属性值之间的关联关系。例如,三元组(玫瑰颜色红色)中“玫瑰”可以作为本体或喻体,“红色”可以作为“玫瑰”对应的属性词汇(本体属性词汇或喻体属性词汇)。本实施例采用已构建的知识图谱作为语言模型的训练样本,能够提高语言模型的训练效率和训练准确性。

在获取具有属性关系的三元组后,还可设置适用类别,即所需生成的文本的适用场景,例如设置适用类别为文学类,使生成的文本能够适用于文学类文本中。根据设置的适用类别,可以对具有属性关系的三元组进行进一步筛选。例如,检测三元组中的实体是否符合所设置的适用类别,若是,则保留该三元组,若否,则去除该三元组。最终保留的三元组即可作为语言模型的训练样本。本实施例设置适用类别对三元组进行进一步筛选,能够保证训练的语言模型更具有针对性,更满足用户需求。

将三元组集合作为训练样本,输入至语言模型,对语言模型进行一次训练,即可得到训练好的语言模型。

步骤103,从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;所述喻体集合包括至少一个喻体。

由于本体属性表示本体所具有的一些特点,若某个喻体也具有本体属性的相关特点,则表明本体与该喻体具有一定的相关性,可以将该喻体作为本体所对应的目标喻体。因此,通过本体属性词汇来匹配喻体集合中的每个喻体,以找到与本体相关的目标喻体。

其中,喻体集合的大小可以控制,喻体集合的大小是指喻体集合中喻体的个数,喻体集合可从收集的语料中进行筛选。具体地,所述方法还包括:获取语料集合;统计所述语料集合中每个名词出现的频率;将出现频率最高的第三预设数量的名词作为喻体,得到所述喻体集合。

从互联网中收集汇总大量的语料,例如人民日报、维基百科、百度百科、小说等等,构成语料集合。语料集合尽可能涵盖多种领域,以使后续生成的喻体集合更加复杂多样性。

利用结巴分词工具的词性分析功能,对语料集合中的语料进行分析,保留语料中词性为名词的词语,并对语料集合中每个名词的出现次数进行统计。根据预先设置的喻体集合的大小,可以选取出现频率最高的第三预设数量的名词作为喻体,从而得到喻体集合。

为了保证喻体选取效果,即为了选取更适合的名词来作为喻体,可以先选取出现频率最高的M个名词(M≥1),再分别对M个名词进行打分。例如,可以通过人工打分,也可以预先设置各种名词的分数表,在打分时通过查找该分数表来获取M个名词分别对应的分数。由于喻体一般为通过听觉、视觉、味觉、嗅觉以及触觉感知的物体,因此可以基于听觉、视觉、味觉、嗅觉以及触觉这五个方面的感知来分别对M个名词进行打分。名词分数越高,则该名词越适合作为喻体。在获取M个名词中每个名词的分数后,可以从M个名词中选取分数最高的第三预设数量的名词作为喻体,从而得到喻体集合。如图4所示,喻体集合包括五个喻体,即喻体B、喻体C、喻体D、喻体E和喻体F。

在确定喻体集合后,通过本体与喻体之间的属性相关性,从喻体集合中匹配出本体所对应的目标喻体。具体地,步骤103中的所述从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体,包括:确定所述喻体集合中每个喻体对应的喻体属性词汇集合,得到至少一个喻体属性词汇集合;所述喻体属性词汇集合包括至少一个喻体属性词汇;从所述至少一个喻体属性词汇集合中,确定与所述本体属性词汇相匹配的目标喻体属性词汇集合;将所述目标喻体属性词汇集合对应的喻体,作为与所述本体属性词汇相匹配的目标喻体。

其中,每个喻体对应的喻体属性词汇可以通过预先训练好的语言模型来获取,即依次将每个喻体输入至预先训练好的语言模型,使语言模型每输入一个喻体,则识别该喻体的语义,并根据该喻体的语义输出第四预设数量的喻体属性词汇,第四预设数量的喻体属性词汇构成该喻体的喻体属性词汇集合。喻体属性的数量控制可以避免后续处理量过多的问题。

如图4所示,每个喻体对应一个喻体属性词汇集合,每个喻体属性词汇集合包括四个喻体属性词汇,即喻体B对应的喻体属性词汇集合包括喻体属性词汇B1、喻体属性词汇B2、喻体属性词汇B3和喻体属性词汇B4;喻体C对应的喻体属性词汇集合包括喻体属性词汇C1、喻体属性词汇C2、喻体属性词汇C3和喻体属性词汇C4;喻体D对应的喻体属性词汇集合包括喻体属性词汇D1、喻体属性词汇D2、喻体属性词汇D3和喻体属性词汇D4;喻体E对应的喻体属性词汇集合包括喻体属性词汇E1、喻体属性词汇E2、喻体属性词汇E3和喻体属性词汇E4;喻体F对应的喻体属性词汇集合包括喻体属性词汇F1、喻体属性词汇F2、喻体属性词汇F3和喻体属性词汇F4。

在获取喻体集合中每个喻体对应的喻体属性词汇集合后,检测每个喻体对应的喻体属性词汇集合是否与本体属性词汇相匹配。喻体属性词汇集合与本体属性词汇是否匹配可通过喻体属性词汇集合中的喻体属性词汇与本体属性词汇是否匹配来判断。

具体地,所述从所述至少一个喻体属性词汇集合中,确定与所述本体属性词汇相匹配的目标喻体属性词汇集合,包括:分别将所述至少一个喻体属性词汇集合中的每个喻体属性词汇集合作为候选集合,检测所述候选集合中是否具有与所述本体属性词汇相匹配的目标属性词汇;若是,则将所述候选集合作为与所述本体属性词汇相匹配的目标喻体属性词汇集合。

需要说明的是,在一个喻体属性词汇集合为候选集合时,只要检测到该喻体属性词汇集合中的任一喻体属性词汇与任一本体属性词汇相匹配,则确定该喻体属性词汇集合与本体属性词汇相匹配,该喻体属性词汇集合为目标喻体属性词汇集合,且目标喻体属性词汇集合中与任一本体属性词汇相匹配的喻体属性词汇为目标属性词汇。目标喻体属性词汇集合中可以具有一个或多个喻体属性词汇与本体属性词汇相匹配,即目标喻体属性词汇集合中可以具有一个或多个目标属性词汇,且不同目标属性词汇相匹配的本体属性词汇可以相同或不同。

具体地,所述检测所述候选集合中是否具有与所述本体属性词汇相匹配的目标属性词汇,包括:若所述候选集合中具有与所述本体属性词汇相同的喻体属性词汇,则确定所述候选集合中具有与所述本体属性词汇相匹配的目标属性词汇,且所述候选集合中与所述本体属性词汇相同的喻体属性词汇为所述目标属性词汇;若所述候选集合中不具有与所述本体属性词汇相同的喻体属性词汇,则分别计算所述候选集合中每个喻体属性词汇与每个本体属性词汇的相似度,并在计算的最大相似度大于预设阈值时,确定所述候选集合中具有与所述本体属性词汇相匹配的目标属性词汇,且大于所述预设阈值的相似度所对应的喻体属性词汇为所述目标属性词汇。

需要说明的是,可以先检测所有喻体属性词汇集合中是否具有本体属性词汇,若存在,则表明该喻体属性词汇集合中具有与某一本体属性词汇相同的喻体属性词汇,该喻体属性词汇集合与本体属性词汇相匹配,将该喻体属性词汇集合作为目标喻体属性词汇集合。若具有本体属性词汇的喻体属性词汇集合的数量较多,本实施例可以仅将具有本体属性词汇的喻体属性词汇集合作为目标喻体属性词汇集合,目标喻体属性词汇集合中与本体属性词汇相同的喻体属性词汇即为目标属性词汇。

如图3和图4所示,图4中的喻体属性词汇C2与图3中的本体属性词汇A2相同,则喻体属性词汇C2所在的喻体属性词汇集合与本体属性词汇相匹配,喻体属性词汇C2所在的喻体属性词汇集合为目标喻体属性词汇集合,且喻体属性词汇C2为目标属性词汇。图4中的喻体属性词汇F1与图3中的本体属性词汇A4相同,则喻体属性词汇F1所在的喻体属性词汇集合与本体属性词汇相匹配,喻体属性词汇F1所在的喻体属性词汇集合为目标喻体属性词汇集合,且喻体属性词汇F1为目标属性词汇。

若所有喻体属性集合都不具有本体属性词汇,或者具有本体属性词汇的喻体属性词汇集合的数量较少,则可以通过不具有本体属性词汇的喻体属性词汇集合与本体属性词汇之间的相似度来判断不具有本体属性词汇的喻体属性词汇集合是否与本体属性词汇相匹配。分别计算不具有本体属性词汇的喻体属性词汇集合中每个喻体属性词汇与每个本体属性词汇的相似度,并将计算得到的最大相似度作为该喻体属性词汇集合与本体属性词汇的相似度,若该喻体属性词汇集合与本体属性词汇的相似度大于预设阈值,则表明该喻体属性词汇集合与本体属性词汇相匹配,将该喻体属性词汇集合作为目标喻体属性词汇集合。若该喻体属性词汇集合中存在多个喻体属性词汇与本体属性词汇的相似度大于预设阈值,则可以将该多个喻体属性词汇作为目标属性词汇。

图4中的喻体属性词汇B1与图3中的本体属性词汇A5的相似度大于预设阈值,且喻体属性词汇B2与图3中的本体属性词汇A3的相似度大于预设阈值,则喻体属性词汇B1和喻体属性词汇B2所在的喻体属性词汇集合为目标喻体属性词汇集合,且喻体属性词汇B1和喻体属性词汇B2均为目标属性词汇。

在确定目标喻体属性词汇集合后,根据喻体属性词汇集合与喻体的对应关系,确定目标喻体属性词汇集合对应的喻体,该喻体即为目标喻体。另外,目标喻体属性词汇集合中具有至少一个目标属性词汇,建立目标喻体与至少一个目标属性词汇的对应关系。如图4所示,喻体B、喻体C和喻体F均为目标喻体,喻体B对应的目标属性词汇为喻体属性词汇B1和喻体属性词汇B2,喻体C对应的目标属性词汇为喻体属性词汇C2,喻体F对应的目标属性词汇为喻体属性词汇F1。

例如,本体为“小姑娘害羞的脸蛋”,本体属性词汇包括“红色”等,而喻体为“苹果”,喻体属性词汇集合包括“红色”、“甜”等,则该喻体属性词汇集合具有本体属性词汇“红色”,因此将“苹果”作为目标喻体,将“红色”作为目标属性词汇。又例如,本体为“父爱”,本体属性词汇包括“伟大”等,而喻体为“山”,喻体属性词汇集合包括“巍峨”、“壮观”等,则该喻体属性词汇集合中“巍峨”与本体属性词汇中“伟大”的相似性大于预设阈值,因此将“山”作为目标喻体,将“巍峨”作为目标属性词汇。

步骤104,根据所述本体和所述目标喻体,生成至少一个目标文本。

生成的目标文本可以是包含了本体和喻体的文本,如比喻句、排比句等。本实施例中所生成的目标文本的基本结构包括本体、喻体,更进一步地,目标文本还可以包含喻词,喻词是用于表示比喻关系的词语。可以预先设置多个文本模板,文本模板中包括喻词,在确定本体及其对应的目标喻体后,可以将本体和目标喻体对应填充至每个文本模板中,生成至少一个目标文本。

为了提高文本效果,使生成的文本语句更加优美、丰富,还可以将目标属性词汇添加至文本中。具体地,所述根据所述本体和所述目标喻体,生成至少一个目标文本,包括:获取所述目标属性词汇;根据所述本体、所述目标喻体和对应的目标属性词汇,生成至少一个目标文本。

本体、目标喻体和目标属性词汇可以构成文本三元组,若一个目标喻体对应多个目标属性词汇,则可以构成多个文本三元组。例如,目标喻体对应两个目标属性词汇,即目标属性词汇1和目标属性词汇2,则可以构成两个文本三元组(本体,目标属性词汇1,目标喻体)和(本体,目标属性词汇2,目标喻体)。

每个文本三元组可以对应生成一个文本。具体地,所述根据所述本体、所述目标喻体和对应的目标属性词汇,生成至少一个目标文本,包括:确定所述本体、所述目标喻体和对应的目标属性词汇的表示类型;根据所述本体、所述目标喻体和对应的目标属性词汇的表示类型,确定至少一个文本模板;将所述本体、所述目标喻体和对应的目标属性词汇填充至每个所述文本模板中,得到至少一个目标文本。

预先设置多个文本模板,本体、喻体和属性词汇的表示类型不同,对应的文本模板不同。由于喻体的主要表示类型为名词类词语,属性词汇的主要表示类型为形容词和动词,因此这里主要考虑的是本体的表示类型,在本体为段落、句子、短语或词语时,可以采用不同的文本模板。例如,在本体为段落或句子时,文本模板可以为“(本体),像(喻体)一样(属性)”;在本体为短语或词语时,文本模板可以为“(本体)像(属性)(喻体)”、“(本体)像(喻体)一样(属性)”等等。

在确定文本模板后,将每个文本三元组填充至一个文本模板,生成一个目标文本。例如,在一个文本三元组中,本体为“茫茫的草原”,目标喻体为“地毯”,目标属性词汇为“无边无际的”,生成的目标文本为“茫茫的草原像无边无际的地毯”。又例如,在一个文本三元组中,本体为“她脸上洋溢着兴奋的光芒”,目标喻体为“花”,目标属性词汇为“绽放的”,生成的目标文本为“她脸上洋溢着兴奋的光芒,像绽放的花一样”。

在生成至少一个目标文本后,还可对至少一个目标文本的语法和语义进行分析,从中筛选出语法正确且语义合理的目标文本,作为最终的目标文本输出给用户。具体地,先采用句法分析器对生成的至少一个目标文本进行分析,保留语法正确的目标文本。然后,采用文本判别器,对语法正确的目标文本进行进一步的分析,保留语义合理的目标文本。其中,文本判别器可以为基于Bert(Bidirectional Encoder Representations fromTransformers)的判别模型,通过Bert和少量的标注数据,可以微调处一个文本判别器。

上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。

本申请实施例提供的文本的生成方法,通过获取本体;根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;根据所述本体和所述目标喻体,生成至少一个目标文本。本申请实施例通过本体的语义来确定本体的属性,再根据本体的属性,确定相匹配的喻体,提高本体和喻体的多样性,进而提高所生成的文本的多样性,而且采用无监督的方法生成文本,无需大规模标准语料训练模型,提高文本的生成效率和生成效果。

请参阅图5,图5为本申请实施例提供的文本的生成方法的另一流程示意图。该方法的具体流程可以如下:

步骤201,采用已构建的知识图谱,训练语言模型。

获取知识图谱中具有属性关系的三元组,语言模型为基于Transformer的网络结构,其包括12层的Transformers结构,初始化词向量的维度有768维,有12个注意力层,其中词典大小为21128。根据具有属性关系的三元组训练语言模型,训练一次即可,得到训练好的语言模型。

步骤202,获取本体。

例如,用户输入“荷叶上的露珠”,则获取本体“荷叶上的露珠”。

步骤203,将本体输入至训练好的语言模型,得到本体对应的至少一个本体属性词汇。

例如,将本体“荷叶上的露珠”输入至训练好的语言模型,该语言模型根据本体的语义,输出多个本体属性词汇“晶莹”、“闪亮”、“透明”,构成本体属性词汇。

步骤204,确定喻体集合。

从收集的语料集合中筛选出现频率最大的一定数量的名词,作为喻体集合。例如,喻体集合包括“太阳”、“苹果”、“钻石”、“星星”、“山”等等。

步骤205,将喻体集合中的每个喻体输入至训练好的语言模型,得到每个喻体对应的喻体属性词汇集合。

例如,依次将喻体“苹果”、“钻石”、“星星”、“山”输入至训练好的语言模型,分别得到喻体“苹果”、“钻石”、“星星”、“山”对应的喻体属性词汇集合。其中,“苹果”对应的喻体属性词汇集合1包括“红色”、“甜”等,“钻石”对应的喻体属性词汇集合2包括“闪亮”、“坚硬”等,“星星”对应的喻体属性词汇集合3包括“璀璨”、“繁多”等,“山”对应的喻体属性词汇集合4包括“高大”、“壮观”等。

步骤206,将具有目标属性词汇的喻体属性词汇集合作为目标喻体属性词汇集合,目标属性词汇为与本体属性词汇相匹配的喻体属性词汇。

例如,喻体属性词汇集合2中的喻体属性词汇“闪亮”与本体“荷叶上的露珠”对应的本体属性词汇“闪亮”相同,因此喻体属性词汇集合2为目标喻体属性词汇集合,喻体属性词汇“闪亮”为对应的目标属性词汇。另外,喻体属性词汇集合3中的喻体属性词汇“璀璨”与本体“荷叶上的露珠”对应的本体属性词汇“闪亮”相似度达到预设阈值,因此喻体属性词汇集合3为目标喻体属性词汇集合,“璀璨”为对应的目标属性词汇。

步骤207,将目标喻体属性词汇集合对应的喻体作为目标喻体。

例如,将喻体属性词汇集合2对应的喻体“钻石”作为目标喻体,对应的目标属性词汇为“闪亮”。另外,将喻体属性词汇集合3对应的喻体“星星”作为目标喻体,对应的目标属性词汇为“璀璨”。

步骤208,根据本体、目标喻体和目标属性词汇,生成至少一个目标文本。

例如,根据本体“荷叶上的露珠”、目标喻体“钻石”和对应的目标属性词汇“闪亮”,生成目标文本“荷叶上的露珠像钻石一样闪亮”。另外,根据“荷叶上的露珠”、目标喻体“星星”和对应的目标属性词汇“璀璨”,生成目标文本“荷叶上的露珠像璀璨的星星”。

上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。

本申请实施例通过本体的语义来确定本体的属性,再根据本体的属性,确定相匹配的喻体,提高本体和喻体的多样性,进而提高所生成的文本的多样性,而且采用无监督的方法生成文本,无需大规模标准语料训练模型,提高文本的生成效率和生成效果。

为便于更好的实施本申请实施例的文本的生成方法,本申请实施例还提供一种文本的生成装置。请参阅图6,图6为本申请实施例提供的文本的生成装置的结构示意图。该文本的生成装置300可以包括获取模块301,第一确定模块302,第二确定模块303以及第三确定模块304。

获取模块301,用于获取本体;

第一确定模块302,用于根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;

第二确定模块303,用于从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;所述喻体集合包括至少一个喻体;

生成模块304,用于根据所述本体和所述目标喻体,生成至少一个目标文本。

可选的,第一确定模块302还用于:

将所述本体输入至预先训练好的语言模型中,使所述预先训练好的语言模型根据所述本体的语义,输出第一预设数量的本体属性词汇。

可选的,所述装置还包括训练模块,训练模块用于:

从预先构建的知识图谱中获取具有属性关系的三元组集合;

根据所述三元组集合,训练所述语言模型,得到训练好的语言模型。

可选的,第二确定模块303还用于:

确定所述喻体集合中每个喻体对应的喻体属性词汇集合,得到至少一个喻体属性词汇集合;所述喻体属性词汇集合包括至少一个喻体属性词汇;

从所述至少一个喻体属性词汇集合中,确定与所述本体属性词汇相匹配的目标喻体属性词汇集合;

将所述目标喻体属性词汇集合对应的喻体,作为与所述本体属性词汇相匹配的目标喻体。

可选的,第二确定模块303还用于:

分别将所述至少一个喻体属性词汇集合中的每个喻体属性词汇集合作为候选集合,检测所述候选集合中是否具有与所述本体属性词汇相匹配的目标属性词汇;

若是,则将所述候选集合作为与所述本体属性词汇相匹配的目标喻体属性词汇集合。

可选的,第二确定模块303还用于:

若所述候选集合中具有与所述本体属性词汇相同的喻体属性词汇,则确定所述候选集合中具有与所述本体属性词汇相匹配的目标属性词汇,且所述候选集合中与所述本体属性词汇相同的喻体属性词汇为所述目标属性词汇;

若所述候选集合中不具有与所述本体属性词汇相同的喻体属性词汇,则分别计算所述候选集合中每个喻体属性词汇与每个本体属性词汇的相似度,并在计算的最大相似度大于预设阈值时,确定所述候选集合中具有与所述本体属性词汇相匹配的目标属性词汇,且大于所述预设阈值的相似度所对应的喻体属性词汇为所述目标属性词汇。

可选的,生成模块304还用于:

获取所述目标属性词汇;

根据所述本体、所述目标喻体和对应的目标属性词汇,生成至少一个目标文本。

可选的,生成模块304还用于:

确定所述本体、所述目标喻体和对应的目标属性词汇的表示类型;

根据所述本体、所述目标喻体和对应的目标属性词汇的表示类型,确定至少一个文本模板;

将所述本体、所述目标喻体和对应的目标属性词汇填充至每个所述文本模板中,得到至少一个目标文本。

可选的,所述装置还包括统计模块,统计模块用于:

获取语料集合;

统计所述语料集合中每个名词出现的频率;

将出现频率最高的第三预设数量的名词作为喻体,得到所述喻体集合。

可选的,所述本体的表示类型包括段落、句子、短语或词语。

上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。

本申请实施例提供的文本的生成装置300,通过获取本体;根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;根据所述本体和所述目标喻体,生成至少一个比喻句。本申请实施例通过本体的语义来确定本体的属性,再根据本体的属性,确定相匹配的喻体,提高本体和喻体的多样性,进而提高所生成的文本的多样性,而且采用无监督的方法生成文本,无需大规模标准语料训练模型,提高文本的生成效率和生成效果。

相应的,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器,该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,Personal Computer)、个人数字助理(Personal Digital Assistant,PDA)等终端设备。如图7所示,图7为本申请实施例提供的计算机设备的结构示意图。该计算机设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中,处理器401与存储器402电性连接。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

处理器401是计算机设备400的控制中心,利用各种接口和线路连接整个计算机设备400的各个部分,通过运行或加载存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备400的各种功能和处理数据,从而对计算机设备400进行整体监控。

在本申请实施例中,计算机设备400中的处理器401会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能:

获取本体;根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;根据所述本体和所述目标喻体,生成至少一个目标文本。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

可选的,如图7所示,计算机设备400还包括:触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中,处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解,图7中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中,显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并生成相应的操作指令,且操作指令执行对应程序。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中,可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中,触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

在本申请实施例中,通过处理器401执行动画制作软件在触控显示屏403上生成图形用户界面。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路404可用于收发射频信号,以通过无线通信与网络设备或其他计算机设备建立无线通讯,与网络设备或其他计算机设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路405接收后转换为音频数据,再将音频数据输出处理器401处理后,经射频电路404以发送给比如另一计算机设备,或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔,以提供外设耳机与计算机设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给计算机设备400的各个部件供电。可选的,电源407可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图7中未示出,计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

由上可知,本实施例提供的计算机设备,通过获取本体;根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;根据所述本体和所述目标喻体,生成至少一个目标文本。本申请实施例通过本体的语义来确定本体的属性,再根据本体的属性,确定相匹配的喻体,提高本体和喻体的多样性,进而提高所生成的文本的多样性,而且采用无监督的方法生成文本,无需大规模标准语料训练模型,提高文本的生成效率和生成效果。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种文本的生成方法中的步骤。例如,该计算机程序可以执行如下步骤:

获取本体;根据所述本体的语义,确定所述本体对应的至少一个本体属性词汇;从预设的喻体集合中,确定与所述本体属性词汇相匹配的至少一个目标喻体;根据所述本体和所述目标喻体,生成至少一个目标文本。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种文本的生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本的生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种文本的生成方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 文本生成方法、文本生成装置及计算机可读存储介质
  • 文本生成方法、文本生成装置、电子设备及存储介质
技术分类

06120113066241