掌桥专利:专业的专利平台
掌桥专利
首页

用于文本生成质量评估的方法、装置和设备

文献发布时间:2023-06-19 10:58:46


用于文本生成质量评估的方法、装置和设备

技术领域

本申请涉及人工智能技术领域,涉及一种用于文本生成质量评估的方法、装置和设备。

背景技术

目前,文本生成是目前自然语言处理技术中的一个重要研究领域。因其具有广阔的应用场景,所以针对文本生成的研究也层出不穷。文本生成目前的一大瓶颈是如何制定一个合理的评价指标,以客观而准确的评价生成文本的质量。

在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:

目前大多文本生成质量评估只是关注参考文本与对应的生成文本之间语义主题的相似性,没有关注生成文本是否容易被识别出是模型生成文本,评估指标单一,评估结果的可靠性较低。

发明内容

为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

本公开实施例提供了一种用于文本生成质量评估的方法、装置和设备,能够提高文本生成质量评估的可靠性。

在一些实施例中,方法包括:

获取参考文本和生成文本,生成文本根据参考文本获得;

将参考文本和生成文本输入预设的评估模型获取评估指标;评估模型根据带有主题相似度标签和生成语句辨识标签的样本文本获取;

根据评估指标进行文本生成质量的评估。

在一些实施例中,装置包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述的用于文本生成质量评估的方法。

在一些实施例中,设备包括上述的用于文本生成质量评估的装置。

本公开实施例提供的用于文本生成质量的评估方法,装置和设备,可以实现以下技术效果:通过具有主题相似度标签和生成语句辨识标签的样本文本训练评估模型,使训练完成的评估模型可以通过主题相似度和生成语句辨识度两个方面综合评估文本生成质量,相比目前的评估方法,除了评估参考文本和对应的生成文本的主题相似程度,还考虑了生成文本是否容易被识别为模型生成的文本,提高了文本生成质量评估的可靠性。

以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:

图1是本公开实施例提供的一个用于文本生成质量的方法的示意图;

图2是本公开实施例提供的一个用于文本生成质量的装置的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。

除非另有说明,术语“多个”表示两个或两个以上。

本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。

术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。

结合图1所示,本公开实施例提供一种用于文本生成质量评估的方法,包括:

步骤S101,获取参考文本和生成文本,生成文本根据参考文本获得;

步骤S102,将参考文本和生成文本输入预设的评估模型获取评估指标;评估模型根据带有主题相似度标签和生成语句辨识标签的样本文本获取;

步骤S103,根据评估指标进行文本生成质量的评估。

采用本公开实施例的一种用于文本生成质量评估的方法,通过具有主题相似度标签和生成语句辨识标签的样本文本训练评估模型,使训练完成的评估模型可以通过主题相似度和生成语句辨识度两个方面综合评估文本生成质量,相比目前的评估方法,除了评估参考文本和对应的生成文本的主题相似程度,还考虑了生成文本是否容易被识别为模型生成的文本,提高了文本生成质量评估的可靠性。

可选地,根据带有主题相似度标签和生成语句辨识标签的样本文本获取评估模型,包括:获取样本文本;获取样本文本的主题相似度标签;获取样本文本的生成语句辨识标签;利用带有主题相似度标签和生成语句辨识标签的样本文本对预设的神经网络模型进行训练,获得评估模型。

这样,通过具有主题相似度标签和生成语句辨识标签的样本文本协同训练,获得评估模型,使训练完成的评估模型能够通过主题相似度和生成语句辨识度两个方面综合评估文本生成质量,从而能够提高文本生成质量评估的可靠性。

可选地,神经网络模型包括BERT(Bidirectional Encoder Representation fromTransformers)预训练模型。在一些实施例中,利用带有主题相似度标签和生成语句辨识标签的样本文本对神经网络模型进行训练,获得评估模型。相比于传统的统计评估模型,基于神经网络模型训练的评估模型可以分析文本的主题特征和结构特征,通过分析主题特征和结构特征评估文本的主题相似度,对文本之间主题相似度的评估更具有可靠性。

可选地,样本文本包括第一文本对和第二文本对;获取样本文本包括:获取参考样本文本和生成样本文本,生成样本文本根据参考样本文本生成;将参考样本文本与参考样本文本对应的生成样本文本进行组合,获得第一文本对;将不同的两个参考样本文本进行组合,获得第二文本对。

可选地,获取样本文本的主题相似度标签,包括:获取第一文本对中参考样本文本和生成样本文本的第一相似度,根据第一相似度获取第一文本对的主题相似度标签;获取第二文本对中参考样本文本之间的第二相似度,根据第二相似度获取第二文本对的主题相似度标签。这样,样本文本具有主题相似度标签,基于具有主题相似度标签的样本文本训练的评估模型可以生成基于主题相似度标签的主题相似度指标,根据主题相似度指标评估文本之间的主题相似程度,提高评估模型评估文本生成质量的准确性。

可选地,获取第一文本对中参考样本文本和生成样本文本的第一相似度,包括:将参考样本文本和生成样本文本输入预设的主题模型进行主题分析,获得参考样本文本和生成样本文本分别对应在若干预设主题上的第一概率分布向量和第二概率分布向量;获取第一概率分布向量和第二概率分布向量的第一KL距离(Kullback-Leibler Divergence),将第一KL距离确定为第一相似度。

可选地,通过计算

可选地,第一KL距离D

可选地,获取第二文本对中参考样本文本之间的第二相似度,包括:将两个参考样本文本输入预设的主题模型进行主题分析,获得两个参考样本文本分别对应在若干预设主题上的第三概率分布向量和第四概率分布向量;获取第三概率分布向量和第四概率分布向量的第二KL距离;将第二KL距离确定为第二相似度。

可选地,通过计算

可选地,第二KL距离D'

可选地,根据第一相似度获取第一文本对的主题相似度标签,包括:在第一相似度满足第一预设条件的情况下,将第一文本对的主题相似度标签确定为主题相似;和,在第一相似度不满足第一预设条件的情况下,将第一文本对的主题相似度标签确定为主题不相似。

可选地,在第一相似度满足第一预设条件的情况下,将第一文本对的主题相似度标签确定为主题相似,包括:在第一文本对的第一相似度小于或等于预设的第一阈值的情况下,则第一文本对中的参考样本文本和生成文本样本的主题相似,将第一文本对的主题相似度标签确定为主题相似。

可选地,在第一相似度不满足第一预设条件的情况下,将第一文本对的主题相似度标签确定为主题不相似,包括:在第一文本对的第一相似度大于预设的第二阈值的情况下,则第一文本对中的参考样本文本和生成文本样本的主题不相似,将第一文本对的主题相似度标签确定为主题不相似。

可选地,根据第二相似度获取第二文本对的主题相似度标签,包括:在第二相似度满足第二预设条件的情况下,将第二文本对的主题相似度标签确定为主题相似;和,在第二相似度不满足第二预设条件的情况下,将第二文本对的主题相似度标签确定为主题不相似。

可选地,在第二相似度满足第二预设条件的情况下,将第二文本对的主题相似度标签确定为主题相似,包括:在第二文本对的第二相似度小于或等于预设的第三阈值的情况下,则第二文本对中的参考样本文本之间的主题相似,将第二文本对的主题相似度标签确定为主题相似。

可选地,在第二相似度不满足第二预设条件的情况下,将第二文本对的主题相似度标签确定为主题不相似,包括:在第二文本对的第二相似度大于预设的第四阈值的情况下,则第二文本对中的参考样本文本之间的主题不相似,将第二文本对的主题相似度标签确定为主题不相似。

可选地,获取样本文本的生成语句辨识标签,包括:在样本文本包括生成样本文本的情况下,将样本文本的生成语句辨识标签确定为具有生成样本文本;在样本文本不包括生成样本文本的情况下,将样本文本的生成语句辨识标签确定为不具有生成语句。这样,样本文本具有生成语句辨识标签,基于具有生成语句辨识标签的样本文本训练的评估模型可以输出生成语句辨识度指标,根据生成语句辨识度指标评估文本被识别为模型生成的文本的可能性,提高评估模型评估文本生成质量的准确性。

可选地,利用带有主题相似度标签和生成语句辨识标签的样本文本对预设的神经网络模型进行训练,获得评估模型,包括:获取训练的神经网络模型中主题相似度标签对应的第一损失值;获取训练的神经网络模型中生成语句辨识标签对应的第二损失值;通过计算L

可选地,获取训练的神经网络模型中主题相似度标签对应的第一损失值,包括;将第一文本对中的参考样本文本通过训练的神经网络模型,获取第一样本隐层输出向量;将第一文本对中的生成样本文本通过训练的神经网络模型,获取第二样本隐层输出向量;将第二文本对中不同的参考样本文本通过训练的神经网络模型,分别获取第三样本隐层输出向量和第四样本隐层输出向量;将第一样本隐层输出向量和第三样本隐层输出向量的组合取算数平均数,获得第一样本算数平均数;对第二样本隐层输出向量和第四样本隐层输出向量的组合取算数平均数,获得第二样本算数平均数;通过多层感知机(Muti-LayerPerception,MLP)将第一样本算数平均数变换到主题相似度标签对应的输出维度,获得第五样本隐层输出向量;通过多层感知机MLP将第二样本算数平均数变换到主题相似度标签对应的输出维度,获得第六样本隐层输出向量;拼接第五样本隐层输出向量和第六样本隐层输出向量,获得样本拼接向量;对样本拼接向量通过全连接层(Fully Connected Layer,FC)进行线性变换,获得样本拼接向量对应的样本主题相似度特征;对样本主题相似度特征通过SIGMOID函数进行二分类处理,获得主题相似度标签对应的样本主题相似函数;根据交叉熵损失函数对样本主题相似函数计算损失,获得第一损失值。

可选地,获取训练的神经网络中生成语句辨识标签对应的第二损失值,包括:获取训练的神经网络在输入层生成的样本语义表示符号;将语义表示符号通过训练的神经网络,获得样本语义输出向量;通过多层感知机MLP将样本语义输出向量变换到生成语句辨识标签对应的输出维度,获得样本语义向量;对样本语义向量通过SIGMIOD函数进行二分类处理,获得生成语句辨识标签对应的样本生成语句辨识函数;根据交叉熵损失函数对样本生成语句辨识函数计算损失,获得第二损失值。

可选地,利用带有主题相似度标签和生成语句辨识标签的样本文本对预设的神经网络模型进行训练,获得评估模型,包括:将带有主题相似度标签和生成语句辨识标签的样本文本输入预设的神经网络模型进行训练,记录每个预设周期的训练模型的总体损失值;获取已经记录的总体损失值中的最低值;当连续M个预设周期的训练模型的总体损失值不低于总体损失值中的最低值,则确定该神经网络模型的准确率不再提高;停止模型训练,将训练后的模型确定为评估模型;其中,M是正整数。可选地,M大于或等于10。

可选地,将参考文本和生成文本输入预设的评估模型获取评估指标,包括:将参考文本通过评估模型,获得第一隐层输出向量;将生成文本通过评估模型,获得第二隐层输出向量;获取评估模型在输入层生成的语义表示符号;将语义表示符号通过评估模型,获得语义输出向量;对第一隐层输出向量取算数平均数,获得第一算数平均数;对第二隐层输出向量取算数平均数,获得第二算数平均数;通过多层感知机MLP将第一算数平均数变换到主题相似度标签对应的输出维度,获得第三隐层输出向量;通过多层感知机MLP将第二算数平均数变换到主题相似度标签对应的输出维度,获得第四隐层输出向量;拼接第三隐层输出向量和第四隐层输出向量,获得拼接向量;对拼接向量通过全连接层FC进行线性变换,获得拼接向量对应的主题相似度特征;对主题相似度特征通过SIGMOID函数进行二分类处理,获得主题相似度标签对应的主题相似函数;获取主题相似函数在主题相似度标签对应的正例上的第一置信度;将第一置信度确定为主题相似度指标;通过多层感知机MLP将语义输出向量变换到生成语句辨识标签对应的输出维度,获得语义向量;对语义向量通过SIGMIOD函数进行二分类处理,获得生成语句辨识标签对应的生成语句辨识函数;获取生成语句辨识函数在生成语句辨识标签对应的正例上的第二置信度;将第二置信度确定为生成语句辨识度指标;根据主题相似度指标和生成语句辨识度指标获取评估指标。

在一实施例中,将参考文本和生成文本输入基于BERT预训练模型的评估模型,该评估模型在输入层生成输入数据,该输入数据包括[CLS]符号、参考文本和生成文本,其中,[CLS]符号表示参考文本和生成文本的语义特征;获取[CLS]符号通过评估模型后的[CLS]输出向量,将[CLS]输出向量确定为语义输出向量。

可选地,根据主题相似度指标和生成语句辨识度指标获取评估指标,包括:通过主题相似度指标和生成语句辨识度指标相乘获得评估指标。

可选地,根据评估指标进行文本生成质量的评估,包括:在评估指标大于或等于第一设定阈值的情况下,将文本生成质量确定为优秀;在评估指标大于或等于第二设定阈值,且小于第一设定阈值的情况下,将文本生成质量确定为良;在评估指标小于第二设定阈值的情况下,将文本生成质量确定为差;其中,第二设定阈值小于第一设定阈值。可选地,第一设定阈值为0.7。可选地,第二设定阈值为0.4。

在一实施例中,参考文本为“这是一款性价比很高很高的手机。简直太爱了,价格太亲民了,性价比超高,适合所有人使用。尤其老年人,这个页面清晰,简单,大气,老年人也不眼花。屏幕清晰,流畅,滑动解锁方便,音质杠杠的。音色动听。拍照太优秀了,当千元机首屈一指。”,根据该参考文本通过待评估文本生成模型获得生成文本,该生成文本为“这款手机性价比真高。简直太喜欢了,性价比超级高,适合所有场景使用,特别是老年群体,屏幕页面显示清晰,滑动流畅,解锁快,音质音色杠杠的。拍照最好了,千元机皇首屈一指。”。将该参考文本和该生成文本输入评估模型;将主题相似度标签的主题相似确定为主题相似函数的正例,参考文本和生成文本的主题相似度越高,主题相似度指标的数值越高;评估模型输出的主题相似度指标是0.852;将生成语句辨识标签的不具有生成语句确定为语生成语句辨识函数的正例,生成文本被识别为模型生成的文本的可能性越高,生成语句辨识度指标的数值越高;评估模型输出的生成语句辨识度指标是0.831;主题相似度指标和生成语句辨识度指标相乘获得评估指标是0.708;则确定待评估文本生成模型的文本生成质量为优秀。

结合图2所示,本公开实施例提供一种用于文本生成质量评估的装置,包括处理器(processor)100和存储有程序指令的存储器(memory)101。可选地,该装置还可以包括通信接口(Communication Interface)102和总线103。其中,处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以用于信息传输。处理器100可以调用存储器101中的程序指令,以执行上述实施例的用于文本生成质量评估的方法。

此外,上述的存储器101中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

存储器101作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器100通过运行存储在存储器101中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于文本生成质量评估的方法。

存储器101可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器101可以包括高速随机存取存储器,还可以包括非易失性存储器。

采用本公开实施例提供的用于用于文本生成质量评估的装置,通过具有主题相似度标签和生成语句辨识标签的样本文本训练评估模型,使训练完成的评估模型可以通过主题相似度和生成语句辨识度两个方面综合评估文本生成质量,相比目前的评估方法,除了评估参考文本和对应的生成文本的主题相似程度,还考虑了生成文本是否容易被识别为模型生成的文本,提高了文本生成质量评估的可靠性。

本公开实施例提供了一种设备,包含上述的用于文本生成质量评估的装置,通过具有主题相似度标签和生成语句辨识标签的样本文本训练评估模型,使训练完成的评估模型可以通过主题相似度和生成语句辨识度两个方面综合评估文本生成质量,相比目前的评估方法,除了评估参考文本和对应的生成文本的主题相似程度,还考虑了生成文本是否容易被识别为模型生成的文本,提高了文本生成质量评估的可靠性。

可选地,设备包括计算机、智能手机、平板电脑等。

本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述用于文本生成质量评估的方法。

本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于文本生成质量评估的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

相关技术
  • 用于文本生成质量评估的方法、装置和设备
  • 基于质量感知的文本生成方法、设备、存储介质及装置
技术分类

06120112757934