掌桥专利:专业的专利平台
掌桥专利
首页

句子评分方法、装置、电子设备和存储介质

文献发布时间:2023-06-29 06:30:04


句子评分方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种句子评分方法、装置、电子设备和存储介质。

背景技术

通用句子评价是对单个句子进行评分或者评价,与篇章的评价不同,句子评价所面对的对象粒度更小、更集中,且更加重点关注句子的措辞和句式等。

句子评分的常规方式包括分类方式和回归方式,其中,分类方式通过对句子进行二分类,实现对句子的评价;回归方式通过对句子进行特征表示的提取,然后基于特征表示对句子进行分数的预测,实现对句子的评价。在使用体验上,基于回归方式的句子评价比基于分类方式的句子评价具有更好的使用效果。

虽然上述方式均可以实现对句子的评价,但是依旧存在一定的问题,如分类边界难以把握,再如回归方式需要定义评价维度和评价标准,使得对句子的评价不够准确。

发明内容

本发明提供一种句子评分方法、装置、电子设备和存储介质,用以解决现有技术中句子评分不够准确且通用性较低的问题。

本发明提供一种句子评分方法,包括:

确定待评分的句子;

对所述句子进行语义特征提取得到语义特征,以及进行多个维度的语言学特征提取得到语言学特征,并基于所述语义特征和所述语言学特征确定所述句子的评分结果;

其中,所述多个维度包括语句正确性、词语使用和写作技巧中的至少两种。

根据本发明提供的一种句子评分方法,所述语义特征、所述语言学特征和所述评分结果基于句子评分模型确定;

所述句子评分模型的训练步骤,包括:

基于初始评分模型,确定样本句子对中两个句子的预测评分;

基于所述两个句子的预测评分之间的差值,以及所述样本句子对中两个句子的标签评分之间的差值,确定所述句子评分模型的损失函数,并基于所述损失函数对所述句子评分模型进行训练。

根据本发明提供的一种句子评分方法,所述样本句子对的获取步骤包括:

在对所述初始评分模型进行训练的句子样本中选定目标句子,并计算所述句子样本中各句子的标签评分与所述目标句子的标签评分的分差值;

在所述句子样本中选择所述分差值大于分差阈值的句子与所述目标句子构成样本句子对,其中样本句子对包含两个句子,且包含所述目标句子。

根据本发明提供的一种句子评分方法,所述基于所述两个句子的预测评分之间的差值,以及所述样本句子对中两个句子的标签评分之间的差值,确定所述句子评分模型的损失函数,包括:

基于所述两个句子中的任一句子的预测评分和标签评分,确定第一损失函数,以及,基于所述两个句子中的另一句子的预测评分和标签评分,确定第二损失函数;

基于所述两个句子的预测评分之间的差值,以及所述样本句子对中两个句子的标签评分之间的差值,确定第三损失函数;

基于所述第一损失函数、所述第二损失函数和所述第三损失函数,确定所述句子评分模型的损失函数。

根据本发明提供的一种句子评分方法,所述进行多个维度的语言学特征提取得到语言学特征,包括:

对所述句子进行语句正确性判断,得到第一特征向量,其中所述正确性判断包括对拼写正确性和语法正确性的判断;

对所述句子的句子特征进行提取,得到第二特征向量,其中所述句子特征包括句子长度;

对所述句子进行文本识别确定所述句子包含的写作技巧,得到第三特征向量;

基于所述第一特征向量、第二特征向量和第三特征向量进行融合,得到所述句子的语言学特征。

根据本发明提供的一种句子评分方法,所述基于所述语义特征和所述语言学特征确定所述句子的评分结果之后,还包括:

确定当前是否存在标定句;

若确定不存在标定句,则将所述评分结果作为所述句子评分模型的输出;

若确定存在标定句,则基于所述标定句对所述评分结果进行修正,并将修正后的评分结果作为所述句子评分模型的输出。

根据本发明提供的一种句子评分方法,所述基于所述标定句对所述评分结果进行修正,包括:

将所述标定句输入至所述句子评分模型中,得到所述句子评分模型输出的标定结果;

基于所述标定结果和所述标定句的标定标注,得到评分差值,并基于所述评分差值对所述评分结果进行修正。

本发明还提供一种句子评分装置,包括:

句子获取模块,用于确定待评分的句子;

句子评分模块,用于对所述句子进行语义特征提取得到语义特征,以及进行多个维度的语言学特征提取得到语言学特征,并基于所述语义特征和所述语言学特征确定所述句子的评分结果;

其中,所述多个维度包括语句正确性、词语使用和写作技巧中的至少两种。

本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述句子评分方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述句子评分方法的步骤。

本发明提供的句子评分方法、装置、电子设备和存储介质,在对待评分的句子进行评分时,对句子的语义特征进行提取,同时在提取句子的语言学特征时进行多维度的特征提取,其中多个维度包括语句正确性、词语使用和写作技巧中的至少两种,然后基于语言学特征和语义特征进行评分。使得在进行评分时,提取句子更多的特征作为评分依据,突出句子在语句正确性等的基础要求、词语使用方式和写作技巧三个维度特征,提高了句子评分的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的句子评分方法的流程示意图;

图2是本发明提供的得到句子评分模型的步骤的流程示意图;

图3是本发明提供的句子评分模型的结构示意图;

图4是本发明提供的确定损失函数的步骤的流程示意图;

图5是本发明提供的对句子进行评分得到评分结果的步骤的流程示意图;

图6是本发明提供的句子评分装置的结构示意图;

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前,进行句子评分/评价的方法有两种,一种是基于分类方案实现,另一种是基于回归方案实现。

具体地,基于分类方案实现句子评分/评价时,以单个句子作为输入,使用神经网络模型或者人工设计的特征提取模板,抽取该句子的特征表示,进而基于特征表示进行优美/非优美的二分类。

而基于回归方案实现句子评分/评价时,同样以单个句子作为输入,经过特征提取得到特征表示,然后基于所得到的特征表示输出一个处于0~100之间的分数,作为对句子的评价或评分。

在实际应用中,由于对句子的评分/评价是一个主观性较强的任务,因此为了提高句子评分的准确性,需要满足如下几个特点,一是明确句子评分标准;二是评分方式的结果生成足够灵活,可以满足不同的场景需求;三是评分结果具有可解释性。

针对上述描述的三个特点,分类方案和回归方案均存在一定的问题,如在句子评分标准方面,分类方案需要给优美和非优美设置合适的边界,使得评分标准难以界定和统一,而回归方案则需要给句子水平定义不同的评价维度,并制定每个维度的评价标准。

再如在结果形式方面,分类方案能够打出二分类标签,只能对句子进行二分类的评价,无法界定两个类别的界限,而回归方案由于得到的是每个句子的百分制分数,可以有效的满足该要求。

还比如在可解释性方面,需要定义恰当的特征模板,以结合相应的特征提取方式,在一定程度上对评分结果具有可解释性。

针对上述问题,本发明实施例提供了一种句子评分方法,图1是本发明提供的句子评分方法的流程示意图,参照图1,该方法包括:

步骤101,确定待评分的句子。

具体地,待评分的句子为需要进行评分处理的句子,且待评分的句子可以是交互过程中所输入的文本,也可以是对交互过程中所输入的语音信息进行识别得到的。

示例性地,对应所确定的待评分的句子,可以将其表示为X=(#CLS,c

步骤102,对句子进行语义特征提取得到语义特征,以及进行多个维度的语言学特征提取得到语言学特征,并基于语义特征和语言学特征确定句子的评分结果;

其中,多个维度包括语句正确性、词语使用和写作技巧中的至少两种。

具体地,句子评分时需要对待评分的句子进行相应的处理,包括对句子的语义特征提取、语言学特征提取和评分预测。其中,语义特征提取包括对句子中每一个字在句子中的位置和每个字的对应的标识进行提取,语言学特征提取是对句子自身的相关信息进行提取,包括但不限于为句子长度、句子中频率最低的词、拼音使用是否正确、错别字数量、语法错误数量、语法错误类型、是否使用修辞和是否引用名句等,而评分预测则是根据所提取到的相关信息预测句子的评分。

示例性地,在对句子进行多个维度的语言学特征提取时,包括:对句子的进行语句正确性判断,得到第一特征向量,其中正确性判断包括对拼写正确性和语法正确性的判断;对句子的句子特征进行提取,得到第二特征向量,其中句子特征包括句子长度;对句子进行文本识别确定句子包含的写作技巧,得到第三特征向量;基于第一特征向量、第二特征向量和第三特征向量进行融合,得到句子的语言学特征。

此时在提取样本句子对应的语言学特征时,在不同维度对句子进行特征提取,得到句子在不同维度下的特征向量,然后通过特征向量的融合得到样本句子对应的语言学特征。具体地,在对句子进行正确定判断时,包括对句子语法和句子包含的字词的拼写的正确性进行判断,在对句子特征进行提取时,可以对句子的长度进行识别,确定句子所包含的字的个数等,同时在对句子的写作技巧进行确定时,可以通过对文本内容的识别,然后通过对比比较确定其所包含的写作技巧。

然后在对句子进行评分处理时,通过对句子进行语义特征和语言学特征的提取,进而基于语言特征和语言学特征进行评分处理,以完成对句子的评分。此时在对句子进行特征提取,得到对应的语义特征和在多维度下的语言学特征,以及进行评分预测,是基于句子评分模型所确定的。

因此,在使用句子评分模型之前,需要预先对初始评分模型进行预训练,以得到句子评分模型。具体地,在进行训练时,首先确定进行训练的句子样本,且所有的句子都有对应的评分标记,对于每个句子,可以根据字在句子中的位置,确定每个句子中各字之间的关联,然后通过构建样本句子对作为模型训练的输入,且样本句子对包含两个句子,从而训练得到句子评分模型。

在本发明提供的方法中,在对待评分的句子进行评分时,对句子的语义特征进行提取,同时在提取句子的语言学特征时进行多维度的特征提取,其中多个维度包括语句正确性、词语使用和写作技巧中的至少两种,然后基于语言学特征和语义特征进行评分。使得在进行评分时,提取句子更多的特征作为评分依据,突出句子在语句正确性等的基础要求、词语使用方式和写作技巧三个维度特征,提高了句子评分的准确性。

基于上述实施例,在得到句子评分模型时,可以参照图2,图2是本发明提供的得到句子评分模型的步骤的流程示意图,其中,该步骤包括步骤201至步骤202。

步骤201,基于初始评分模型,确定样本句子对中两个句子的预测评分。

在对初始评分模型进行训练时,将进行训练的句子样本进行输入,根据输出结果对初始评分模型进行优化。具体地,在确定了进行训练的样本句子对之后,可以基于初始评分模型得到样本句子对所包含的两个句子的预测评分。

示例性地,在进行训练时首先确定进行训练的句子样本,根据句子样本中各句子的标签评分,随机进行样本句子对的构建作为对初始评分模型进行训练的输入。在构建一个样本句子对时,首先在句子样本中确定样本句子对中的一个句子,然后根据所设定的条件在句子样本中选择另一个句子与开始所选的句子构成一个样本句子对。

具体地,包括:在对初始评分模型进行训练的句子样本中选定目标句子,并计算句子样本中各句子的标签评分与目标句子的标签评分的分差值;在句子样本中选择分差值大于分差阈值的句子与目标句子构成样本句子对,其中样本句子对包含两个句子,且包含目标句子。

在构建样本句子对时,通过对每个句子的标签评分进行识别,其中标签评分为评分值,然后在选定了进行样本句子对构建的目标句子时,随机选择与目标句子的分差大于一定值的句子进行样本句子对的构建。

实际上,在句子集合中,与目标句子的标签评分的分差值大于所设定的值的句子有很多,可以构成一个集合,然后在构建样本句子对时,随机的在集合中按照需求选择一定数量的句子,分别与目标句子进行组合,形成样本句子对。比如,随机选择10个分差大于20的句子与目标句子进行组合。

进一步地,在基于初始评分模型对所构建的样本句子对进行处理得到样本句子对中每一个样本句子对应的预测评分时,首先对句子的特征进行提取,得到样本句子对中两个句子分别对应的语言学特征和语义特征,然后基于语言学特征和语义特征得到两个句子分别对应的预测评分。

基于上述任一实施例,句子评分模型可以如图3所示,图3是本发明提供的句子评分模型的结构示意图,在模型训练过程中,该句子评分模型的双塔模型的权重共享,也就是训练过程中双塔模型的模型参数相同,最终在训练完成时可以得到句子评分模型,进而在进行句子评分时,能够从句子中提取相应的特征,并输出百分制分数。

具体地,在对基于图3所示的句子评分模型进行训练时,对于所输入的样本句子对中的两个句子,分开输入到双塔模型中的两侧,如将样本句子对中一个句子输入至双塔模型的一边,将样本句子对中的另一个句子输入至模型的另一边,得到两个句子分别对应的预测评分,进而使得可以结合所得到的预测评分和句子本身所对应的标签评分,包括预测评分的分差和标签评分的分差,对模型进行训练优化,至优化完成。

示例性地,在基于初始评分模型预测样本句子对中各句子的预测评分时,包括如下步骤:

1、对样本句子对中的各句子中各字的位置进行识别和关联,得到样本句子对中各句子的语义特征。

具体地,一个样本句子对中包含有两个句子,在对样本句子对中的每个句子进行特征提取时,会得到句子的语言学特征和语义特征,其中语义特征包含句子中每一个字的相关信息,如位置信息和字标识信息,而对句子特征的分析结果为句子的语言学特征。

在得到句子的语义特征时,以样本句子对中的一个句子为例,确定该句子中每一个字的位置,得到每个字的位置向量,同时每一个字有着唯一对应的标识,因此此时还可以得到每一个字的标识向量,然后在表示句子中的字时,利用所得到的位置向量和标识向量进行标识。

示例性地,在对一个句子进行处理时,根据该句子中每个字在句中位置和字的内容,分别通过位置嵌入和字嵌入映射到两个固定维度的向量,然后将两个向量进行相加,即可对该句子中每个字进行表示。如在进行映射时,通过位置嵌入和字嵌入所得到的两个向量为e

然后,在得到该样本句子对应的表示之后,可以采用多层Transformer单元进行句子的自注意力计算,得到句子中每个字的上下文表示。而在经过多层计算后,可以得到一个上下文表示集合S,其中集合S=BERT(E),即语义特征。

2、对样本句子对中的各句子语言学特征的提取,得到样本句子对中各句子的语言学特征。

具体地,在进行语言学特征的提取时,基于多个维度对句子的特征信息进行识别和统计,得到每一个句子所对应的语言学特征,多个维度包括语句正确性、词语使用和写作技巧中的至少两种。其中,在进行语言学特征的识别和提取时,可以制定特征相关抽取模板用于实现对语言学特征的获取,而在确定语言学特征时,基于多个维度所识别到的信息包括但不限于句子长度、句子中频率最低的词、拼音使用是否正确、错别字数量、语法错误数量、语法错误类型、是否使用修辞以及是否引用名句等,以生成得到句子所对应的语言学特征。

3、根据语义特征和语言学特征,得到样本句子对中第一句子的第一预测评分和第二句子的第二预测评分。

具体地,在得到了样本句子对中各样本句子对应的语义特征和语言学特征之后,在执行评分预测时,根据语义特征和语言学特征得到一个样本句子对中第一句子的第一预测评分和第二句子的第二预测评分。

实际上,模型无论是否训练完成,都会执行评分的任务,只是在训练时会基于评分结果进行优化,而在使用时直接输出待评分的样本句子对应的分数。因此在训练时,一次训练的输入为一个样本句子对,分别输入到模型的双塔的两侧,通过利用针对每个句子的评分输出,对模型的参数权重等进行优化和调整。

而在得到样本句子对应的预测评分时,可以采用Sigmoid函数得到给定句子的分数Score,其中第一预测评分为Score

步骤202,基于两个句子的预测评分之间的差值,以及样本句子对中两个句子的标签评分之间的差值,确定句子评分模型的损失函数,并基于损失函数对句子评分模型进行训练。

在得到相应的样本句子对之后,将样本句子对作为模型训练的输入,根据训练过程中所得到的损失函数完成对句子评分模型的训练。具体地,在对模型进行训练时,在得到样本句子对中两个句子的预测评分之后,根据预测评分确定模型在训练过程中的损失函数,以根据所得到的损失函数对模型优化,而对于所得到的损失函数,可以基于样本句子对中两个句子的预测评分的差值和样本句子对中两个句子的标签评分的差值确定。

示例性地,在确定句子评分模型在训练过程中的损失函数时,根据所得到的两个句子的预测评分之间的分差,以及标签评分之间的分差确定,进而基于所确定的损失函数对模型进行优化。

其中,在确定模型训练的损失函数时,可以参照图4,图4是本发明提供的确定损失函数的步骤的流程示意图,其中,该步骤包括步骤401至步骤403。

步骤401,基于两个句子中的任一句子的预测评分和标签评分,确定第一损失函数,以及,基于两个句子中的另一句子的预测评分和标签评分,确定第二损失函数;

步骤402,基于两个句子的预测评分之间的差值,以及样本句子对中两个句子的标签评分之间的差值,确定第三损失函数;

步骤403,基于第一损失函数、第二损失函数和第三损失函数,确定句子评分模型的损失函数。

具体地,在得到样本句子对中第一句子和第二句子分别对应的第一预测评分和第二预测评分之后,利用第一句子和第二句子的标签评分,确定句子评分模型在训练过程中的损失函数,包括确定第一句子的第一损失函数和第二句子的第二损失函数,同时还基于两个句子的标签评分的分差和预测评分的分差得到第三损失函数,以确定模型在训练过程中的损失函数,进而完成对模型的训练优化。

示例性地,在确定损失函数完成对模型的训练时,根据第一预测评分与第一句子的第一标签评分,得到第一损失函数,以及根据第二预测评分与第二句子的第二标签评分,得到第二损失函数,同时根据第一预测评分与第二预测评分的第一分差和第一标签评分与第二标签评分的第二分差,得到第三损失函数,最后基于所得到的第一损失函数、第二损失函数和第三损失函数,确定当前所对应的损失函数。

在训练过程中,首先需要确定模型分数预测的准确性,因此在进行评分时,针对于样本句子对中的两个句子,都会有一个对应的损失值,包括第一句子在进行评分的一个损失值和第二句子在进行评分时的一个损失值。

同时,对于第一句子和第二句子而言,在预先构建样本句子对时有一定的条件限制,如第一句子和第二句子的分差值大于某一设定值,因此为了保证评分后的句子之间的相关性的稳定,还将分差的损失也作为模型损失的一部分。

具体地,在计算损失函数时,可以通过计算预测得到的第一预测评分与人工标注的第一标签评分之间的方差,得到第一损失函数,且损失函数loss

loss

同样的,在确定第二预测评分与第二标签评分对应的第二损失函数时,损失函数loss

loss

另外,通过计算预测分差与人工标注分差之间的差距,可以使模型更好地学习句子间的相对好坏,也就是能够更加准确的进行评分。而对于基于分差所构建的第三损失函数loss

loss

最后,综合所得到的三个损失函数,确定模型的损失函数,进而基于模型的损失函数对模型进行训练优化。而在确定模型的损失函数时,可以通过将上述三个损失函数进行相加处理,即模型的损失函数Loss=loss

需要说明的是,在基于损失函数实现对句子评分模型的训练优化时,可以通过设置一个损失阈值,在训练得到的损失值小于或者等于所设定的损失阈值时确定训练优化完成,反之则继续进行训练优化。

进一步地,在完成对句子评分模型的训练之后,所得到的训练优化好的句子评分模型可以用来对句子进行评分处理,参照图5,图5是本发明提供的对句子进行评分得到评分结果的步骤的流程示意图,其中,该步骤包括步骤501至步骤504。

步骤501,确定当前是否存在标定句;

步骤502,若确定不存在标定句,则将评分结果作为句子评分模型的输出;

步骤503,若确定存在标定句,则基于标定句对评分结果进行修正,并将修正后的评分结果作为句子评分模型的输出。

具体地,在将待评分的句子输入到训练好的句子评分模型中时,对待评分的句子进行语义特征提取和语言学特征的提取,得到样本句子对应的语义特征和语言学特征,进而根据所得到的语义特征和语言学特征得到当前所对应的评分结果,同时在进行评分时确定是否存在有标定句,其中,在确定没有标定句时,将此时所得到的评分结果作为输出,而在确定有标定句时,根据标定句对此时所得到的评分结果进行修正处理,进而将修正后的评分结果作为句子评分模型的输出。且标定句为覆盖不同水平的定标样例句,可以根据实际评分情况进行选择和设定,同时标定句的数量可以设置为多个。

示例性地,在得到待评分的句子所对应的语义特征和语言学特征时,获取的方式与对句子评分模型进行训练时获取的方式相同,具体可以参照前述描述。而由于使用场景的不同,使得在进行评分时可能存在有标定句,也可能不存在有标定句,具体所对应的使用场景分别为定标场景和非定标场景。

是否存在标定句,可以通过对当前场景的识别,如针对场景进行设置,对于标定场景,会关联有相对应的标定句,而对于非标定场景,则没有关联任何的标定句。而在设置标定句时,可以通过设置标签确定当前所对应和关联的标定句,即不同的标定场景对应不同的标定句。

其中,在非定标场景下,直接输入句子,模型能够自动提取特征,输出分数。而在定标场景下,可能需求的分数分布与训练集分数分布不相符,这时需要额外提供一定数量的覆盖好、中、差不同水平的定标样例句,模型通过计算定标样例句与预测评分间的分差,对自动输出的分数增加额外修正,使得输出分数与预期分布相符。具体地,在定标场景下,对评分结果进行修正时包括:将标定句输入至句子评分模型中,得到句子评分模型输出的标定结果;基于标定结果和标定句的标定标注,得到评分差值,并基于评分差值对评分结果进行修正。可以理解的是,此处的标定标注,即为标定句预先设定好的作为基准的测评得分。

通过根据标定句确定评分结果的修正方式和修正幅度,对此时所得到的评分结果进行修正,具体体现在对评分结果的分数进行加和减。

基于上述任一实施例,图6是本发明提供的句子评分装置的结构示意图,如图6所示,该装置包括:

句子获取模块601,用于确定待评分的句子;

句子评分模块602,用于对句子进行语义特征提取得到语义特征,以及进行多个维度的语言学特征提取得到语言学特征,并基于语义特征和语言学特征确定句子的评分结果;

其中,多个维度包括语句正确性、词语使用和写作技巧中的至少两种。

本发明实施例提供的装置,在对待评分的句子进行评分时,对句子的语义特征进行提取,同时在提取句子的语言学特征时进行多维度的特征提取,其中多个维度包括语句正确性、词语使用和写作技巧中的至少两种,然后基于语言学特征和语义特征进行评分。使得在进行评分时,提取句子更多的特征作为评分依据,突出句子在语句正确性等的基础要求、词语使用方式和写作技巧三个维度特征,提高了句子评分的准确性。

基于上述任一实施例,还包括模型训练模块,用于:

基于初始评分模型,确定样本句子对中两个句子的预测评分;

基于两个句子的预测评分之间的差值,以及样本句子对中两个句子的标签评分之间的差值,确定句子评分模型的损失函数,并基于损失函数对句子评分模型进行训练。

基于上述任一实施例,模型训练模块还用于:

在对初始评分模型进行训练的句子样本中选定目标句子,并计算句子样本中各句子的标签评分与目标句子的标签评分的分差值;

在句子样本中选择分差值大于分差阈值的句子与目标句子构成样本句子对,其中样本句子对包含两个句子,且包含目标句子。

基于上述任一实施例,句子评分模块602还用于:

基于两个句子中的任一句子的预测评分和标签评分,确定第一损失函数,以及,基于两个句子中的另一句子的预测评分和标签评分,确定第二损失函数;

基于两个句子的预测评分之间的差值,以及样本句子对中两个句子的标签评分之间的差值,确定第三损失函数;

基于第一损失函数、第二损失函数和第三损失函数,确定句子评分模型的损失函数。

基于上述任一实施例,句子评分模块602还用于:

对句子进行语句正确性判断,得到第一特征向量,其中正确性判断包括对拼写正确性和语法正确性的判断;

对句子的句子特征进行提取,得到第二特征向量,其中句子特征包括句子长度;

对句子进行文本识别确定句子包含的写作技巧,得到第三特征向量;

基于第一特征向量、第二特征向量和第三特征向量进行融合,得到句子的语言学特征。

基于上述任一实施例,句子评分模块602还用于:

确定当前是否存在标定句;

若确定不存在标定句,则将评分结果作为句子评分模型的输出;

若确定存在标定句,则基于标定句对评分结果进行修正,并将修正后的评分结果作为句子评分模型的输出。

基于上述任一实施例,句子评分模块602还用于:

将标定句输入至句子评分模型中,得到句子评分模型输出的标定结果;

基于标定结果和标定句的标定标注,得到评分差值,并基于评分差值对评分结果进行修正。

图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行句子评分方法,该方法包括:确定待评分的句子;对句子进行语义特征提取得到语义特征,以及进行多个维度的语言学特征提取得到语言学特征,并基于语义特征和语言学特征确定句子的评分结果;其中,多个维度包括语句正确性、词语使用和写作技巧中的至少两种。

此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的句子评分方法,该方法包括:确定待评分的句子;对句子进行语义特征提取得到语义特征,以及进行多个维度的语言学特征提取得到语言学特征,并基于语义特征和语言学特征确定句子的评分结果;其中,多个维度包括语句正确性、词语使用和写作技巧中的至少两种。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的句子评分方法,该方法包括:确定待评分的句子;对句子进行语义特征提取得到语义特征,以及进行多个维度的语言学特征提取得到语言学特征,并基于语义特征和语言学特征确定句子的评分结果;其中,多个维度包括语句正确性、词语使用和写作技巧中的至少两种。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120116019074