掌桥专利:专业的专利平台
掌桥专利
首页

问句标注方法、装置、设备、存储介质及程序产品

文献发布时间:2023-06-19 11:42:32


问句标注方法、装置、设备、存储介质及程序产品

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种问句标注方法、装置、设备、存储介质及程序产品。

背景技术

现有的客服系统多轮对话中,客户与客服的对话往往是与上下文相关的,客服往往需要根据上下文的信息来回答客户的问题,因此在机器人客服系统中,如何识别哪些问句是与上下文相关的是多轮对话中的一个难点。现有技术中采用机器学习模型来识别文本是否与上下文相关,但是机器学习模型需要大量的训练样本进行训练才能达到较高的识别准确率,而大量的训练样本需要人工来进行训练标签的标注,标注难度大、效率低。

发明内容

本发明的主要目的在于提供一种问句标注方法、装置、设备、存储介质及程序产品,旨在解决上下文相关性识别模型的训练样本标注难度大、效率低的技术问题。

为实现上述目的,本发明提供一种问句标注方法,所述方法包括以下步骤:

计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;

基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。

可选地,所述信息量指标值至少包括信息熵指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

计算所述待标注问句对应的答句的信息熵;

对所述信息熵进行归一化处理,得到所述答句的信息熵指标值。

可选地,所述信息量指标值至少包括词分布最大概率,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

从所述待标注问句对应的答句的各个词中选取词分布概率最大的目标词;

基于所述目标词的词分布概率得到所述答句的词分布最大概率。

可选地,所述信息量指标值至少包括长度指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

当所述待标注问句所对应的答句有多个时,将多个所述答句的长度的平均值作为所述答句的长度指标值;

当所述待标注问句所对应的答句有一个时,将所述答句的长度作为所述答句的长度指标值。

可选地,所述信息量指标值至少包括指示代词比例,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

提取所述待标注问句对应的答句中的指示代词;

基于所述指示代词的数量和所述答句的总词数量计算得到所述答句的指示代词比例。

可选地,所述信息量指标值至少包括领域关键词比例,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

提取所述待标注问句对应的答句中的领域关键词;

基于所述领域关键词的数量和所述答句的总词数量计算得到所述答句的领域关键词比例。

可选地,所述信息量指标值至少包括词性种类数量指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

对所述待标注问句对应的答句中各个词的词性进行统计,得到词性种类数量;

基于所述词性种类数量得到所述答句的词性种类数量指标值。

可选地,所述基于所述信息量指标值进行分类得到所述待标注问句的标注结果的步骤之后,还包括:

将所述待标注问句和所述标注结果作为训练数据;

采用所述训练数据对预设的分类模型进行训练,并采用训练完成的分类模型对待分类问句进行分类得到所述待分类问句的分类结果,其中,所述分类结果表征所述待分类问句是否属于与上下文相关的问句。

可选地,所述采用训练完成的分类模型对待分类问句进行分类得到所述待分类问句的分类结果的步骤之后,还包括:

当根据所述分类结果确定所述待分类问句属于与上下文相关的问句时,获取所述待分类问句的上下文信息;

从所述上下文信息中提取关键词,基于所述关键词和所述待分类问句在预设知识库中检索得到所述待分类问句的答句,以基于所述答句回复所述待分类问句。

为实现上述目的,本发明还提供一种问句标注装置,所述装置包括:

计算模块,用于计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;

分类模块,用于基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。

为实现上述目的,本发明还提供一种问句标注设备,所述问句标注设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问句标注程序,所述问句标注程序被所述处理器执行时实现如上所述的问句标注方法的步骤。

此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有问句标注程序,所述问句标注程序被处理器执行时实现如上所述的问句标注方法的步骤。

此外,为实现上述目的,本发明还提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的问句标注方法的步骤。

本发明中,通过对问句的答句计算能够反映其信息量大小的信息量指标值,基于该信息量指标值来分类计算出问句是否是上下文相关的,从而能够基于分类结果对问句打标注,在保证了标注准确率的同时,提高了标注效率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图;

图2为本发明问句标注方法第一实施例的流程示意图;

图3为本发明实施例涉及的一种客服答复确定方法的流程示意图;

图4为本发明问句标注装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是,本发明实施例问句标注设备可以是智能手机、个人计算机和服务器等设备,在此不做具体限制。

如图1所示,该问句标注设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的设备结构并不构成对问句标注设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及问句标注程序。操作系统是管理和控制设备硬件和软件资源的程序,支持问句标注程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的问句标注程序,并执行以下操作:

计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;

基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。

进一步地,所述信息量指标值至少包括信息熵指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

计算所述待标注问句对应的答句的信息熵;

对所述信息熵进行归一化处理,得到所述答句的信息熵指标值。

进一步地,所述信息量指标值至少包括词分布最大概率,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

从所述待标注问句对应的答句的各个词中选取词分布概率最大的目标词;

基于所述目标词的词分布概率得到所述答句的词分布最大概率。

进一步地,所述信息量指标值至少包括长度指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

当所述待标注问句所对应的答句有多个时,将多个所述答句的长度的平均值作为所述答句的长度指标值;

当所述待标注问句所对应的答句有一个时,将所述答句的长度作为所述答句的长度指标值。

进一步地,所述信息量指标值至少包括指示代词比例,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

提取所述待标注问句对应的答句中的指示代词;

基于所述指示代词的数量和所述答句的总词数量计算得到所述答句的指示代词比例。

进一步地,所述信息量指标值至少包括领域关键词比例,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

提取所述待标注问句对应的答句中的领域关键词;

基于所述领域关键词的数量和所述答句的总词数量计算得到所述答句的领域关键词比例。

进一步地,所述信息量指标值至少包括词性种类数量指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:

对所述待标注问句对应的答句中各个词的词性进行统计,得到词性种类数量;

基于所述词性种类数量得到所述答句的词性种类数量指标值。

进一步地,所述基于所述信息量指标值进行分类得到所述待标注问句的标注结果的步骤之后,处理器1001可以用于调用存储器1005中存储的问句标注程序,并执行以下操作:

将所述待标注问句和所述标注结果作为训练数据;

采用所述训练数据对预设的分类模型进行训练,并采用训练完成的分类模型对待分类问句进行分类得到所述待分类问句的分类结果,其中,所述分类结果表征所述待分类问句是否属于与上下文相关的问句。

进一步地,所述采用训练完成的分类模型对待分类问句进行分类得到所述待分类问句的分类结果的步骤之后,处理器1001可以用于调用存储器1005中存储的问句标注程序,并执行以下操作:

当根据所述分类结果确定所述待分类问句属于与上下文相关的问句时,获取所述待分类问句的上下文信息;

从所述上下文信息中提取关键词,基于所述关键词和所述待分类问句在预设知识库中检索得到所述待分类问句的答句,以基于所述答句回复所述待分类问句。

基于上述的结构,提出问句标注方法的各个实施例。

参照图2,图2为本发明问句标注方法第一实施例的流程示意图。

本发明实施例提供了问句标注方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本发明问句标注方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备,为便于描述,以下各实施例中省略执行主体进行阐述。在本实施例中,问句标注方法包括:

步骤S10,计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;

当需要训练用于识别问句是否属于与上下文相关的问句的机器学习模型时,可以预先采集多个对话,一个对话包括一个问句和与该问句对应的一个或多个答句。其中,将在会话场景中需要予以回应的句子称为问句,而不局限于带疑问语气的句子;对话可以是客服与客户之间真实产生并被记录的对话,也可以是其他场合下发生的对话,在本实施例中并不做限制;一个问句对应的多个答句可以是从多个会话场景中提取的,也即,多个会话场景中都涉及到了同一问句,但对应的答句确不相同。需要说明的是,可以直接将客服服务过程中的语音转换为文本,从文本中提取出对话,也可以是由人工挑选对话。将对话中的问句作为待标注问句,采用本实施例中的问句标注方法对待标注问句进行标注。

具体地,计算待标注问句所对应的答句的信息量指标值,其中,信息量指标值表征了答句的信息量大小。其中,信息量可以根据具体需要进行定义,例如,可以定义为答句的句子长度、答句中关键词的个数或答句中指示代词的个数等;信息量指标是根据信息量的定义而设置的,例如,当信息量定义为答句中指示代词的个数时,信息量指标可以设置为指示代词比例,也即答句中指示代词的数量占答句总词数量的比例;信息量指标也可以设置多个,也即根据信息量的多种定义设置多个信息量指标值。需要说明的是,当问句对应多个答句时,针对一个信息量指标,可计算多个答句关于该信息量指标的一个指标值,也即,可将多个答句作为一个整体;或者,也可以计算多个答句分别关于该信息量指标的指标值,也即,将多个答句分别看待。

在一实施方式中,信息量指标值至少包括信息熵指标值、词分布最大概率、平均长度指标值、指示代词比例、领域关键词比例和词性种类数量指标值中的一个或多个。其中,信息熵指标值表示答句的信息熵大小,信息熵越大,表示答句的内容越复杂,信息量越大;词分布最大概率表示答句中词的复杂度,词分布最大概率越大表示答句的信息量越大;长度指标值表示答句的长度大小,长度指标值越大表示答句的信息量越大;指示代词比例表示答句中指示代词所占的比例大小,指示代词比例越大表示答句的信息量越大;领域关键词比例表示答句中领域关键词所占的比例大小,领域关键词比例越大表示答句的信息量越大;词性种类数量指标值表示答句中词性种类的数量大小,词性种类数量指标值越大表示答句的信息量越大。

步骤S20,基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。

在计算得到答句的信息量指标值后,可基于信息量指标值进行分类得到一个分类结果,将该分类结果作为该答句所对应的待标注问句的标注结果。其中,标注结果(也就是分类结果)表征了该答句对应的待标注问句是否属于与上下文相关的问句,也即,标注结果的数据形式在本实施例中不作限制,例如,可以设置为当标注结果为1时表示待标注问句属于与上下文相关的问句,当标注结果为-1时表示待标注问句不属于与上下文相关的问句。

具体地,根据信息量指标值进行分类得到分类结果的方法有多种,例如,在一实施方式中,可以预先定义一个根据信息量指标值映射到两种分类结果(属于上下文相关和不属于上下文相关两种)的映射模型,通过该模型将信息量指标值映射到对应的分类结果,该模型具体可以采用阈值映射的方法来实现,或者采用决策树、逻辑回归、支持向量机等机器学习模型来实现,模型中的参数可以是人工根据经验进行设置。或者,为提高分类的准确度,在一实施方式中,可以预先采用少量人工标注的问句对该模型进行训练,采用经过训练后的模型来进行分类;由于信息量指标值的数据量比较小,可以选用较小的模型来进行分类,从而采用较少的训练数据进行训练即可得到较高的分类准确率,人工标注的难度就比较低。例如,对支持向量机模型,将问句的信息量指标值作为输入,将问句的人工标注的分类结果作为监督标签,采用监督学习方法对支持向量机模型进行自动训练,训练完成后,即可采用支持向量机模型来对待标注问句的答句的信息量指标值进行分类,进而得到待标注问句的标注结果。

实现原理:在会话场景中,如果一个问句对应的回答很短且单一(信息量少),那么表明该问句很可能是上下文无关的,相反,则表示其很可能是与上下文相关的;例如,客户在结束会话时说“谢谢”,针对这一与上下文无关的问句,客服的回答一般是固定的“不客气”、“谢谢您的咨询”之类的简单答句。本实施例利用了这一特点,基于答句的信息量来判断问句是否是与上下文相关,也即,通过对问句的答句计算能够反映其信息量大小的信息量指标值,基于该信息量指标值来分类计算出问句是否是上下文相关的,从而能够基于分类结果对问句打标注,在保证了标注准确率的同时,提高了标注效率。

进一步地,在一实施方式中,所述信息量指标值至少包括信息熵指标值,所述步骤S10包括:

步骤S101,计算所述待标注问句对应的答句的信息熵;

在本实施例中,信息量指标值至少包括信息熵指标值。在获取到待标注问句对应的答句后,可以计算出答句的信息熵。其中,信息熵是一个系统的信息含量的量化指标。具体地,当答句有多个时,可以将多个答句作为一个整体,也即,作为一个句子来计算信息熵;也可以对多个答句分别计算信息熵,得到多个信息熵;或者,进一步地,将多个答句的信息熵进行求和或平均得到一个整体的信息熵。

在一实施方式中,一个句子的信息熵可按照如下方式计算:

其中,n是句子中词的个数,p

步骤S102,对所述信息熵进行归一化处理,得到所述答句的信息熵指标值。

在一实施方式中,在计算得到问句对应的答句的信息熵后,可以直接将该信息熵作为答句的信息熵指标值。为进一步地提高依据答句的信息熵进行问句上下文相关性分类的准确度,在另一实施方式中,可以再进一步地对答句的信息熵进行归一化处理,将归一化处理之后的结果作为答句的信息熵指标值,也即,将各个问句的答句的信息熵归一化到0-1之间,从而使得各个问句的答句的信息熵之间可比性更高,进而能够提高分类准确度。

进一步地,归一化处理可按照如下方式计算:

其中,E(P)是待标注问句的答句的信息熵,max(E)是多个问句的答句的信息熵中最大值,min(E)是多个问句的答句的信息熵中最小值。需要说明的是,多个问句是包括待标注问句在内的多个需要标注的问句。在一个问句的多个答句分别计算信息熵且不整合的情况下,一个问句的多个答句计算出的信息熵指标值是包括多个值的。

进一步地,在一实施方式中,所述信息量指标值至少包括词分布最大概率,所述步骤S10包括:

步骤S111,从所述待标注问句对应的答句的各个词中选取词分布概率最大的目标词;

在本实施例中,信息量指标值至少包括词分布最大概率。其中,词分布最大概率也称为词分布的最大概率,其定义如下:

当以第一种定义方式时,一个句子的词分布最大概率越大,说明该句子包含的词越丰富,句子越复杂;当以第二种定义方式时,这是一个句子的词分布最大概率越小,说明该句子包含的词越丰富。需要说明的是,在具体的应用场景中可以根据需要从两种定义方式中选择一种。

根据上述的词分布最大概率的定义,在获取到待标注问句对应的答句后,先计算答句中各个词的分布概率,再从各个词中选取词分布概率最大的词作为目标词。具体地,当答句有多个时,可以将多个答句作为一个整体,也即,作为一个句子来选取目标词;也可以对多个答句分别选取目标词,得到多个目标词;或者,进一步地,从多个答句的目标词中再选出一个词分布概率最大的词作为最终的目标词。

步骤S112,基于所述目标词的词分布概率得到所述答句的词分布最大概率。

在确定目标词后,基于目标词的词分布概率即可得到答句的词分布最大概率。具体地,按照第一种定义方式时,用1减去该目标词的词分布概率的结果作为答句的词分布最大概率;按照第二种定义方式时,直接将该目标词的词分布概率作为答句的词分布最大概率。需要说明的是,在一个问句的多个答句分别确定目标词且不整合的情况下,一个问句的多个答句计算出的词分布最大概率是包括多个值的。

进一步地,在一实施方式中,所述信息量指标值至少包括长度指标值,所述步骤S10包括:

步骤S121,当所述待标注问句所对应的答句有多个时,将多个所述答句的长度的平均值作为所述答句的长度指标值;

步骤S122,当所述待标注问句所对应的答句有一个时,将所述答句的长度作为所述答句的长度指标值。

在本实施例中,信息量指标值至少包括长度指标值。在获取到待标注问句对应的答句后,可计算答句的长度,其中,长度可以是该答句的总词数量或总字符数量。当待标注问句对应一个答句时,可直接将该答句的长度作为答句的长度指标值。当待标注问句对应多个答句时,可以将多个答句的长度都作为答句的长度指标值,也可以是将多个答句的长度计算平均值,将平均值作为答句的长度指标值。

为进一步地提高依据答句的长度进行问句上下文相关性分类的准确度,在另一实施方式中,可以再进一步地对答句的长度进行归一化处理,将归一化处理之后的结果作为答句的长度指标值,也即,将各个问句的答句的长度归一化到0-1之间,从而使得各个问句的答句的长度之间可比性更高,进而能够提高分类准确度。

进一步地,归一化处理可按照如下方式计算:

其中,L(P)是待标注问句的答句的长度,max(L)是多个问句的答句的长度中最大值,min(L)是多个问句的答句的长度中最小值。需要说明的是,多个问句是包括待标注问句在内的多个需要标注的问句。在一个问句的多个答句分别计算长度且不整合的情况下,一个问句的多个答句计算出的长度指标值是包括多个值的。

进一步地,在一实施方式中,所述信息量指标值至少包括指示代词比例,所述步骤S10包括:

步骤S131,提取所述待标注问句对应的答句中的指示代词;

在本实施例中,信息量指标值至少包括指示代词比例,在获取到待标注问句对应的答句后,可以提取待标注问句对应的答句中的指示代词。其中,指示代词的定义即常规指示代词的定义,当答句中的指示代词越多时,表示答句的内容越丰富,信息量越大。具体地,当一个问句对应的答句有多个时,可以将多个答句作为一个整体,也即,作为一个句子来提取指示代词;也可以对多个答句分别提取指示代词,得到多组指示代词。

步骤S132,基于所述指示代词的数量和所述答句的总词数量计算得到所述答句的指示代词比例。

在获得指示代词的数量后,结合答句的总词数量即可计算得到答句的指示代词比例。具体地,当一个问句对应的答句有多个时且分开提取指示代词时,对于每个答句,可以将该答句的指示代词数量除以该答句的总词数量,得到该答句的指示代词比例,也即,得到该问句对应的多个指示代词比例。当一个问句对应的答句有一个,或当一个问句对应的答句有多个但作为一个整体提取指示代词时,可以将指示代词的数量除以整体的总词数量,得到该问句对应的一个指示代词比例。

进一步地,在一实施方式中,所述信息量指标值至少包括领域关键词比例,所述步骤S10包括:

步骤S141,提取所述待标注问句对应的答句中的领域关键词;

在本实施例中,信息量指标值至少包括领域关键词比例,在获取到待标注问句对应的答句后,可以提取待标注问句对应的答句中的领域关键词。其中,领域关键词是指与会话所涉及的领域相关的关键词,预先可以根据经验设置多个领域关键词,保存在一个词库中,在提取时,将答句中的各个词与词库中的词进行匹配,如果有相同的,则说明答句中的该词是领域关键词。当答句中的领域关键词越多时,表示答句的内容越丰富,信息量越大。具体地,当一个问句对应的答句有多个时,可以将多个答句作为一个整体,也即,作为一个句子来提取领域关键词;也可以对多个答句分别提取领域关键词,得到多组领域关键词。

步骤S142,基于所述领域关键词的数量和所述答句的总词数量计算得到所述答句的领域关键词比例。

在获得指示代词的数量后,结合答句的总词数量即可计算得到答句的领域关键词比例。具体地,当一个问句对应的答句有多个时且分开提取领域关键词时,对于每个答句,可以将该答句的领域关键词数量除以该答句的总词数量,得到该答句的领域关键词比例,也即,得到该问句对应多个答句的多个领域关键词比例。当一个问句对应的答句有一个,或当一个问句对应的答句有多个但作为一个整体提取领域关键词时,可以将领域关键词的数量除以整体的总词数量,得到该问句对应的一个领域关键词比例。

进一步地,在一实施方式中,所述信息量指标值至少包括词性种类数量指标值,所述步骤S10包括:

步骤S151,对所述待标注问句对应的答句中各个词的词性进行统计,得到词性种类数量;

在本实施例中,信息量指标值至少包括词性种类数量指标值,在获取到待标注问句对应的答句后,可以对待标注问句对应的答句中各个词的词性进行统计,得到词性种类数量。其中,词性的定义即常规定义,词性种类数量即不同词性种类的数量,例如,一个答句中包括两个名词和一个动词,则该答句的词性种类包括名词和动词两个种类,故该答句的词性种类数量是2。对答句中各个词的词性分析,可以采用常规的词性分析方法。当答句中的词性种类数量越多时,表示答句的内容越丰富,信息量越大。具体地,当一个问句对应的答句有多个时,可以将多个答句作为一个整体,也即,作为一个句子来统计词性种类数量;也可以对多个答句分别统计,得到多个词性种类数量。

步骤S152,基于所述词性种类数量得到所述答句的词性种类数量指标值。

在获得词性种类数量后,可直接将该词性种类数量作为答句的词性种类数量指标值。为进一步地提高依据答句词性种类数量进行问句上下文相关性分类的准确度,在另一实施方式中,可以再进一步地对答句的词性种类数量进行归一化处理,将归一化处理之后的结果作为答句的词性种类数量指标值,也即,将各个问句的答句的词性种类数量归一化到0-1之间,从而使得各个问句的答句的词性种类数量指标值之间可比性更高,进而能够提高分类准确度。

进一步地,归一化处理可按照如下方式计算:

其中,T(P)是待标注问句的答句的词性种类数量,max(T)是多个问句的答句的词性种类数量中最大值,min(T)是多个问句的答句的词性种类数量中最小值。需要说明的是,多个问句是包括待标注问句在内的多个需要标注的问句。在一个问句的多个答句分别计算词性种类数量且不整合的情况下,一个问句的多个答句计算出的词性种类数量指标值是包括多个值的。

进一步地,基于上述第一实施例,提出本发明问句标注方法第二实施例,在本实施例中,所述步骤S20之后,还包括:

步骤S30,将所述待标注问句和所述标注结果作为训练数据;

在本实施例中,当计算得到待标注问句的标注结果后,将该待标注问句和该标注结果作为训练数据,也即,将该待标注问句作为模型的输入样本,将该标注结果作为输入样本对应的监督标签。进一步地,对多个待标注问句计算标注结果后,可以得到多条训练数据,可将多条训练数据作为一个训练数据集。

步骤S40,采用所述训练数据对预设的分类模型进行训练,并采用训练完成的分类模型对待分类问句进行分类得到所述待分类问句的分类结果,其中,所述分类结果表征所述待分类问句是否属于与上下文相关的问句。

采用训练数据对预设的分类模型进行训练,具体地,可以采用训练数据集中的多条训练数据来对分类模型进行训练。其中,分类模型可以采用常用的分类模型来实现,例如,基于GRU(门控循环单元)网络的分类模型;分类模型中的模型参数可以预先进行初始化设置,训练的过程就是对模型参数进行不断更新,以提高分类模型的分类准确率。具体的训练过程可参照现有的机器学习模型训练方法,在本实施例中不作详细赘述。

对分类模型训练完成后,即可采用训练完成的分类模型对待分类问句进行分类,得到待分类问句的分类结果。其中,分类结果可以表征待分类问句是否属于与上下文相关的问句,具体的数据形式在本实施例中不作限制,例如,可以设置为当分类结果为1时表示待分类问句属于与上下文相关的问句,当分类结果为-1时表示待分类注问句不属于与上下文相关的问句。待分类问句可以是在机器人客服的实时对话过程中,获取客户的问句文本(语音会话场景,将问句语音转换为文本),然后将问句文本作为待分类问句。采用训练完成的分类模型对待分类问句进行分类,具体可以是先将待分类问句进行分词、去除停用词等预处理,再输入到分类模型中进行处理,输出得到分类结果。

在本实施例中,通过采用待标注问句的答句的信息指标值来计算得到待标注问句的标注结果,再采用待标注问句和标注结果作为训练数据对分类模型进行训练,使得不需要人工标注即可获得大量的训练数据,进而采用大量的训练数据能够训练得到分类准确率较高的分类模型,保证了问句上下文相关性识别准确率的同时,提高了标注效率。

进一步地,基于上述第一和/或第二实施例,提出本发明问句标注方法第三实施例,在本实施例中,所述步骤S40之后,还包括:

步骤S50,当根据所述分类结果确定所述待分类问句属于与上下文相关的问句时,获取所述待分类问句的上下文信息;

在本实施例中,当计算得到待分类问句的分类结果后,可以根据两种分类结果选择不同的答句检索方式。具体地,当根据分类结果确定待分类问句属于与上下文相关的问句时,可以获取待分类问句的上下文信息,基于上下文信息和该待分类问句一起确定答句。其中,上下文信息可以是机器人客服在本次客户服务中,已经与客户产生的对话语音所转换得到的文本信息。

步骤S60,从所述上下文信息中提取关键词,基于所述关键词和所述待分类问句在预设知识库中检索得到所述待分类问句的答句,以基于所述答句回复所述待分类问句。

在一实施方式中,获取到待分类问句的上下文信息后,可提取上下文信息中的关键词。其中,关键词是上下文信息中最重要的词,提取到的关键词数量可以是一个或多个。提取方式有多种,例如,通过计算上下文信息中各个词的TF-IDF值,然后选取TF-IDF值最大的N个词作为关键词。其中,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

进一步地,将提取到的关键词和该待分类问句一起作为检索项在预设知识库中进行检索,得到一个或多个答句,然后选取匹配度最高的答句作为待分类问句的答句。其中,预设知识库可以是预先设置的一个知识库,用于根据检索项匹配对应的答句。知识库的实现方式在本实施例中不作限制,例如可以是预先设置了与不同检索项匹配的答句,一个检索项对应一个或多个答句,或者,多个检索项对应一个或多个答句。

进一步地,在得到待分类问句的答句后,客服机器人可以将答句输出显示给客户,或者将该答句转换为语音后播放给客户。

进一步地,当根据分类结果确定待分类问句不属于与上下文相关的问句时,可以直接将待分类问句作为检索项在知识库中检索答句。

进一步地,在一实施方式中,可按照如图3所示的流程确定客服对客户问句的回答。

具体地,先对已产生的会话的文本数据进行数据过滤。将不准确的答复过滤掉;

再对数据过滤后的会话文本进行对话提取,提取多个对话;

提取对话中答句的6个指标值,人工先根据指标值对一小批对话中的问句进行标注,并采用标注后的问句所对应的指标值来训练SVM,采用训练之后的SVM对剩余的大批对话中的问句进行分类,获得问句的标注结果;

采用所有标注后的问句来训练GRU分类器;

在实时的客服过程中,客服机器人将客户的问句(图中的message)输入到训练好的GRU分类器进行分类,以确定问句是否与上下文相关;

如果与上下文相关,则获取问句的上下文信息,依据问句和上下文信息一起检索获得答句;

如果与上下文不相关,则依据问句进行检索获得答句。

此外,此外本发明实施例还提出一种问句标注装置,参照图4,所述装置包括:

计算模块10,用于计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;

分类模块20,用于基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。

进一步地,所述信息量指标值至少包括信息熵指标值,所述计算模块10包括:

第一计算单元,用于计算所述待标注问句对应的答句的信息熵;

归一化处理单元,用于对所述信息熵进行归一化处理,得到所述答句的信息熵指标值。

进一步地,所述信息量指标值至少包括词分布最大概率,所述计算模块10包括:

选取单元,用于从所述待标注问句对应的答句的各个词中选取词分布概率最大的目标词;

第一确定单元,用于基于所述目标词的词分布概率得到所述答句的词分布最大概率。

进一步地,所述信息量指标值至少包括长度指标值,所述计算模块10包括:

第二确定单元,用于当所述待标注问句所对应的答句有多个时,将多个所述答句的长度的平均值作为所述答句的长度指标值;

第三确定单元,用于当所述待标注问句所对应的答句有一个时,将所述答句的长度作为所述答句的长度指标值。

进一步地,所述信息量指标值至少包括指示代词比例,所述计算模块10包括:

第一提取单元,用于提取所述待标注问句对应的答句中的指示代词;

第二计算单元,用于基于所述指示代词的数量和所述答句的总词数量计算得到所述答句的指示代词比例。

进一步地,所述信息量指标值至少包括领域关键词比例,所述计算模块10包括:

第二提取单元,用于提取所述待标注问句对应的答句中的领域关键词;

第三计算单元,用于基于所述领域关键词的数量和所述答句的总词数量计算得到所述答句的领域关键词比例。

进一步地,所述信息量指标值至少包括词性种类数量指标值,所述计算模块10包括:

统计单元,用于对所述待标注问句对应的答句中各个词的词性进行统计,得到词性种类数量;

第四确定单元,用于基于所述词性种类数量得到所述答句的词性种类数量指标值。

进一步地,所述装置还包括:

确定模块,用于将所述待标注问句和所述标注结果作为训练数据;

训练模块,用于采用所述训练数据对预设的分类模型进行训练,并采用训练完成的分类模型对待分类问句进行分类得到所述待分类问句的分类结果,其中,所述分类结果表征所述待分类问句是否属于与上下文相关的问句。

进一步地,所述装置还包括:

获取模块,用于当根据所述分类结果确定所述待分类问句属于与上下文相关的问句时,获取所述待分类问句的上下文信息;

检索模块,用于从所述上下文信息中提取关键词,基于所述关键词和所述待分类问句在预设知识库中检索得到所述待分类问句的答句,以基于所述答句回复所述待分类问句。

本发明问句标注装置的具体实施方式的拓展内容与上述问句标注方法各实施例基本相同,在此不做赘述。

此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有问句标注程序,所述问句标注程序被处理器执行时实现如下所述的问句标注方法的步骤。

本发明还提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的问句标注方法的步骤。

本发明问句标注设备、计算机可读存储介质和计算机程序产品的各实施例,均可参照本发明问句标注方法各个实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 问句标注方法、装置、设备、存储介质及程序产品
  • 图像标注审核方法、装置、设备、存储介质及程序产品
技术分类

06120113022663