掌桥专利:专业的专利平台
掌桥专利
首页

一种语料数据标签的确定方法和装置

文献发布时间:2023-06-19 10:48:02


一种语料数据标签的确定方法和装置

技术领域

本申请涉及模型训练技术领域,尤其涉及一种语料数据标签的确定方法和装置。

背景技术

模型训练需要大量带有标注的数据集,目前数据集的获取方式一般为:采用人工(一般为5-20人)对同一份语料进行语料标注,然后以投票的形式得出该语料的标签,再交付给业务相关人员进行二轮标签确认,确认无异议后才得到带有标注的数据集,模型相关人员利用带有标注的数据集进行模型训练。目前语料标注工作量大,需要消耗大量的人力物力,采用人工方式进行标注效率低下。

发明内容

本申请实施例的目的在于提供一种语料数据标签的确定方法和装置,以解决人工标注效率低的问题。具体技术方案如下:

第一方面,提供了一种语料数据标签的确定方法,所述方法包括:

获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;

将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;

在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。

可选地,所述目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,所述将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值包括:

将所述第一语句向量输入所述第一相似度模型,得到所述第一相似度模型输出的第三语句向量,并将所述第二语句向量输入所述第二相似度模型,得到所述第一相似度模型输出的第四语句向量,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度;

确定所述第三语句向量和所述第四语句向量之间的相似度值。

可选地,所述获取第一语句向量和第二语句向量包括:

将所述第一语料数据输入向量转化工具,得到所述向量转化工具输出的所述第一语料数据对应的第一语句向量,其中,所述向量转化工具是通过所述第一语料数据生成的;

将所述第二语料数据输入所述向量转化工具,得到所述向量转化工具输出的所述第二语料数据对应的第二语句向量。

可选地,所述将所述第一语料数据输入向量转化工具,得到所述向量转化工具输出的所述第一语料数据对应的第一语句向量包括:

将第一语料数据进行分词处理,得到分词;

将所述分词输入所述向量转化工具,根据关联关系得到所述分词对应的词向量,其中,所述关联关系为所述向量转化工具中包含的分词和词向量之间的对应关系;

将多个词向量的加和作为所述第一语句向量;

通过所述向量转化工具输出所述第一语料数据对应的第一语句向量。

可选地,所述确定所述第三语句向量和所述第四语句向量之间的相似度值包括:

确定空间中的所述第三语句向量和所述第四语句向量之间的夹角余弦值;

根据所述夹角余弦值确定所述相似度值,其中,所述夹角余弦值与所述相似度值成反比关系。

可选地,所述将多个词向量的加和作为所述第一语句向量包括:

确定一个词向量的多个向量元素,其中,不同向量元素位于不同的位置;

将不同词向量中相同位置的向量元素进行加和处理,得到所述第一语句向量。

第二方面,提供了一种语料数据标签的确定装置,所述装置包括:

获取模块,用于获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;

输入模块,用于将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;

作为模块,用于在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。

可选地,所述目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,所述输入模块包括:

输入单元,用于将所述第一语句向量输入所述第一相似度模型,得到所述第一相似度模型输出的第三语句向量,并将所述第二语句向量输入所述第二相似度模型,得到所述第一相似度模型输出的第四语句向量,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度;

确定单元,用于确定所述第三语句向量和所述第四语句向量之间的相似度值。

第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。

第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。

本申请实施例有益效果:

本申请实施例提供了一种语料数据标签的确定方法,方法包括:服务器获取第一语句向量和第二语句向量,将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的相似度值,在相似度值不小于预设阈值的情况下,将第一语料数据的标签作为第二语料数据的标签。在本申请中,第一语料数据和第二语料数据之间可能表达相同的含义,但表达方式有所不同,这样第一语料数据和第二语料数据之间的相似度就会高。服务器若判定第一语料数据和第二语料数据之间的相似度高,则将第一语料数据的标签作为第二语料数据的标签,这样无需对第二语料数据进行人工打标,提高了打标效率和打标准确性。

当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语料数据标签的确定方法硬件环境示意图;

图2为本申请实施例提供的一种语料数据标签的确定的方法流程图;

图3为本申请实施例提供的LSTM Siamese Network的网络框架示意图;

图4为本申请实施例提供的LSTM Siamese Network的内部结构示意图;

图5为本申请实施例提供的一种语料数据标签的确定装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。

为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种语料数据标签的确定方法的实施例。

可选地,在本申请实施例中,上述语料数据标签的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。

本申请实施例中的一种语料数据标签的确定方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行。

本申请实施例提供了一种语料数据标签的确定方法,可以应用于服务器,用于根据两个语料数据之间的相似性确定语料数据的标签。

下面将结合具体实施方式,对本申请实施例提供的一种语料数据标签的确定方法进行详细的说明,如图2所示,具体步骤如下:

步骤201:获取第一语句向量和第二语句向量。

其中,第一语句向量是携带有标签的第一语料数据的语句向量,第二语句向量是未携带有标签的第二语料数据的语句向量。

在本申请实施例中,服务器获取携带有标签的第一语料数据和未携带有标签的第二语料数据,第一语料数据和第二语料数据都是应用于模型训练的数据集,由于第二语料数据没有标注好的标签,因此,需要通过第一语料数据对第二语料数据进行打标。

服务器将第一语料数据和第二语料数据均输入向量转化工具,得到向量转化工具输出的第一语料数据的第一语句向量和第二语料数据的第二语句向量。

步骤202:将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的相似度值。

其中,相似度值为第一语料数据和第二语料数据之间的相似度。

在本申请实施例中,服务器将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的第一语句向量和第二语句向量之间的相似度值,由于第一语句向量为第一语料数据的向量,第二语句向量为第二语料数据的向量,因此,目标相似度模型输出的相似度值实质为第一语料数据和第二语料数据之间的相似度。示例性地,目标相似度模型为LSTM Siamese Network神经网络。

步骤203:在相似度值不小于预设阈值的情况下,将第一语料数据的标签作为第二语料数据的标签。

在本申请实施例中,服务器判断相似度值是否不小于预设阈值,若服务器判定相似度值不小于预设阈值,表明第一语料数据和第二语料数据的相似度高,可以将第一语料数据的标签作为第二语料数据的标签,这样无需再通过人工对第二语料数据进行打标,提高打标效率,通过机器打标的方式还可以提高打标准确度。

示例性地,预设阈值为0.8,若服务器判定相似度值不小于0.8,则可以将第一语料数据的标签作为第二语料数据的标签。

若服务器判定相似度值小于预设阈值,表明第一语料数据和第二语料数据的相似度低,则发出警示信息,以提示人工对第二语料数据进行打标。

在本申请中,第一语料数据和第二语料数据之间可能表达相同的含义,但表达方式有所不同,这样第一语料数据和第二语料数据之间的相似度就会高。服务器若判定第一语料数据和第二语料数据之间的相似度高,则将第一语料数据的标签作为第二语料数据的标签,这样无需对第二语料数据进行人工打标,提高了打标效率和打标准确性。

作为一种可选的实施方式,目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的相似度值包括:将第一语句向量输入第一相似度模型,得到第一相似度模型输出的第三语句向量,并将第二语句向量输入第二相似度模型,得到第一相似度模型输出的第四语句向量;确定第三语句向量和第四语句向量之间的相似度值,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度。

在本申请实施例中,目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,第一相似度模型和第二相似度模型的结构相同,权值也相同。服务器先构建向量转化工具,将第一语料数据输入向量转化工具,得到向量转化工具输出的第一语料数据对应的第一语句向量,然后将第一语句向量输入第一相似度模型,得到第一相似度模型输出的第三语句向量。

服务器将第二语料数据输入向量转化工具,得到向量转化工具输出的第二语料数据对应的第二语句向量,然后将第二语句向量输入第二相似度模型,得到第一相似度模型输出的第四语句向量。服务器确定空间中的所述第三语句向量和所述第四语句向量之间的夹角余弦值,根据所述夹角余弦值确定所述相似度值,其中,所述夹角余弦值与所述相似度值成反比关系,夹角余弦值越小,则相似度值越大。

其中,向量转化工具中存储有分词和词向量之间的对应关系,该分词和词向量是根据携带有标签的第一语料数据得到的。由于第一语料数据携带有标签、且标签标注正确,则向量转化工具中的内容也与第一语料数据相关联。这样在采用向量转化工具得到第二语料数据的第二语句向量时,就可以使得第一语句向量和第二语句向量的生成过程是一致的,提高后续的第一语句向量和第二语句向量之间的相似度值的准确性。

作为一种可选地实施方式,将第一语料数据输入向量转化工具,得到向量转化工具输出的第一语料数据对应的第一语句向量包括:将第一语料数据进行分词处理,得到分词;将分词输入向量转化工具,根据关联关系得到分词对应的词向量,其中,关联关系为向量转化工具中包含的分词和词向量之间的对应关系;将多个词向量的加和作为第一语句向量;通过向量转化工具输出第一语料数据对应的第一语句向量。

在本申请实施例中,服务器将第一语料数据进行分词处理,得到分词,示例性地,分词处理工具可以采用jieba,本申请对分词处理方式不做具体限定。服务器将分词输入向量转化工具,向量转化工具中包含有分词和词向量之间的对应关系,服务器根据该对应关系得到分词对应的词向量。由于第一语料数据对应多个词向量,为了得到该第一语料数据对应的第一语句向量,需要将多个词向量的加和作为第一语句向量,最后通过向量转化工具输出第一语料数据对应的第一语句向量。

可选地,将多个词向量的加和作为第一语句向量的方式为:服务器确定一个词向量的多个向量元素,其中,不同向量元素位于不同的位置,然后将不同词向量中相同位置的向量元素进行加和处理,得到第一语句向量。

示例性地,第一语料数据为“我是小明”,“我”对应的词向量为[1,0.25,364,0.58],“是”对应的词向量为[1,0.46,356,0.35],小明对应的词向量为[2,0.56,324,0.65]。将相同位置的向量元素进行加和,得到的语句向量为[4,1.27,1044,1.58]。

通过向量转化工具得到第二语句向量的过程与得到第一语句向量的过程一致,本申请不再赘述。

可选地,图3为LSTM Siamese Network的网络框架示意图,LSTMSiamese Network有两个结构相同,且共享权值的子网络。分别接收第一语句向量X1X1与第二语句向量X2X2,将其转换为第三语句向量Gw(X1)Gw(X1)与第四语句向量Gw(X2)Gw(X2),再计算两个输出向量的夹角余弦值EwEw。

可选地,图4为LSTM Siamese Network的内部结构示意图,从图4可以看出,LSTMSiamese Network用了4层hidden unit size为64的BILSTM,再将每一时刻的输出取平均作为输入XX的表征向量,后面再接dim=128的全连接层,得到的两个向量f(X1)f(X1)与f(X2)f(X2)对应的就是Siamese Network基本框架中的Gw(X1)Gw(X1)与Gw(X2)Gw(X2)。

这里的相似度EE使用的是余弦相似度,即

其中,-1≤E(X1,X2)≤1-1≤E(X1,X2)≤1,X

可选的,本申请实施例还提供了语料数据标签的确定的处理流程,具体步骤如下。

1.根据携带有标签的第一语料数据生成向量转化工具。

2.对携带有标签的第一语料数据和未携带有标签的第二语料数据分别进行分词处理,得到分词。

3.将分词输入向量转化工具,得到第一语料数据对应的第一语句向量和第二语料数据对应的第二语句向量。

4.根据第一语句向量和第二语句向量之间的夹角余弦值,确定第一语料数据和第二语料数据之间的相似度值。

5.若相似度值不小于预设阈值,将第一语料数据的标签作为第二语料数据的标签。

基于相同的技术构思,本申请实施例还提供了一种语料数据标签的确定装置,如图5所示,该装置包括:

获取模块501,用于获取第一语句向量和第二语句向量,其中,第一语句向量是携带有标签的第一语料数据的语句向量,第二语句向量是未携带有标签的第二语料数据的语句向量;

输入模块502,用于将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的相似度值,其中,相似度值为第一语料数据和第二语料数据之间的相似度;

作为模块503,用于在相似度值不小于预设阈值的情况下,将第一语料数据的标签作为第二语料数据的标签。

可选地,目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,输入模块502包括:

第一输入单元,用于将第一语句向量输入第一相似度模型,得到第一相似度模型输出的第三语句向量,并将第二语句向量输入第二相似度模型,得到第一相似度模型输出的第四语句向量,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度;

确定单元,用于确定第三语句向量和第四语句向量之间的相似度值。

可选地,获取模块501包括:

第二输入单元,用于将第一语料数据输入向量转化工具,得到向量转化工具输出的第一语料数据对应的第一语句向量;

第三输入单元,用于将第二语料数据输入向量转化工具,得到向量转化工具输出的第二语料数据对应的第二语句向量。

可选地,第二输入单元包括:

分词子单元,用于将第一语料数据进行分词处理,得到分词;

输入子单元,用于将分词输入向量转化工具,根据关联关系得到分词对应的词向量,其中,关联关系为向量转化工具中包含的分词和词向量之间的对应关系;

作为子单元,用于将多个词向量的加和作为第一语句向量;

输出子单元,用于通过向量转化工具输出第一语料数据对应的第一语句向量。

可选地,确定单元包括:

第一确定子单元,用于确定空间中的所述第三语句向量和所述第四语句向量之间的夹角余弦值;

第二确定子单元,用于根据所述夹角余弦值确定所述相似度值,其中,所述夹角余弦值与所述相似度值成反比关系。

可选地,作为子单元包括:

确定子模块,用于确定一个词向量的多个向量元素,其中,不同向量元素位于不同的位置;

加和子模块,用于将不同词向量中相同位置的向量元素进行加和处理,得到第一语句向量。

根据本申请实施例的另一方面,本申请提供了一种电子设备,如图6所示,包括存储器603、处理器601、通信接口602及通信总线604,存储器603中存储有可在处理器601上运行的计算机程序,存储器603、处理器601通过通信接口602和通信总线604进行通信,处理器601执行计算机程序时实现上述方法的步骤。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。

可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:

获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;

将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;

在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。

本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种语料数据标签的确定方法和装置
  • 一种误唤醒语料确定方法、装置、电子设备和存储介质
技术分类

06120112685641