掌桥专利:专业的专利平台
掌桥专利
首页

词语识别方法、装置、电子设备和存储介质

文献发布时间:2024-04-18 19:58:21


词语识别方法、装置、电子设备和存储介质

技术领域

本申请属于语言识别技术领域,具体涉及一种词语识别方法、装置、电子设备和存储介质。

背景技术

在相关技术中,随着时代发展,不断有新的词语涌现,这些新的词语可能是新的作品名、新的技术名词、新的物种名称等,且对于一些现有名词,在语言使用过程中,也存在对名词进行变化、简写的情况,从而诞生一些全新的词汇。

对于搜索场景,主要依赖现有词库集合,当一个新的词语没有被包含在现有词库中时,就会出现分词不准、实体识别错误或产生歧义等问题,因此需要对新的词语进行准确识别和记录,而现有的词语识别方法的识别准确率不高。

发明内容

本申请实施例的目的是提供一种词语识别方法、装置、电子设备和存储介质,能够解决词语识别准确率差的问题。

第一方面,本申请实施例提供了一种词语识别方法,包括:

对文本数据进行第一处理,得到文本数据中的待识别文本片段;

确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;

以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和相邻文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;

根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习方法训练得到的。

第二方面,本申请实施例提供了一种词语识别装置,包括:

处理模块,用于对文本数据进行第一处理,得到文本数据中的待识别文本片段;

确定模块,用于确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;

构建模块,用于以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和待识别文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;

识别模块,用于根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习装置训练得到的。

第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面的方法的步骤。

第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面的方法。

在本申请实施例中,通过构建待识别文本片段的图网络,该图网络包括了待识别文本片段的空间相邻信息,还包括了待识别文本片段和待识别文本片段的相邻文本片段的语义信息,通过包含了空间相邻信息和语义向量的网络图作为分类识别模型的输入,通过分类识别模型来推理网络图中心节点,也即父节点上的文本片段是否满足是一个词语的条件,使得推理过程充分利用了文本片段之间的空间相邻信息和语义信息,能够有效提高词语识别的准确率。

附图说明

图1示出了本申请的一些实施例的词语识别方法的流程图;

图2示出了本申请的一些实施例的图网络的示意图;

图3示出了本申请的一些实施例的模型结构示意图;

图4示出了本申请的一些实施例的词语识别装置的结构框图;

图5示出了根据本申请实施例的电子设备的结构框图;

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的词语识别方法、装置、电子设备和存储介质进行详细地说明。

在本申请的一些实施例中,提供了一种词语识别方法,图1示出了本申请的一些实施例的词语识别方法的流程图,如图1所示,词语识别方法包括:

步骤102,对文本数据进行第一处理,得到文本数据中的待识别文本片段。

在本申请实施例中,第一处理包括对文本数据中的全部文本片段进行的初筛处理。具体地,原始文本数据中包括大量文本片段,而这些文本片段中的绝大部分文本片段是词语的概率都很低,因此对文本数据进行初筛,得到可能是词语的待识别文本片段,能够有效减少无效识别处理,提高词语识别效率。

其中,词语具体为具有完整含义的词语,举例来说,一个文本片段“晚上去美食街吃火锅”中,根据拆分方式不同,得到的文本片段可能不同,比如按照每2字拆分为一个片段的方式,拆分会得到“晚上”、“去美”、“食街”、“吃火”和“锅”的5个片段,其中只有“晚上”这个片段是一个词语。

而如果按照每3字拆分为一个片段的方式,拆分会得到“晚上去”、“美食节”和“吃火锅”的3个片段,其中的“美食街”和“吃火锅”均是词语。

步骤104,确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量。

在本申请实施例中,确定初筛得到的待识别文本片段在文本数据中的相邻文本片段。具体地,在将原始的文本数据拆分成文本片段时,记录拆分得到的文本片段的左右关系,根据左右关系确定该文本片段的左邻文本片段和右邻文本片段。

该待识别文本片段和相邻文本片段在构成图网络结构时,每个文本片段均会被抽象成一个节点,而不同的节点之间的含义没有区别。由于每个文本片段均有自己独立的语义含义,这些语义含义可能不同,也可能接近,因此确定每个文本片段的语义含义,并在构建图网络时,在对应节点上添加原本的文本片段的语义含义,能够提高图网络中每个节点的区分度,并保留原始语义信息。

示例性地,可以通过Word2vec的字向量的均值作为图网络的一个节点,也即一个文本片段的语义向量。

示例性地,可以通过bert语言模型的向量作为图网络的一个节点,也即一个文本片段的语义向量。

示例性地,语义向量可以通过公式(1)表示:

其中,Vec为语义向量,L为文本片段的长度,v

步骤106,以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和相邻文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络。

在本申请实施例中,图2示出了本申请的一些实施例的图网络的示意图。如果将文本片段表示为一个点,相邻关系表示为一条边,边上的权重就是表示两个点的连接紧密程度,这个就完美刻画了文本片段的和左右相邻片段的关系。点和点相连,就构建成了一个网络,具体如图2所示。这样通过图网路的方式能够很好的表示文本片段于相邻词的空间位置和相邻关系。

其中,定义图网络G为:G=(V,E,W),其中,V是节点的集合,E是边的集合,W是边上的权重集合。

也就是说,图网络是由节点和节点之间的关系边构成的网络结构。依据步骤102中初筛得到的待识别文本片段,以每个待识别文本片段为中心节点构建一个网络。

具体地,以待识别文本片段为中心节点(也即父节点),将相邻文本片段加入网络中形成为子节点,依据相邻文本片段与待识别文本片段的左右位置关系作为边,形成为多节点的网络结构。边上的权重可以按照相邻概率或者次数设定。

在一些实施方式中,可以依据从内向外扩张的原理,逐步将相邻文本片段的相邻文本片段添加到网络中,逐步增加图网络的尺寸。

在具体执行时,可以依据算力大小和内存空间,选择合适相邻阶数和网络节点数。我们选择二阶相邻构建网络,最终每个候选文本片段都有一个以自己为中心点的小型的图网络结构。

在得到由节点和边构成的图网络后,将每个节点的原始文本片段的语义向量添加到对应的节点中,得到包含了文本片段的空间相邻关系和语音信息的图网络。

步骤108,根据图网络和分类识别模型确定待识别文本片段为词语的置信度;

其中,分类识别模型是通过图对比学习方法训练得到的。

在本申请实施例中,图神经网络(Graph Neural Network,GNN)擅长处理图网络数据,但是模型学习过程中容易出现节点表示过平滑的问题,影响最终分类效果,而图对比学习能够很好的缓解这个问题,提高分类效果。

其中,图对比学习的原理是基于同一个原始样本生成两个近似的样本,这两个近似样本作为正样本对,其他样本生成的近似样本作为负样本,学习目标使得正样本对之间的距离比较近,同时使得正负样本对的距离比较远,这样学到的样本特征表示差异性就很大,缓解过平滑的问题,从而提高学习的鲁棒性。

在待识别文本片段的置信度大于置信度阈值,且现有的词库中不存在该待识别文本片段的情况下,将待识别文本片段确定为词语,并对词语和词语的语义进行记录存储。

本申请实施例通过构建待识别文本片段的图网络,该图网络包括了待识别文本片段的空间相邻信息,还包括了待识别文本片段和待识别文本片段的相邻文本片段的语义信息,通过包含了空间相邻信息和语义向量的网络图作为分类识别模型的输入,通过分类识别模型来推理网络图中心节点,也即父节点上的文本片段是否满足词语的条件,使得推理过程充分利用了文本片段之间的空间相邻信息和语义信息,能够有效提高词语识别的准确率。

在本申请的一些实施例中,对文本数据进行第一处理,得到文本数据中的待识别文本片段,包括:

对文本数据进行预处理,得到文本数据对应的文本片段集合;

确定文本片段集合中的每一个文本片段的左右熵,以及文本片段集合中的每一个文本片段和与其相邻的文本片段之间的互信息;

根据每一个文本片段的左右熵以及每一个文本片段和与其相邻的文本片段之间的互信息,在文本片段集合中确定待识别文本片段。

在本申请实施例中,预处理包括对原始文本数据中的文本预料进行标准化处理,其中,标准化处理包括大小写转换处理,对特殊字符、换行符、空白行等非文字部分进行替换处理,和去除标点符号的处理等。

预处理还包括将标准化处理后的文本预料进行截取得到不同的文本片段的处理。示例性地,可以采用不同长度的滑动窗口在文本语料上进行滑动截取,其中最长滑动窗口依据目标词语文本长度进行设置,得到原始的文本片段集合。其中,将文本片段集合中的每一个文本片段随机切分成前后两部分,同时记录这两部分左右位置关系。

经过上述预处理得到的文本片段集合中包括大量文本片段,而这些文本片段中的绝大部分文本片段是词语的概率都很低,因此需要对文本数据进行初筛。从而降低文本片段数量,减少无效识别处理。

具体地,文本片段初筛主要利用互信息、左熵、右熵三个统计指标。

其中,互信息主要衡量文本片段的内部凝聚程度,如果这个文本片段出现的频率很高,同时组成文本片段的文字也很少分开出现,说明组合成这个文本片段的文字内部是紧密在一起,是一个整体,很有可能是具有完整语义含义。但是也有例外,文本片段的互信息值算出来很大,但是不具有完整的语义含义。

左右熵主要是衡量与候选文本片段左右相邻文本片段的多样性,分为左熵和右熵。其中左熵主要是衡量与候选文本片段左边相邻文本片段多样性,右熵主要是衡量与候选文本片段右边相邻文本片段多样性。候选文本片段的左熵、右熵的值很大,表示候选文本片段的左右相邻词越丰富,同时也表示该文本片段能够单独作为一个词语的可能性越大。

设一个文本片段为C,将文本片段C随机切分成前后两个部分,分别为片段x和片段y,设互信息为MI

其中,MI

对于文本片段C,设与文本片段C左侧相邻的文本片段的集合为W

其中,H

因此,对于每个文本片段,均得到其左右熵(具体包括左熵和右熵)和与相邻文本片段之间的互信息,共得到3个分数值,这3个分数值越大,就代表该文本片段具有完整语义含义的可能性越大,因此可以根据互信息和左右熵来在多个文本片段中筛选出可能是词语的待识别文本片段。

本申请实施例利用文本片段的左右熵和文本片段与相邻文本片段之间的互信息来对原始文本数据拆分得到的海量文本片段进行初筛,能够有效去除不具有完整语义的无效文本片段,减少无效运算,提高词语识别效率。

在本申请的一些实施例中,根据每一个文本片段的左右熵以及每一个文本片段和与其相邻的文本片段之间的互信息,在文本片段集合中确定待识别文本片段,包括:

根据每一个文本片段的左右熵以及每一个文本片段和与其相邻的文本片段之间的互信息,确定每一个文本片段的分值;

将分值大于或等于分值阈值的文本片段确定为待识别文本片段;或者,按照分值大小对多个文本片段进行排序,得到片段序列,将片段序列中的前N个文本片段确定为待识别文本片段,N为正整数。

在本申请实施例中,在得到互信息和左右熵之后,分别对3个分数值进行加权求和,得到文本片段C的分值score(C),示例性地,通过公式(5)来计算score(C):

score(C)=β

其中,score(C)为文本片段C的分值,MI

在一些实施方式中,可以设置对应的分数阈值,将置信度大于分数阈值的文本片段确定为待识别文本片段。

在另一些实施方式中,可以按照置信度由大到小的顺序,对全部文本片段进行排序,取序列的前N个文本片段为待识别文本片段,N为正整数。

本申请实施例基于文本片段的左右熵和相邻文本片段之间的互信息,并设置不同的权重分数,来对原始文本数据中的文本片段进行初筛,得到可能是词语的待识别文本片段,能够提高词语识别的效率。

在本申请的一些实施例中,在根据图网络和分类识别模型确定待识别文本片段为词语的置信度之前,方法还包括:

通过训练集对初始神经网络模型进行训练,得到初始神经网络模型对应的第一损失;其中,训练集包括一个以上的训练词对应的训练图网络、一个以上的训练词的左右熵以及一个以上的训练词中的每一个训练词和与其相邻的词之间的互信息;

基于训练图网络的特征向量,确定第二损失;

根据第一损失和第一损失对应的权重信息以及第二损失和第二损失对应的权重信息,确定分类识别损失;

在分类识别损失小于损失阈值的情况下,将训练后的初始神经网络模型确定为分类识别模型。

在本申请实施例中,分类识别模型是基于图对比学习方法训练得到的。具体地,采用GNN图神经网络提取网络特征,拼接互信息、左熵、右熵,计算分类损失,同时利用不同网络视图,采用图对比学习方式进行学习,计算对比学习的损失,采用多任务联合分类损失和对比学习进行学习,采用梯度下降的方式进行优化。

具体地,图3示出了本申请的一些实施例的模型结构示意图,如图3所示,模型包括模块302、模块304、模块306、模块308和模块310。

其中,模块302用于对互信息、左熵、右熵处理,包涵一些特征映射转换处理。

模块304是GNN通过消息传递的方式在对不同视图的图网络进行特征学习,获取到网络的特征。

模块306用于拼接GNN特征、互信息、左熵、右熵的映射特征进行分类,计算分类的第一损失,也即Catloss(交叉熵损失函数)。

模块308用于进行图对比学习,计算对比学习的第二损失,也即CLloss(infoNCE损失函数)。

模块310用于加权分类Catloss和对比学习CLloss,采用多任务方式进行学习。

具体地,设训练图网络包括节点i。

在模块302中,利用互信息、左熵、右熵的统计特征,由于是数值特征,只是一个单数值,信息的表示能力比较弱,需要将某个数值范围内特征映射成一个多值的可学习的向量,方便模型学习。

示例性地,互信息为1.1至1.2的范围内的所有值用同一个向量表示,映射公式为公式(6)、公式(7)和公式(8):

MIce=embedding_lookup(embedding,floor(MIc/step)%voc_size);(6)

Hre=embedding_lookup(embedding,floor(Hr/step)%voc_size);(7)

Hle=embedding_lookup(embedding,floor(Hl/step)%voc_size);(8)

其中,embedding为特征映射表,embedding是一个随机数的矩阵,embedding的长为voc_size,voc_size还是总的映射embedding数量,embedding的宽由手动设置,floor()为向上取整操作,step为拆分步长,%表示取余操作,embedding_lookup是整数值到可学习embedding的映射关系,Mice为互信息向量,Hre为右熵向量,Hle为左熵向量。

对每个节点的信息进行更新,获取到每个节点的向量表示,之后将网络中节点的向量进行pooling(池化)操作,最终每一个网络将得到一个向量表示。其中一个网络产生的向量表示和互信息、左熵、右熵进行拼接,经过多层全连接层进行学习。

在模块304中,图神经网络的输入是一个网络图结构,采用消息传递的方式更新节点上的特征,消息传递的本质就是将邻居节点的信息更新到自己的节点上,第一次消息传递,可以将一阶邻居节点信息汇集到当前节点上,第两次消息传递就能将二阶邻居节点汇集到当前节点上,消息传递的次数越多,节点汇集的信息也越多。

在汇集邻居节点信息的时候,给每个邻居节点一个权重。其中用h表示节点向量,初始化时,采用文本语义向量进行初始化,用l表示消息传递的此时,用H和W表示可学习的参数,假设节点i第l次消息传递之后的向量表示为

其中,

公式(9)的原理是当前节点的向量表示和相邻节点的向量表示经过一次线性变换,将两个变换后的向量首尾拼接到一起,这样就融合自己节点信息和相邻节点信息。然后再经过一次线性变换,通过leakyReLU激活函数,最终得到一个相关系数,这个系数越大,就说明这个邻居节点对我的作用程度越大。

在计算出当前节点和所有相邻节点的相关性系数之后,对这些系数进行归一化操作,让所有相关系数都变成范围从0.0到1.0的数值,同时这些相关系数相加求和为1.0。归一化处理公式如公式(10):

其中,

在完成归一化后,对相邻节点的信息进行加权,来更新当前节点的向量表示,公式如公式(11):

其中,

在模块306中,将互信息、左熵、右熵得到的embedding向量,图神经网络得到的特征表示进行拼接,经过多层的全连接网络,采用sigmoid函数输出分数,采用交叉熵得到分类loss(损失),也即第一损失,公式如公式(12)和公式(13):

其中,igmoid()为sigmoid函数计算,MPL为全连接神经网络,concat()为特征向量拼接,N为样本数量,

在模块308中,在得到第一损失后,结合特征向量训练图网络的特征向量,来确定第二损失(CLloss),第二损失即图对比学习的损失。

在模块310中,结合第一损失和第二损失,来确定最终的分类识别损失,分类识别损失代表分类识别网络的最终识别效果。

具体地,通过公式(14)计算分类识别损失:

loss=a×CLloss+b×Catloss;(14)

其中,loss为分类识别损失,CLoss为第二损失,Catloss为第一损失,a和b为预设权重系数。

在分类识别损失loss收敛到损失阈值以下是,确定分类识别模型训练完成。

本申请实施例通过结合图对比学习方法,能够充分利用文本片段之间的空间相邻信息和文本片段的语义信息,构建图网络,利用图神经网络的特征提取能力,获取空间和语义特征,提高词语识别的准确率。

在本申请的一些实施例中,基于训练图网络的特征向量,确定第二损失,包括:

确定训练图网络中每个子节点的移除概率;

基于移除概率,在训练图网络的全部子节点中,移除至少一个子节点,得到训练图网络的至少两个子图网络;

根据至少两个子图网络的相似度确定第二损失。

在本申请实施例中,在构建完成训练图网络后,对于每个训练图网络,采用以一定概率移除节点的方式生成子图。其中,在构建网络的时候,每一圈上的节点设置不同的移除概率,其中,与父节点距离越远的子节点的移除概率越大。

具体地,距离中心节点(父节点)的距离越近的节点,信息传递的路径越短,它对中心点的作用也越大,设置移除概率应该越小。对于离中心点越远的节点,它对中心点的作用越小,所以移除概率越大。

同时,网络中外圈的节点数量数倍与内圈节点数量,举例来说,中心节点的数量为1个,一阶相邻节点的数量可能为10个,二阶相邻节点的数量就会为100个,阶数越高,节点数量越多,因此距离父节点越远的子节点越冗余。

这种逻辑关系与能量外扩类似,因此可以设置能量衰减函数,来确定每个子节点的保留概率P

其中,P

当计算得到每个子节点的移除概率以后,保留父节点,并遍历所有子节点,按照每个节点的移除概率进行移除。示例性地,可以针对每个子节点产生一个0.0到1.0的随机数,如果随机数小于移除概率,则将这个节点从图网络中移除。

通过上述方法,能够得到一个训练图网络的子图网络,这些子图网络形成为原始训练图网络的不同网络视图。

根据得到的两个不同网络视图,通过神经网络生成这两个子图网络的网络表示,分别设为h

其中,CLLoss为第二损失,h

本申请实施例通过采用图对比学习方式学习方式,通过不同的图结构视图能够使训练样本特征表示的差异性更大,缓解节点表示过平滑的问题,从而提高模型训练的鲁棒性。

本申请实施例提供的词语识别方法,执行主体可以为词语识别装置。本申请实施例中以词语识别装置执行词语识别的方法为例,说明本申请实施例提供的词语识别的装置。

在本申请的一些实施例中,提供了一种词语识别装置,图4示出了本申请的一些实施例的词语识别装置的结构框图,如图4所示,词语识别装置400包括:

处理模块402,用于对文本数据进行第一处理,得到文本数据中的待识别文本片段;

确定模块404,用于确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;

构建模块406,用于以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和相邻文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;

识别模块408,用于根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习装置训练得到的。

本申请实施例通过构建待识别文本片段的图网络,该图网络包括了待识别文本片段的空间相邻信息,还包括了待识别文本片段和待识别文本片段的相邻文本片段的语义信息,通过包含了空间相邻信息和语义向量的网络图作为分类识别模型的输入,通过分类识别模型来推理网络图中心节点,也即父节点上的文本片段是否满足词语的条件,使得推理过程充分利用了文本片段之间的空间相邻信息和语义信息,能够有效提高词语识别的准确率。

在本申请的一些实施例中,处理模块,还用于对文本数据进行预处理,得到文本数据对应的文本片段集合;

确定模块,还用于:

确定文本片段集合中的每一个文本片段的左右熵,以及文本片段集合中的每一个文本片段和与其相邻的文本片段之间的互信息;

根据每一个文本片段的左右熵以及每一个文本片段和与其相邻的文本片段之间的互信息,在文本片段集合中确定待识别文本片段。

本申请实施例利用文本片段的左右熵和文本片段与相邻文本片段之间的互信息来对原始文本数据拆分得到的海量文本片段进行初筛,能够有效去除不具有完整语义的无效文本片段,减少无效运算,提高词语识别效率。

在本申请的一些实施例中,确定模块,还用于:

根据每一个文本片段的左右熵以及每一个文本片段和与其相邻的文本片段之间的互信息,确定每一个文本片段的分值;

将分值大于或等于分值阈值的文本片段确定为待识别文本片段;或者,按照分值大小对多个文本片段进行排序,得到片段序列,将片段序列中的前N个文本片段确定为待识别文本片段。

本申请实施例基于文本片段的左右熵和相邻文本片段之间的互信息,并设置不同的权重分数,来对原始文本数据中的文本片段进行初筛,得到可能是词语的待识别文本片段,能够提高词语识别的效率。

在本申请的一些实施例中,词语识别装置还包括:

训练模块,用于通过训练集对初始神经网络模型进行训练,得到初始神经网络模型对应的第一损失;其中,训练集包括一个以上的训练词对应的训练图网络、一个以上的训练词的左右熵以及一个以上的训练词中的每一个训练词和与其相邻的词之间的互信息;

确定模块,还用于:

基于训练图网络的特征向量,确定第二损失;

根据第一损失和第一损失对应的权重信息以及第二损失和第二损失对应的权重信息,确定分类识别损失;

在分类识别损失小于损失阈值的情况下,将训练后的初始神经网络模型确定为分类识别模型。

本申请实施例通过结合图对比学习方法,能够充分利用文本片段之间的空间相邻信息和文本片段的语义信息,构建图网络,利用图神经网络的特征提取能力,获取空间和语义特征,提高词语识别的准确率。

在本申请的一些实施例中,确定模块,还用于确定训练图网络中每个子节点的移除概率;

处理模块,还用于基于移除概率,在训练图网络的全部子节点中,移除至少一个子节点,得到训练图网络的至少两个子图网络;

确定模块,还用于根据至少两个子图网络的相似度确定第二损失。

本申请实施例通过采用图对比学习方式学习方式,通过不同的图结构视图能够使训练样本特征表示的差异性更大,缓解节点表示过平滑的问题,从而提高模型训练的鲁棒性。

本申请实施例中的词语识别装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。

本申请实施例中的词语识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。

本申请实施例提供的词语识别装置能够实现上述方法实施例实现的各个过程,为避免重复,这里不再赘述。

可选地,本申请实施例还提供一种电子设备,图5示出了根据本申请实施例的电子设备的结构框图,如图5所示,电子设备500包括处理器502,存储器504,存储在存储器504上并可在处理器502上运行的程序或指令,该程序或指令被处理器502执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609以及处理器610等部件。

本领域技术人员可以理解,电子设备600还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。

其中,处理器610,用于对文本数据进行第一处理,得到文本数据中的待识别文本片段;确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和相邻文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习方法训练得到的。

本申请实施例通过构建待识别文本片段的图网络,该图网络包括了待识别文本片段的空间相邻信息,还包括了待识别文本片段和待识别文本片段的相邻文本片段的语义信息,通过包含了空间相邻信息和语义向量的网络图作为分类识别模型的输入,通过分类识别模型来推理网络图中心节点,也即父节点上的文本片段是否满足词语的条件,使得推理过程充分利用了文本片段之间的空间相邻信息和语义信息,能够有效提高词语识别的准确率。

可选地,处理器610还用于对文本数据进行预处理,得到文本数据对应的文本片段集合;确定文本片段集合中的每一个文本片段的左右熵,以及文本片段集合中的每一个文本片段和与其相邻的文本片段之间的互信息;根据每一个文本片段的左右熵以及每一个文本片段和与其相邻的文本片段之间的互信息,在文本片段集合中确定待识别文本片段。

本申请实施例利用文本片段的左右熵和文本片段与相邻文本片段之间的互信息来对原始文本数据拆分得到的海量文本片段进行初筛,能够有效去除不具有完整语义的无效文本片段,减少无效运算,提高词语识别效率。

可选地,处理器610还用于根据每一个文本片段的左右熵以及每一个文本片段和与其相邻的文本片段之间的互信息,确定每一个文本片段的分值;将分值大于或等于分值阈值的文本片段确定为待识别文本片段;或按照分值大小对多个文本片段进行排序,得到片段序列,将片段序列中的前N个文本片段确定为待识别文本片段。

本申请实施例基于文本片段的左右熵和相邻文本片段之间的互信息,并设置不同的权重分数,来对原始文本数据中的文本片段进行初筛,得到可能是词语的待识别文本片段,能够提高词语识别的效率。

可选地,处理器610还用于通过训练集对初始神经网络模型进行训练,得到初始神经网络模型对应的第一损失;其中,训练集包括一个以上的训练词对应的训练图网络、一个以上的训练词的左右熵以及一个以上的训练词中的每一个训练词和与其相邻的词之间的互信息;基于训练图网络的特征向量,确定第二损失;根据第一损失和第一损失对应的权重信息以及第二损失和第二损失对应的权重信息,确定分类识别损失;在分类识别损失小于损失阈值的情况下,将训练后的初始神经网络模型确定为分类识别模型。

本申请实施例通过结合图对比学习方法,能够充分利用文本片段之间的空间相邻信息和文本片段的语义信息,构建图网络,利用图神经网络的特征提取能力,获取空间和语义特征,提高词语识别的准确率。

可选地,处理器610还用于确定训练图网络中每个子节点的移除概率;基于移除概率,在训练图网络的全部子节点中,移除至少一个子节点,得到训练图网络的至少两个子图网络根据至少两个子图网络的相似度确定第二损失。

本申请实施例通过采用图对比学习方式学习方式,通过不同的图结构视图能够使训练样本特征表示的差异性更大,缓解节点表示过平滑的问题,从而提高模型训练的鲁棒性。

应理解的是,本申请实施例中,输入单元604可以包括图形处理器(GraphicsProcessing Unit,GPU)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072中的至少一种。触控面板6071,也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器609可以包括易失性存储器或非易失性存储器,或者,存储器609可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器609包括但不限于这些和任意其它适合类型的存储器。

处理器610可包括一个或多个处理单元;可选的,处理器610集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。

本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 欺诈行为识别方法、装置、电子设备及可读存储介质
  • 命名实体识别方法、装置、电子设备、机器可读存储介质
  • 一种虚假主叫识别方法、装置、电子设备及存储介质
  • 文本情感识别方法及装置、电子设备、存储介质
  • 关键词语音识别方法、装置、存储介质和电子设备
  • 实体词语的识别方法、装置、存储介质及电子设备
技术分类

06120116484557