一种新词识别方法及相关装置
文献发布时间:2023-06-19 18:34:06
技术领域
本申请涉及词汇挖掘技术领域,特别涉及一种新词识别方法;还涉及一种新词识别装置、设备以及计算机可读存储介质。
背景技术
新词是指未记录在词库中的词汇,第一次出现在系统中的词汇。第二次及后续出现,不再称之为新词。随着互联网的发展以及各种应用软件的广泛使用,网络上不断有新词出现。面对不断涌现的新词,各类应用软件需要能够从语料中及时发现识别新词。
然而现有的新词识别方案仅仅从语料的主语、谓语、宾语等语法中寻找候选词作为新词,这样导致候选词不仅数量低、类型少,而且准确率不高。由于新词识别的准确性不高,系统发现的大量新词需要人工介入进行二次识别与区分。另外,现有的新词识别方案不具备自我学习能力,无论经过多少批次的语料,系统的新词识别能力基本不变。
有鉴于此,如何解决上述技术缺陷已成为本领域技术人员亟待解决的技术问题。
发明内容
本申请的目的是提供一种新词识别方法,能够提高新词识别的准确率,提升决策效率。本申请的另一个目的是提供一种新词识别装置、设备以及计算机可读存储介质,均具有上述技术效果。
为解决上述技术问题,本申请提供了一种新词识别方法,包括:
采用N-gram的方式对语料进行分词,得到多个字节片段;
从各所述字节片段中筛选出候选词;
计算所述候选词为新词的概率;
根据所述概率判断所述候选词是否为新词。
可选的,所述从各所述字节片段中筛选出候选词包括:
计算所述字节片段的特征值;
将所述特征值与对应的特征阈值进行比较;
根据比较结果确定候选词。
可选的,所述计算所述字节片段的特征值包括:
计算所述字节片段的最小左邻接熵、最小右邻接熵、左右邻接熵比值、互信息阈值以及最小词频。
可选的,所述根据比较结果确定候选词包括:
若所述特征值大于对应的所述特征阈值,则所述字节片段为候选词。
可选的,所述计算所述候选词为新词的概率包括:
将所述候选词与词库进行比对;
若所述词库已存在所述候选词,则将所述候选词及所述候选词的特征值加入正样本池;
若所述词库不存在所述候选词,则将所述候选词及所述候选词的特征值加入负样本池;
根据所述正样本池与所述负样本池,得到概率计算模型;
通过所述概率计算模型计算所述候选词为新词的概率。
可选的,还包括:
根据所述正样本池与所述负样本池,得到最优特征阈值;
将所述特征阈值替换为所述最优特征阈值。
可选的,所述根据所述概率判断所述候选词是否为新词包括:
若所述概率达到第一预设阈值,则确定所述候选词为新词;
若所述概率达到第二预设阈值,未达到所述第一预设阈值,则启动人工决策,由人工判断所述候选词是否为新词。
为解决上述技术问题,本申请还提供了一种新词识别装置,包括:
分词模块,用于采用N-gram的方式对语料进行分词,得到多个字节片段;
筛选模块,用于从各所述字节片段中筛选出候选词;
计算模块,用于计算所述候选词为新词的概率;
判断模块,用于根据所述概率判断所述候选词是否为新词。
为解决上述技术问题,本申请还提供了一种新词识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述的新词识别方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的新词识别方法的步骤。
本申请所提供的新词识别方法,包括:采用N-gram的方式对语料进行分词,得到多个字节片段;从各所述字节片段中筛选出候选词;计算所述候选词为新词的概率;根据所述概率判断所述候选词是否为新词。
可见,本申请所提供的新词识别方法,采用N-gram的方式对语料进行分词,可以摆脱对词库的依赖,得到数量较多、类型较多的字节片段,能够有效提升新词识别的准确性。另外,本申请在分词得到字节片段后,从字节片段中筛选出候选词,并计算候选词为新词的概率,进而基于此概率判断候选词是否需为新词,可以极大的提升决策效率,尽可能的减少人工决策。
本申请所提供的新词识别装置、设备以及计算机可读存储介质均具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种新词识别方法的流程示意图;
图2为本申请实施例所提供的一种新词识别流程示意图;
图3为本申请实施例所提供的一种新词识别装置的示意图;
图4为本申请实施例所提供的一种新词识别设备的示意图。
具体实施方式
本申请的核心是提供一种新词识别方法,能够提高新词识别的准确率,提升决策效率。本申请的另一个核心是提供一种新词识别装置、设备以及计算机可读存储介质,均具有上述技术效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种新词识别方法的流程示意图,参考图1所示,该方法包括:
S101:采用N-gram的方式对语料进行分词,得到多个字节片段;
本实施例采用N-gram的方式进行分词。该方式对于分词形成的每一个字节片段进行频度统计,并按照设定的阈值n进行过滤,形成关键字节片段列表。关键字节片段列表也就是语料的向量特征空间,关键字节片段列表中的每一种字节片段就是一个特征向量维度。
采用N-gram的方式进行分词所得字节片段的长度最小为1,最大为N。
通常单个字成为新词的概率较低,因此可以设定阈值n等于1,此时过滤掉长度为1的字节片段。
现有的分词方式依赖词库,仅会分成词库中存在的词的组合。如果词库中不存在某个词,那么该词基本不会出现在分词结果中,该词也就不会被认定为新词。本实施例采用N-gram的方式进行分词,可以摆脱对词库对依赖,能够较好的枚举各种成词可能性,有效降低了词被遗漏的概率。N-gram中窗口N越大,对应的分词结果即字节片段越多,新词识别的效果越好。至于N的具体数值,可以进行差异性设置,本申请不做唯一限定。
S102:从各所述字节片段中筛选出候选词;
在分词得到多个字节片段的基础上,首先从中筛选出候选词,以进一步从候选词中确定新词。筛选出候选词也就是过滤掉毫无意义的、明显不可能是新词的字节片段,保留更可能是新词的字节片段。
在一些实施例中,所述从各所述字节片段中筛选出候选词包括:
计算所述字节片段的特征值;
将所述特征值与对应的特征阈值进行比较;
若所述特征值大于对应的所述特征阈值,则所述字节片段为候选词。
其中,所述计算所述字节片段的特征值可以包括:
计算所述字节片段的最小左邻接熵、最小右邻接熵、左右邻接熵比值、互信息阈值以及最小词频。
具体而言,邻接熵用于衡量词的左右字符的不确定性。邻接熵的定义是:
S
最小左邻接熵的定义是词的左邻接字的最小熵。最小左邻接熵是用于判断词是否被过滤的依据。最小左邻接熵数值越大,表示词左相邻的字的种类越多,该词成为某个词语的左边界的可能性越大。最小左邻接熵对应的特征阈值通常可设置为0.5。如果某个字节片段的最小左邻接熵小于0.5,则淘汰此字节片段;如果某个字节片段的最小左邻接熵大于0.5,则将此字节片段列入候选词列表。
最小右邻接熵的定义是词的右邻接字的最小熵。最小右邻接熵是用于判断词是否被过滤的依据。最小右邻接熵的数值越大,表示词右相邻的字的种类越多,该词成为某个词语的右边界的可能性越大。最小右邻接熵对应的特征阈值通常可设置为0.5。如果某个字节片段的最小左邻接熵小于0.5,则淘汰此字节片段;如果某个字节片段的最小右邻接熵大于0.5,则将此字节片段列入候选词列表。
左右邻接熵比值的定义是词左邻接熵和右邻接熵二者中的小值和大值的比值。左右邻接熵比值是用于判断候选词是否被过滤的依据。左右邻接熵比值的数值越小,那么表示左右邻接熵的差值越小。一般来说“的”“是”等停用词的左右邻接熵比值很接近1。左右邻接熵比值对应的的特征阈值通常可设置为0.4。如果某个字节片段的左右邻接熵比值小于0.4,则淘汰此字节片段;如果某个分词的左右邻接熵比值大于0.4,则将此字节片段列入候选词列表。
互信息阈值用于度量两个变量之间相互依赖的程度。互信息阈值的数值越大,表示两个词组合后成为候选词的概率越大。互信息阈值的定义是:
p(x)表示字或词x单独出现在语料集中的概率,p(y)表示字或词y单独出现在语料集中的概率,p(x,y)表示x与y共同出现在语料集中的概率,MI(x,y)表示x与y的互信息阈值。
如果互信息阈值的数值大于0,表示x与y是相互关联的。并且互信息阈值的数值越大,表示x与y的相关联的程度越大,越有可能成为新词。互信息阈值的数值等于0,表示x与y是彼此独立的。互信息阈值对应的特征阈值通常可设置为1.0。如果某个字节片段的互信息阈值小于1.0,则淘汰此字节片段;如果某个字节片段的互信息阈值大于1.0,则将此字节片段列入候选词列表。
最小词频的定义是词出现的次数。最小词频的数值越大,那么表示该词是错词的概率越低。最小词频对应的特征阈值通常可以设置为10。如果某个字节片段的最小词频小于10,则淘汰此字节片段;如果某个字节片段的最小词频比值大于10,则将此分词列入候选词列表。
候选词列表中的字节片段即为候选词。
左右邻接熵能够很好的体现候选词上下文的丰富程度,互信息能够反应候选词的内聚程度。左右邻接熵,互信息,词频等参数的使用,能有效的区分新词的信息。
S103:计算所述候选词为新词的概率;
其中,在一些实施例中,所述计算所述候选词为新词的概率可以包括:
将所述候选词与词库进行比对;
若所述词库已存在所述候选词,则将所述候选词及所述候选词的特征值加入正样本池;
若所述词库不存在所述候选词,则将所述候选词及所述候选词的特征值加入负样本池;
根据所述正样本池与所述负样本池,创建概率计算模型;
通过所述概率计算模型计算所述候选词为新词的概率。
具体而言,在筛选出候选词的基础上,将候选词与现有的词库进行比对。如果词库中已经有该候选词,则将该候选词以及该候选词的左邻接熵、右邻接熵、左右邻接熵比值、互信息阈值以及最小词频加入正样本池。如果词库中没有该候选词,则将该候选词以及该候选词的左邻接熵、右邻接熵、左右邻接熵比值、互信息阈值以及最小词频加入负样本池。
其中,在词库中没有该候选词的情况下,可以由人工判断该候选词是否是新词,如果是新词,则将该候选词及该候选词的左邻接熵等加入正样本池。如果不是新词,则将该候选词及该候选词的邻接熵等加入负样本池。
根据正样本池与负样本池,采用逻辑回归(非负即正)与网格搜索的方式,得到最优的概率计算模型。逻辑回归分类函数为:
上式中,x表示特征值,S(x)表示决策值。
逻辑回归分类函数通过计算属于某个类别的概率值而判断是否属于该类别。
网格搜索是对正则化参数、分类方式选择参数、迭代收敛标准、c参数、最大迭代次数进行梯度调参。
正则化参数:用来减小某些特征数值的数量级,避免部分特征对拟合结果产生决定性影响,避免过拟合。可选L1、L2等。
分类方式:不同的分类方式(如ovr、mvm等)之间,速度和精确度各不相同。
迭代收敛标准:即停止求解的标准,当梯度变化率低于此迭代收敛标准时,停止求解,输出模型。
c参数:与正则化参数作用相近,c参数数值越小,正则化越强。
最大迭代次数:算法收敛的最大迭代次数。
训练模型,计算得到精确率、召回率、准确率、F1以及auc。
精确率:预测为正且预测正确占预测为正的比例。
召回率:预测为正且预测正确占实际正的比例。
准确率:预测正确占全部预测的比例。
f1:(2*精确率*召回率)/(精确率+召回率)。
auc:0~1之间,数值越大,模型越优秀。
对于采用逻辑回归与网格搜索的方式,训练得到模型的具体实施过程,本申请在此不再赘述,参照现有技术即可。
可以选取准确率最优时的模型。将候选词的特征值(词、词的左邻接熵、词的右邻接熵、词的左右邻接熵比值、词的互信息、词的词频)输入最优模型中,得到候选词是新词的概率。最优模型根据候选词是新词的概率判断候选词是否为新词,不需要人工介入。此外,在得到候选词是新词的概率的情况下,可以辅助用户决策,用户可以根据概率排序进行决策。
S104:根据所述概率判断所述候选词是否为新词。
从分词得到诸多字节片段中筛选出候选词后,分别计算各候选词为新词的概率,进而根据候选词的概率,判断其是否为新词。一般情况下,可当候选词的概率达到某个数值时,认为此候选词为新词。例如,当候选词为新词的概率达到80%时,认为此候选词为新词。
在一些实施例中,所述根据所述概率判断所述候选词是否为新词包括:
若所述概率达到第一预设阈值,则确定所述候选词为新词;
若所述概率达到第二预设阈值,未达到所述第一预设阈值,则启动人工决策,由人工判断所述候选词是否为新词。
第一预设阈值大于第二预设阈值,如果候选词是新词的概率达到了第一预设阈值,则此时系统直接判定该候选词为新词。如果候选词是新词的概率没有达到第一预设阈值但达到了第二预设阈值,则此时人工接入,以候选词是新词的概率为辅助,由人工判断该候选词是否为新词。
例如,第一预设阈值为80%,第二预设阈值为60%,如果候选词是新词的概率达到了80%,则此时系统直接判定该候选词为新词。如果候选词是新词的概率没有达到80%但达到了60%,则此时人工接入,由人工判断该概率为60%的候选词是否为新词。
采取系统直接判定与人工判定相结合的方式,可以有效确保新词判定的准确性,避免错判、遗漏。
在一些实施例中,还包括:
根据所述正样本池与所述负样本池,得到最优特征阈值;
将所述特征阈值替换为所述最优特征阈值。
特征阈值用于候选词的筛选,在最初进行候选词的筛选时,所依据的特征阈值是初始值。特征阈值的初始值往往是一般值,而不是最优值。而特征阈值直接决定了新词识别的准确率和召回率。特征阈值过于严格会淘汰许多本应该是新词的词,召回率降低。特征阈值过于宽松又会大大增加候选词数量,准确率降低。并且不同的样本,最优的特征阈值必然不同。为此,本申请引入机器学习来迭代特征阈值,让特征阈值在不断迭代中达到最优。
最优特征阈值是模型达到最优时,模型中的参数的值。根据所述正样本池与所述负样本池,得到最优模型也就相应得到了最优特征阈值。将特征阈值替换为最优特征阈值后进行后续的候选词筛选,可以有效提高新词识别的准确率。如此,基于正、负样本进行特征阈值调优,使整个新词识别流程形成具备自我学习能力的闭环:分词-->新词-->正样本,负样本-->特征阈值调优 -->再使用到分词)。另外,在闭环中不断通过决策结果优化模型,不断通过模型提升决策结果,且整个优化提升的过程不需要人工干预,新词识别会越来越准确。
以下通过一个具体的实施例来阐述新词识别流程:
参考图2所示,新词识别系统控制台的功能是设置左右邻接熵比值、互信息阈值,最小左邻接熵,最小右邻接熵,最小词频的阈值的初始数值,自动迭代各项参数和阈值。候选词挖掘模块主要负责筛选候选词,从而得出候选词列表。候选词挖掘模块的主要工作流程包括:
加载语料:将语料加载到系统中。语料的数量越多,系统的学习过程越多,参数迭代次数越多,新词挖掘的准确率越高。
遍历分词:将加载的语料进行遍历分词。遍历分词指的是对每一份语料单独进行分词,语料和语料之间对衔接处基本不存在成词可能性,因此单独处理每份语料。
系统采取N-gram的方式进行分词。依据分词初步得到的结果,依次拉取每一个字节片段,并计算每一个字节片段的左右邻接熵,左右邻接熵比值、互信息,词频等信息。从新词识别系统控制台读取最新的阈值,对分词初步得到的结果逐一进行处理。处理的方式是,从新词识别系统控制台读取阈值,并使用阈值对字节片段进行筛选。对所有的字节片段处理完毕之后,输出候选词。
监督学习参数调优模块根据正负样本,负责样本训练、不断迭代得到最新的阈值。如果候选词是正样本,将提高正样本池的特征丰富程度。使得阈值得到了正向增强。如果候选词是负样本,将提高负样本池的特征丰富程度,使得阈值得到了负向增强。样本池的特征丰富程度决定了模型的上限。正样本、负样本从两个维度提高候选词的准确率,并计算候选词为新词的概率,能够减轻决策负担。
基于以上正负样本池,训练模型,可以拟合得出当前最佳左右邻接熵比值、互信息阈值,最小左邻接熵,最小右邻接熵,最小词频参数,即得到最佳阈值。
综上所述,本申请所提供的新词识别方法,采用N-gram的方式对语料进行分词,可以摆脱对词库的依赖,得到数量较多、类型较多的字节片段,能够有效提升新词识别的准确性。另外,本申请在分词得到字节片段后,从字节片段中筛选出候选词,并计算候选词为新词的概率,进而基于此概率判断候选词是否需为新词,可以极大的提升决策效率,尽可能的减少人工决策。
本申请还提供了一种新词识别装置,下文描述的该装置可以与上文描述的方法相互对应参照。请参考图3,图3为本申请实施例所提供的一种新词识别装置的示意图,结合图3所示,该装置包括:
分词模块10,用于采用N-gram的方式对语料进行分词,得到多个字节片段;
筛选模块20,用于从各所述字节片段中筛选出候选词;
计算模块30,用于计算所述候选词为新词的概率;
判断模块40,用于根据所述概率判断所述候选词是否为新词。
在上述实施例的基础上,作为一种具体的实施方式,所述筛选模块20包括:
计算单元,用于计算所述字节片段的特征值;
比较单元,用于将所述特征值与对应的特征阈值进行比较;
候选词确定单元,用于根据比较结果确定候选词。
在上述实施例的基础上,作为一种具体的实施方式,所述计算单元具体用于:
计算所述字节片段的最小左邻接熵、最小右邻接熵、左右邻接熵比值、互信息阈值以及最小词频。
在上述实施例的基础上,作为一种具体的实施方式,所述确定单元具体用于:
若所述特征值大于对应的所述特征阈值,则所述字节片段为候选词。
在上述实施例的基础上,作为一种具体的实施方式,计算模块30包括:
比对单元,用于将所述候选词与词库进行比对;
第一添加单元,用于若所述词库已存在所述候选词,则将所述候选词及所述候选词的特征值加入正样本池;
第二添加单元,用于若所述词库不存在所述候选词,则将所述候选词及所述候选词的特征值加入负样本池;
模型创建单元,用于根据所述正样本池与所述负样本池,得到概率计算模型;
概率计算单元,用于通过所述概率计算模型计算所述候选词为新词的概率。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
阈值寻优模块,用于根据所述正样本池与所述负样本池,得到最优特征阈值;
阈值替换模块,用于将所述特征阈值替换为所述最优特征阈值。
在上述实施例的基础上,作为一种具体的实施方式,所述判断模块40包括:
新词确定单元,用于若所述概率达到第一预设阈值,则确定所述候选词为新词;
启动单元,用于若所述概率达到第二预设阈值,未达到所述第一预设阈值,则启动人工决策,由人工判断所述候选词是否为新词。
本申请所提供的新词识别装置,采用N-gram的方式对语料进行分词,可以摆脱对词库的依赖,得到数量较多、类型较多的字节片段,能够有效提升新词识别的准确性。另外,本申请在分词得到字节片段后,从字节片段中筛选出候选词,并计算候选词为新词的概率,进而基于此概率判断候选词是否需为新词,可以极大的提升决策效率,尽可能的减少人工决策。
本申请还提供了一种新词识别设备,参考图4所示,该设备包括存储器1 和处理器2。
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序实现如下的步骤:
采用N-gram的方式对语料进行分词,得到多个字节片段;
从各所述字节片段中筛选出候选词;
计算所述候选词为新词的概率;
根据所述概率判断所述候选词是否为新词。
对于本申请所提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下的步骤:
采用N-gram的方式对语料进行分词,得到多个字节片段;
从各所述字节片段中筛选出候选词;
计算所述候选词为新词的概率;
根据所述概率判断所述候选词是否为新词。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请所提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为大于本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的新词识别方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围。
- 一种图像识别模型的训练方法、图像识别方法和相关装置
- 一种人体姿态识别方法及相关装置
- 一种科技新词识别方法及装置
- 一种新词识别方法、装置、电子设备及存储介质