掌桥专利:专业的专利平台
掌桥专利
首页

输入法词频调整方法及装置

文献发布时间:2023-06-19 12:00:51


输入法词频调整方法及装置

技术领域

本申请涉及输入技术领域,尤其涉及一种输入法词频调整方法及装置。

背景技术

随着社会经济、文化和科技水平的不断发展和提高,人们日常使用的词汇和专业领域的词汇也在不断发展。这导致了许多新词迅速涌现、快速迭代。为了使输入法能够适应新词的出现,需要对输入法中词组词频进行及时调整。而输入法词频的有效调整,能够极大地提高输入法的准确性和及时性。

在实现现有技术的过程中,发明人发现:

现有技术中,输入法常通过词组的系数改变词频。该方法对于新词组缺乏有效的调整机制。因为该方法对于初始词频非常敏感,过低或者过高的初始词频,都不利于新词在词库中的排序。并且,随着时间的推移,原有词组的词频也不再适合当前用户输入习惯。从而影响输入的准确性。

因此,需要提供一种输入法词频调整方法及装置,用以解决输入法词组词频调整效果差的技术问题。

发明内容

本申请实施例提供一种输入法词频调整方法及装置,用以解决输入法词组词频调整效果差的技术问题。

具体的,一种输入法词频调整方法,包括以下步骤:

获取语料数据;

通过分词模型,对所述语料数据进行分词,生成若干分词单元;

通过识音模型,对所述分词单元进行注音,生成分词单元音节;

将音节相同的分词单元保存至同一音节词库;

统计同一音节词库中第一分词单元的出现概率;

将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果;

根据比较结果,调整第一分词单元的词频;

根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。

进一步的,根据比较结果,调整第一分词单元的词频,具体包括:

当第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强所述第一分词单元的词频;

当第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱所述第一分词单元的词频。

进一步的,当第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强所述第一分词单元的词频,具体包括:

根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:

式中,a

根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:

式中,e

根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:

式中,freq

进一步的,当第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱所述第一分词单元的词频,具体包括:

根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:

式中,a

根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:

式中,e

根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:

式中,freq

进一步的,所述分词模型为基于语言语法规则的神经网络算法模型,用于识别语料数据语法成分或语料数据词组词性,并根据语法成分或语料数据词组词性对语料数据进行分词;

所述识音模型为基于语言语法规则的神经网络算法模型,用于识别语料数据的音节,并进行注音。

本申请实施例还提供一种输入法词频调整装置。

具体的,一种输入法词频调整装置,包括:

获取模块,用于获取语料数据;

分词模块,用于通过分词模型,对所述语料数据进行分词,生成若干分词单元;

注音模块,用于通过识音模型,对所述分词单元进行注音,生成分词单元音节;

存储模块,用于将音节相同的分词单元保存至同一音节词库;

统计模块,用于统计同一音节词库中第一分词单元的出现概率;

比较模块,用于将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果;

调整模块,用于根据比较结果,调整第一分词单元的词频;用于根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。

进一步的,所述调整模块用于根据比较结果,调整第一分词单元的词频,具体用于:

当第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强所述第一分词单元的词频;

当第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱所述第一分词单元的词频。

进一步的,所述调整模块用于当第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强所述第一分词单元的词频,具体用于:

根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:

式中,a

根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:

式中,e

根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:

式中,freq

进一步的,所述调整模块用于当第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱所述第一分词单元的词频,具体用于:

根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:

式中,a

根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:

式中,e

根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:

式中,freq

进一步的,所述分词模型为基于语言语法规则的神经网络算法模型,用于识别语料数据语法成分或语料数据词组词性,并根据语法成分或语料数据词组词性对语料数据进行分词;

所述识音模型为基于语言语法规则的神经网络算法模型,用于识别语料数据的音节,并进行注音。

本申请实施例提供的技术方案,至少具有如下有益效果:

通过对输入法中词组词频进行动态调整,从而使得词库能够适应新词的加入或原有词组词频的改变,提高了输入的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的一种输入法词频调整方法的流程图。

图2为本申请实施例提供的一种输入法词频调整装置的结构示意图。

100 输入法词频调整装置

11 获取模块

12 分词模块

13 注音模块

14 存储模块

15 统计模块

16 比较模块

17 调整模块

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

人们日常使用的词汇不断发展,导致许多新词迅速涌现、快速迭代。因此,人们常输入的词语也在不断变化。为了使输入法能够适应新词的出现,需要对输入法中词组词频进行及时调整。而输入法词频的有效调整,能够极大地提高输入法的准确性和及时性。

现有技术中,输入法常通过词组的系数改变词频。该方法对于新词组缺乏有效的调整机制。因为该方法对于初始词频非常敏感,过低或者过高的初始词频,都不利于新词在词库中的排序。并且,随着时间的推移,原有词组的词频也不再适合当前用户输入习惯。从而影响输入的准确性。

因此,发明人提供一种输入法词频调整方法及装置,用以解决输入法词组词频调整效果差的技术问题。

请参照图1,本申请公开一种输入法词频调整方法,包括以下步骤:

S110:获取语料数据。

可以理解的是,所述语料数据可以理解为包括字、词、句、文档中的至少一种文本组合。例如,视频网站中的视频标题、视频网站中的评论、资料网站中的文档等数据均可以是本申请文件所述的语料数据。

S120:通过分词模型,对所述语料数据进行分词,生成若干分词单元。

可以理解的是,所述分词模型可以是一种基于语言语法规则的神经网络算法模型,用于识别语料数据语法成分或语料数据词组词性,并根据语法成分或语料数据词组词性对语料数据进行分词,生成若干分词单元。其中,所述语料数据语法成分可以表现为句子中的主语、谓语、宾语、动语、定语、状语、补语、表语、同位语等语法成分。所述语料数据词组词性可以表现为名词、代词、动词、介词、数词等词组词性。

因此步骤S120可以表现为:输入语料数据至分词模型;之后所述分词模型根据句子中的名词、代词、动词、介词、数词等词组词性,对语料数据进行分词;最后分词模型将所述语料数据拆分成若干分词单元。

或者步骤S120还可以表现为:输入语料数据至分词模型;之后所述分词模型根据句子中的主语、谓语、宾语、动语、定语、状语、补语、表语、同位语等语法成分,对语料数据进行分词;最后分词模型将所述语料数据拆分成若干分词单元。

S130:通过识音模型,对所述分词单元进行注音,生成分词单元音节。

可以理解的是,所述识音模型可以是一种基于语言语法规则的神经网络算法模型,用于识别所述分词单元的音节。具体的,所述音节可以理解为文本的注音音标,例如国际音标、汉语拼音等音标。

S140:将音节相同的分词单元保存至同一音节词库。

需要指出的是,所述词库可以理解为存储同一音节的分词单元数据库。因为文本具有同音现象,所以同一音节下会存在多个对应的文本。故而处于同一词库中的分词单元音节均相同。还需要指出的是,所述词库至少存储有一个分词单元。

S150:统计同一音节词库中第一分词单元的出现概率。

可以理解的是,同一词库中至少存储有一个分词单元。为使描述简洁,此处仅以同一词库中的任意一个分词单元进行描述,并不能因此而理解为对发明专利范围的限制。

为便于表示,此处将同一词库中的任意一个分词单元记作第一分词单元。则所述第一分词单元的出现概率可以理解为,描述第一分词单元出现频率与同一词库中所有词组出现频率关系的参数。

例如,在音节为xin’guan的词库中,有“新馆”、“信管”、“新官”、“心管”、“新冠”等分词单元。统计音节为xin’guan的词库中,各个分词单元的出现频率,通过预设的分词单元出现概率计算矩阵,可以计算出分词单元“新冠”的出现概率为P(新冠|xin’guan)=0.001836;分词单元“信管”的出现概率为P(信管|xin’guan)=0.000024。

S160:将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果。

需要指出的是,将所述第一分词单元的出现概率与预设阈值进行比较,所得到的比较结果会出现两种情况,即第一分词单元在同一音节词库中的出现概率大于、等于预设阈值;或第一分词单元在同一音节词库中的出现概率小于预设阈值。而比较结果将决定第一分词单元的词频调整方式。

S170:根据比较结果,调整第一分词单元的词频。

需要指出的是,当所述第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强第一分词单元的词频。

当所述第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱第一分词单元的词频。

具体的,当所述第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,系统根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:

式中,a

根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:

式中,e

根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:

式中,freq

需要强调的是,上述同一音节词库中第一分词单元的出现概率为系统在预设时间内的统计结果,以便于动态调整输入法词组词频。而所述动态调整输入法词组词频表现为每隔预设时间,系统对同一音节词库中词组的词频进行调整,具体表现为上述第K轮调整与第K+1轮调整。

当所述第一分词单元在同一音节词库中的出现概率小于预设阈值,系统将根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:

式中,a

根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:

式中,e

根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:

式中,freq

需要强调的是,上述同一音节词库中第一分词单元的出现概率为系统在预设时间内的统计结果,以便于动态调整输入法词组词频。而所述动态调整输入法词组词频表现为每隔预设时间,系统对同一音节词库中词组的词频进行调整,具体表现为上述第K轮调整与第K+1轮调整。

S180:根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。

需要指出的是,所述以预设顺序排列第一分词单元所在音节词库的分词单元顺序可以是,系统根据调整后第一分词单元的词频,以词组词频从大到小的顺序重新排列词库内的分词单元。

在本申请提供的一种具体实施方式中,系统获取大量语料数据后,通过分词模型,对所述语料数据进行分词,生成若干分词单元。又通过识音模型,对所述分词单元进行注音,生成分词单元音节。之后将音节相同的分词单元保存至同一音节词库。

其中,在音节为xin’guan的词库中,有“新馆”、“信管”、“新官”、“心管”、“新冠”等分词单元。统计音节为xin’guan的词库中,各个分词单元的出现频率,通过预设的分词单元出现概率计算矩阵,可以计算出分词单元“新冠”的出现概率为P(新冠|xin’guan)=0.001836;分词单元“信管”的出现概率为P(信管|xin’guan)=0.000024。

将P(信管|xin’guan)=0.000024、P(新冠|xin’guan)=0.001836分别与预先设定的阈值hit进行比较。比较结果为P(新冠|xin’guan)大于设定阈值,而P(信管|xin’guan)小于阈值。则需要对于“新冠”计算其增强词频,而对于“信管”计算其衰弱词频。

将所述P(信管|xin’guan)=0.000024代入步骤S170中的计算方程式,可以得到调整后“信管”的词频为169。将所述P(新冠|xin’guan)=0.001836代入步骤S170中的计算方程式,则可以得到调整后“新冠”的词频为171。

最后系统将调整后的分词单元,以词频从大到小的顺序排列。更新后的同一音节词库中分词单元“新冠”排在第一位,分词单元“信管”排在第二位。

在此工作期间,输入法词频调整方法通过对同一音节词库中词组的词频进行动态调整,从而使得词库能够适应新词的加入或原有词组词频的改变,提高了输入的准确性。

请参照图2,为支持输入法词频调整方法,本申请还提供一种输入法词频调整装置100,包括:

获取模块11,用于获取语料数据;

分词模块12,用于通过分词模型,对所述语料数据进行分词,生成若干分词单元;

注音模块13,用于通过识音模型,对所述分词单元进行注音,生成分词单元音节;

存储模块14,用于将音节相同的分词单元保存至同一音节词库;

统计模块15,用于统计同一音节词库中第一分词单元的出现概率;

比较模块16,用于将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果;

调整模块17,用于根据比较结果,调整第一分词单元的词频;用于根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。

可以理解的是,所述获取模块11获取到的语料数据可以理解为包括字、词、句、文档中的至少一种文本组合。例如,视频网站中的视频标题、视频网站中的评论、资料网站中的文档等数据均可以是本申请文件所述的语料数据。

所述分词模块12调用的分词模型可以是一种基于语言语法规则的神经网络算法模型,用于识别语料数据语法成分或语料数据词组词性,并根据语法成分或语料数据词组词性对语料数据进行分词,生成若干分词单元。其中,所述语料数据语法成分可以表现为句子中的主语、谓语、宾语、动语、定语、状语、补语、表语、同位语等语法成分。所述语料数据词组词性可以表现为名词、代词、动词、介词、数词等词组词性。

因此所述分词模型可以根据句子中的名词、代词、动词、介词、数词等词组词性,对语料数据进行分词;最后分词模型将所述语料数据拆分成若干分词单元。

或者所述分词模型还可以根据句子中的主语、谓语、宾语、动语、定语、状语、补语、表语、同位语等语法成分,对语料数据进行分词;最后分词模型将所述语料数据拆分成若干分词单元。

所述注音模块13调用的识音模型可以是一种基于语言语法规则的神经网络算法模型,用于识别所述分词单元的音节。具体的,所述音节可以理解为文本的注音音标,例如国际音标、汉语拼音等音标。

所述存储模块14用于将音节相同的分词单元保存至同一音节词库。所述词库可以理解为存储同一音节的分词单元数据库。因为文本具有同音现象,所以同一音节下会存在多个对应的文本。故而处于同一词库中的分词单元音节均相同。还需要指出的是,所述词库至少存储有一个分词单元。

可以理解的是,由于同一词库中至少存储有一个分词单元。为使描述简洁,统计模块15将以同一词库中的任意一个分词单元开展词频调整进行描述,并不能因此而理解为对发明专利范围的限制。

为便于表示,统计模块15将同一词库中的任意一个分词单元记作第一分词单元。则所述第一分词单元的出现概率可以理解为,描述第一分词单元出现频率与同一词库中所有词组出现频率关系的参数。

例如,在音节为xin’guan的词库中,有“新馆”、“信管”、“新官”、“心管”、“新冠”等分词单元。统计音节为xin’guan的词库中,各个分词单元的出现频率,通过预设的分词单元出现概率计算矩阵,可以计算出分词单元“新冠”的出现概率为P(新冠|xin’guan)=0.001836;分词单元“信管”的出现概率为P(信管|xin’guan)=0.000024。

所述比较模块16用于将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果。而将所述第一分词单元的出现概率与预设阈值进行比较,所得到的比较结果会出现两种情况,即第一分词单元在同一音节词库中的出现概率大于、等于预设阈值;或第一分词单元在同一音节词库中的出现概率小于预设阈值。而比较结果将决定第一分词单元的词频调整方式。

调整模块17用于根据比较结果,调整第一分词单元的词频。具体用于:当所述第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强第一分词单元的词频。当所述第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱第一分词单元的词频。

具体的,当所述第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,调整模块17根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:

式中,a

调整模块17根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:

式中,e

调整模块17根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:

式中,freq

需要强调的是,上述同一音节词库中第一分词单元的出现概率为调整模块17在预设时间内的统计结果,以便于动态调整输入法词组词频。而所述动态调整输入法词组词频表现为每隔预设时间,调整模块17对同一音节词库中词组的词频进行调整,具体表现为上述第K轮调整与第K+1轮调整。

当所述第一分词单元在同一音节词库中的出现概率小于预设阈值,调整模块17将根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:

式中,a

调整模块17根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:

式中,e

调整模块17根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:

式中,freq

需要强调的是,上述同一音节词库中第一分词单元的出现概率为调整模块17在预设时间内的统计结果,以便于动态调整输入法词组词频。而所述动态调整输入法词组词频表现为每隔预设时间,调整模块17对同一音节词库中词组的词频进行调整,具体表现为上述第K轮调整与第K+1轮调整。

所述调整模块17还用于根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。具体的,所述以预设顺序排列第一分词单元所在音节词库的分词单元顺序可以是,调整模块17根据调整后第一分词单元的词频,以词组词频从大到小的顺序重新排列词库内的分词单元。

在本申请提供的一种具体实施方式中,输入法词频调整装置100的获取模块11获取大量语料数据。分词模块12通过分词模型,对所述语料数据进行分词,生成若干分词单元。之后注音模块13通过识音模型,对所述分词单元进行注音,生成分词单元音节。存储模块14将音节相同的分词单元保存至同一音节词库。

其中,在音节为xin’guan的词库中,有“新馆”、“信管”、“新官”、“心管”、“新冠”等分词单元。统计模块15统计音节为xin’guan的词库中,各个分词单元的出现频率,通过预设的分词单元出现概率计算矩阵,可以计算出分词单元“新冠”的出现概率为P(新冠|xin’guan)=0.001836;分词单元“信管”的出现概率为P(信管|xin’guan)=0.000024。

比较模块16将P(信管|xin’guan)=0.000024、P(新冠|xin’guan)=0.001836分别与预先设定的阈值hit进行比较。比较结果为P(新冠|xin’guan)大于设定阈值,而P(信管|xin’guan)小于阈值。则需要对于“新冠”计算其增强词频,而对于“信管”计算其衰弱词频。

调整模块17将所述P(信管|xin’guan)=0.000024代入上述增强词频的计算方程式,可以得到调整后“信管”的词频为169。将所述P(新冠|xin’guan)=0.001836代入上述衰弱词频的计算方程式,则可以得到调整后“新冠”的词频为171。

最后调整模块17将调整后的分词单元,以词频从大到小的顺序排列。更新后的同一音节词库中分词单元“新冠”排在第一位,分词单元“信管”排在第二位。

在此工作期间,输入法词频调整装置100通过对同一音节词库中词组的词频进行动态调整,从而使得词库能够适应新词的加入或原有词组词频的改变,提高了输入的准确性。

需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 输入法词频调整方法及装置
  • 输入法的显示处理装置及输入法的显示处理方法
技术分类

06120113135469