掌桥专利:专业的专利平台
掌桥专利
首页

变形词识别方法和装置

文献发布时间:2023-06-19 10:51:07


变形词识别方法和装置

技术领域

本公开涉及自然语言处理领域,特别涉及一种变形词识别方法和装置。

背景技术

当前互联网业务数据暴涨,各种变形词不断出现,严重影响关键词的匹配和获取。这些变形词,对于人脑来说比较容易理解,然而对于机器识别来说,会产生负面影响,造成词语识别不准确。目前的机器识别技术难以将这些变形词识别为其实际语义。

发明内容

本公开利用变形词所属的词图关系网络的子群中的变形词的邻居词语节点,构建变形词的词图向量,根据变形词的词向量和词图向量,计算变形词的综合描述向量,从语义表示和词图关系上全面描述该变形词,并通过匹配变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别变形词。

本公开的一些实施例提出一种变形词识别方法,包括:

根据待识别的变形词所在的语料,计算所述变形词的词向量;

根据所述变形词所属的词图关系网络的子群中的所述变形词的邻居词语节点,构建所述变形词的词图向量;

根据所述变形词的词向量和词图向量,构建所述变形词的综合描述向量;

匹配所述变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别所述变形词。

在一些实施例中,计算所述变形词的词图向量包括:根据所述变形词的各个邻居词语节点的重要性度量值,对所述变形词的相应邻居词语节点的词向量进行加权求和,得到所述变形词的词图向量。

在一些实施例中,所述词图关系网络包括多个节点和连接不同节点的边,其中,多个节点包括语料中的词,连接不同节点的边在所述不同节点在语料中同时出现的频次达到预设值时存在,边的权值由语料中同时出现所述不同节点的频次大小决定。

在一些实施例中,所述词图关系网络的子群是利用随机游走算法对所述词图关系网络进行分割得到的。

在一些实施例中,所述多个节点还包括变形词和关键词经过预设转换后得到的转换词,所述预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。

在一些实施例中,所述变形词所在的语料包括:直接包括所述变形词的语料和间接包括所述变形词的语料中的一个或全部,其中,如果原始词经过预设转换得到所述变形词,则间接包括所述变形词的语料是指:所述原始词所在的语料并将其中的原始词替换为所述变形词后得到的语料;其中,所述预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。

在一些实施例中,当转换之前的一个词包括多个字时,所述多个字经过一种或多种预设变换得到转换词。

在一些实施例中,所述拼音或拼音首字母带音调。

在一些实施例中,所述变形词被识别为与其匹配的关键词,所述方法还包括:将所述变形词所在语料中的所述变形词替换为与其匹配的关键词;对替换后的所述变形词所在语料执行预设任务。

本公开的一些实施例提出一种变形词识别装置,包括:

存储器;以及

耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任意一个实施例的变形词识别方法。

本公开的一些实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任意一个实施例的变形词识别方法。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,

显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开变形词识别方法一些实施例的流程示意图。

图2为本公开基于语料的任务执行方法一些实施例的流程示意图。

图3为本公开词图关系网络的一个子群的示意图。

图4为本公开变形词识别装置一些实施例的示意图。

具体实施方式

下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。

在本公开中,变形词是指原始词经过某种变换得到的,该变换例如包括将原始词中的中文字转换为其拼音或拼音首字母或同音的另一个中文字、拆分中文字的偏旁和部首等。

图1为本公开变形词识别方法一些实施例的流程示意图。如图1 所示,该实施例的方法包括:

在步骤11,输入语料,获取语料中待识别的变形词。

具体地,先对输入的语料进行预处理,例如,对语料进行分词,去除标点和单字(如“的”)等停用词,以及其他一些预处理操作;然后,对分词进行语义识别,不能识别的分词作为待识别的变形词继续进行后续的识别处理。

其中,如果是中文语料,可以使用中文分词工具jieba进行分词。语料的来源例如可以是新闻语料库或其他语料库。初步的语义识别可以采用现有技术中能够实现语义识别的任何技术,例如,将分词的词向量与基础词库中词语的词向量进行匹配,并将分词识别为与其匹配的基础词库中的词语。

在步骤12,根据待识别的变形词所在的语料,计算该变形词的词向量。

具体地,将待识别的变形词所在的语料输入word2vec或ELMo 或LSTM(LongShort-Term Memory,长短期记忆网络)等模型,得到变形词的词向量,该词向量是与上下文相关的代表语义信息的向量。因此,在本公开中,词向量也叫语义词向量。其中,ELMo模型核心是一个双层双向的LSTM网络,相对于基础的LSTM网络,通过综合词法、句法和语法的深度语义表示的词向量,能够获得语义信息更准确的词向量。

以下表为例,man的词向量可表示为(-1,0.01,0.03,0.009,…), woman的词向量可表示为(1,0.02,0.02,0.01,…)。

其中,变形词所在的语料包括:直接包括所述变形词的语料和间接包括所述变形词的语料中的一个或全部。通过间接语料,可以丰富变形词语料的来源,并使得原始词的变形词在没有直接语料或直接语料较少的情况下也能够被识别出来。

其中,如果原始词经过预设转换得到所述变形词,则间接包括所述变形词的语料是指:所述原始词所在的语料并将其中的原始词替换为所述变形词后得到的语料。所述预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。可选的,拼音或拼音首字母带音调。当转换之前的一个词包括多个字时,该词的多个字经过一种或多种预设变换得到转换词。

在步骤13,根据变形词所属的词图关系网络的子群中该变形词的邻居词语节点,构建该变形词的词图向量。

构建变形词的词图向量包括:根据变形词的各个邻居词语节点的重要性度量值,对变形词的相应邻居词语节点的词向量进行加权求和,得到变形词的词图向量。从而,利用邻居词语节点的数量和质量来衡量某个词语。其中,节点的重要性度量值例如可以根据词图关系网络中的特征中心性确定。邻居词语节点的词向量可以参考变形词的词向量的确定方法。

把每个词视为一个节点,如果两个词间关系频繁,即这两个词同时出现的频次达到预设值,那么这两个词间就连接一条边,这些节点和边构成词图关系网络,即词图关系网络包括多个节点和连接不同节点的边。

其中,词图关系网络中的节点不仅包括语料中直接出现的各个词,进一步还可以包括变形词和关键词库中的关键词经过预设转换后得到的转换词,预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。可选的,拼音或拼音首字母带音调。当转换之前的一个词包括多个字时,该词的多个字经过一种或多种预设变换得到转换词。进一步还可以计算这些转换词的词向量,可以在转换词转换之前的原始词所在的语料环境下,利用转换词替换其中的原始词,借助原始词语料得到一部分转换词语料,然后再参考前述词向量的计算方法,根据所有转换词语料计算该转换词的词向量。在词图关系网络中引入转换词节点,有利于提高同音类、拼音类、拆字类等变形词的识别准确性。

词图关系网络的各个子群可以是利用随机游走算法对词图关系网络进行分割得到的。

基于随机游走的子群发现方法包括以下步骤:

1)词图关系网络构成一个相连通的无向图,把每个词视为一个无向图中的节点,如果某两个词同时出现的频次达到预设值,那么这两个词在无向图中存在一条边。

2)在无向图中进行L步随机游走,得遍历节点序列,将遍历节点序列划分为若干的子序列,每个子序列中包括H个节点,对每个子序列进行边的统计,当子序列中存在边时,则对相应边的统计量加1,然后对所有边的统计量进行排序。

当边的统计量越大,则代表该边对应的两个节点的关系越紧密。

可选的,在进行L步随机游走时,如果当前节点与多个后续节点均存在边,可以根据多个后续节点的重要性程度(如出现的频次),作为从当前节点游走到每个后续节点的概率。

3)将统计量最大的边(vg,vh)所对应的节点Vg及节点vh作为子群C0的初始节点,记作C0={vg,vh}。

4)对于第M个边(vi,vj),当vi属于已有社区Cx,并且vj不属于其他已有社区时,则记作vj属于社区Cx,并将vj添加到社区Cx 中;当vi和vj均不属于任何已有社区时,则创建新的社区Cy,其中 Cy={vi,vj};当vi属于已有社区Cx,且vj属于另一已有社区Cz时,则不进行处理。

5)重复步骤4),得到词图关系网络的各个子群。

基于随机游走的子群发现方法,无需先验知识,可以降低计算代价和计算时间,适应性强。

在步骤14,根据变形词的词向量和词图向量,构建变形词的综合描述向量,用来全面描述该变形词。具体的计算公式如下:

综合描述向量=ɑ*词向量+(1-ɑ)*词图向量

其中,权值ɑ可以预先设置,例如可以根据语料规模和词频确定ɑ的具体值。参数ɑ与语料规模和词频正相关,语料规模越小,词频越低,ɑ值越小。

在步骤15,匹配变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别变形词,将变形词识别为与其匹配的关键词。

上述实施例,利用变形词所属的词图关系网络的子群中的变形词的邻居词语节点,构建变形词的词图向量,根据变形词的词向量和词图向量,计算变形词的综合描述向量,从语义表示和词图关系上全面描述该变形词,并通过匹配变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别变形词。

此外,由于可以借助邻居词语节点来描述相关词语,因此,可以降低语料量的需求,改善语料量不足所导致的新词训练不充分的缺陷。

此外,通过融合中文+拼音+声调组合、拼音首字母组合来更准确地识别同音类词和缩写类词,通过融合中文字的偏旁和部首的拆分组合来更准确地识别拆字类词,更全面覆盖的各种变形新词的识别。

图2为本公开基于语料的任务执行方法一些实施例的流程示意图。如图2所示,该实施例的方法包括:

在步骤21,基于图1实施例识别出的变形词,将变形词所在语料中的变形词替换为与其匹配的关键词。

在步骤22,对替换后的变形词所在语料执行预设任务。

其中,预设任务例如为文本分类(如不良文本识别)、错别字纠正、垃圾邮件过滤、情感分析、评论意见提取、语义网络分析、知识图谱等,但不限于所举示例。

上述实施例,对语料中的变形词进行替换处理后,再对语料执行任务,排除变形词对文本分析的干扰,使得任务执行更准确。

下面列举一个变形词识别以及不良文本识别的例子。

假设语料1中出现机器不能识别的变形词“词A”,并假设“词 A”所在的词图关系网络的子群如图3所示,其中,a1、a2、a3、a4表示相应词语的重要性度量值,以及,基于不良文本识别的任务需求,设置关键词库中包括“词A0”等一些不良的关键词。则:

“词A”词图向量=a1*“词B”词向量+a2*“词C”词向量+a3* “词E”词向量+a4*“词D”词向量,

“词A”综合描述向量=ɑ*“词A”词向量+(1-ɑ)*“词A”词图向量,

然后,将“词A”综合描述向量与关键词库中的各个关键词的综合描述向量进行匹配,找到与“词A”综合描述向量匹配的关键词“词 A0”的综合描述向量,将“词A”识别为“词A0”,从而实现拆字类变形词的准确识别。

最后,将语料1中的“词A”替换为“词A0”,则发现语料1中出现“词A0”等不良词语,可将语料1识别为可疑文本,继续进行后续的业务分类,如果支持“词A0”,则语料1被识别为属于不良文本。

图4为本公开变形词识别装置一些实施例的示意图。

如图4所示,该实施例的变形词识别装置40包括:

存储器41;以及

耦接至存储器的处理器42,处理器42配置为基于存储在存储器中的指令,执行任一个实施例的变形词识别方法,以及基于语料的任务执行方法。

其中,存储器41例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序 (Boot Loader)以及其他程序等。

本公开还提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一个实施例的变形词识别方法,以及基于语料的任务执行方法。

本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

相关技术
  • 变形词识别方法和装置
  • 一种基于成词率的领域词识别方法及装置
技术分类

06120112707194