政务服务领域的同义词挖掘方法及装置

文献发布时间：2023-06-19 11:44:10

技术领域

本发明涉及人工智能技术领域，尤其涉及一种政务服务领域的同义词挖掘方法及装置。

背景技术

同义词经常被应用于信息检索、文本分类等自然语言处理任务中。具体而言，在进行信息检索或文本分类等处理任务之前，需要进行同义词的获取和同义词的识别。例如，在信息检索的应用场景中，可以将属于同义词的多个词归为同类，当输入文本中存在有同义词的关键字时，可将同义词代替原关键字进行搜索，从而提升搜索的召回率。

然而由于政务服务领域近年来的不断发展，涌现了大批的新兴词汇与专有名词，造成分词不准确的同时，还对同义词挖掘造成了困难。由于中文语义变化多样，同义词挖掘难度较大，现有的政务服务领的同义词库多由人工进行填充，使得同义词挖掘效率低。且政务服务领域的新词定义目前没有统一标准；政务服务领域涉及面很广，包括人文、经济、社会等多个子领域，新词的构成规律难以掌握，各领域新词构成规则各不相同；而由于政务服务领域文本稀疏等原因，对低频新词识别难度较大，新词发现的准确率低。

发明内容

本发明实施例提供一种政务服务领域的同义词挖掘方法，用以提高同义词挖掘的效率，提高新词发现的准确率，该方法包括：

根据政务服务领域的语料库，生成新词候选词集；

确定所述新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；

将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；所述缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；

将所述缩写词同义词集输入预先构建的双塔模型，得到原词条与所述多个缩写同义词候选词条的相似度；所述双塔模型是根据所述政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；

根据原词条与所述多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。

本发明具体实施例中，根据政务服务领域的语料库，生成新词候选词集，包括：

利用BiGram方法，将政务服务领域的语料库中的任意相邻两个词语拼接作为候选新词，得到多个候选新词；

将多个候选新词中包含非成词元素的候选新词过滤，生成新词候选词集。

具体实施时，所述多元统计指标，包括：

词频、邻接变化度、信息熵和点间互信息。

本发明具体实施例中，所述预设阈值的边界是根据多元统计指标对应的政务服务领域词典和新词候选词之间的分布相对偏移确定的。

本发明具体实施例中，根据政务服务领域词库构建缩写词同义词集，包括：

在政务服务领域词库中选取一个词语作为一个原词条；

随机删除该原词条中的部分子词，形成多个缩写同义词可能词条；

计算该原词条与每个同义词可能词条之间的编辑距离，将编辑距离符合预设值的缩写同义词可能词条作为该原词条对应的缩写同义词候选词条；

根据原词条和该原词条对应的缩写同义词候选词条，生成缩写词同义词集。

具体实施过程中，所述双塔模型的预先构建过程，包括：

根据所述政务服务领域词库，构建缩写词同义词样本集；所述缩写词同义词样本集中的样本数据包括原词条、缩写词词条以及同义词标记；所述同义词标记用于表征原词条和缩写词词条是否为同义词；

将缩写词同义词样本集中的原词条和缩写词词条，分别输入Bert模型中得到原词条对应的embedding词向量和缩写词词条对应的embedding词向量；

将原词条对应的embedding词向量和缩写词词条对应的embedding词向量，作为CNN-DSSM的词向量表达，构建双塔模型；

利用缩写词同义词样本集，对构建的双塔模型进行训练，得到训练好的双塔模型。

具体地，所述缩写词同义词样本集，包括：

正样本子集和负样本子集；

其中，所述正样本子集的缩写词词条是根据原词条随机增删得到的，正样本子集的缩写词词条与原词条的编辑距离符合预设值；所述正样本子集的同义词标记为同义；

所述负样本子集的同义词标记为非同义。

在本发明一具体实施例中，还包括一种政务服务领域的同义词挖掘方法，在上述提供的政务服务领域的同义词挖掘方法的基础上，还包括：

利用BM25算法对缩写词同义词集中的多个缩写同义词候选词条进行排序，得到多个缩写同义词候选词条的第一排序结果；

根据原词条与所述多个缩写同义词候选词条的相似度，得到多个缩写同义词候选词条的第二排序结果；

综合多个缩写同义词候选词条的第一排序结果和多个缩写同义词候选词条的第二排序结果，确定多个缩写同义词候选词条的排序结果；

将所述排序结果中排序第一的缩写同义词候选词条，确定为原词条对应的缩写同义词。

本发明实施例还提供一种政务服务领域的同义词挖掘装置，用以提高同义词挖掘的效率，提高新词发现的准确率，该装置包括：

新词候选集生成模块，用于根据政务服务领域的语料库，生成新词候选词集；

新词生成模块，用于确定所述新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；

缩写词同义词集构建模块，用于将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；所述缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；

相似度确定模块，用于将所述缩写词同义词集输入预先构建的双塔模型，得到原词条与所述多个缩写同义词候选词条的相似度；所述双塔模型是根据所述政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；

缩写同义词确定模块，用于根据原词条与所述多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。

具体实施例中，所述新词候选集生成模块，包括：

候选新词生成单元，用于利用BiGram方法，将政务服务领域的语料库中的任意相邻两个词语拼接作为候选新词，得到多个候选新词；

非成词过滤单元，用于将多个候选新词中包含非成词元素的候选新词过滤，生成新词候选词集。

在本发明具体实施例中，所述多元统计指标，包括：

词频、邻接变化度、信息熵和点间互信息。

且所述预设阈值的边界是根据多元统计指标对应的政务服务领域词典和新词候选词之间的分布相对偏移确定的。

具体实施例中，缩写词同义词集构建模块，具体用于：

在政务服务领域词库中选取一个词语作为一个原词条；

随机删除该原词条中的部分子词，形成多个缩写同义词可能词条；

计算该原词条与每个同义词可能词条之间的编辑距离，将编辑距离符合预设值的缩写同义词可能词条作为该原词条对应的缩写同义词候选词条；

根据原词条和该原词条对应的缩写同义词候选词条，生成缩写词同义词集。

在本发明具体实施例中，还包括：

双塔模型预构建模块，用于：

将缩写词同义词样本集中的原词条和缩写词词条，分别输入Bert模型中得到原词条对应的embedding词向量和缩写词词条对应的embedding词向量；

将原词条对应的embedding词向量和缩写词词条对应的embedding词向量，作为CNN-DSSM的词向量表达，构建双塔模型；

利用缩写词同义词样本集，对构建的双塔模型进行训练，得到训练好的双塔模型。

具体地，所述缩写词同义词样本集，包括：

正样本子集和负样本子集；

所述负样本子集的同义词标记为非同义。

本发明一具体实施例中还提供一种政务服务领域的同义词挖掘装置，在上述装置的基础上，还包括：排序调整模块，用于：

利用BM25算法对缩写词同义词集中的多个缩写同义词候选词条进行排序，得到多个缩写同义词候选词条的第一排序结果；

根据原词条与所述多个缩写同义词候选词条的相似度，得到多个缩写同义词候选词条的第二排序结果；

综合多个缩写同义词候选词条的第一排序结果和多个缩写同义词候选词条的第二排序结果，确定多个缩写同义词候选词条的排序结果；

将所述排序结果中排序第一的缩写同义词候选词条，确定为原词条对应的缩写同义词。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述政务服务领域的同义词挖掘方法。

本发明实施例也提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述政务服务领域的同义词挖掘方法的计算机程序。

本发明实施例中，通过根据政务服务领域的语料库，生成新词候选词集；确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度；其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。利用多元统计指标对新词候选词集进行过滤，将多元统计指标值低于预设阈值的新词候选词筛除，多元化的统计指标提高了新词发现的准确率；通过构建双塔模型，能够有效识别政务服务领域中的缩写同义词，相较于人工填充同义词词库的现有技术，提高了同义词挖掘的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中政务服务领域的同义词挖掘方法的示意图。

图2为本发明具体实施例中步骤101的实现方法示意图。

图3为本发明具体实施例中步骤103的实现方法示意图。

图4为本发明具体实施例中双塔模型的预先构建过程的示意图。

图5为本发明一具体实施例中政务服务领域的同义词挖掘方法的示意图。

图6为本发明一具体实施中新词发现流程示意图。

图7为本发明一具体实施中双塔模型训练过程的示意图。

图8为本发明一具体实施中候选词挖掘过程示意图。

图9为本发明实施例中政务服务领域的同义词挖掘装置的示意图。

图10为本发明具体实施例中新词候选集生成模块901的结构示意图。

图11为本发明一具体实施例中政务服务领域的同义词挖掘装置的示意图。

图12为本发明实施例中用于政务服务领域的同义词挖掘的电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种政务服务领域的同义词挖掘方法，用以提高同义词挖掘的效率，提高新词发现的准确率，如图1所示，该方法包括：

步骤101：根据政务服务领域的语料库，生成新词候选词集；

步骤102：确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；

步骤103：将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；

步骤104：将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度；其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；

步骤105：根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。

由图1所示流程可以得知，本发明实施例中，通过根据政务服务领域的语料库，生成新词候选词集；确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度；其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。利用多元统计指标对新词候选词集进行过滤，将多元统计指标值低于预设阈值的新词候选词筛除，多元化的统计指标提高了新词发现的准确率；通过构建双塔模型，能够有效识别政务服务领域中的缩写同义词，相较于人工填充同义词词库的现有技术，提高了同义词挖掘的效率。

具体实施时，首先根据政务服务领域的语料库，生成新词候选词集。具体地，按照如图2所示的方法，生成新词候选词集，包括：

步骤201：利用BiGram方法，将政务服务领域的语料库中的任意相邻两个词语拼接作为候选新词，得到多个候选新词；

步骤202：将多个候选新词中包含非成词元素的候选新词过滤，生成新词候选词集。

其中，BiGram方法是NLP(Neuro-Linguistic Programming，神经语言程序学)中常用的二元分词法，即将句子从头到尾每两个字组成一个词语。基于BiGram方法，能够将政务服务领域的语料库中的每个句子中的任意相邻的两个词语拼接，得到多个候选新词。得到候选新词后，将多个候选新词中包含非成词元素的候选新词过滤，生成新词候选词集。具体实施例中，将常用的停用词，包括例如：及、和、或、后等单字，视为非成词元素，若候选新词中包含该非成词元素，则认为候选新词不能成词，将其过滤。进一步地，还可根据政务服务领域的特点对候选新词进行过滤，例如政务服务领域的词语特点一般是：名词+名词、名词+后缀、前缀+名词、动词+名词等组合形式的新词的成词率比较高，因此，将符合上述组合形式的候选新词保留，加入新词候选词集中，例如：婚姻登记、出租车驾驶证等。

生成新词候选词集后，需要对新词候选词集中的新词候选词进一步过滤，本发明实施例主要是通过多元统计指标过滤方式，使新词候选词的指标分布接近于政务服务领域词库。具体实施时，确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集。具体实施例中，多元统计指标，包括：词频、邻接变化度、信息熵和点间互信息。

(1)词频：指新词候选词在政务服务领域的语料中出现的频率，主要考察新词候选词单独出现的可能性。该指标可以过滤掉大部分新词候选词，能够有效提高过滤效率。

(2)邻接变化度：用于衡量一个新词候选词出现在不同语境中的可能性程度。如果一个新词候选词能够适用于不同的语境，那么能够串成词的可能性较大。对于包含n个词的词串w＝{w

其中，V(w)＝min(V

(3)信息熵：用来衡量一个随机变量的不确定性，随机变量的信息熵越大，其不确定性就越大。使用信息熵来衡量新词候选词的词串前后邻接字的不确定性，新词候选词的前后信息熵越大，说明新词候选词越有可能单独成词，否则其更有可能与前后文信息结合成词。

其中，w代表新词候选词的词串；

P(w

N代表新词候选词的词串前邻接字的总数；

P(w

M代表新词候选词的词串后邻接字的总数。

(4)点间互信息：互信息表示已知随机变量X之后，对另一个随机变量Y不确定性的减少，但由于在新词发现中随机变量的取值唯一，本发明具体实施中使用点间互信息作为衡量这一特征的指标：

其中，p(x)和p(y)分别表示x和y在文档中出现的概率；

p(x,y)表示由x和y组合成的新词在文档中出现的概率，该指标可以量化字符组合的凝聚程度，如果互信息的值越大，则表明x和y组合成新词的可能性越高，凝聚程度越高；反之，则表明x和y之间存在短语边界的可能性越高，凝聚程度越低。

分别统计每个新词候选词的词频、邻接变化度、信息熵和点间互信息，与预设阈值进行比对，不符合预设阈值范围的新词候选词筛除，得到政务服务领域的新词集。具体实施例中，预设阈值的边界是根据多元统计指标对应的政务服务领域词典和新词候选词之间的分布相对偏移确定的。具体地，采用边界扫描的方法确定预设阈值的边界[l,r]，如果一个统计指标的政务服务领域词典分布相对于新词候选词是右偏分布，l是所有新词候选词的该统计指标的最小值，r是政务服务领域词典中该统计指标的分位数。如果政务服务领域词典分布相对于新词候选词是左偏分布，r是所有新词候选词的该统计指标的最大值，l是政务服务领域词典中该统计指标的分位数。

得到政务服务领域的新词集后，将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集。其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条。具体实施过程，如图3所示，包括：

步骤301：在政务服务领域词库中选取一个词语作为一个原词条；

步骤302：随机删除该原词条中的部分子词，形成多个缩写同义词可能词条；

步骤303：计算该原词条与每个同义词可能词条之间的编辑距离，将编辑距离符合预设值的缩写同义词可能词条作为该原词条对应的缩写同义词候选词条；

步骤304：根据原词条和该原词条对应的缩写同义词候选词条，生成缩写词同义词集。

由于同义词范围太大，而且汉语同义词规律无法泛化，因此本发明具体实施例中的同义词识别主要关注缩写词的识别，如社会保障和社保。随机删除该原词条中的部分子词，形成多个缩写同义词可能词条，例如，原词条为社会保障，形成多个缩写同义词可能词条例如包括：社会、保障、社保、社障等。分别计算社会保障与社会、保障、社保、社障之间的编辑距离。其中，编辑距离(Minimum Edit Distance，MED)，是用来度量两个序列相似程度的指标。通俗地来讲，编辑距离指的是在两个单词之间，由其中一个单词转换为另一个单词所需要的最少单字符编辑操作次数。

定义的单字符编辑操作有且仅有三种：插入、删除、替换。

将两个字符串a和b的编辑距离表示为lev

在本发明具体实施例中，预设值设置为2，即如果原词条与一个同义词可能词条之间的编辑距离为2，则将该缩写同义词可能词条作为该原词条对应的缩写同义词候选词条。

构建缩写词同义词集后，将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度。其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度。具体实施例中，双塔模型的预先构建过程，如图4所示，包括：

步骤401：根据政务服务领域词库，构建缩写词同义词样本集；其中，缩写词同义词样本集中的样本数据包括原词条、缩写词词条以及同义词标记；同义词标记用于表征原词条和缩写词词条是否为同义词；

步骤402：将缩写词同义词样本集中的原词条和缩写词词条，分别输入Bert模型中得到原词条对应的embedding词向量和缩写词词条对应的embedding词向量；

步骤403：将原词条对应的embedding词向量和缩写词词条对应的embedding词向量，作为CNN-DSSM的词向量表达，构建双塔模型；

步骤404：利用缩写词同义词样本集，对构建的双塔模型进行训练，得到训练好的双塔模型。

具体实施过程中，缩写词同义词样本集，包括：正样本子集和负样本子集；其中，正样本子集的缩写词词条是根据原词条随机增删得到的，正样本子集的缩写词词条与原词条的编辑距离符合预设值，且正样本子集的同义词标记为同义；而负样本子集的同义词标记为非同义。具体实施例中，构造缩写词同义词样本集，每个样本包括<词1，词2，同义词标记>，第一项词1代表原词条，第二项词2是构造的缩写词词条，第三列同义词标记代表二者是否同义的标记，例如同义记作1，否则记作0。样本集构造过程分为3步：

(1)构造正样本，正样本包括两部分，第一部分为公开缩写词库中的原词条，第二部分是通过随机增删原词条部分子词形成的可能词条，将与原词条的编辑距离为2的词条筛选出来，并将同义词标记记为1，重复n次。

(2)构造负样本，随机抽取词库中除原词条外其他词条的子词，按第一步同样的方式构造其可能词条，并将同义词标记记为0，重复n′次；

(3)合并正样本和负样本，形成样本集。

将缩写词同义词样本集中的原词条和缩写词词条，分两路输入Bert模型中得到原词条对应的embedding词向量和缩写词词条对应的embedding词向量。其中，Bert模型的本质上是通过在海量的语料的基础上运行自监督学习方法，为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在特定的NLP任务中，可以直接使用Bert的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。Bert最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。embedding是一个将离散变量转为连续向量表示的一个方式，在神经网络中，embedding是非常有用的，因为它不光可以减少离散变量的空间维数，同时还可以有意义的表示该变量。

得到原词条对应的embedding词向量和缩写词词条对应的embedding词向量后，将原词条对应的embedding词向量和缩写词词条对应的embedding词向量，作为CNN-DSSM的词向量表达，构建双塔模型。双塔模型(DSSM，Deep Structured Semantic Models)的特点是输入层有两个输入渠道，通过embedding层得到词向量表达，在匹配层进行匹配，可以把两个输入词的语义相似性转化为一个后验概率输出。而本发明具体实施例中，采用Bert+CNN+DSSM的流程，首先将原词条和缩写词词条分别输入Bert模型得到embedding词向量后，输入到Text-CNN中，利用MaxPooling层提取关键信息，将二者通过多层神经网络非线性变换后进行cosine求值，当标记为1时，cosine-similarity(余弦相似度)应该更大，反之则更小，损失函数采用am-softmax模型，既可以用来预测两个词条的语义相似度，又可以获得某词条的低维语义向量表达，利用概率值表达词向量之间相似度，相比利用词向量直接进行cosine相似度计算更合理。

其中，CNN-DSSM又称为CLSM(convolutional latent semantic model)，CNN-DSSM与DSSM的区别主要在于输入层和表示层，用于改进DSSM丢失上下文信息的缺点。Text-CNN是将卷积神经网络CNN应用到文本分类任务，利用多个不同size的kernel来提取句子中的关键信息，从而能够更好地捕捉局部相关性。

得到原词条与多个缩写同义词候选词条的相似度后，根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。具体地，将相似度排序最高的缩写同义词候选词条作为原词条对应的缩写同义词。

由于CNN-DSSM基本原理是让同义名称的向量尽可能近，非同义名称的向量尽可能远，但是若正样本相对于总样本量过小，就容易发生点预测造成的偏误，即非同义名称未被识别反而变得更近了。根据观察，大部分非同义名称被划归为同义的情况往往在用词用字上具有非常少的交集，同时其真正的名称往往已经是距离该名称判别最近，如：“社会保险”和“社会新闻”，因此需要BM25进行基于词汇共现原理的语义相似度排序以中和CNN-DSSM的点估计带来的偏误。因此，本发明一具体实施例中还提供一种政务服务领域的同义词挖掘方法，如图5所示，在图1的基础上，还包括：

步骤501：利用BM25算法对缩写词同义词集中的多个缩写同义词候选词条进行排序，得到多个缩写同义词候选词条的第一排序结果；

步骤502：根据原词条与多个缩写同义词候选词条的相似度，得到多个缩写同义词候选词条的第二排序结果；

步骤503：综合多个缩写同义词候选词条的第一排序结果和多个缩写同义词候选词条的第二排序结果，确定多个缩写同义词候选词条的排序结果；

步骤504：将排序结果中排序第一的缩写同义词候选词条，确定为原词条对应的缩写同义词。

其中，BM25是一种用来评价搜索词和文档之间相关性的算法，是一种基于概率检索模型提出的算法，再用简单的话来描述下BM 25算法：有一个query和一批文档D，现在要计算query和每篇文档D之间的相关性分数，先对query进行切分，得到单词qi，然后单词的分数由3部分组成：单词qi和D之间的相关性；单词qi和D之间的相关性；每个单词的权重；对于每个单词的分数我们做一个求和，就得到了query和文档D之间相关性的分数。

步骤503具体实施时，按照如下公式确定多个缩写同义词候选词条的排序结果：

rank

其中，rank

下面给出一具体实例说明本发明实施例如何进行政务服务领域的同义词挖掘。

本例分为新词发现和同义词识别两部分：

目前政务服务领域新词发现的主要难点在于：新词的定义目前没有统一标准；政务服务领域涉及面很广，包括人文、经济、社会等多个子领域，新词的构成规律难以掌握，各领域新词构成规则各不相同；由于政务服务领域文本稀疏等原因，对低频新词识别难度较大。

针对以上问题，本例采用多元统计指标进行过滤，提高新词识别的准确度，本例新词识别流程如图6所示，包括候选词集生成和统计指标过滤两个部分：

候选词生成采用BiGram方法，将相邻两个词拼接作为候选新词。对于常见的停用词，文中视其为非成词模块。采用规则的方式初步过滤候选词，包括单字组合规则和多词组合规则，生成新词候选词集。

(1)单字组合规则，对包含非成词的候选词进行过滤，非成词单字字典包括如：及、后、和、或等。

(2)多词组合规则，主要针对政务服务领域词的特点进行过滤，政务服务领域新词的特点是名词+名词、名词+后缀、前缀+名词和动词+名词成词率比较高，如：婚姻登记、出租车驾驶证等。

候选词过滤方法是通过多元统计指标过滤方式，使候选词指标分布接近于政务服务领域词库。多元统计指标包括词频、邻接变化度、信息熵、互信息等。

根据多元统计指标过滤后，得到的新词候选集通过人工筛选后，录入政务服务领域词库。

由于同义词范围太大，而且汉语同义词规律无法泛化，因此本例中的同义词识别关注缩写词的识别，如社会保障和社保。缩写词识别采用双塔模型监督学习的方法，避免了词向量相似度直接匹配带来的误差，双塔模型训练流程如图7所示：

首先构建缩写词样本库，将词条1和词条2分两路输入Bert模型中，得到对应的embedding词向量后，分别输入双塔模型的表示层(CNN)中，然后分别输入双塔模型的匹配层中，计算得到cosine，得到词条1和词条2的匹配得分。

在模型训练完成后，具体的处理流程如图8所示，包括：

(1)根据编辑距离符合预设值的方法生成候选词，并通过Tf-idf算法(termfrequency-inverse document frequency)筛选关键词相类似的候选词条；

(2)将候选词条与原词条一同输入至双塔模型中对其相似度进行打分；

(3)通过BM25算法对候选词条集合进行排序；

(4)综合CNN-DSSM与BM25的排序结果，具体公式为

rank

(5)得到最终排序结果后，取第1个作为缩写同义词；

(6)生成新的缩写词库，并进行人工筛选，录入政务服务领域同义词库。

本具体实施，通过利用多元统计指标对候选新词集合进行过滤，既考虑了词条与前后词的丰富程度，又考虑了子词内部的凝聚程度，提高新词发现准确率。通过利用Bert+CNN+DSSM方法训练双塔模型以进行缩写词识别，不仅有效规避了无监督学习带来的误差，还有效避免直接利用词向量进行匹配造成的误差，同时引入BM25算法来中和CNN-DSSM的点估计带来的偏误，对排序进行调整，得到最精确的缩写词对。

上述具体应用的实施仅为举例，其余实施方式不再一一赘述。

基于同一发明构思，本发明实施例还提供一种政务服务领域的同义词挖掘装置，由于政务服务领域的同义词挖掘装置所解决问题的原理与政务服务领域的同义词挖掘方法相似，因此政务服务领域的同义词挖掘装置的实施可以参见政务服务领域的同义词挖掘方法的实施，重复之处不再赘述，具体结构如图9所示：

新词候选集生成模块901，用于根据政务服务领域的语料库，生成新词候选词集；

新词生成模块902，用于确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；

缩写词同义词集构建模块903，用于将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；

相似度确定模块904，用于将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度；其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；

缩写同义词确定模块905，用于根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。

具体实施例中，新词候选集生成模块901的结构，如图10所示，包括：

候选新词生成单元1001，用于利用BiGram方法，将政务服务领域的语料库中的任意相邻两个词语拼接作为候选新词，得到多个候选新词；

非成词过滤单元1002，用于将多个候选新词中包含非成词元素的候选新词过滤，生成新词候选词集。

具体实施例中，多元统计指标，包括：词频、邻接变化度、信息熵和点间互信息。且预设阈值的边界是根据多元统计指标对应的政务服务领域词典和新词候选词之间的分布相对偏移确定的。

具体实施时，缩写词同义词集构建模块903，具体用于：

在政务服务领域词库中选取一个词语作为一个原词条；

随机删除该原词条中的部分子词，形成多个缩写同义词可能词条；

计算该原词条与每个同义词可能词条之间的编辑距离，将编辑距离符合预设值的缩写同义词可能词条作为该原词条对应的缩写同义词候选词条；

根据原词条和该原词条对应的缩写同义词候选词条，生成缩写词同义词集。

本发明具体实施例中，还提供一种政务服务领域的同义词挖掘装置，在图9的基础上，还包括：双塔模型预构建模块，用于：

根据政务服务领域词库，构建缩写词同义词样本集；其中，缩写词同义词样本集中的样本数据包括原词条、缩写词词条以及同义词标记；该同义词标记用于表征原词条和缩写词词条是否为同义词；

将缩写词同义词样本集中的原词条和缩写词词条，分别输入Bert模型中得到原词条对应的embedding词向量和缩写词词条对应的embedding词向量；

将原词条对应的embedding词向量和缩写词词条对应的embedding词向量，作为CNN-DSSM的词向量表达，构建双塔模型；

利用缩写词同义词样本集，对构建的双塔模型进行训练，得到训练好的双塔模型。

具体地，缩写词同义词样本集，包括：

正样本子集和负样本子集；其中，正样本子集的缩写词词条是根据原词条随机增删得到的，正样本子集的缩写词词条与原词条的编辑距离符合预设值；且正样本子集的同义词标记为同义；负样本子集的同义词标记为非同义。

为了避免CNN-DSSM的点估计带来的偏误，本发明具体实施例中还提供一种政务服务领域的同义词挖掘装置，如图11所示，在图10的基础上，还包括：

排序调整模块1101，用于：

利用BM25算法对缩写词同义词集中的多个缩写同义词候选词条进行排序，得到多个缩写同义词候选词条的第一排序结果；

根据原词条与多个缩写同义词候选词条的相似度，得到多个缩写同义词候选词条的第二排序结果；

综合多个缩写同义词候选词条的第一排序结果和多个缩写同义词候选词条的第二排序结果，确定多个缩写同义词候选词条的排序结果；

将排序结果中排序第一的缩写同义词候选词条，确定为原词条对应的缩写同义词。

图12为本申请实施例的电子设备1200的系统构成的示意框图。如图12所示，该电子设备1200可以包括中央处理器1201和存储器1202；存储器1202耦合到中央处理器1201。值得注意的是，该图12是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，政务服务领域的同义词挖掘功能可以被集成到中央处理器1201中。其中，中央处理器1201可以被配置为进行如下控制：

根据政务服务领域的语料库，生成新词候选词集；

确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；

将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；

将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度；其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；

根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。

从上述描述可知，本申请的实施例提供的电子设备，通过根据政务服务领域的语料库，生成新词候选词集；确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度；其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。利用多元统计指标对新词候选词集进行过滤，将多元统计指标值低于预设阈值的新词候选词筛除，多元化的统计指标提高了新词发现的准确率；通过构建双塔模型，能够有效识别政务服务领域中的缩写同义词，相较于人工填充同义词词库的现有技术，提高了同义词挖掘的效率。

在另一个实施方式中，政务服务领域的同义词挖掘装置可以与中央处理器1201分开配置，例如可以将政务服务领域的同义词挖掘装置配置为与中央处理器1201连接的芯片，通过中央处理器的控制来实现政务服务领域的同义词挖掘功能。

如图12所示，该电子设备1200还可以包括：通信模块1203、输入单元1204、音频处理器1205、显示器1206、电源1207。值得注意的是，电子设备1200也并不是必须要包括图12中所示的所有部件；此外，电子设备1200还可以包括图12中没有示出的部件，可以参考现有技术。

如图12所示，中央处理器1201有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器1201接收输入并控制电子设备1200的各个部件的操作。

其中，存储器1202，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器1201可执行该存储器1202存储的该程序，以实现信息存储或处理等。

输入单元1204向中央处理器1201提供输入。该输入单元1204例如为按键或触摸输入装置。电源1207用于向电子设备1200提供电力。显示器1206用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器1202可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器1202还可以是某种其它类型的装置。存储器1202包括缓冲存储器1221(有时被称为缓冲器)。存储器1202可以包括应用/功能存储部1222，该应用/功能存储部1222用于存储应用程序和功能程序或用于通过中央处理器1201执行电子设备1200的操作的流程。

存储器1202还可以包括数据存储部1223，该数据存储部1223用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器1202的驱动程序存储部1224可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块1203即为经由天线1208发送和接收信号的发送机/接收机1203。通信模块(发送机/接收机)1203耦合到中央处理器1201，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块1203，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)1203还经由音频处理器1205耦合到扬声器1209和麦克风1210，以经由扬声器1209提供音频输出，并接收来自麦克风1210的音频输入，从而实现通常的电信功能。音频处理器1205可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器1205还耦合到中央处理器1201，从而使得可以通过麦克风1210能够在本机上录音，且使得可以通过扬声器1209来播放本机上存储的声音。

本发明的实施例还提供能够实现上述实施例中的政务服务领域的同义词挖掘方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的政务服务领域的同义词挖掘方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

根据政务服务领域的语料库，生成新词候选词集；

确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；

根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。

从上述的描述可知，本发明实施例提供的计算机可读存储介质，通过根据政务服务领域的语料库，生成新词候选词集；确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度；其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。利用多元统计指标对新词候选词集进行过滤，将多元统计指标值低于预设阈值的新词候选词筛除，多元化的统计指标提高了新词发现的准确率；通过构建双塔模型，能够有效识别政务服务领域中的缩写同义词，相较于人工填充同义词词库的现有技术，提高了同义词挖掘的效率。

综上所述，本发明实施例提供的政务服务领域的同义词挖掘方法及装置具有如下优点：

通过根据政务服务领域的语料库，生成新词候选词集；确定新词候选词集中每个新词候选词的多元统计指标值，将多元统计指标值低于预设阈值的新词候选词筛除，得到政务服务领域的新词集；将政务服务领域的新词集录入政务服务领域词库中，根据政务服务领域词库构建缩写词同义词集；其中，缩写词同义词集中包括原词条和原词条对应的多个缩写同义词候选词条；将缩写词同义词集输入预先构建的双塔模型，得到原词条与多个缩写同义词候选词条的相似度；其中，双塔模型是根据政务服务领域词库训练得到的，用于确定缩写词同义词集中原词条与缩写同义词候选词条之间的相似度；根据原词条与多个缩写同义词候选词条的相似度，得到原词条对应的缩写同义词，录入政务服务领域的同义词词库中。利用多元统计指标对新词候选词集进行过滤，将多元统计指标值低于预设阈值的新词候选词筛除，多元化的统计指标提高了新词发现的准确率；通过构建双塔模型，能够有效识别政务服务领域中的缩写同义词，相较于人工填充同义词词库的现有技术，提高了同义词挖掘的效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：聂砂;刘海;贾国琛;罗奕康;崔震;戴菀庭;师文宝;
专利申请人：中国建设银行股份有限公司;