掌桥专利:专业的专利平台
掌桥专利
首页

一种字典更新方法及装置

文献发布时间:2023-06-19 10:05:17


一种字典更新方法及装置

技术领域

本申请实施例涉及金融科技(Fintech)领域,尤其涉及一种字典更新方法及装置。

背景技术

随着计算机技术的发展,越来越多的技术(例如:大数据或云计算)应用在金融领域,传统金融业正在逐步向金融科技转变,在大数据技术的背景下,用户通过在搜索引擎中输入搜索词,则可以获取海量的资讯。

目前流行的搜索引擎有Elasticsearch和Solr,其底层都是Lucene,Lucene关键组件是分词器。分词器在对搜索词进行切分时是通过字典进行的,如此搜索词经过分词器分词后可得到多个词元,随后通过将词元传给索引组件就会得到命中结果,最终可根据命中结果向用户推送与该搜索词相关的资讯。

然而,上述分词器在分词时所依据的字典通常是靠收集别人共享的词元二形成,并根据需求进行人工添加和扩展。因此,该类字典通常表现为具有很强的通用性,但专业性不强,这严重影响到搜索性能。此外,由于该类字典需要人工进行维护,维护成本高且主观性较强,效果欠佳。

综上,目前亟需一种使用自动化方式生成的字典来向用户推送与搜索词强相关的资讯的方法。

发明内容

本申请提供一种字典更新方法及装置,用以实现使用自动化方式生成的字典来向用户推送与搜索词强相关的资讯。

第一方面,本申请实施例提供一种字典更新方法,该方法包括:获取预设时段内的各搜索词;针对任一搜索词,确定所述搜索词的有效分词;将多个有效分词具有的相同部分确定为词根;针对每个词根,构建包含所述词根的各有效分词的词群;针对每个词群中的有效分词,确定各有效分词的评分,将评分满足阈值的有效分词加入到字典中。

在该方式,字典是紧密依赖于时间而进行更新,且在对字典进行更新的过程中,是依据了该预设时间段内的搜索词进行的,也即通过对预设时段内的各搜索词进行采集,并确定搜索词的有效分词,进一步确定词根,并以词根为基准建立词群,最后将词群中评分满足阈值的有效分词加入到字典中,该方式的对字典进行更新的方式是自动化进行的,并非人工添加的方式来对字典进行更新,从而使得将该种方式得到的字典应用于用户资讯推荐时,可具有更好的准确性。

在一种可能实现的方法中,所述针对每个词群中的有效分词,确定各有效分词的评分,包括:针对每个词群,根据所述词群中不同的有效分词的种类数,确定所述词群的群属性;针对每个有效分词,根据所述有效分词在所在词群中出现的次数,确定所述有效分词在所在词群中的频度;根据所述有效分词在所在词群中的频度和所述有效分词所在词群的群属性,确定所述有效分词的评分。

基于该方案,在确定有效分词的评分时,首先通过确定该有效分词所在词群的群属性,然后再确定该有效分词在它所在词群中的频度,最后根据群属性和频度来确定该有效分词的评分。通过该种方式确定的有效分词,若它对应的评分大,这说明该有效分词的重要性会更为重要一些,通过为有效分词评分的方式可以客观地衡量一个有效分词的重要性,该评分可作为是否可以将该有效分词加入到字典中的一个参考数据。

在一种可能实现的方法中,所述阈值通过如下方式确定,包括:根据各词群的群属性,确定均值群属性;根据设定的调整参数和所述均值群属性,确定所述阈值。

基于该方案,在衡量一个有效分词是否可以增加到字典中时,一方面可以确定该有效分词的评分,另一方面通过各词群的群属性确定均值群属性,且根据设定的调整参数和均值群属性来确定可以将有效分词增加到字典中的(评分)阈值,如此的话,通过将有效分词的评分与(评分)阈值进行比较,则可以快速地确定是否可以将该有效分词增加到字典中。该方式中的(评分)阈值是基于各个词群的群属性以及设定的调整参数进行确定的,因此该(评分)阈值可以综合的衡量一个有效分词是否可以真正的作为一个可增加到字典中的词。

在一种可能实现的方法中,所述根据所述词群中不同的有效分词的种类数,确定所述词群的群属性,包括:确定各搜索词的各有效分词中不同的有效分词的第一种类数;确定所述词群中不同的有效分词的第二种类数;根据所述第一种类数和所述第二种类数,确定所述词群的群属性。

基于该方案,通过根据各搜索词的各有效分词中的不同有效分词的第一种类数以及当前词群中的不同有效分词的第二种类数,则可以确定当前词群的群属性。该方式中的词群的群属性是基于构成该词群的有效分词种类与有效分词的总种类而确定的,因此词群的群属性具有很强的客观性,间接表示所更新得到的字典也具有强的客观性。

在一种可能实现的方法中,所述针对任一搜索词,确定所述搜索词的有效分词,包括:对所述搜索词进行切分,得到初始化词元;根据预设过滤规则对所述初始化词元进行筛选,得到有效词元;对所述有效词元进行标准化处理,得到所述有效分词。

基于该方案,在判定预设时段内的搜索词对应的更新字典时,通过对搜索词进行切分,并依据预设过滤规则得到的初始化词元进行筛选,从而得到有效词元,在对有效词元进行标准化处理后,从而得到有效分词。该方式通过对搜索词建立标准的有效分词,便于后期在依据更新后的字典为用户推荐资讯时,可以既准确又强相关。

在一种可能实现的方法中,所述根据预设过滤规则对所述初始化词元进行筛选,得到有效词元,包括:针对所述初始化词元,若所述初始化词元的词元长度满足长度删除条件,则删除所述初始化词元;若所述初始化词元未满足所述长度删除条件且确定所述初始化词元无语义,则删除所述初始化词元,从而得到有效词元。

基于该方案,通过删除初始化词元中的符合长度删除条件的,以及虽然未满足长度删除条件但无语义的这些初始化词元,从而得到有效词元,便于后续对有效词元进行标准化处理来得到有效分词。

在一种可能实现的方法中,所述对所述有效词元进行标准化处理,得到所述有效分词,包括:确定所述有效词元在错别字模板中是否存在替代词元;若存在,则将所述替代词元作为有效分词;其中,所述错别字模板通过如下方式获得:将所述有效词元逐一转化成图片,得到图片集合;从所述图片集合中确定出相似度大于第一预设阈值的有效词元对;针对所述有效词元对中的第一有效词元和第二有效词元,分别统计所述第一有效词元在各有效词元中出现的第一次数和所述第二有效词元在各有效词元中出现的第二次数;若所述第一次数大于所述第二次数,则将所述第一有效词元作为所述第二有效词元的替代词元。

基于该方案,一种对有效词元进行标准化处理的方式是确定错别字模板中是否存在对应于该有效词元的替代词元,如果存在的话,则使用该替代词元作为该有效词元的有效分词。该方式中通过对有效词元进行错别字纠正的调整,从而使得更新到字典中的词不会有别字,如此在基于更新后的字典向用户推荐资讯的时候,可以提高准确性。

在一种可能实现的方法中,所述将多个有效分词具有的相同部分确定为词根,包括:针对所述搜索词的各有效分词构成的第一集合,将所述第一集合中的任意两个有效分词进行匹配,若存在重合词符且所述重合词符的长度满足预设条件,则将所述重合词符加入到第二集合中;所述第二集合中包括所述第一集合对应的各词根。

基于该方案,在确定词根的过程中,通过对搜索词的各有效分词构成的第一集合中的任意两个有效分词进行匹配,可将二者之间满足预设条件的重合词符增加到第二集合中,该第二集合中包括第一集合对应的各词根。该方式通过确定词根,然后基于词根可确定包括该词根的有效分词的词群,便于后续的分析。

第二方面,本申请实施提供一种字典更新装置,该装置包括:获取单元,用于获取预设时段内的各搜索词;有效分词确定单元,用于针对任一搜索词,确定所述搜索词的有效分词;词根确定单元,用于将多个有效分词具有的相同部分确定为词根;词群确定单元,用于针对每个词根,构建包含所述词根的各有效分词的词群;更新单元,用于针对每个词群中的有效分词,确定各有效分词的评分,将评分满足阈值的有效分词加入到字典中。

在该方式中,字典是紧密依赖于时间而进行更新,且在对字典进行更新的过程中,是依据了该预设时间段内的搜索词进行的,也即通过对预设时段内的各搜索词进行采集,并确定搜索词的有效分词,进一步确定词根,并以词根为基准建立词群,最后将词群中评分满足阈值的有效分词加入到字典中,该方式的对字典进行更新的方式是自动化进行的,并非人工添加的方式来对字典进行更新,从而使得将该种方式得到的字典应用于用户资讯推荐时,可具有更好的准确性。

在一种可能实现的方法中,所述更新单元,具体用于:针对每个词群,根据所述词群中不同的有效分词的种类数,确定所述词群的群属性;针对每个有效分词,根据所述有效分词在所在词群中出现的次数,确定所述有效分词在所在词群中的频度;根据所述有效分词在所在词群中的频度和所述有效分词所在词群的群属性,确定所述有效分词的评分。

基于该方案,在确定有效分词的评分时,首先通过确定该有效分词所在词群的群属性,然后再确定该有效分词在它所在词群中的频度,最后根据群属性和频度来确定该有效分词的评分。通过该种方式确定的有效分词,若它对应的评分大,这说明该有效分词的重要性会更为重要一些,通过为有效分词评分的方式可以客观地衡量一个有效分词的重要性,该评分可作为是否可以将该有效分词加入到字典中的一个参考数据。

在一种可能实现的方法中,所述装置还包括阈值确定单元;所述阈值确定单元,用于:根据各词群的群属性,确定均值群属性;根据设定的调整参数和所述均值群属性,确定所述阈值。

基于该方案,在衡量一个有效分词是否可以增加到字典中时,一方面可以确定该有效分词的评分,另一方面通过各词群的群属性确定均值群属性,且根据设定的调整参数和均值群属性来确定可以将有效分词增加到字典中的(评分)阈值,如此的话,通过将有效分词的评分与(评分)阈值进行比较,则可以快速地确定是否可以将该有效分词增加到字典中。该方式中的(评分)阈值是基于各个词群的群属性以及设定的调整参数进行确定的,因此该(评分)阈值可以综合的衡量一个有效分词是否可以真正的作为一个可增加到字典中的词。

在一种可能实现的方法中,所述更新单元,具体用于:确定各搜索词的各有效分词中不同的有效分词的第一种类数;确定所述词群中不同的有效分词的第二种类数;根据所述第一种类数和所述第二种类数,确定所述词群的群属性。

基于该方案,通过根据各搜索词的各有效分词中的不同有效分词的第一种类数以及当前词群中的不同有效分词的第二种类数,则可以确定当前词群的群属性。该方式中的词群的群属性是基于构成该词群的有效分词种类与有效分词的总种类而确定的,因此词群的群属性具有很强的客观性,间接表示所更新得到的字典也具有强的客观性。

在一种可能实现的方法中,所述有效分词确定单元,具体用于:对所述搜索词进行切分,得到初始化词元;根据预设过滤规则对所述初始化词元进行筛选,得到有效词元;对所述有效词元进行标准化处理,得到所述有效分词。

基于该方案,在判定预设时段内的搜索词对应的更新字典时,通过对搜索词进行切分,并依据预设过滤规则得到的初始化词元进行筛选,从而得到有效词元,在对有效词元进行标准化处理后,从而得到有效分词。该方式通过对搜索词建立标准的有效分词,便于后期在依据更新后的字典为用户推荐资讯时,可以既准确又强相关。

在一种可能实现的方法中,所述有效分词确定单元,还用于:针对所述初始化词元,若所述初始化词元的词元长度满足长度删除条件,则删除所述初始化词元;若所述初始化词元未满足所述长度删除条件且确定所述初始化词元无语义,则删除所述初始化词元,从而得到有效词元。

基于该方案,通过删除初始化词元中的符合长度删除条件的,以及虽然未满足长度删除条件但无语义的这些初始化词元,从而得到有效词元,便于后续对有效词元进行标准化处理来得到有效分词。

在一种可能实现的方法中,所述有效分词确定单元,还用于:确定所述有效词元在错别字模板中是否存在替代词元;若存在,则将所述替代词元作为有效分词;其中,所述错别字模板通过如下方式获得:将所述有效词元逐一转化成图片,得到图片集合;从所述图片集合中确定出相似度大于第一预设阈值的有效词元对;针对所述有效词元对中的第一有效词元和第二有效词元,分别统计所述第一有效词元在各有效词元中出现的第一次数和所述第二有效词元在各有效词元中出现的第二次数;若所述第一次数大于所述第二次数,则将所述第一有效词元作为所述第二有效词元的替代词元。

基于该方案,一种对有效词元进行标准化处理的方式是确定错别字模板中是否存在对应于该有效词元的替代词元,如果存在的话,则使用该替代词元作为该有效词元的有效分词。该方式中通过对有效词元进行错别字纠正的调整,从而使得更新到字典中的词不会有别字,如此在基于更新后的字典向用户推荐资讯的时候,可以提高准确性。

在一种可能实现的方法中,所述词根确定单元,具体用于:针对所述搜索词的各有效分词构成的第一集合,将所述第一集合中的任意两个有效分词进行匹配,若存在重合词符且所述重合词符的长度满足预设条件,则将所述重合词符加入到第二集合中;所述第二集合中包括所述第一集合对应的各词根。

基于该方案,在确定词根的过程中,通过对搜索词的各有效分词构成的第一集合中的任意两个有效分词进行匹配,可将二者之间满足预设条件的重合词符增加到第二集合中,该第二集合中包括第一集合对应的各词根。该方式通过确定词根,然后基于词根可确定包括该词根的有效分词的词群,便于后续的分析。

第三方面,本申请实施例提供了一种计算设备,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如第一方面任一实现方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面任一实现方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种字典更新方法;

图2为本申请实施例提供的一种字典更新装置;

图3为本申请实施例提供的一种计算设备的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

目前,搜索引擎基于用户输入的搜索词来对相关资讯进行推荐时,主要是基于的人工方式形成的字典而进行推荐的。该方式的字典主要是靠人工收集别人分享的词而形成,存在主观性,且该字典需要通过人工的方式进行更新,存在维护成本高的弊端。

基于上述技术问题,本申请实施例提供一种字典更新的方法,如图1所示,该方法包括如下步骤:

步骤101,获取预设时段内的各搜索词。

在本步骤中,预设时段可以为自定义的一段时长,如本次字典更新时刻点是2020年11月15日,则预设时长可以是2020年1月1日至2020年6月30日,也即用每半年的历史数据来作为下一个半年的字典更新的依据;为了可以保证字典中的词具有更强的时效性,本申请实施例中预设时段还可以为距离字典更新时刻点最近的一段时长,如最近七天,十天,或者其他自定义的时间,如本次字典更新时刻点是2020年11月15日,则可以基于2020年11月8日至2020年11月14日这最近的历史7天的搜索词来更新字典。

步骤102,针对任一搜索词,确定所述搜索词的有效分词。

在本步骤中,通过为预设时段内的每一个搜索词确定有效分词,以便于确定该预设时段内的有效分词所具有的词根具体可包括哪些。

步骤103,将多个有效分词具有的相同部分确定为词根。

在本步骤中,通过将多个有效分词共同具有的部分确定为词根,从而可基于词根而形成对应于该词根的词群。

步骤104,针对每个词根,构建包含所述词根的各有效分词的词群。

在本步骤中,以一词根为基准,从预设时段内的有效分词中将具有该词根的一个个有效分词作为构成词群的元素,从而为每一个词根,构建一个词群。

步骤105,针对每个词群中的有效分词,确定各有效分词的评分,将评分满足阈值的有效分词加入到字典中。

在本步骤中,通过确定每一个词群中的每一个有效分词的评分,并将评分满足阈值的有效分词加入到字典中,从而得到了更新后的字典,如此可以基于更新后的字典来对用户输入的搜索词进行相关资讯的推荐。由于更新后的字典强依赖于时间,且更新过程中是基于对有效分词进行客观评分的方式来确定的可以更新到字典中的有效分词,从而向用户推荐的关于搜索词的相关资讯也将更加准确。

需要说明,本步骤中的字典用于表示在本次字典更新之前的最近一个版本的字典。

在该方式中,字典是紧密依赖于时间而进行更新,且在对字典进行更新的过程中,是依据了该预设时间段内的搜索词进行的,也即通过对预设时段内的各搜索词进行采集,并确定搜索词的有效分词,进一步确定词根,并以词根为基准建立词群,最后将词群中评分满足阈值的有效分词加入到字典中,该方式的对字典进行更新的方式是自动化进行的,并非人工添加的方式来对字典进行更新,从而使得将该种方式得到的字典应用于用户资讯推荐时,可具有更好的准确性。

以下将结合示例分别对上述步骤进行详细说明。

在步骤102的一个实施中,所述针对任一搜索词,确定所述搜索词的有效分词,包括:对所述搜索词进行切分,得到初始化词元;根据预设过滤规则对所述初始化词元进行筛选,得到有效词元;对所述有效词元进行标准化处理,得到所述有效分词。

举个例子,如本次字典更新时刻点是2020年11月15日,则可基于2020年11月8日至2020年11月14日这最近的历史7天的搜索词来更新字典,且设该时段内的搜索词的数量为200个。则针对这200个搜索词中的每一个搜索词均进行切词的操作,如可按一些简单的符号切词,如可依据空格、制表符、逗号等符号,从而得到每一个搜索词对应的初始化词元,并设对这200个搜索词分别对应的初始化词元进行统计后,确定共有300个初始化词元。然后,可依据预设的过滤规则对该些初始化词元进行筛选,进一步的可对经筛选得到的有效词元做标准化处理,从而得到有效分词。

在申请的某些实施例中,所述根据预设过滤规则对所述初始化词元进行筛选,得到有效词元,包括:针对所述初始化词元,若所述初始化词元的词元长度满足长度删除条件,则删除所述初始化词元;若所述初始化词元未满足所述长度删除条件且确定所述初始化词元无语义,则删除所述初始化词元,从而得到有效词元。

例如,针对上述300个初始化词元中的每一个初始化词元,确定该初始化词元的词元长度是否满足长度删除条件,若满足,则对其进行删除。如可以将长度删除条件设置为1和10,其中,针对于词元长度为1的初始化词元,则可以直接对其进行删除;针对于词元长度大于10的初始化词元,也可以直接对其进行删除,这种词元长度大于10的初始化词元大概率是由于用户的误操作导致,因此需要对其进行删除。若初始化词元的词元长度不满足长度删除条件,则确定该初始化词元是否为有语义的词元,若否,则也需要对这种词元长度适宜的初始化词元进行删除。其中,确定初始化词元是否为有语义的词元的过程可以参考下述的评分模式:

步骤1,针对不满足长度删除条件的初始化词元,可使用12种词性(名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词)作为标注器给它们打标,生成隐马尔科夫链。

步骤2,基于隐马尔可夫模型以及维特比算法,计算最优隐马尔科夫链概率。具体实现可以是:初始化第一个初始化次元的概率,并确定下一个初始化词元,根据词性的概率转移矩阵得出观测状态的最优概率;迭代该些步骤,确定最后一个初始化词元的最优概率P。

步骤3,在最优概率P<0.3时,则认为该初始化词元无语义,可对其进行删除。

设基于上面的过滤规则对300个初始化词元进行筛选后,得到了100个有效词元。

在本申请的某些实施例中,所述对所述有效词元进行标准化处理,得到所述有效分词,包括:确定所述有效词元在错别字模板中是否存在替代词元;若存在,则将所述替代词元作为有效分词;其中,所述错别字模板通过如下方式获得:将所述有效词元逐一转化成图片,得到图片集合;从所述图片集合中确定出相似度大于第一预设阈值的有效词元对;针对所述有效词元对中的第一有效词元和第二有效词元,分别统计所述第一有效词元在各有效词元中出现的第一次数和所述第二有效词元在各有效词元中出现的第二次数;若所述第一次数大于所述第二次数,则将所述第一有效词元作为所述第二有效词元的替代词元。

举个例子,对有效词元进行标准化处理的操作可以包括:

1、对于英语,可做以下处理:

(1)、将大写调换为小写,如将“D”变更为“d”,这种操作称为Lowercase;

(2)、将单词缩减为词根形式,如将“cars”变更为“car”,这种操作称为Stemming;

(3)、将单词转变为词根形式,如将“drove”变更为“drive”等,这种操作称为Lemmatization。

2、对于中文,可做以下处理:

汉字数字调换为阿拉伯数字,如将“十万”变更为“100000”。

3、对于一个有效词元,确定该有效词元中是否有错别字,也即确定该有效词元在错别字模板中是否存在替代词元;若存在,则将替代词元作为有效分词。其中,可以通过下述方式形成错别字模板:

步骤1,将有效词元逐一转化为图片;

步骤2,使用openCV库确定出相似度大于80%的有效词元对;

步骤3,对步骤2中的有效词元对中的每一个有效词元进行次数统计,并将其中次数最大的有效词元作为该组有效词元对的正确表达方式。进一步地,若次数最大的有效词元的相似度大于95%,则可以直接将该有效词元作为该组有效词元对的正确表达方式,若次数最大的有效词元的相似度介于80%~95%,则可以由人工进行确定该组有效词元对的正确表达方式为其中的哪一个有效词元。

说明的是,在确定有效词元对时,本申请实施例中将第一预设阈值设置为了80%,当然,第一预设阈值还可以基于实际需求进行调整,如设置为75%、85%,或者其他值,本申请不做具体限定;此外,对于直接将次数最大的有效词元在相似度大于95%时被判定为有效次元对的正确表达方式,本申请不对95%作出限定,比如,相似度还可以是93%、98%,或者其他值。

设运用上面的标准化处理方式对100个有效词元进行处理后,得到了100个有效分词,有效分词与有效词元一一对应。可以理解的是,一些情况下,有效分词与有效词元相同。

在上述步骤103的一个实施中,所述将多个有效分词具有的相同部分确定为词根,包括:针对所述搜索词的各有效分词构成的第一集合,将所述第一集合中的任意两个有效分词进行匹配,若存在重合词符且所述重合词符的长度满足预设条件,则将所述重合词符加入到第二集合中;所述第二集合中包括所述第一集合对应的各词根。

举个例子,如对应于搜索词的各个有效分词包括“前海微众”、“微众银行”、“微众”和“工商银行”,由这四个有效分词构成了第一集合;则,可以通过下述的方式来确定该第一集合的词根:

步骤1、从第一集合中取出“前海微众”,作为本轮确定词根流程的基准,将其与第一集合中的“微众银行”、“微众”和“工商银行”一一进行比较,如在“前海微众”与“微众银行”进行比较时,“微众”为二者共同具有的部分,即“微众”可称为重合词符,且“微众”的长度满足了预设条件(这里的预设条件设置为了重合词符的长度不小于2),如此,可以将“微众”添加到第二集合中(此时,第二集合初始化为空集),从而第二集合中具有了“微众”这一词根;基于同样的道理,将“前海微众”与“微众”进行比较时,“微众”为二者共同具有的部分,且“微众”的长度满足了预设条件,从而可以将“微众”添加到第二集合中,然而,第二集合中已经存在有“微众”这一词根,因此,本次可以忽略将“微众”添加到第二集合中(避免重复添加);基于同样的道理,将“前海微众”与“工商银行”进行比较时,二者未具有共同的部分,因此以“前海微众”为基准来确定词根的流程到此结束;接下来,以第一集合中的“微众银行”作为新一轮的确定词根流程的基准,将其与第一集合中的“微众”和“工商银行”一一进行比较(因为上一轮中已经将“前海微众”与“微众银行”进行了比较,因此为了避免重复比较,此时已经无需将“微众银行”与“前海微众”再进行比较了),确定词根的逻辑不赘述。直到第一集合中的“微众”作为词根确定的基准并进行词根的确定后,从而对第一集合中的有效分词确定的词根包括“微众”和“银行”,且“微众”和“银行”被置于了第二集合中。

说明的是,本申请实施例中仅以重合词符的长度不小于2为例进行说明,其中重合词符的长度还可以设置为3,或者其他值,本申请不对此作出限定。

设对上述的100个有效分词进行词根的确定后,得到了3个词根,并分别令为词根1、词根2和词根3,且针对词根1,它对应的词群1中包括{A1(10),A2(8),A3(2)},针对词根2,它对应的词群2中包括{B1(10),B2(15),B3(5),B4(10),B5(5),B6(5)},针对词根3,它对应的词群3中包括{C1(20),C2(10)}。说明的是,大括号中的字母表示有效分词,与字母相邻的小括号中的数字表示的是有效分词出现的次数。

在上述步骤105的一个实施中,所述针对每个词群中的有效分词,确定各有效分词的评分,包括:针对每个词群,根据所述词群中不同的有效分词的种类数,确定所述词群的群属性;针对每个有效分词,根据所述有效分词在所在词群中出现的次数,确定所述有效分词在所在词群中的频度;根据所述有效分词在所在词群中的频度和所述有效分词所在词群的群属性,确定所述有效分词的评分。

在本申请的某些实施例中,所述阈值通过如下方式确定,包括:根据各词群的群属性,确定均值群属性;根据设定的调整参数和所述均值群属性,确定所述阈值。

在本申请的某些实施例中,所述根据所述词群中不同的有效分词的种类数,确定所述词群的群属性,包括:确定各搜索词的各有效分词中不同的有效分词的第一种类数;确定所述词群中不同的有效分词的第二种类数;根据所述第一种类数和所述第二种类数,确定所述词群的群属性。

举个例子,首先确定每个词群的群属性,本申请中用基础分来表示群属性。

如,词群1的基础分可以表示为:(10+8+2)/100=0.2;词群2的基础分可以表示为:(10+15+5+10+5+5)/100=0.5;词群3的基础分可以表示为:(20+10)/100=0.3。

接着,为词群中的每一个有效分词评分。

如,对于词群1中的有效分词A1,它的得分是:[10/(10+8+2)]*0.2=0.1;对于词群1中的有效分词A2,它的得分是:[8/(10+8+2)]*0.2=0.08;对于词群1中的有效分词A3,它的得分是:[2/(10+8+2)]*0.2=0.02;

对于词群2中的有效分词B1,它的得分是:[10/(10+15+5+10+5+5)]*0.5=0.1;对于词群2中的有效分词B2,它的得分是:[15/(10+15+5+10+5+5)]*0.5=0.15;对于词群2中的有效分词B3,它的得分是:[5/(10+15+5+10+5+5)]*0.5=0.05;对于词群2中的有效分词B4,它的得分是:[10/(10+15+5+10+5+5)]*0.5=0.1;对于词群2中的有效分词B5,它的得分是:[5/(10+15+5+10+5+5)]*0.5=0.05;对于词群2中的有效分词B6,它的得分是:[5/(10+15+5+10+5+5)]*0.5=0.05;

对于词群3中的有效分词C1,它的得分是:[20/(20+10)]*0.3=0.2;对于词群3中的有效分词C2,它的得分是:[10/(20+10)]*0.3=0.1。

再接着,确定(评分)阈值。

如本申请中将调整参数设置为2,则(评分)阈值可以确定为[(0.2+0.5+0.3)/3]/2=1/6。

最后,将每一个有效分词的得分与(评分)阈值进行比较,并将得分不小于(评分)阈值的有效分词更新到字典中。

如本申请实施例中的词群3中的有效分词C2的得分0.2大于(评分)阈值1/6,因此可以将有效分词C2加入到字典中。

说明的是,本申请实施例中对调整参数的大小不做限定,在调整参数的数值越大时,则表示放松了可以更新到字典中的有效分词的程度,在调整参数的数值越小时,则表示加强了可以更新到字典中的有效分词的程度。

基于同样的构思,本申请实施例提供一种字典更新的装置,如图2所示,该装置包括:

获取单元201,用于获取预设时段内的各搜索词。

有效分词确定单元202,用于针对任一搜索词,确定所述搜索词的有效分词。

词根确定单元203,用于将多个有效分词具有的相同部分确定为词根。

词群确定单元204,用于针对每个词根,构建包含所述词根的各有效分词的词群。

更新单元205,用于针对每个词群中的有效分词,确定各有效分词的评分,将评分满足阈值的有效分词加入到字典中。

进一步的,对于该装置,更新单元205,具体用于:针对每个词群,根据所述词群中不同的有效分词的种类数,确定所述词群的群属性;针对每个有效分词,根据所述有效分词在所在词群中出现的次数,确定所述有效分词在所在词群中的频度;根据所述有效分词在所在词群中的频度和所述有效分词所在词群的群属性,确定所述有效分词的评分。

进一步的,对于该装置,还包括阈值确定单元206,用于:根据各词群的群属性,确定均值群属性;根据设定的调整参数和所述均值群属性,确定所述阈值。

进一步的,对于该装置,更新单元205,具体用于:确定各搜索词的各有效分词中不同的有效分词的第一种类数;确定所述词群中不同的有效分词的第二种类数;根据所述第一种类数和所述第二种类数,确定所述词群的群属性。

进一步的,对于该装置,有效分词确定单元202,具体用于:对所述搜索词进行切分,得到初始化词元;根据预设过滤规则对所述初始化词元进行筛选,得到有效词元;对所述有效词元进行标准化处理,得到所述有效分词。

进一步的,对于该装置,有效分词确定单元202,还用于:针对所述初始化词元,若所述初始化词元的词元长度满足长度删除条件,则删除所述初始化词元;若所述初始化词元未满足所述长度删除条件且确定所述初始化词元无语义,则删除所述初始化词元,从而得到有效词元。

进一步的,对于该装置,有效分词确定单元202,还用于:确定所述有效词元在错别字模板中是否存在替代词元;若存在,则将所述替代词元作为有效分词;其中,所述错别字模板通过如下方式获得:将所述有效词元逐一转化成图片,得到图片集合;从所述图片集合中确定出相似度大于第一预设阈值的有效词元对;针对所述有效词元对中的第一有效词元和第二有效词元,分别统计所述第一有效词元在各有效词元中出现的第一次数和所述第二有效词元在各有效词元中出现的第二次数;若所述第一次数大于所述第二次数,则将所述第一有效词元作为所述第二有效词元的替代词元。

进一步的,对于该装置,词根确定单元203,具体用于:针对所述搜索词的各有效分词构成的第一集合,将所述第一集合中的任意两个有效分词进行匹配,若存在重合词符且所述重合词符的长度满足预设条件,则将所述重合词符加入到第二集合中;所述第二集合中包括所述第一集合对应的各词根。

本申请实施例还提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。该计算设备可以包括中央处理器(Center Processing Unit,CPU)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。

存储器,可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中,存储器可以用于存储字典更新方法的程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行字典更新方法。

如图3所示,为本申请实施例提供的一种计算设备的示意图,该计算设备包括:

处理器301、存储器302、收发器303、总线接口304;其中,处理器301、存储器302与收发器303之间通过总线305连接;

所述处理器301,用于读取所述存储器302中的程序,执行上述字典更新方法;

处理器301可以是中央处理器(central processing unit,简称CPU),网络处理器(network processor,简称NP)或者CPU和NP的组合。还可以是硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,简称ASIC),可编程逻辑器件(programmable logic device,简称PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,简称CPLD),现场可编程逻辑门阵列(field-programmable gate array,简称FPGA),通用阵列逻辑(generic array logic,简称GAL)或其任意组合。

所述存储器302,用于存储一个或多个可执行程序,可以存储所述处理器301在执行操作时所使用的数据。

具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器302可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,简称RAM);存储器302也可以包括非易失性存储器(non-volatile memory),例如快闪存储器(flash memory),硬盘(hard disk drive,简称HDD)或固态硬盘(solid-state drive,简称SSD);存储器302还可以包括上述种类的存储器的组合。

存储器302存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:

操作指令:包括各种操作指令,用于实现各种操作。

操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。

总线305可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

总线接口304可以为有线通信接入口,无线总线接口或其组合,其中,有线总线接口例如可以为以太网接口。以太网接口可以是光接口,电接口或其组合。无线总线接口可以为WLAN接口。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行字典更新方法。

本领域内的技术人员应明白,本申请的实施例可提供为方法、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 分类字典更新装置、其计算机程序产品和分类字典更新方法
  • 一种数据字典动态更新方法及装置
技术分类

06120112409988