掌桥专利:专业的专利平台
掌桥专利
首页

基于ElasticSearch的企业名称搜索匹配方法及装置

文献发布时间:2023-06-19 12:02:28


基于ElasticSearch的企业名称搜索匹配方法及装置

技术领域

本申请涉及数据处理技术领域,具体而言,涉及一种基于ElasticSearch的企业名称搜索匹配方法及装置。

背景技术

用户在需要查看企业信息时,通常会输入关键字搜索与之相关的企业,但是,相关技术中在数据库中数据很大的时候,往往在检索目标企业时,得到检索结果较慢,因而不能满足用户快速检索的需求。

针对相关技术中无法快速得到目标企业的检索结果的问题,目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种基于ElasticSearch的企业名称搜索匹配方法,以解决无法快速得到目标企业的检索结果的问题。

为了实现上述目的,本申请提供了一种基于ElasticSearch的企业名称搜索匹配方法及装置。

第一方面,本申请提供了一种基于ElasticSearch的企业名称搜索匹配方法。

根据本申请的基于ElasticSearch的企业名称搜索匹配方法包括:

获取输入信息,其中,所述输入信息包括搜索类型和输入文本;

根据输入文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;

将每个企业信息的初始分值按照预设优化算法进行优化,确定优化分值;

将所述优化分值对应的企业信息,按照从高到底的顺序输出搜索结果。

进一步的,所述根据输入文本并通过Lucene的评分计算方法计算每个企业信息的初始分值包括:

根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;或,

根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值。

进一步的,若根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值,则在按照从高到底的顺序输出搜索结果之前,所述方法还包括:

判断搜索结果的数量是否超过预设数量;

若否,则继续根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值,并将所述初始分值按照预设优化算法进行优化,确定优化分值,直到输出搜索结果。

进一步的,所述根据输入文本并通过Lucene的评分计算方法计算搜索结果的分值包括:

判断搜索类型是否为精准型,其中,所述精准型是指精准型的字符串;

若是,则根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;

若否,则根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值和/或根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值。

进一步的,所述将搜索结果的分值按照预设优化算法进行优化,包括:

根据企业信息对应的企业类型或经营状况或点击率,对所述初始分值增加或减少。

进一步的,所述根据企业信息对应的企业类型、经营状况或点击率,对所述初始分值增加或减少,包括以下一种或多种:

当企业信息中的企业类型为总公司、集团公司或母公司时,对企业信息对应的初始分值增加;

当企业信息中的企业类型为分公司或子公司时,对企业信息对应的初始分值减少;

当企业信息中的经营状况为在营企业,对企业信息对应的初始分值增加;

当企业信息中的经营状况为注销企业,对企业信息对应的初始分值减少;

当企业信息中的点击率超过预设点击阈值时,对企业信息对应的初始分值增加;

当企业信息中的点击率超过低于点击阈值时,对企业信息对应的初始分值减少。

进一步的,所述根据企业信息对应的企业类型对所述初始分值增加或减少还包括:

获取企业信息中包含的企业标签对应的企业标签编码;

将每个企业信息对应的所有企业标签编码对应的权重进行累加;

按照累加后的权重对每个企业信息对应的初始分值进行增加。

进一步的,所述方法还包括:

将搜索类型为社会信用代码的输入文本的字符串类型定义为准确型字符串;

将搜索类型不是社会信用代码的输入文本的字符串类型定义为模糊型字符串。

第二方面,本申请提供了一种基于ElasticSearch的企业名称搜索匹配装置。

根据本申请的基于ElasticSearch的企业名称搜索匹配装置包括:

信息输入单元,用于获取输入信息,其中,所述输入信息包括搜索类型和输入文本;

初始分值计算单元,用于根据输入文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;

优化分值确定单元,用于将每个企业信息的初始分值按照预设优化算法进行优化,确定优化分值;

结果输出单元,用于将所述优化分值对应的企业信息,按照从高到底的顺序输出搜索结果。

进一步的,所述初始分值计算单元包括:

全文本计算模块,用于根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;或,

分词结果结算模块,用于根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值。

进一步的,在所述初始分值计算单元中若根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值,则在按照从高到底的顺序输出搜索结果之前,所述方法还包括:

预设数量判断模块,用于判断搜索结果的数量是否超过预设数量;

分值优化模块,用于若预设数量判断模块的判断结果为否,则继续根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值,并将所述初始分值按照预设优化算法进行优化,确定优化分值,直到输出搜索结果。

进一步的,所述初始分值计算单元包括:

精准性判断模块,用于判断搜索类型是否为精准型,其中,所述精准型是指精准型的字符串;

第一分值计算模块,用于若精准性判断模块的判断结果为是,则根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;

第二分值计算模块,用于若精准性判断模块的判断结果为否,则根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值和/或根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值。

进一步的,所述优化分值确定单元包括:

分值增减模块,用于根据企业信息对应的企业类型或经营状况或点击率,对所述初始分值增加或减少。

进一步的,所述分值增减模块,包括以下一种或多种:

用于当企业信息中的企业类型为总公司、集团公司或母公司时,对企业信息对应的初始分值增加;用于当企业信息中的企业类型为分公司或子公司时,对企业信息对应的初始分值减少;用于当企业信息中的经营状况为在营企业,对企业信息对应的初始分值增加;用于当企业信息中的经营状况为注销企业,对企业信息对应的初始分值减少;用于当企业信息中的点击率超过预设点击阈值时,对企业信息对应的初始分值增加;用于当企业信息中的点击率超过低于点击阈值时,对企业信息对应的初始分值减少。

进一步的,所述分值增减模块还包括:

用于获取企业信息中包含的企业标签对应的企业标签编码;将每个企业信息对应的所有企业标签编码对应的权重进行累加;按照累加后的权重对每个企业信息对应的初始分值进行增加。

第三方面,本申请提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的基于ElasticSearch的企业名称搜索匹配方法的步骤。

第四方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面提供的基于ElasticSearch的企业名称搜索匹配方法的步骤。

在本申请实施例中,通过获取输入信息中的搜索类型和输入文本,搜索数据库中的企业信息的搜索结果,并对输入文本通过Lucene的评分计算方法计算搜索结果的初始分值,将初始分值按照预设优化算法进行优化,确定优化分值,将优化分值按照从高到低的顺序输出的企业信息。达到了将搜索结果根据优化算法进行展示目的,从而实现了使用户快速得到目标搜索结果的技术效果,进而解决了无法快速得到目标企业的检索结果的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是本申请实施例的基于ElasticSearch的企业名称搜索匹配方法的流程示意图;

图2是本申请实施例的企业信息搜索平台的搜索界面;

图3是本申请实施例的搜索结果显示界面;

图4是本申请实施例的另一搜索结果显示界面;

图5是本申请实施例的又一搜索结果显示界面;

图6是本申请实施例的基于ElasticSearch的企业名称搜索匹配装置的结构框图;

图7是本申请实施例的电子设备框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要首先说明的是,本申请实施例是一种应用于ElasticSearch(以下简称ES)搜索引擎的企业名称搜索匹配方法。

本申请的名词解释:

词频(TF):词频是对一个词在文档的内容中出现次数的计量。如果出现次数多,得分就高,该文档与搜索相关的可能性就高。

逆文档频率(IDF):逆文档频率是对搜索的词在文档集中出现的频率的衡量。如果一个搜索词在很多文档中都普遍的出现,这个词的得分就比较低。稀有词如果在文档中频繁出现,会把得分值提高。

共现因子(Coord):共现因子是对出现多个搜索词的衡量,搜索中的词共现的越多,整体的得分就越高。比如搜索这两个词“360”&“百度”。两个词单独搜或一起搜均可:在内部会转化为bool搜索,每个词都会单独的去搜索。两个词都包含的文档比那些只包含一个词的文档得分高。例如搜索到单个词的权重是2,那么两个词都包含的文档coord值是2*2=4,只包含一个词的coord权重就是2*1=2。通过共现因子提高权重,考虑词语使用习惯,提高了惯常用法的得分。

长度标准化(lengthnorm):会衡量短field的匹配,给出更高的权重。比如,如果搜索词在title中,那它比在content中更相关,得分更高。

搜索标准化(querynorm):虽然不直接与文档相关度相关,querynorm在你对query类型的组合时,可以对query进行衡量。

boost(index time boost)、boost(query time boost):可以在索引时和搜索时进行增强。对特定的字段进行增强时,会让得分的计算更加明显。

根据本申请实施例,提供了一种基于ElasticSearch的企业名称搜索匹配方法,如图1所示,该方法包括如下的步骤S101至步骤S104:

S101:获取输入信息,其中,输入信息包括搜索类型和输入文本。

用户可以在如图2所示的企业信息搜索平台的搜索界面中输入需要搜索的企业信息,具体会输入搜索的输入文本和具体的搜索类别,后台端就可以获取到对应的输入信息。后台端只能获取到用户输入的一种搜索类型,可以包括:不限(包括所有搜索类型)、企业名称、法人/高管、产品/品牌、社会信用代码、个体工商户。输入文本可以是汉字、数字、英文等一种或多种的字符。

S102:根据输入文本并通过Lucene的评分计算方法计算每个企业信息的初始分值。

“根据输入文本并通过Lucene的评分计算方法计算每个企业信息的初始分值”,具体为:根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值,当使用输入文本的全文本进行搜索时,使用精准匹配的方法,即需要判断数据库中是否存在完全匹配的信息;判断搜索结果是否为0,若是0,则代表数据库中不存在于输入文本完全匹配的信息,初始分值也为0;若不是0,则代表数据库中存在与输入文本完全匹配的信息,则搜索结果中每个企业信息对应的初始分值均为满分,不需要通过过Lucene的评分计算方法计算。或,根据输入文本的分词结果并通过Lucene的评分计算方法计算搜索结果中每个企业信息的初始分值,分词可以是根据输入文本中的连接词(如空格、逗号等),也可以是根据分词器(如ik分词器等),在此不进行限制。当使用输入文本的分词结果进行搜索时,使用模糊匹配的方法,即需要判断数据库中是否存在与输入文本相似度超过预设相似度阈值(如80%)的信息。分词结果对应的初始分值的分值代表输入文本与数据库中信息的相似度,使用正的浮点数_score来表示相关得分,得分越高,代表输入文本如数据库中信息的相关性也就越高。一个输入文本会为数据库中每个信息生成一个_score,词的搜索会考虑查到的词的比例,一般情况,相关度都是指计算全文的field的内容与全文query串的相关度。ES中用的标准的相似度算法就是词频/逆文档频率,即tf/idf,考虑了如下表1中的要素,根据表1中的要素决定了ES中决定文档得分的处理要素:

表1

Lucene的评分计算是默认的ES的得分算法是布尔检索与空间向量模型的组合,通过布尔模型的文档会通过空间向量模型进行下一步的评分计算,具体公式如下:

其中,q为搜索语句,例如“360百度”;d为文档(即上述数据库),t(term)为包含q的语句,例如q为“360百度”,t可以是“360”也可以是“百度”,还可以是“360百度”。

S103:将每个企业信息的初始分值按照预设优化算法进行优化,确定优化分值;

在步骤S102获取到初始分值之后,为了达到快速得到搜索结果的目的,还需要对初始分值进行优化确定优化分值,“将搜索结果的分值按照预设优化算法进行优化”,包括:根据企业信息对应的企业类型或经营状况或点击率,对初始分值增加或减少。企业类型可以包括总公司、集团公司、分公司、母公司或子公司等,为了达到总公司、集团公司在前、分公司在后,母公司在前、子公司载后的目的,会对不同企业类型的初始分值进行增加或减少,具体的,当企业信息中的企业类型为总公司、集团公司或母公司时,对企业信息对应的初始分值增加;当企业信息中的企业类型为分公司或子公司时,对企业信息对应的初始分值减少。经营状况可以包括在营企业(即开业企业)或注销企业,为了达到在营企业在前、注销企业在后的目的,会对不同经营状况的初始分值进行增加或减少,具体的,当企业信息中的经营状况为在营企业,对企业信息对应的初始分值增加;当企业信息中的经营状况为注销企业,对企业信息对应的初始分值减少。点击率是指结合用户使用习惯,统计一段时间内(例如一个月、一年等)在本申请实施例中的企业信息搜索平台的搜索次数,点击率越高代表热度越高,为了达到热度高的企业信息在前、热度低的企业信息在后的目的,会对不同点击率的初始分值进行增加或减少,当企业信息中的点击率超过预设点击阈值时,表明对应的企业信息热度高,那么对企业信息对应的初始分值增加;当企业信息中的点击率超过低于点击阈值时,表明对应的企业信息热度低,对企业信息对应的初始分值减少。

可选的,企业信息中还可能会包含如央企、国有企业、上市公司、新三板、世界五百强、中国五百强、高新企业等的企业标签,如下表2所示,不同的企业标签对应不同的权重,获取企业信息中包含的企业标签对应的企业标签编码(即下表2中的ES字段);将每个企业信息对应的所有企业标签编码对应的权重进行累加,示例的,企业标签编码对应的权重包含A(权重为5)、B(权重为2)、C(权重为1)三个标签,则统计值为ABC对应权重值相加的和(5+2+1=8);按照表2所示的累加后的权重对每个企业信息对应的初始分值进行增加。需要说明的是,若获取到的企业标签是下表中没有的,权重按0计算。

表2:

需要说明的是,通过上述方法确定优化分值时,如果搜索结果中的企业信息同时出现总公司、集团公司、母公司、在营企业、点击率超过预设点击阈值、企业标签可以在表2中搜索到时,可以按照后台预设的“总公司=集团公司>母公司>在营企业>企业标签可以在表2中搜索到>点击率超过预设点击阈值”的顺序对初始分值进行增加,也可以按照用户自定义的顺序对初始分值进行增加。

S104:将优化分值对应的企业信息,按照从高到底的顺序输出搜索结果。

上述步骤S103中会得到企业信息的优化分值,将上述所有企业信息的分值按照从高到低的顺序输出。可选的,在输出时,会将输入文本进行高亮显示,并将输入文本对应的关联信息(例如企业股东、产品/品牌等)进行高亮显示。

示例的,如图3所示,为本申请实施例中搜索结果显示界面,具体的搜索类型为“社会信用代码”,输入文本为“91110108330274098R”,按照上述步骤S102的方法进行匹配后,得到唯一一条企业信息,并对输入文本和关联信息(社会信用代码)进行高亮显示。

示例的,如图4所示,为本申请实施例中另一搜索结果显示界面,具体的搜索类型为“不限”,输入文本为“量子数聚”,按照上述步骤S102、S103的方法进行匹配后,得到3条企业信息,按照企业自身在前、企业股东在后的顺序进行显示,并对输入文本和对应的关联信息(股东信息)进行高亮显示。

示例的,如图5所示,为本申请实施例中又一搜索结果显示界面,具体的搜索类型为“不限”,输入文本为“阿里巴巴”,按照上述步骤S102、S103的方法进行匹配后,得到10条企业信息(图中仅示出了6条),按照母公司优先于子公司的顺序进行显示,并对输入文本和对应的关联信息(历史曾用名、知名品牌)进行高亮显示。

从以上的描述中,可以看出,本申请实现了如下技术效果:

在本申请实施例中,通过获取输入信息中的搜索类型和输入文本,搜索数据库中的企业信息的搜索结果,并对输入文本通过Lucene的评分计算方法计算搜索结果的初始分值,将初始分值按照预设优化算法进行优化,确定优化分值,将优化分值按照从高到低的顺序输出的企业信息。达到了将搜索结果根据优化算法进行展示目的,从而实现了使用户快速得到目标搜索结果的技术效果。

“根据输入文本并通过Lucene的评分计算方法计算搜索结果的分值”还包括:

判断搜索类型是否为精准型,在本实施例中,只有输入类型是社会信用代码对应的输入文本为精准型字符串,其他输入类型对应的输入文本均为文本型字符串;若是,则根据输入文本的全文本并通过Lucene的评分计算方法计算搜索结果中每个企业信息的初始分值;若否,输入文本为文本型字符串,则根据输入文本的全文本并通过Lucene的评分计算方法计算搜索结果中每个企业信息的初始分值和/或根据输入文本的分词结果并通过Lucene的评分计算方法计算搜索结果中每个企业信息的初始分值。

当通过准确型字符串的输入文本进行企业信息搜索时,进行精准匹配,只会返回是否匹配的结果,即当搜索类型是社会信用代码时,搜索结果为输入文本完全匹配的1条企业信息,或0条企业信息,可以直接执行步骤S104的输出搜索结果。示例的,如图3所示,为搜索类型是社会信用代码时的搜索结果显示界面。

当通过文本型字符串的输入文本进行企业信息搜索时,先进行精准匹配,若根据输入文本的全文本并通过Lucene的评分计算方法计算搜索结果中每个企业信息的初始分值,则在按照从高到底的顺序输出搜索结果之前,判断搜索结果的数量是否超过预设数量(例如10条),若搜索结果超过预设数量,计算搜索结果中每个企业信息的初始分值,并将初始分值按照预设优化算法进行优化,确定优化分值,并输出搜索结果;若搜索结果不超过预设数量,则继续根据输入文本的分词结果并通过Lucene的评分计算方法计算搜索结果中每个企业信息的初始分值,即进行模糊匹配,计算查询结果中所有企业信息对应的初始分值,并将初始分值按照预设优化算法进行优化,确定优化分值,直到输出搜索结果,例如,精准匹配的搜索结果为3,预设数量为10,则精准匹配的结果不满足预设数量,需要重新进行模糊匹配,得到模糊匹配后优化分值最高的10条结果。

需要说明的是,当搜索类型为“不限”时,会从数据库中各搜索类型中对应的字段中搜索,此时需要对不同条件的搜索顺序优先级做了限定。例如,在实际应用中,企业名称和股东等的名称经常有一定相似性,本申请实施例中设置搜索结果中企业名称包含输入文本的企业信息在前、企业股东包含输入文本的企业信息顺序靠后。在本申请实施例中,如果输入文本与数据库中多个维度的信息相同,则优先展示企业名称、产品品牌对应的搜索结果,其他如企业股东、法人高管、统一社会信用代码等对应的搜索结果顺序靠后。当输入文本与数据库中的知名品牌相同时,优先展示知名品牌符合关键字的公司。即优先展示知名企业。在实际应用中,部分知名品牌的公司主体和大众熟知的品牌名称并不一致,查询时优先匹配知名品牌库企业。如:输入滴滴,优先展示小桔科技有限公司;输入麦当劳,优先展示金拱门(中国)有限公司。

如图4所示,以搜索“量子数聚(北京)科技有限公司”为例,搜索关键词量子数聚,量子数聚(北京)科技有限公司出现在最上,投资的两家子公司苏州量子数聚科技有限公司和量子数聚(北京)征信有限公司顺序靠后。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例,还提供了一种用于实施上述基于ElasticSearch的企业名称搜索匹配方法的装置20,如图6所示,该基于ElasticSearch的企业名称搜索匹配装置20包括:

信息输入单元201,用于获取输入信息,其中,输入信息包括搜索类型和输入文本;

初始分值计算单元202,用于根据输入文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;

优化分值确定单元203,用于将每个企业信息的初始分值按照预设优化算法进行优化,确定优化分值;

结果输出单元204,用于将优化分值对应的企业信息,按照从高到底的顺序输出搜索结果。

进一步的,初始分值计算单元202包括:

全文本计算模块,用于根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;或,

分词结果结算模块,用于根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值。

进一步的,在初始分值计算单元202中若根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值,则在按照从高到底的顺序输出搜索结果之前,方法还包括:

预设数量判断模块,用于判断搜索结果的数量是否超过预设数量;

分值优化模块,用于若预设数量判断模块的判断结果为否,则继续根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值,并将初始分值按照预设优化算法进行优化,确定优化分值,直到输出搜索结果。

进一步的,初始分值计算单元202包括:

精准性判断模块,用于判断搜索类型是否为精准型,其中,精准型是指精准型的字符串;

第一分值计算模块,用于若精准性判断模块的判断结果为是,则根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;

第二分值计算模块,用于若精准性判断模块的判断结果为否,则根据输入文本的全文本并通过Lucene的评分计算方法计算每个企业信息的初始分值和/或根据输入文本的分词结果并通过Lucene的评分计算方法计算每个企业信息的初始分值。

进一步的,优化分值确定单元203包括:

分值增减模块,用于根据企业信息对应的企业类型或经营状况或点击率,对初始分值增加或减少。

进一步的,分值增减模块,包括以下一种或多种:

用于当企业信息中的企业类型为总公司、集团公司或母公司时,对企业信息对应的初始分值增加;用于当企业信息中的企业类型为分公司或子公司时,对企业信息对应的初始分值减少;用于当企业信息中的经营状况为在营企业,对企业信息对应的初始分值增加;用于当企业信息中的经营状况为注销企业,对企业信息对应的初始分值减少;用于当企业信息中的点击率超过预设点击阈值时,对企业信息对应的初始分值增加;用于当企业信息中的点击率超过低于点击阈值时,对企业信息对应的初始分值减少。

进一步的,分值增减模块还包括:

用于获取企业信息中包含的企业标签对应的企业标签编码;将每个企业信息对应的所有企业标签编码对应的权重进行累加;按照累加后的权重对每个企业信息对应的初始分值进行增加。

具体的,本实施例中各模块的实现可以参考方法实施例中的相关实现,不再赘述。

从以上的描述中,可以看出,本申请实现了如下技术效果:

在本申请实施例中,通过获取输入信息中的搜索类型和输入文本,搜索数据库中的企业信息的搜索结果,并对输入文本通过Lucene的评分计算方法计算搜索结果的初始分值,将初始分值按照预设优化算法进行优化,确定优化分值,将优化分值按照从高到低的顺序输出的企业信息。达到了将搜索结果根据优化算法进行展示目的,从而实现了使用户快速得到目标搜索结果的技术效果。

本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于ElasticSearch的企业名称搜索匹配方法的步骤。例如包括:获取输入信息,其中,输入信息包括搜索类型和输入文本;根据输入文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;将每个企业信息的初始分值按照预设优化算法进行优化,确定优化分值;将优化分值对应的企业信息,按照从高到底的顺序输出搜索结果。

图7为本发明实施例提供的电子设备框图,如图7所示,该设备包括:处理器301、存储器302和总线303;

其中,处理器301及存储器302分别通过总线303完成相互间的通信;处理器301用于调用存储器302中的程序指令,以执行上述实施例所提供的基于ElasticSearch的企业名称搜索匹配方法,例如包括:获取输入信息,其中,输入信息包括搜索类型和输入文本;根据输入文本并通过Lucene的评分计算方法计算每个企业信息的初始分值;将每个企业信息的初始分值按照预设优化算法进行优化,确定优化分值;将优化分值对应的企业信息,按照从高到底的顺序输出搜索结果。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 基于ElasticSearch的企业名称搜索匹配方法及装置
  • 基于标识信息匹配的搜索方法及搜索装置
技术分类

06120113148508