掌桥专利:专业的专利平台
掌桥专利
首页

数据搜索方法、装置、电子设备及计算机可读存储介质

文献发布时间:2023-06-19 18:53:06


数据搜索方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及数据搜索技术领域,尤其涉及一种数据搜索方法、装置、电子设备及计算机可读存储介质。

背景技术

数据搜索能力对于某些专业类网站或系统是十分重要的能力,例如,企业信息查询系统,通过该系统提供的数据搜索功能,可以查询到目标企业的各类相关信息。

根据查询条件对数据库数据进行遍历是较为常见的数据搜索方法,但当系统存在大量的数据表时,如果根据查询条件对所有数据表中所有记录和查询条件进行一一比对,然后返回满足条件的记录,这样会造成大量磁盘I/O操作,导致最终数据查询效率低下,影响用户体验。因此,如何提升数据搜索能力是非常关键的问题。

发明内容

本发明提供一种数据搜索方法、装置、电子设备及计算机可读存储介质,其主要目的在于提升数据搜索效率。

为实现上述目的,本发明提供的一种数据搜索方法,包括:

获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;

对所述高频搜索记录执行分词操作,得到高频分词;

以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;

接收用户输入的待搜索文本,识别所述待搜索文本的关键字;

在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。

可选地,所述获取预设数据库中每张数据表中的高频搜索记录,包括:

获取所述预设数据库的预设时间段内的操作日志;

根据所述操作日志,依次统计每张所述数据表中每条数据记录被操作的操作次数;

选取所述操作次数大于或等于预设操作阈值的字段作为对应数据表的高频搜索记录。

可选地,所述对所述高频搜索记录执行分词操作,得到高频分词,包括:

利用不少于两种分词算法,对所述高频搜索记录进行分词,得到每种分词算法对应的分词结果;

将不同分词结果中交集部分的分词作为已确定分词,将不同分词结果中非交集部分的分词作为待定分词;

将所述待定分词中含有相同字符且在所述高频搜索记录中的位置相邻的分词作为比对组;

依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失;

选取所述信息损失最大的分词作为对应比对组的已确定分词,汇集所有已确定分词作为所述高频分词。

可选地,所述依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失,包括:

依次以每个所述比对组中的每个分词作为目标分词,在所述高频搜索记录中剔除所述目标分词后得到对比字段;

对所述高频搜索记录进行向量转换,得到高频搜索记录向量矩阵,对所述对比字段进行向量转换,得到对比字段向量矩阵;

计算所述高频搜索记录向量矩阵与所述对比字段向量矩阵之间的距离,将所述距离作为对应目标分词相对于所述高频搜索记录的信息损失。

可选地,所述识别所述待搜索文本的关键字,包括:

根据预设的业务规则,对所述待搜索文本进行正则判断;

当所述搜索文本符合正则判断时,将正则判断的输出结果作为所述待搜索文本的关键字;

当所述搜索文本不符合正则判断时,对所述待搜索文本进行分词,得到一个或一个以上的待搜索分词;

生成每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵;

根据每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵,依次计算每个所述待搜索分词的关键值;

选择所述关键值满足预设关键值条件的待搜索分词作为所述待搜索文本的关键字。

可选地,所述根据每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵,依次计算每个所述待搜索分词的关键值,包括:

利用如下关键值算法计算每个所述待搜索分词的关键值:

其中,K为所述关键值,|W|为所述待搜索文本的文本向量矩阵,T为矩阵转置符号,||为求模符号,

为了解决上述问题,本发明还提供一种数据搜索方法,所述装置包括:

高频搜索记录获取模块,用于获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;

分词索引表创建模块,用于对所述高频搜索记录执行分词操作,得到高频分词,以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;

基于索引表的数据搜索模块,用于接收用户输入的待搜索文本,识别所述待搜索文本的关键字,在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。

可选地,所述索引表创建模块通过下述操作对所述高频搜索记录执行分词操作:

利用不少于两种分词算法,对所述高频搜索记录进行分词,得到每种分词算法对应的分词结果;

将不同分词结果中交集部分的分词作为已确定分词,将不同分词结果中非交集部分的分词作为待定分词;

将所述待定分词中含有相同字符且在所述高频搜索记录中的位置相邻的分词作为比对组;

依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失;

选取所述信息损失最大的分词作为对应比对组的已确定分词,汇集所有已确定分词作为所述高频分词。

为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

存储器,存储至少一个计算机程序;及

处理器,执行所述存储器中存储的程序以实现上述所述的数据搜索方法。

为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据搜索方法。

本发明实施例,通过对高频搜索记录进行分词,得到高频分词,创建由高频分词为索引的分词索引表,在将待搜索文本对应的关键字与分词索引表中的高频分词进行匹配,获取与所述关键字匹配的高频分词指向的数据位置信息,根据获取到的位置信息得到搜索结果,这种操作方式,一方面在数据搜索过程中,利用分词索引表直接获取精准数据,无需遍历每张数据表的数据记录,提升数据搜索效率,另一方面,利用待搜索文本的关键字与分词索引表中的高频分词进行匹配,可以精准数据搜索比对对象,提升数据搜索效率。

附图说明

图1为本发明一实施例提供的数据搜索方法的流程示意图;

图2为本发明一实施例提供的数据搜索方法中其中一个步骤的详细实施流程示意图;

图3为本发明一实施例提供的数据搜索方法中其中另一个步骤的详细实施流程示意图;

图4为本发明一实施例提供的数据搜索方法中其中另一个步骤的详细实施流程示意图;

图5为本发明一实施例提供的数据搜索方法中其中另一个步骤的详细实施流程示意图;

图6为本发明一实施例提供的数据搜索方法的功能模块图;

图7为本发明一实施例提供的实现所述数据搜索方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请实施例提供一种数据搜索方法。所述数据搜索方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述数据搜索方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示,为本发明一实施例提供的数据搜索方法的流程示意图。

在本实施例中,所述一种数据搜索方法包括:

S1、获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;

本发明实施例中,以企业信息查询系统为例进行说明。所述企业信息查询系统提供了一定数量规模的各类企业的全面、可靠、透明的数据信息,例如,企业微博、企业经营范围、企业组织架构、企业经营状况、企业新闻、企业信用信息、办公地址、企业员工信息、企业关联信息等。

本发明实施例中,所述预设数据库是指将上述各类企业信息数据按照一定的组织形式进行存储的数据库,较佳地,所述预设数据库可以采用关系型数据库,例如,Oracle、MySQL及DB2等。

本发明实施例中,所述高频搜索记录是指数据表中访问频率相对较高的数据内容。

详细地,参阅图2所示,所述获取预设数据库中每张数据表的高频搜索记录,包括:

S11、获取所述预设数据库的预设时间段内的操作日志;

S12、根据所述操作日志,依次统计每张所述数据表中每条数据记录被操作的操作次数;

S13、选取所述操作次数大于或等于预设操作阈值的数据记录作为对应数据表的高频搜索记录。

本发明实施例中,所述预设时间段可以为1个月或3个月的时长,具体时间段可以根据实际业务运营情况进行设置。

本发明实施例中,所述操作包括但不限于对每条数据记录的读取、修改、插入以及删除。

示例性地,企业相关人员的各类信息具有不同的属性,例如,职位属性、股权属性、入职年限等属性,不同的属性对应不同的数据记录存储在所述预设数据库中。根据对所述操作日志进行分析,发现企业的CTO角色被查询的次数最多,可以将CTO角色对应的数据记录作为高频搜索记录。

本发明实施例中,所述预设操作阈值可根据实际业务情况进行调整,例如,当所述预设时间段为1周的时长时,所述预设操作阈值可以是指每天数据记录被操作的操作次数为200。

本发明实施例中,可通过所述高频搜索记录所在数据表的ID以及所述高频搜索记录在对应数据表中的行列信息,标记每个所述高频搜索记录在对应数据表中的位置信息。

本发明实施例中,通过获取并标记所述预设数据库中每张数据表的高频搜索记录,便于后续数据搜索操作中,限缩所述预设数据库中数据表的扫描范围,有利于提升数据搜索效率。

S2、对所述高频搜索记录执行分词操作,得到高频分词,以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;

可以理解的是,用户在搜索某一目标数据时,由于信息差以及信息表达的灵活性,较多情况下,用户输入的待搜索的信息文本与该目标数据相关,而非完整的目标数据,因此,对所述高频搜索记录进行分词,可以有效的覆盖用户输入的搜索文本的各种情况,保障数据搜索的准确性。

详细地,参阅图3所示,所述对所述高频搜索记录执行分词操作,得到高频分词,包括:

S21、利用不少于两种分词算法,对所述高频搜索记录进行分词,得到每种分词算法对应的分词结果;

S22、将不同分词结果中交集部分的分词作为已确定分词,将不同分词结果中非交集部分的分词作为待定分词;

S23、将所述待定分词中含有相同字符且在所述高频搜索记录中的位置相邻的分词组成比对组;

S24、依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失;

S25、选取所述信息损失最大的分词作为对应比对组的已确定分词,汇集所有已确定分词作为所述高频分词。

可以理解的是,常见的分词算法包括字符串匹配的分词算法、词义分词算法和统计分词算法等,其中,字符串匹配的分词算法又包括正向最大匹配法、反向最大匹配法和最短路径分词法。常用分词算法是现今已成熟的技术手段,本发明实施例中,不再作详细的阐述。

本发明实施例中,所采用的分词算法数量及具体的算法可以根据实际情况进行设置。

示例性地,假设“李胜利说的确实在理”通过第一分词算法进行分词,得到的第一分词结果为“李”、“胜利”、“说”、“的确”、“实在”、“理”。通过第二分词算法进行分词,得到的第二分词结果为“李”、“胜利”、“说的”、“确实”、“在理”。其中,李”、“胜利”这两个分词是第一分词算法和第二分词算法中的重合的部分,属于已确定分词。“说”、“的确”、“实在”、“理”和“说的”、“确实”、“在理”为待定分词。将“说”与“说的”组成一组比对组。将“的确”与“确实”组成一组比对组。将“实在”、“理”以及“在理”组成一组比对组,依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失。

详细地,参阅图4所示,所述依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失,包括:

S241、依次以每个所述比对组中的每个分词作为目标分词,在所述高频搜索记录中剔除所述目标分词后得到对比字段;

S242、对所述高频搜索记录进行向量转换,得到高频记录向量矩阵,对所述对比字段进行向量转换,得到对比向量矩阵;

S243、计算所述高频记录向量矩阵与所述对比向量矩阵之间的距离,将所述距离作为对应目标分词相对于所述高频搜索记录的信息损失。

本发明实施例中,可采用word2vec模型、NLP(Natural Language Processing,自然语言处理)模型等具有词向量转换功能的模型分别将所述高频搜索记录和所述对比字段进行向量转换。

本发明实施例中,可以采用切比雪夫距离公式计算所述高频记录向量矩阵与所述对比向量矩阵之间的距离。

可以理解的是,当所述距离越大时,表示在所述高频搜索记录中由于缺失所述目标分词导致的信息损失值越大,该目标分词对所述高频搜索记录的影响也就越大,该目标分词也就越趋近于正确的分词方式,因此,选取所述信息损失最大的分词作为对应比对组的已确定分词。

本发明实施例中,当一条高频搜索记录存在多个高频分词时,可以将多个高频分词做联合索引,如下所示为所述分词索引表中的一条记录:

其中,高频分词123456和高频分词CEO为联合索引,对应的高频搜索记录的位置信息为Infotable-123,“Infotable”表示所述高频搜索记录对应的数据表的名称,在实际应用中,也可以采用数据表的ID。“123”表示对应的高频搜索记录在“Infotable”数据表中的行号。

S3、接收用户输入的待搜索文本,识别所述待搜索文本的关键字,在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。

本发明实施例中,所述企业信息查询系统利用内嵌的浏览器供用户在浏览地址拦中输入需要检索的信息,即所述待搜索文本。

本发明实施例中,所述关键字是指所述待搜索文本中表征搜索对象的最直接的信息。例如,用户输入的待搜索文本为“A企业上市时间”,其中的关键字为“A企业”以及“上市时间”。

本发明实施例中,可以利用语义识别技术或者正则判断方法识别所述待搜索文本中的关键字。

详细地,参阅图5所示,所述识别所述待搜索文本的关键字,包括:

S31、根据预设的业务规则,对所述待搜索文本进行正则判断;

当所述搜索文本符合正则判断时,则执行S32、将正则判断的输出结果作为所述待搜索文本的关键字;

当所述搜索文本不符合正则判断时,则执行S33、对所述待搜索文本进行分词,得到一个或一个以上的待搜索分词;

S34、生成每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵;

S35、根据每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵,依次计算每个所述待搜索分词的关键值;

S36、选择所述关键值满足预设关键值条件的待搜索分词作为所述待搜索文本的关键字。

示例性地,所述预设的业务规则包括但不限于公司域名规则、公司邮箱规则、公司ID规则等,例如,通过正则判断所述待搜索文本是否符合公司域名规则,如果判断结果为符合,则所述待搜索文本对应的关键字为公司的域名。

进一步地,如果所述待搜索文本不符合任一所述预设的业务规则,可以利用计算所述待搜索文本对应的分词的关键值的方法,进一步挖掘所述待搜索文本对应的关键字。

可以理解的是,当所述待搜索文本中包含较多的待搜索分词时,并非每一个待搜索分词均能体现该待搜索文本的特征,因此,需要对所述多个待搜索分词进行筛选,本发明实施例根据每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵,依次计算每个所述待搜索分词的关键值,以根据所述关键值筛选出对该待搜索文本具有代表性的特征分词,以实现获取该待搜索文本的关键特征。

具体地,所述根据每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵,依次计算每个所述待搜索分词的关键值,包括:

利用如下关键值算法计算每个所述待搜索分词的关键值:

其中,K为所述关键值,|W|为所述待搜索文本的文本向量矩阵,T为矩阵转置符号,||为求模符号,

本发明实施例中,所述预设关键值条件可以是将每一个待搜索分词的关键值从大到小的顺序,选取排序前N位的待搜索分词作为所述关键字,其中,所述N可以是1或2等,可以根据实际情况进行设置。

示例性地,所述待搜索文本包括:待搜索分词A、待搜索分词B和待搜索分词C,其中,待搜索分词A的关键值为80,待搜索分词B的关键值为70,待搜索分词C的关键值为30,若N为2,则按照所述关键值从大到小的顺序,选取待搜索分词A和待搜索分词B为所述待搜索文本对应的关键字。

本发明实施例中,通过根据预设的业务规则,对所述待搜索文本进行正则判断,再对所述待搜索文本进行分词以及关键值计算,可以降低计算工作量,降低数据检索的消耗时间,提升数据检索的效率。

本发明实施例中,在所述分词索引表中,将所述关键字与所述分词索引表中的索引字段,即高频分词进行一一匹配,并获取匹配到的高频分词对应的位置信息,最后,根据匹配到的位置信息直接获取对应的数据记录,无需对所述预设数据库中的数据表进行遍历,提升了数据检索的效率。

本发明实施例,通过对高频搜索记录进行分词,得到高频分词,创建由高频分词为索引的分词索引表,在将待搜索文本对应的关键字与分词索引表中的高频分词进行匹配,获取与所述关键字匹配的高频分词指向的数据位置信息,根据获取到的位置信息得到搜索结果,这种操作方式,一方面在数据搜索过程中,利用分词索引表直接获取精准数据,无需遍历每张数据表的数据记录,提升数据搜索效率,另一方面,利用待搜索文本的关键字与分词索引表中的高频分词进行匹配,可以精准数据搜索比对对象,提升数据搜索效率。

如图6所示,是本发明一实施例提供的数据搜索装置的功能模块图。

本发明所述数据搜索装置100可以安装于电子设备中。根据实现的功能,所述数据搜索装置100包括:高频搜索记录获取模块101、分词索引表创建模块102及基于索引表的数据搜索模块103。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

所述高频搜索记录获取模块101,用于获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;

所述分词索引表创建模块102,用于对所述高频搜索记录执行分词操作,得到高频分词,以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;

所述基于索引表的数据搜索模块103,用于接收用户输入的待搜索文本,识别所述待搜索文本的关键字,在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。

详细地,本发明实施例中所述数据搜索方法100中所述的各模块在使用时采用与上述图1至图5中所述的数据搜索方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。

如图7所示,是本发明一实施例提供的实现数据搜索方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如数据搜索程序。

其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据搜索程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如数据搜索程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图7仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图7示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的数据搜索程序是多个指令的组合,在所述处理器10中运行时,可以实现:

获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;

对所述高频搜索记录执行分词操作,得到高频分词;

以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;

接收用户输入的待搜索文本,识别所述待搜索文本的关键字;

在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。

进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。

本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:

获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;

对所述高频搜索记录执行分词操作,得到高频分词;

以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;

接收用户输入的待搜索文本,识别所述待搜索文本的关键字;

在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于全息投影技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术分类

06120115726047