导航：首页> 计算；推算；计数>一种数据检索方法、装置、电子设备及计算机可读介质

一种数据检索方法、装置、电子设备及计算机可读介质

文献发布时间：2024-04-18 19:58:53

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据检索方法、装置、电子设备及计算机可读介质。

背景技术

目前，现有的全文检索可以采用硬扫描类，检索性能低，因需要读取全部的文件块，读取的数据量非常大，且文件读取速度受限于物理机IO的限制，导致检索时长过高。采用列存类进行全文检索，场景限制较大，只能通过预设的字段进行过滤，如需进行非预设字段的即席检索，将退化为硬扫描的实现。

发明内容

有鉴于此，本申请实施例提供一种数据检索方法、装置、电子设备及计算机可读介质，能够解决现有的全文检索性能低、场景限制较大的问题。

为实现上述目的，根据本申请实施例的一个方面，提供了一种数据检索方法，包括：

响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词；

根据单词，确定对应的分片标识；

根据分片标识确定对应的倒排索引文件，进而基于倒排索引文件和主题标识，确定数据块识别码列表；

基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。

可选地，获取对应的主题标识，包括：

获取数据检索请求对应的字典数据结构；

从字典数据结构中提取对应的主题标识。

可选地，根据分片标识确定对应的倒排索引文件，包括：

获取分片标识关联的文件起始位置偏移量和文件长度；

根据文件起始位置偏移量和文件长度拉取分片标识的倒排索引文件。

可选地，在确定对应的分片标识之前，方法还包括：

将日志原文数据基于字典数据结构压缩得到数据块，并将数据块对应的元组信息推送至消息队列；

消费消息队列中的消息进而基于消息对应的元组信息对所对应的数据块进行分词，并得到对应的分片标识，以构建对应的倒排索引。

可选地，将日志原文数据基于字典数据结构压缩得到数据块，包括：

将日志原文数据按照字典数据结构计算指纹；

依据指纹进行路由，以将相同指纹的数据在内存中整理为数据块。

可选地，基于倒排索引文件和主题标识，确定数据块识别码列表，包括：

在倒排索引文件中获取主题标识对应的主题下的数据块识别码列表。

可选地，基于数据块返回满足检索条件的数据，包括：

若检索条件数据中包含在预设时间段出现频率高于预设阈值的单词，则调用透传字段索引，以基于数据块返回满足检索条件数据的数据。

另外，本申请还提供了一种数据检索装置，包括：

获取单元，被配置成响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词；

分片标识确定单元，被配置成根据单词，确定对应的分片标识；

确定单元，被配置成根据分片标识确定对应的倒排索引文件，进而基于倒排索引文件和主题标识，确定数据块识别码列表；

数据检索单元，被配置成基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。

可选地，获取单元进一步被配置成：

获取数据检索请求对应的字典数据结构；

从字典数据结构中提取对应的主题标识。

可选地，确定单元进一步被配置成：

获取分片标识关联的文件起始位置偏移量和文件长度；

根据文件起始位置偏移量和文件长度拉取分片标识的倒排索引文件。

可选地，数据检索装置还包括倒排索引构建单元，被配置成：

将日志原文数据基于字典数据结构压缩得到数据块，并将数据块对应的元组信息推送至消息队列；

消费消息队列中的消息进而基于消息对应的元组信息对所对应的数据块进行分词，并得到对应的分片标识，以构建对应的倒排索引。

可选地，倒排索引构建单元进一步被配置成：

将日志原文数据按照字典数据结构计算指纹；

依据指纹进行路由，以将相同指纹的数据在内存中整理为数据块。

可选地，确定单元进一步被配置成：

在倒排索引文件中获取主题标识对应的主题下的数据块识别码列表。

可选地，数据检索单元进一步被配置成：

若检索条件数据中包含在预设时间段出现频率高于预设阈值的单词，则调用透传字段索引，以基于数据块返回满足检索条件数据的数据。

另外，本申请还提供了一种数据检索电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述的数据检索方法。

另外，本申请还提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述的数据检索方法。

上述发明中的一个实施例具有如下优点或有益效果：本申请通过响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词；根据单词，确定对应的分片标识；根据分片标识确定对应的倒排索引文件，进而基于倒排索引文件和主题标识，确定数据块识别码列表；基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。从而在全文检索之前减少需要存储的数据，并在全文检索时降低检索时长，弱化场景限制，提高全文检索的效率和准确性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本申请，不构成对本申请的不当限定。其中：

图1是根据本申请一个实施例所提供的数据检索方法的主要流程的示意图；

图2是根据本申请一个实施例所提供的数据检索方法的主要流程的示意图；

图3是根据本申请一个实施例所提供的数据检索方法的应用场景示意图；

图4是根据本申请实施例的数据检索装置的主要单元的示意图；

图5是本申请实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。需要说明的是，本公开的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

图1是根据本申请一个实施例所提供的数据检索方法的主要流程的示意图，如图1所示，数据检索方法包括：

步骤S101，响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词。

本实施例中，数据检索方法的执行主体(例如，可以是服务器)可以通过有线连接或无线连接的方式，接收数据检索请求。执行主体在接收到数据检索请求后，可以获取该请求对应的主题标识和检索条件数据。其中，主题标识可以是topic字段，用于表征日志检索的基本单元。检索条件数据可以是输入的检索关键字、词或句子，本申请实施例对检索条件数据不做具体限定。

具体地，获取对应的主题标识，包括：获取数据检索请求对应的字典数据结构；从字典数据结构中提取对应的主题标识。

本申请实施例中，字典数据结构例如可以是Dataframe header。字典数据结构dataframe header中携带维度(label)信息(可以是应用名称或用户自定义维度label)。其中，从字典数据结构中提取对应的主题标识，例如可以是从Dataframe header获取检索的基本单元，例如搜索的“手机”、“水果”等，本申请实施例对主题标识不做具体限定。

步骤S102，根据单词，确定对应的分片标识。

具体地，在确定对应的分片标识之前，数据检索方法还包括：将日志原文数据基于字典数据结构压缩得到数据块，并将数据块对应的元组信息推送至消息队列；消费消息队列中的消息进而基于消息对应的元组信息对所对应的数据块进行分词，并得到对应的分片标识，以构建对应的倒排索引。

示例的，将日志原文数据基于字典数据结构dataframe header压缩为一个以通用唯一识别码UUID(dataChunkUID)命名的“日志原文数据压缩块(dataChunk)”。

将该dataChunk的元组信息，例如(tenant，topic，dataChunkUID，timeRange)，其中，tenant：公有云租户信息；topic：公有云日志主题，用于管理一类数据；dataChunkUID：上面2步在内存中整理的文件块的UUID，用于索引数据块文件；timerange：在内存中整理的文件块的日志时间范围，用于检索数据块文件时做剪枝。

将数据块对应的元组信息推送至BoltDB中的接收队列及下游消息队列中。其中，BoltDB是一个嵌入式key/value的数据库。

下游监听到上游推送的消息队列(tenant，topic，dataChunkUID，timeRange)，并消费该消息队列中的消息，以基于该消息队列中的消息对所对应的数据块进行分词。示例的，下游根据消息队列中的元组信息中的dataChunkUID获取原始文件，对原始文件进行分析，将如下的元组信息(tenant，topic，term，partitionID，dataChunkUID，timeRange)发送到reduce任务，其中，分片标识partionID由对单词term做hash后取模1024得出。以基于分词得到的单词、对应的数据块以及对应的分片标识构建倒排索引。

具体地，将日志原文数据基于字典数据结构压缩得到数据块，包括：将日志原文数据按照字典数据结构计算指纹；依据指纹进行路由，以将相同指纹的数据在内存中整理为数据块。

示例的，执行主体可以将接收到的数据块dataframe，按照字典数据结构dataframe header计算指纹，然后依据指纹进行路由，进而将相同指纹的数据在内存中整理为数据块。数据块积累到指定的块大小(256MB)或窗口时间(1小时)时，压缩为一个以UUID(dataChunkUID)命名的：日志原文数据压缩块(dataChunk)。

步骤S103，根据分片标识确定对应的倒排索引文件，进而基于倒排索引文件和主题标识，确定数据块识别码列表。

分片标识PartitionID。Offset表示该文件在合并后的文件的起始位置偏移量。Len表示该文件的长度。Offset+len能够快速的拉取指定分片标识partitionID的倒排索引文件。从倒排索引文件中拉取与主题标识对应的数据块识别码，进而得到数据块识别码列表。具体地，倒排索引在实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引，带有倒排索引的文件称为倒排索引文件。

步骤S104，基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。

执行主体可以根据数据块识别码列表从对象存储目录下拉取对应的数据块。从拉取的数据块中查找与检索条件数据对应的数据并返回查找到的数据。

本实施例通过响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词；根据单词，确定对应的分片标识；根据分片标识确定对应的倒排索引文件，进而基于倒排索引文件和主题标识，确定数据块识别码列表；基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。从而在全文检索之前减少需要存储的数据，并在全文检索时降低检索时长，弱化场景限制，提高全文检索的效率和准确性。

图2是根据本申请一个实施例所提供的数据检索方法的主要流程示意图，如图2所示，数据检索方法包括：

步骤S201，响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词。

步骤S202，根据单词，确定对应的分片标识。

步骤S203，获取分片标识关联的文件起始位置偏移量和文件长度。

文件起始位置偏移量可以用于表征分片标识对应的倒排索引文件与全量倒排索引文件的起始位置的距离，文件长度用于表征分片标识对应的倒排索引文件所占用的字节数。

步骤S204，根据文件起始位置偏移量和文件长度拉取分片标识的倒排索引文件。

根据文件起始位置偏移量定位分片标识对应的倒排索引文件的起始位置，从定位到的起始位置开始拉取对应文件长度的倒排索引文件。

步骤S205，基于倒排索引文件和主题标识，确定数据块识别码列表。

具体地，基于倒排索引文件和主题标识，确定数据块识别码列表，包括：在倒排索引文件中获取主题标识对应的主题下的数据块识别码列表。

在倒排索引文件中可以存储有主题标识与数据块识别码的对应关系，通过确定出的主题标识可以从所对应的倒排索引文件中确定出对应的数据块识别码，进而得到对应的数据块识别码列表。

步骤S206，基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。

具体地，基于数据块返回满足检索条件的数据，包括：若检索条件数据中包含在预设时间段出现频率高于预设阈值的单词，则调用透传字段索引，以基于数据块返回满足检索条件数据的数据。

示例的，当检索条件数据中出现了在预设时间段内的访问高频单词，则启动透传字段索引以加快检索速度，基于数据块返回满足检索条件数据的数据，具体地，高频字段占用空间大，对查询效率提升低，所以要用一个字段存放这类字段，这类字段被称为透传字段。而透传字段索引即为对应于透传字段的快速检索通道，目的是加快对透传字段相关信息的检索效率。

图3是根据本申请一个实施例所提供的数据检索方法的应用场景示意图。本申请实施例的数据检索方法，应用于全文检索场景。在进行全文检索之前，可以执行写入链路，具体地，写入链路可以包括：

步骤A：上报日志原文数据，将日志原文文件中的一批数据打包为一个数据块dataframe，字典数据结构dataframe header中携带维度(label)信息(可以是应用名称，用户自定义label)，将封装的数据块datafrme推送到服务端。

步骤B：原始数据整理为块文件，并记录块索引。将接收到的数据块dataframe，按照字典数据结构dataframe header计算指纹。依据指纹进行路由。将相同指纹的数据在内存中整理为块数据。块数据积累到指定的块大小(256MB)或窗口时间(例如，1小时)时，压缩为一个以UUID(dataChunkUID)命名的日志原文数据压缩块(dataChunk)。以data/tenant/topic为key持久化日志原文数据压缩块dataChunk文件并将该dataChunk的如下元组信息(tenant，topic，dataChunkUID，timeRange)推送到嵌入式key/value的数据库BoltDB中的接收队列及下游消息队列中。示例的，将构建的dataChunk文件(日志原始数据块文件)存放到对象存储的data/tenant/topic目录下，其中tenant及topic需要按照实际的值来进行替换，文件名称为dataChunkUID。其中tenant(公有云租户信息)，topic(公有云日志主题)由header提取得到，timeRange为日志数据的起止时间范围。boltDB消费队列数据，批量更新数据库记录。并定时将boldDB内容整理压缩为日志原文数据压缩块文件索引(indexChunk)。以index/tenant/topic/timeBucket为key持久化日志原文数据压缩块文件索引indexChunk文件。

步骤C：对块文件数据分词构建倒排索引，监听上游消息队列，即(tenant，topic，dataChunkUID，timeRange)。依据dataChunkUID获取日志原始数据块文件。对原始文件进行分词，将如下元组信息(tenant，topic，term，partitionID，dataChunkUID，timeRange)发送到reduce任务(分片标识partionID由对单词term做hash后取模1024得出)。一个Reduce作业会把输入的数据切分为若干独立的数据块(即进行分片处理，以便于索引分片信息)，然后由map任务以完全并行的方式处理它们。通过reduce任务实现对倒排索引中的单词去重，相同的单词只保留一个单词-日志原文ID的记录。通过分片partition可以降低检索单个单词需要拉取的倒排索引的大小，也具备快速扩容计算节点来支持更强的查询性能的能力。其中topic(公有云日志主题)字段从字典数据结构Dataframe header中提取得到。以(公有云租户信息tenant，公有云日志主题topic，分片标识partitionID，时间段timeBucket)为分区键key进行集群范围内跨节点、跨进程的数据分发shuffle，形成倒排索引压缩(gzip)termIndexchunk文件列表。这里通过把元组数据作为key，映射为下游固定的一个实例，实现多个分词实例把分词结果传输到同一个下游聚合任务实例中，即可达到同一个元组数据只存一个文件的效果。具体地，termIndexchunk文件为单词term到数据块块识别码列表dataChunkUIDList的映射信息的压缩文件。聚合全部节点的termIndexchunk文件，生成termIndexChunkAll文件及termIndexChunkAll.idx文件。termIndexChunkAll.idx生成规则：聚合全部的termIndexchunk信息，按照partitionID递增序列，生成元素为元组(partitionID，offset，len)的数组信息，上传数组的二进制数据到对象存储，数据不落本地盘。具体地，termIndexChunkAll生成规则：不进行本地文件的合并。通过对象存储的分片上传接口实现上传结果文件的合并。分片上传接口参数：partitionID，offset，len作为parNumber，fileOffset，partSize参数，其中，标准数量parNumber，偏移量fileOffset，局部尺寸partSize为对象存储数据上传接口的必要参数。offset表示该文件在合并后的文件的起始位置偏移量，len表示该文件的长度，offset+len能够快速拉取指定分片标识partitionID的索引文件，定时合并与压缩termIndexChunk文件，按照topic(公有云日志主题，用于管理一类数据)动态调整优先级，热点topic高优先级，低频topic适当放慢或晚上执行合并。构建透传字段索引：统计单词term的term(单词)Index(索引)Chunk(分区、组块)分布，在各个时间段timeBucket下持有的数据块编码dataChunkUID数量大于该时间段timeBucket下数据块编码dataChunkUID总量的50％，则将该字段添加到透传字段索引。使用开源的字典树Succinct Tree进行字典编码，聚合单词term索引：跳过透传字段，合并dataChunkUID。用户做日志检索是按照topic为基本单元来执行的，统计了每个topic最近一个小时的访问量，有访问量的就是热点topic，没访问量的就是低频topic，全文检索实现的目的就是加快用户的检索速度。如果用户一直在查询，就需要让其topic更快的被索引出来。

在写入链路完成后，可以执行查询链路。具体地，查询链路可以包括：将用户查询条件(例如日志检索条件)按照时段拆分为并行检索任务，拉取该时段索引分片信息，进而根据索引分片信息拉取分词倒排索引信息，并基于分词倒排索引信息拉取对应的文件块索引。计算数据块识别码chunkID，拉取日志原文压缩数据块，进行内容匹配。示例的，具体实现可以如下所示：

步骤D：分词，以拆分得到各个单词term。

步骤E：获取该时段单词term倒排索引信息。具体为：获取透传字段索引，如果存在，则跳过；获取分片标识partitionID：根据计算取模公式Hash(term)％1024得出；获取分片partition信息：依据分片partion计算偏移量，直接读取大的索引文件termIndexChunkAll.idx对应位置数据，获取索引文件即termIndexchunk文件。其中，termIndexChunkAll存放全部的已分区的倒排索引数据，termIndexChunkAll.idx存放termIndexChunkAll中的各个分组的gzip文件在合并后的文件中的位置信息，以支持在termIndexChunkAll这个大的索引文件中快速的提取特定分区的索引文件。在单词索引分区termIndexchunk中查找单词term的数据块识别码列表dataChunkUIDList。

步骤F：获取主题topic(示例的，topic字段从字典数据结构header中提取)下的数据块识别码列表dataChunkUIDList。

步骤G：计算公共的数据块识别码列表dataChunkUIDList。

步骤H：依据数据块识别码列表dataChunkUIDList拉取数据块dataChunk，并返回满足查询条件的数据。

图4是根据本申请实施例的数据检索装置的主要单元的示意图。如图4所示，数据检索装置400包括获取单元401、分片标识确定单元402、确定单元403和数据检索单元404。

获取单元401，被配置成响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词。

分片标识确定单元402，被配置成根据单词，确定对应的分片标识。

确定单元403，被配置成根据分片标识确定对应的倒排索引文件，进而基于倒排索引文件和主题标识，确定数据块识别码列表。

数据检索单元404，被配置成基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。

在一些实施例中，获取单元401进一步被配置成：获取数据检索请求对应的字典数据结构；从字典数据结构中提取对应的主题标识。

在一些实施例中，确定单元403进一步被配置成：获取分片标识关联的文件起始位置偏移量和文件长度；根据文件起始位置偏移量和文件长度拉取分片标识的倒排索引文件。

在一些实施例中，数据检索装置还包括图4中未示出的倒排索引构建单元，被配置成：将日志原文数据基于字典数据结构压缩得到数据块，并将数据块对应的元组信息推送至消息队列；消费消息队列中的消息进而基于消息对应的元组信息对所对应的数据块进行分词，并得到对应的分片标识，以构建对应的倒排索引。

在一些实施例中，倒排索引构建单元进一步被配置成：将日志原文数据按照字典数据结构计算指纹；依据指纹进行路由，以将相同指纹的数据在内存中整理为数据块。

在一些实施例中，确定单元403进一步被配置成：在倒排索引文件中获取主题标识对应的主题下的数据块识别码列表。

在一些实施例中，数据检索单元404进一步被配置成：若检索条件数据中包含在预设时间段出现频率高于预设阈值的单词，则调用透传字段索引，以基于数据块返回满足检索条件数据的数据。

需要说明的是，本申请的数据检索方法和数据检索装置在具体实施内容上具有相应关系，故重复内容不再说明。

图5示出了可以应用本申请实施例的数据检索方法或数据检索装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有数据检索处理屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所提交的数据检索请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词；根据单词，确定对应的分片标识；根据分片标识确定对应的倒排索引文件，进而基于倒排索引文件和主题标识，确定数据块识别码列表；基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。从而在全文检索之前减少需要存储的数据，并在全文检索时降低检索时长，弱化场景限制，提高全文检索的效率和准确性。

需要说明的是，本申请实施例所提供的数据检索方法一般由服务器505执行，相应地，数据检索装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本申请公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、分片标识确定单元、确定单元和数据检索单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备响应于数据检索请求，获取对应的主题标识和检索条件数据，进而调用分词程序以拆分检索条件数据得到各个单词；根据单词，确定对应的分片标识；根据分片标识确定对应的倒排索引文件，进而基于倒排索引文件和主题标识，确定数据块识别码列表；基于数据块识别码列表拉取对应的数据块，并基于数据块返回满足检索条件的数据。

根据本申请实施例的技术方案，可以实现在全文检索之前减少需要存储的数据，并在全文检索时降低检索时长，弱化场景限制，提高全文检索的效率和准确性。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：京东科技信息技术有限公司;

上一篇：水网调蓄方法、装置、电子设备和计算机可读介质
下一篇：训练语料扩充方法、装置、电子设备及存储介质