掌桥专利:专业的专利平台
掌桥专利
首页

检索数据的方法、向客户端发送检索数据的方法及装置

文献发布时间:2023-06-19 12:24:27


检索数据的方法、向客户端发送检索数据的方法及装置

技术领域

本公开涉及计算机技术领域,尤其涉及智能搜索技术领域。

背景技术

随着用户的使用,应用程序所产生的数据量不断增加。比如IM(InstantMessaging,即时通讯)应用里面收到的消息、云盘应用存储的资源等数据,都会随着使用时间的增长,变得越来越多。因此,对于应用程序产生的数据进行检索的需求越来越强烈。

发明内容

本公开提供了一种检索数据的方法、向客户端发送检索数据的方法、装置、设备以及存储介质。

根据本公开的一方面,提供了一种检索数据的方法,包括:将获取到的针对应用数据的检索请求发送至云端,以使所述云端根据所述检索请求确定至少一个关键词;接收来自所述云端的所述至少一个关键词;以及根据所述至少一个关键词,检索本地数据库中的数据,得到检索结果。

根据本公开的另一方面,提供了一种向客户端发送检索数据的方法,包括:获取来自客户端的检索请求;根据所述检索请求,确定至少一个关键词;以及将所述至少一个关键词作为检索数据发送至所述客户端。

根据本公开的另一方面,提供了一种检索数据的装置,包括:第一发送模块,用于将获取到的检索请求发送至云端,以使所述云端根据所述检索请求确定至少一个关键词;接收模块,用于接收来自所述云端的所述至少一个关键词;以及检索模块,用于根据所述至少一个关键词,检索本地数据库中的数据,得到检索结果。

根据本公开的另一方面,提供了一种向客户端发送检索数据的装置,包括:获取模块,用于获取来自客户端的检索请求;确定模块,用于根据所述检索请求,确定至少一个关键词;以及第二发送模块,用于将所述至少一个关键词作为检索数据发送至所述客户端。

本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所示的方法。

根据本公开实施例的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开实施例所示的方法。

根据本公开实施例的另一方面,提供了一种计算机程序产品,计算机程序,所述计算机程序在被处理器执行时实现本公开实施例所示的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1示意性示出了根据本公开实施例的可以应用检索数据的方法和装置的示例性系统架构;

图2示意性示出了根据本公开实施例的检索数据的方法的流程图;

图3示意性示出了根据本公开另一实施例的检索数据的方法的流程图;

图4示意性示出了根据本公开的实施例的检索数据的方法的示意图;

图5示意性示出了根据本公开实施例的检索数据的装置的框图;

图6示意性示出了根据本公开另一实施例的向客户端发送检索数据的装置的框图;以及

图7示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1示意性示出了根据本公开实施例的可以应用检索数据的方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示,根据该实施例的系统架构100可以包括客户端101、102、103,网络104和云端105。网络104用以在客户端101、102、103和云端105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用客户端101、102、103通过网络104与云端105交互,以接收或发送消息等。客户端101、102、103上可以安装有各种应用程序,例如网盘类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信应用、邮箱客户端、社交平台应用等(仅为示例)。

客户端101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

云端105可以是提供各种服务的服务器,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(〞Virtual Private Server〞,或简称〞VPS〞)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。。云端105可以对接收到的检索请求等数据进行分析等处理,并将处理结果(例如根据检索请求获取或生成的信息或数据等)反馈给终端设备。

应该理解,图1中的客户端、网络和云端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端、网络和云端。

需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。

图2示意性示出了根据本公开实施例的检索数据的方法的流程图。

如图2所示,该方法200包括操作S210~操作S260。

在操作S210,客户端将获取到的针对应用数据的检索请求发送至云端。

根据本公开的实施例,应用数据可以包括由应用程序生成的数据。其中,应用程序,如网盘类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信应用、邮箱客户端、社交平台应用等。示例性地,对于即时通信应用来说,应用数据可以包括消息记录,对于网盘应用来说,应用数据可以包括与网盘中存储的资源相关的各种信息,例如资源名称、资源大小、上传日期、资源内容等。

根据本公开的实施例,当用户需要检索应用数据时,可以通过客户端输入检索字符,客户端可以根据用户输入的检索字符生成检索请求(query),并将检索请求发送至云端。

然后,在操作S220,云端获取来自客户端的检索请求。

在操作S230,云端根据检索请求,确定至少一个关键词。

根据本公开的实施例,可以对检索请求进行分词处理,得到至少一个原始词。接着对至少一个原始词进行纠错处理,得到纠错处理后的至少一个原始词。然后对纠错处理后的至少一个原始词进行扩展处理,得到至少一个关键词。

根据本公开的实施例,检索请求中的检索字符由连续的字序列构成。分词处理可以用于将检索请求中连续的字序列重新组合成词序列,即识别这些连续的字序列所构成的单词。

根据本公开的实施例,由于打字错误等原因,用户会输入并不符合用户的本意的检索字符,相应地,该检索字符经过分词处理后得到的单词是错误的。基于此,纠错处理可以用于根据检索请求识别用户的意图,并根据用户的意图,将错误的单词更正为更符合用户本意的正确的单词。

根据本公开的实施例,同一个事物或概念可以由多种不同的单词来表达。基于此,扩展处理可以用于确定所表达的事物或概念与原始词相同或相似的其他的单词,从而可以对原始词进行扩展,扩展后单词可以更全面地覆盖原始词的表意。

例如,检索请求为“北京小迟”,则经过分词处理可以得到“北京”和“小迟”两个原始词。然后对这两个原始词进行纠错处理,其中将“小迟”纠正为“小吃”。接下来,对“北京”和“小吃”进行扩展处理,其中“北京”可以扩展为“北京”、“首都”、“京城”等,“小吃”可以扩展为“小吃”、“美食”、“食物”、“食品”等。最后得到的关键词包括“北京”、“首都”、“京城”、“小吃”、“美食”、“食物”、“食品”等。

在操作S240,云端将至少一个关键词作为检索数据发送至客户端。

在操作S250,客户端接收来自云端的至少一个关键词。

在操作S260,客户端根据至少一个关键词,检索本地数据库中的数据,得到检索结果。

根据本公开的实施例,针对至少一个关键词中的每个关键词,客户端可以根据倒排索引信息,查询本地数据库中包含关键词的特征数据,作为检索结果其中,其中,特征数据与应用数据对应。

根据本公开的实施例,预先设置有倒排索引信息。倒排索引信息例如可以包括单词词典和倒排列表。其中,单词词典可以包括特征数据中出现过的所有单词。单词词典内包括一个或多个索引项,每条索引项可以包括一个单词和该单词所对应的指向“倒排列表”的指针。倒排列表可以表示单词词典内每个单词出现在哪些特征数据中,倒排列表中每条记录称为一个倒排项,单词词典内的每个单词对应于一个倒排项,每个倒排项包括包含该单词的所有特征数据。基于此,本实施例中,针对每个关键词,可以在单词词典中查找与关键词匹配的单词,然后根据该单词所对应的指针确定对应的倒排项,根据该倒排项确定包含该关键词的所有特征数据。

根据本公开的实施例,在检索数据时,可以确定单词词典内每个单词与关键词之间的相似度,在单词与关键词之间的相似度大于相似度阈值的情况下,确定该单词与该关键词匹配。示例性地,本实施例中,可以计算两词所对应的词向量之间的欧式距离作为两词之间的相似度。

根据本公开的实施例,由客户端将检索请求发送至云端。由云端对检索请求进行分析,确定关键词,发送给客户端。然后由客户端根据云端确定的关键词在本地数据库进行检索。可以利用云端的分析处理能力,至少部分解决了海量应用数据难以检索的问题。另外,由于检索在客户端本地进行,从而节约了云端所需消耗的计算资源。

有益效果在于可以利用云端的分析处理能力,解决了海量应用数据的检索问题。另外,在本地进行检索节约了云端检索所需消耗的计算资源。

图3示意性示出了根据本公开另一实施例的检索数据的方法的流程图。

如图3所示,该方法300包括操作S310~操作S3120。

在操作S310,客户端将应用程序的应用数据上传云端。

根据本公开的实施例,当客户端中的应用程序生成应用数据后,客户端可以将这些应用数据发送给云端,以由云端存储。

在操作S320,云端获取来自客户端的应用数据。

根据本公开的实施例,云端获取到来自客户端的应用数据后,可以将应用数据存储在云端。

在操作S330,云端对应用数据进行内容分析处理,得到特征数据。

根据本公开的实施例,内容分析处理可以用于分析应用数据的属性和内容,并生成特征数据用于表示该属性和内容。可以理解的是,特征数据的数据量小于应用数据的数据量。

示例性地,本实施例中,特征数据可以包括应用数据的属性信息和内容特征。其中,应用数据的属性信息例如可以包括文件名、上级目录等。示例性地,本实施例中,可以直接从应用数据中读取属性信息,可以根据应用数据的内容来确定内容特征。

根据本公开的实施例,可以预先训练机器学习模型,用于提取应用数据的内容的特征。基于此,可以将应用数据输入预先训练好的机器学习模型,利用机器学习模型分析应用数据的内容,得到应用数据的属性信息和内容特征,作为特征数据。

在操作S340,云端将特征数据发送至客户端。

在操作S350,客户端获取来自云端的特征数据。

在操作S360,将特征数据存储至本地数据库。

根据本公开的实施例,获取来自云端的特征数据之后,还可以并根据特征数据确定倒排索引信息。对于特征数据中未包含在单词词典中的单词,可以在单词词典中新增对应的索引项,并在倒排列表中新增对应的倒排项。对于该特征数据中已包含在单词词典中的单词,可以将该特征数据加入倒排列表中与该单词对应的倒排项中。

在操作S370,客户端响应于获取到的针对应用数据的检索请求,将获取到的针对应用数据的检索请求发送至云端。

在操作S380,云端获取来自客户端的检索请求。

在操作S390,云端根据检索请求,确定至少一个关键词。

在操作S3100,云端将至少一个关键词发送至客户端。

在操作S3110,客户端接收来自云端的至少一个关键词。

在操作S3120,根据至少一个关键词,检索本地数据库中的数据,得到检索结果。

根据本公开的实施例,操作S380~S3120例如可以参考上文,在此不再赘述。

根据本公开的实施例,客户端将应用数据发送至云端,云端在存储应用数据的同时,对应用数据进行内容分析处理,得到特征数据,将特征数据发回客户端,由客户端存储在本地数据库中。由于特征数据的数据量小于应用数据的数据量,因此可以降低对本地数据库的空间占用。

下面参考图4,结合具体实施例对检索数据的方法做进一步说明。本领域技术人员可以理解,以下示例实施例仅用于理解本公开,本公开并不局限于此。

图4示意性示出了根据本公开的实施例的检索数据的方法的示意图。

在图4中示出了用户410、客户端420和云端430,其中,客户端420包括本地数据库421,云端430包括云端数据库431。响应于用户410启动应用程序,客户端420通过后台进程请求数据同步服务,该服务用于执行数据上传操作43。客户端420可以通过数据上传操作43将需要上传云端430的应用数据上传至云端430。然后云端430将接收到来自客户端420的应用数据存储至云端数据库431,并对应用数据进行内容分析处理44,得到特征数据,然后通过数据同步操作45将特征数据发送至客户端420,由客户端420存储至本地数据库421。其中,数据同步操作45可以通过后台进程执行。

在用户410发起实时搜索操作时,通过客户端420输入检索字符。客户端420根据检索字符生成检索请求(query)41,并将query 41发送至云端430。云端430对接到的query 41进行query分析处理46,以对用户的检索意图进行理解,并生成一个或多个关键词,发送至客户端420。客户端420根据关键词对本地数据库421中的数据执行召回和倒排索引操作42,得到检索结果。然后客户端420将检索结果展示给用户410。

根据本公开的实施例,在检索的过程中利用云端的分析处理能力,使得检索更加智能。另外,由客户端执行倒排索引,至少部分解决了海量应用数据的检索问题,节约了云端建立倒排索引所需消耗的资源。

图5示意性示出了根据本公开实施例的检索数据的装置的框图。

如图5所示,该检索数据的装置500包括第一发送模块510、接收模块520和检索模块530。该装置500可以应用于上文所示的客户端。

第一发送模块510,可以用于将获取到的检索请求发送至云端,以使云端根据检索请求确定至少一个关键词。

接收模块520,可以用于接收来自云端的至少一个关键词。

检索模块530,可以用于根据至少一个关键词,检索本地数据库中的数据,得到检索结果。

图6示意性示出了根据本公开另一实施例的向客户端发送检索数据的装置的框图。

如图6所示,该向客户端发送检索数据的装置600包括获取模块610、确定模块620和第二发送模块630。该装置600可以应用于上文所示的云端。

获取模块610,可以用于获取来自客户端的检索请求。

确定模块620,可以用于根据检索请求,确定至少一个关键词。

第二发送模块630,可以用于将至少一个关键词发送至客户端。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如检索数据的方法。例如,在一些实施例中,检索数据的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的检索数据的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行检索数据的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 检索数据的方法、向客户端发送检索数据的方法及装置
  • 数据检索装置、数据检索方法、数据检索程序、数据登记装置、数据登记方法、数据登记程序以及信息处理装置
技术分类

06120113283974