掌桥专利:专业的专利平台
掌桥专利
首页

一种文本检索方法、装置、终端设备和存储介质

文献发布时间:2023-06-19 18:30:43


一种文本检索方法、装置、终端设备和存储介质

技术领域

本发明涉及数据处理技术领域,特别是涉及一种文本检索方法、装置、终端设备和存储介质。

背景技术

随着科学技术的发展与进步,移动网络也逐步普及,这样就会产生海量数据,在这些海量数量中想要查找到需要的数据就尤为重要。

目前,在检索一个文本数据时,通常只能满足某一检索条件,这样,就只能满足少部分人群的检索需求,若想要查询到更加准确的数据,可以为各个检索条件设置不同的权重值,但是当检索需求发生变化时,需要人工调整权重值,这样,不仅消耗大量的人力物力,同时检索匹配度较低。

发明内容

本发明提供了一种文本检索方法及装置,以解决现有技术中对的文本检索响应较慢的问题。

为了解决上述问题,本发明是这样实现的:

第一方面,本发明实施例提供了一种文本检索方法,包括:

获取目标检索文本;

根据所述目标检索文本和预先建立的排序模型,确定与所述目标检索词对应的检索结果,其中,所述预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;所述检索结果至少包括排序参数和与所述排序参数对应的权重值;

根据所述排序参数和与所述排序参数的权重值,对所述检索结果进行排序,得到与所述目标检索文本对应的目标检索结果。

可选地,所述排序参数至少包括发表时间、来源信息、浏览量信息、文章关键词、发表人名称、发表机构或领域分类信息中的一种或多种。

可选地,所述根据所述排序参数和与所述排序参数的权重值,对所述检索结果进行排序,得到与所述目标检索文本对应的目标检索结果,包括:

获取每一个检索结果的各个排序参数的分值;

根据所述排序参数的分值和与所述排序参数对应的权重值,确定每一个检索结果的排序分值;

根据所述每一个检索结果的排序分值的大小,对所述检索结果进行排序,得到与所述目标检索文本对应的目标检索结果。

可选地,所述根据所述排序参数的分值和与所述排序参数对应的权重值,确定每一个检索结果的排序分值,包括:

分别计算每一个排序参数的分值和与所述排序参数对应的权重值的乘积分值;

将一个所述乘积分值或多个所述乘积分值之和,确定为所述检索结果的排序分值。

可选地,所述预先建立的排序模型通过如下方式得到:

获取训练样本数据,其中,所述训练样本数据至少包括历史查询信息和与所述历史查询信息对应的文档信息;所述训练样本数据来自所述历史检索日志;

根据所述历史查询信息,获取所述文档信息的特征信息,其中,所述特征信息至少包括历史查询信息与所述文档信息之间的相关度,以及所述文档信息的特征数据和重要性信息;

采用监督机器学习方法,对所述特征信息进行机器学习,得到训练模型;

将所述历史查询信息输入到所述训练模型中,得到文档序列;其中,所述文档序列中包括排序参数和与排序参数对应的权重值;

在所述文档序列和所述文档信息的匹配度大于预设值的情况下,将与所述文档序列对应的训练模型确定为所述预先建立的排序模型。

第二方面,本发明实施例提供了一种文本检索装置,包括:

获取模块,用于获取目标检索文本;

检索模块,用于根据所述目标检索文本和预先建立的排序模型,确定与所述目标检索词对应的检索结果,其中,所述预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;所述检索结果至少包括排序参数和与所述排序参数对应的权重值;

确定模块,用于根据所述排序参数和与所述排序参数的权重值,对所述检索结果进行排序,得到与所述目标检索文本对应的目标检索结果。

可选地,所述排序参数至少包括发表时间、来源信息、浏览量信息、文章关键词、发表人名称、发表机构或领域分类信息中的一种或多种。

可选地,所述确定模块用于:

获取每一个检索结果的各个排序参数的分值;

根据所述排序参数的分值和与所述排序参数对应的权重值,确定每一个检索结果的排序分值;

根据所述每一个检索结果的排序分值的大小,对所述检索结果进行排序,得到与所述目标检索文本对应的目标检索结果。

可选地,所述确定模块用于:

分别计算每一个排序参数的分值和与所述排序参数对应的权重值的乘积分值;

将一个所述乘积分值或多个所述乘积分值之和,确定为所述检索结果的排序分值。

可选地,所述装置还包括建模模块,所述建模模块用于:

获取训练样本数据,其中,所述训练样本数据至少包括历史查询信息和与所述历史查询信息对应的文档信息;所述训练样本数据来自所述历史检索日志;

根据所述历史查询信息,获取所述文档信息的特征信息,其中,所述特征信息至少包括历史查询信息与所述文档信息之间的相关度,以及所述文档信息的特征数据和重要性信息;

采用监督机器学习方法,对所述特征信息进行机器学习,得到训练模型;

将所述历史查询信息输入到所述训练模型中,得到文档序列;其中,所述文档序列中包括排序参数和与排序参数对应的权重值;

在所述文档序列和所述文档信息的匹配度大于预设值的情况下,将与所述文档序列对应的训练模型确定为所述预先建立的排序模型。

第三方面,本发明实施例提供了一种终端设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项的所述的文本检索方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项的所述的文本检索方法。

与现有技术相比,本发明包括以下优点:

在本发明实施例中,通过获取目标检索文本;根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果,本发明实施例通过采用大量历史查询信息和与历史查询信息对应的文档信息,以及监督机器学习算法,得到排序模型,当获取到目标检索文本时,采用该排序模型,对检索结果中的各个文档进行排序,从而将与目标检索文本最接近的检索结果进行显示,不仅节省了人力物力,而且提高了检索匹配度。

附图说明

图1示出了本发明实施例提供的一种文本检索方法的步骤流程图;

图2示出了本发明实施例提供的又一种文本检索方法的步骤流程图;

图3示出了本发明实施例提供的服务器的结构示意图;

图4示出了本发明又一实施例提供的一种文本检索方法的步骤流程图;

图5示出了本发明实施例提供的一种文本检索装置的结构示意图;

图6示出了本发明实施例提供的终端的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

对本发明实施例涉及到的名词进行如下解释:

L2R:LeaRning to Rank是一种机器学习模型。它使用机器学习的方法,可以采用各个现有排序模型的输出作为特征,然后训练一个新模型,并自动学习这个新模型的参数,从而组合多个现有的排序模型来生成新的排序模型。

Redis:遵守BSD协议,是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用;Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储,Redis支持数据的备份,即master-slave模式的数据备份

elasticsearch:Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

基于上述的内容,本发明一实施例提供一种文本检索方法,用于对目标检索文本进行检索。本实施例的执行主体为服务器。

图1示出了本发明实施例提供的一种文本检索方法的步骤流程图,如图1所示,具体可以包括如下步骤:

S101、获取目标检索文本;

具体地,用户想要检索某个检索文本,即目标检索文本,用户可以在终端设备上,例如手机终端或电脑终端上输入的目标检索文本,终端设备将该目标检索文本发送至服务器,例如,搜索服务器Elasticsearch等。

S102、根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;

具体的,服务器上预先建立排序模型,服务器预先获取大量的历史检索日志,该历史检索日志至少包括历史查询信息和与历史查询信息对应的文档信息,还可以包括用户对文档信息的点击信息,例如,最后一次点击的文档信息,然后,根据这些大量的历史检索日志,采用监督机器学习方式对神经网络模型进行训练,得到排序模型。

当服务器接收到终端设备发送的目标检索文本时,检索与该目标检索温文本对应的检索结果,该检索结果包括一个或多个文档,每个文档携带文档参数,该文档参数至少包括排序参数和与排序参数对应的权重值,其中,排序参数至少包括发表时间、来源信息、浏览量信息、文章关键词、发表人名称、发表机构或领域分类信息中的一种或多种,对于每一个排序参数,都有对应的权重值。

示例性地,若服务器接收到终端设备发送的目标检索文本为“苹果”,服务器对“苹果”进行检索,得到2条检索结果,检索结果1包括发表时间2020.1和发表时间对应的权重0.8,来源信息为知网,与来源信息对应的权重为0.6;检索结果2包括发表时间2019.1和发表时间对应的权重为0.7,来源信息为百度,与来源信息对应的权重为0.3;

S103、根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果;

具体地,对于每一种排序参数,不同的排序参数对应不同的分值,示例性地,对于发表时间来说,若是2020年,则对应的分值为80,若是2019年,则对应的分值为70,再例如,对于来源信息,若是来自知网,则对应的分值为60,若是来自百度,则对应的分值为30;

服务器在获取到检索结果的每一个排序参数和与排序参数对应的权重值后,分别根据不同的排序参数确定对应的分值,进而根据不同排序参数的分值和对应的权重值,得到一个排序分值的序列,在根据该排序分值的序列中各个排序分值的大小,对对应的检索结果进行排序,得到目标检索结果,也就是说,将排序分值高的对应的文档放置在前面,将排序分值低的对应的文档放置在后面。服务器在得到目标检索结果后,将目标检索结果发送至终端设备,并且终端设备在界面上显示目标检索结果时,将排序分值高的对应的文档显示在页面上部,将排序分值低的对应的文档显示在页面下部。

本发明实施例提供的文本检索方法,通过获取目标检索文本;根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果,本发明实施例通过采用大量历史查询信息和与历史查询信息对应的文档信息,以及监督机器学习算法,得到排序模型,当获取到目标检索文本时,采用该排序模型,对检索结果中的各个文档进行排序,从而将与目标检索文本最接近的检索结果进行显示,不仅节省了人力物力,而且提高了检索匹配度。

本发明又一实施例对上述实施例提供的方法做进一步补充说明。

如图2所示,示出了本发明的另一种文本检索方法实施例的步骤流程图,该文本检索方法包括:

S201、获取目标检索文本;

具体地,用户想要检索某个检索文本,即目标检索文本,用户可以在终端设备上,例如手机终端或电脑终端上输入的目标检索文本,终端设备将该目标检索文本发送至服务器,例如,搜索服务器Elasticsearch等。

S202、根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;其中,排序参数至少包括发表时间、来源信息、浏览量信息、文章关键词、发表人名称、发表机构或领域分类信息中的一种或多种。

具体地,服务器需要预先建立的排序模型,该排序模型通过如下方式得到,包括:

步骤A1、获取训练样本数据,其中,训练样本数据至少包括历史查询信息和与历史查询信息对应的文档信息;训练样本数据来自历史检索日志;

具体地,服务器根据用户每一次的输入的查询信息,查询到与查询信息对应的文档信息,当用户中终端设备上看到与查询信息对应的文档信息后,需要人工对文档信息进行查看,若查找到需要的文档,则用户不再点击下一个文档,若没有查找到想要的文档,则需要点击下一个文档,服务器也获取用户对于某一个查询信息对应的最后一次点击的文档信息。

服务器获取训练样本数据的方式至少包括:人工标注和从历史日志文件中获取。

作为一种可选地实施方式,采用人工标注的方式获取样本数据,用户可以从各个搜索引擎的搜索记录中随机抽取一些历史查询信息,将这些历史查询信息提交给多个不同的搜索引擎,然后选取各个搜索引擎返回结果的前K个,k为大于0的自然数,最后由专业人员来对这些文档按照和历史查询信息的相关度进行标注,得到样本训练数据。

其中,各个文档的绝对相关值至少包括非常相关,比较相关,不相关,等等;对于每个查询信息,两两文档之间的相对相关值(文档1比文档2相关,文档4比文档3相关,等等);对于每个查询信息,所有文档的按相关度进行排序,得到排序后的列表,如文档1>文档2>文档3。

作为另一种可选地实施方式,从历史检索日志中获取,搜索引擎都有大量的检索日志记录用户的行为,具体地,输入一个查询信息,搜索引擎返回的检索结果列表为L,用户点击检索结果中的文档的集合为C,如果一个文档di被点击过,另外一个文档dj没有被点击过,并且dj在检索结果列表中排在di之前,则di>dj就是一条训练记录。

即训练数据为:

{di>dj|di属于C,dj属于L-C,p(dj)<p(di)},其中p(d)表示文档d在查询结果列表中的位置,越小表示越靠前。

步骤A2、根据历史查询信息,获取文档信息的特征信息,其中,特征信息至少包括历史查询信息与文档信息之间的相关度,以及文档信息的特征数据和重要性信息;

具体地,对与每个给定的查询信息-文档信息对(query document pair),抽取相应的特征信息,该特征信息至少包括查询信息和文档信息之间的各种相关度,也包括文档信息本身的特征以及重要性。

步骤A3、采用监督机器学习方法,对特征信息进行机器学习,得到训练模型;

步骤A4、将历史查询信息输入到训练模型中,得到文档序列;其中,文档序列中包括排序参数和与排序参数对应的权重值;

步骤A5、在文档序列和文档信息的匹配度大于预设值的情况下,将与文档序列对应的训练模型确定为预先建立的排序模型。

具体地,服务器根据获取的特征信息,对训练模型进行训练,即将特征信息作为输入,输入到神经网络模型中,得到排序参数和与排序参数对应的权重值,通过该排序参数和与排序参数对应的权重值,对历史查询信息和对应的查询文档进行排序,当训练完后的排序和预先获取的真实的文档排序序列的匹配度大于预设值的情况下,将此时的训练模型确定为排序模型。

当服务器接收到终端设备发送的目标检索文本时,检索与该目标检索温文本对应的检索结果,该检索结果包括一个或多个文档,每个文档携带文档参数,该文档参数至少包括排序参数和与排序参数对应的权重值,其中,排序参数至少包括发表时间、来源信息、浏览量信息、文章关键词、发表人名称、发表机构或领域分类信息中的一种或多种,对于每一个排序参数,都有对应的权重值。

示例性地,若服务器接收到终端设备发送的目标检索文本为“苹果”,服务器对“苹果”进行检索,得到10条检索结果,每条检索结果包括发表时间2020.1和发表时间对应的权重0.8,来源信息为知网,与来源信息对应的权重为0.2。

S203、获取每一个检索结果的各个排序参数的分值;

具体地,对于每一种排序参数,不同的排序参数对应不同的分值,服务器获取每一个检索结果的各个排序参数的分值。

示例性地,对于发表时间来说,若是2020年,则对应的分值为80,若是2019年,则对应的分值为70,再例如,对于来源信息,若是来自知网,则对应的分值为60,若是来自百度,则对应的分值为30;

S204、根据排序参数的分值和与排序参数对应的权重值,确定每一个检索结果的排序分值;

具体包括:

步骤B1、分别计算每一个排序参数的分值和与排序参数对应的权重值的乘积分值;

步骤B2、将一个乘积分值或多个乘积分值之和,确定为检索结果的排序分值。

示例性地,对于目标检索文本“苹果”,得到检索结果1包括发表时间2020.1和发表时间对应的权重0.8,来源信息为知网,与来源信息对应的权重为0.6;检索结果2包括发表时间2019.1和发表时间对应的权重为0.7,来源信息为百度,与来源信息对应的权重为0.3;

计算检索结果1的排序分值为80*0.8+60*0.6=64+36=100;

计算检索结果2的排序分值为60*0.7+30*0.3=42+9=51。

S205、根据每一个检索结果的排序分值的大小,对检索结果进行排序,得到与目标检索文本对应的目标检索结果。

具体地,服务器对得到的即每一个检索结果的排序分值按照大小进行排序,如100大于51,则根据该排序分值对对应的检索结果进行排序,即得到排序序列为100对应的检索结果、51对应的检索结果,即得到与目标检索文本对应的目标检索结果。

图3示出了本发明实施例提供的服务器的结构示意图,如图3所示,服务器分为三层架构,包括:网关层、业务服务层、数据处理层和部署环境层。其中,网关层用于接收用户的终端设备发送的检索请求,其中,该检索请求中包括目标检索文本,网关层用于与用户的终端设备进行数据交互。

网关层包括Nginx、EST API和Tomcat,其中:

Nginx(engine x)是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务;

EST API(RepResentational State TRansfeR API,表现层状态转移的应用程序接口),用于发送请求的请求路径由请求方式来决定;

Tomcat用于提供数据传的规范,JavaEE规范,都是由抽象类和接口组成的(jaR)。常用的技术:JSP/SeRvlet、JPA、JTA、JNID、JDBC(数据库)、JMX、JAXP(Java API foR xml解析)、EJB等;实现了JSP/SeRvlet规范,轻量级的服务器,SeRvlet容器。

业务服务层包括文本检索服务和文本检索API(Application ProgrammingInterface,应用程序接口);

数据处理层包括文本抽取服务、文本数据转换服务、L2R模型训练服务,3个服务为文本检索提供数据支持,通过使用L2R的训练模型为用户提供文本检索服务,同时将获取的历史检索日志等数据存储在REDIS数据中,在数据库中还存储有elasticsearch(用于分布式全文检索)检索安装包;

部署环境层包括物理机,VPS docke运行环境,以及操作系统centos7。

图4示出了本发明又一实施例提供的一种文本检索方法的步骤流程图,如图4所示,该文本检索方法包括:

1)服务器获取文档数据(历史检索日志),并将文档数据输入到MySQL数据库中进行缓存,输入方式可以是多种方式,例如,人工录入和文本数据抽取;

2)服务器对文本数据进行文本数据转换,即若文本数据不符合神经网络模型的输入格式,则需要对文本数据进行结构化与半结构化数据的转换,得到符合神经网络模型的数据格式的训练数据,该训练数据包括历史查询信息和与所述历史查询信息对应的文档信息;

3)服务器在确定样本训练数据后,为了使得训练数据更加准确,则可以提供人工审核功能,确保数据准确性。

4)服务器根据得到的样本训练数据,对L2R的模型进行训练,得到排序模型;

5)当用户的终端设备输入检索请求,该检索请求包括目标检索文本,并将检索请求发送至服务器;

6)服务器根据预先建立的排序模型和目标检索文本,确定与目标检索词对应的检索结果,检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果。

本发明实施例以用户检索历史记录与最终用户的点击结果为数据,从历史检索日志中获取与用户行为对应的L2R的训练数据,对于每个给定的查询信息,提取相应的特征,既包括查询和文档之间的各种相关度,也包括文档本身的特征以及重要性等,同时配合人工标注,得到排序模型,该排序模型使其输出的文档序列和真实序列尽可能相似,满足检索结果需求,通过L2R机器学习技术,实现文本检索时的自动排序优化,解决现有技术中由于文本数据变量大,数据量多,导致人工调权成本高的问题,同时,还可以避免人工调权结果片面,无法覆盖不同使用人群,不同类别文本数据的缺陷。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

本发明实施例提供的文本检索方法,通过获取目标检索文本;根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果,本发明实施例通过采用大量历史查询信息和与历史查询信息对应的文档信息,以及监督机器学习算法,得到排序模型,当获取到目标检索文本时,采用该排序模型,对检索结果中的各个文档进行排序,从而将与目标检索文本最接近的检索结果进行显示,不仅节省了人力物力,而且提高了检索匹配度。

本发明另一实施例提供一种文本检索装置,用于执行上述实施例提供的文本检索方法。

参照图5,示出了本发明的一种文本检索装置实施例的结构框图,该装置可以应用于视联网中,具体可以包括如下模块:获取模块501、检索模块502和确定模块503,其中:

获取模块501用于获取目标检索文本;

检索模块502用于根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;

确定模块503用于根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果。

本发明实施例提供的文本检索装置,通过获取目标检索文本;根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果,本发明实施例通过采用大量历史查询信息和与历史查询信息对应的文档信息,以及监督机器学习算法,得到排序模型,当获取到目标检索文本时,采用该排序模型,对检索结果中的各个文档进行排序,从而将与目标检索文本最接近的检索结果进行显示,不仅节省了人力物力,而且提高了检索匹配度。

本发明又一实施例对上述实施例提供的文本检索装置做进一步补充说明。

可选地,排序参数至少包括发表时间、来源信息、浏览量信息、文章关键词、发表人名称、发表机构或领域分类信息中的一种或多种。

可选地,确定模块用于:

获取每一个检索结果的各个排序参数的分值;

根据排序参数的分值和与排序参数对应的权重值,确定每一个检索结果的排序分值;

根据每一个检索结果的排序分值的大小,对检索结果进行排序,得到与目标检索文本对应的目标检索结果。

可选地,确定模块用于:

分别计算每一个排序参数的分值和与排序参数对应的权重值的乘积分值;

将一个乘积分值或多个乘积分值之和,确定为检索结果的排序分值。

可选地,装置还包括建模模块,建模模块用于:

获取训练样本数据,其中,训练样本数据至少包括历史查询信息和与历史查询信息对应的文档信息;训练样本数据来自历史检索日志;

根据历史查询信息,获取文档信息的特征信息,其中,特征信息至少包括历史查询信息与文档信息之间的相关度,以及文档信息的特征数据和重要性信息;

采用监督机器学习方法,对特征信息进行机器学习,得到训练模型;

将历史查询信息输入到训练模型中,得到文档序列;其中,文档序列中包括排序参数和与排序参数对应的权重值;

在文档序列和文档信息的匹配度大于预设值的情况下,将与文档序列对应的训练模型确定为预先建立的排序模型。

需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本发明不做限定。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明实施例提供的文本检索装置,通过获取目标检索文本;根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果,本发明实施例通过采用大量历史查询信息和与历史查询信息对应的文档信息,以及监督机器学习算法,得到排序模型,当获取到目标检索文本时,采用该排序模型,对检索结果中的各个文档进行排序,从而将与目标检索文本最接近的检索结果进行显示,不仅节省了人力物力,而且提高了检索匹配度。

本发明再一实施例提供一种终端设备,用于执行上述实施例提供的文本检索方法。

图6是本发明的一种终端设备的结构示意图,如图6所示,该终端设备包括:至少一个处理器601和存储器602;

存储器存储计算机程序;至少一个处理器执行存储器存储的计算机程序,以实现上述实施例提供的文本检索方法。

本实施例提供的终端设备,通过获取目标检索文本;根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果,本发明实施例通过采用大量历史查询信息和与历史查询信息对应的文档信息,以及监督机器学习算法,得到排序模型,当获取到目标检索文本时,采用该排序模型,对检索结果中的各个文档进行排序,从而将与目标检索文本最接近的检索结果进行显示,不仅节省了人力物力,而且提高了检索匹配度。

本发明又一实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,计算机程序被执行时实现上述任一实施例提供的文本检索方法。

根据本实施例的计算机可读存储介质,通过获取目标检索文本;根据目标检索文本和预先建立的排序模型,确定与目标检索词对应的检索结果,其中,预先建立的排序模型是采用监督机器学习方法对历史检索日志进行学习得到的;检索结果至少包括排序参数和与排序参数对应的权重值;根据排序参数和与排序参数的权重值,对检索结果进行排序,得到与目标检索文本对应的目标检索结果,本发明实施例通过采用大量历史查询信息和与历史查询信息对应的文档信息,以及监督机器学习算法,得到排序模型,当获取到目标检索文本时,采用该排序模型,对检索结果中的各个文档进行排序,从而将与目标检索文本最接近的检索结果进行显示,不仅节省了人力物力,而且提高了检索匹配度。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理电子设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理电子设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

相关技术
  • 一种数据评价方法、装置、终端设备及可读存储介质
  • 一种截图方法、截图装置、存储介质及终端设备
  • 一种推送方法及装置、终端设备和可读存储介质
  • 一种视频图像的分割方法、装置、终端设备及存储介质
  • 一种非定点对象查询方法、装置、终端设备及存储介质
  • 文本检索方法、模型训练方法、文本检索装置及存储介质
  • 一种图像文本检索方法、装置及计算机存储介质
技术分类

06120115596839