掌桥专利:专业的专利平台
掌桥专利
首页

文本数据处理方法、装置、介质

文献发布时间:2023-06-19 13:26:15


文本数据处理方法、装置、介质

技术领域

本申请涉及计算机及人工智能技术领域,具体而言,涉及一种文本数据处理方法、装置、介质。

背景技术

在文本数据处理场景中,比如在针对用户输入的搜索文本数据进行处理的应用场景中,通常是根据用户搜索文本中的关键词获取包括所述关键词的搜索短语,并将搜索短语显示给用户以供用户选择。然而,在此方案中,当用户需要搜索其它文本时,仍然需要重新输入其它文本,这就使得用户文本搜索的效率低下。基于此,如何提高用户文本搜索的效率是亟待解决的技术问题。

发明内容

本申请的实施例提供了一种文本数据处理方法、装置、计算机程序产品或计算机程序、计算机可读介质,进而至少在一定程度上可以提高用户文本搜索的效率。

本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面,提供了一种文本数据处理方法,包括:获取由待推送用户输入的搜索文本;在检测到所述搜索文本的文本类型属于预设词表中所限定的文本类型时,获取与所述搜索文本相关联的关联文本集合,所述关联文本集合中包括关联文本;从所述关联文本集合中选定至少一个关联文本作为推荐文本,并获取所述推荐文本的文本属性信息;为所述待推送用户推送所述推荐文本和所述文本属性信息。

根据本申请实施例的一个方面,提供了一种文本数据处理装置,包括:第一获取单元,被用于获取由待推送用户输入的搜索文本;第二获取单元,被用于在检测到所述搜索文本的文本类型属于预设词表中所限定的文本类型时,获取与所述搜索文本相关联的关联文本集合,所述关联文本集合中包括关联文本;选定单元,被用于从所述关联文本集合中选定至少一个关联文本作为推荐文本,并获取所述推荐文本的文本属性信息;推送单元,被用于为所述待推送用户推送所述推荐文本和所述文本属性信息。

在本申请的一些实施例中,基于前述方案,所述推送单元配置为:获取针对每一个推荐文本的推荐参考值,所述推荐参考值用于表征所述推荐文本被搜索的热度;将所述推荐文本,以及推荐文本对应的推荐参考值和文本属性信息显示在界面中。

在本申请的一些实施例中,基于前述方案,所述第二获取单元配置为:识别所述搜索文本的目标文本类型;基于所述目标文本类型,获取与所述搜索文本相关联的关联文本,得到所述关联文本集合。

在本申请的一些实施例中,基于前述方案,所述第二获取单元还配置为:获取所述待推送用户在预定历史时间区间内输入过的文本,作为待选关联文本;从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本申请的一些实施例中,基于前述方案,所述第二获取单元还配置为:获取与所述搜索文本在第一文本特征上相似的文本,作为待选关联文本,所述第一文本特征包括语义特征,书写形体特征,以及发音特征中的至少一种;从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本申请的一些实施例中,基于前述方案,所述第二获取单元还配置为:获取所述待推送用户在预定历史时间区间内输入过的文本,以及与所述搜索文本在第二文本特征上相似的文本,作为待选关联文本,所述第二文本特征包括语义特征,书写形体特征,以及发音特征中的至少一种;从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本申请的一些实施例中,基于前述方案,所述第二获取单元包括:滤重单元,被用于确定所述待选关联文本中的重复文本,并对所述重复文本进行滤重,得到所述关联文本。

在本申请的一些实施例中,基于前述方案,所述选定单元配置为:通过预先训练的排序模型对所述关联文本集合中的各个关联文本进行排序,得到各个关联文本对应的参考排序信息,所述参考排序信息用于表征所述关联文本被关联的关联程度;基于所述参考排序信息,从所述关联文本集合中选定至少一个关联文本作为推荐文本。

在本申请的一些实施例中,基于前述方案,所述选定单元还配置为:获取所述搜索文本与各个关联文本对应的第三文本特征,所述第三文本特征包括语义特征,书写形体特征,以及发音特征中的至少一种;基于所述搜索文本与各个关联文本对应的第三文本特征,通过所述排序模型确定针对各个关联文本对应的推荐指数;通过所述推荐指数对所述关联文本集合中的各个关联文本进行排序。

在本申请的一些实施例中,基于前述方案,所述排序模型包括第一子模型和第二子模型,所述第一子模型具有对所述搜索文本对应的第三文本特征进行记忆的能力,所述第二子模型具有对所述搜索文本对应的第三文本特征进行泛化的能力,所述选定单元还配置为:将所述搜索文本与各个关联文本对应的第三文本特征输入至第一子模型,以输出针对各个关联文本对应的第一推荐指数;将所述搜索文本与各个关联文本对应的第三文本特征输入至第二子模型,以输出针对各个关联文本对应的第二推荐指数;针对每一个关联文本,对所述第一子推荐指数和第二推荐指数进行加权计算,得到所述关联文本对应的推荐指数。

在本申请的一些实施例中,基于前述方案,所述第一子模型包括双线性变换模型,所述第二子模型为神经网络模型。

在本申请的一些实施例中,基于前述方案,所述装置还包括:训练单元,被用于在为所述待推送用户推送所述推荐文本和所述文本属性信息之后,获取待推送用户根据推送的所述推荐文本和所述文本属性信息而产生的行为数据;基于所述行为数据对所述排序模型进行再训练,得到再训练后的排序模型,所述再训练后的排序模型用于进行下一次关联文本排序。

在本申请的一些实施例中,基于前述方案,所述训练单元配置为:基于所述行为数据,确定各个关联文本对应的期望排序信息;通过所述期望排序信息与所述参考排序信息的对比,通过梯度反向传递对所述排序模型中的隐层参数进行校正。

根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如上述实施例中所述的文本数据处理方法。

根据本申请实施例的一个方面,提供了一种文本数据处理装置,其特征在于,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如上述实施例中所述的文本数据处理方法的指令。

根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如上述实施例中所述的文本数据处理方法所执行的操作。

在本申请的一些实施例所提供的技术方案中,通过在检测到用户所述输入搜索文本的文本类型属于预设词表中所限定的文本类型时,获取与所述搜索文本相关联的关联文本集合,可以从所述关联文本集合中选定至少一个关联文本作为推荐文本,并获取所述推荐文本的文本属性信息,以为所述待推送用户推送所述推荐文本和所述文本属性信息。由于为用户推送与搜索文本相关联的推荐文本和对应文本属性信息,可以为用户提供搜索其它关联文本的参考,比如,用户在搜索一个汉语同时,还为用户提供与该汉语相关联的其它汉语。如此一来,使得用户存在搜索其它关联文本的需求时,无需再次输入搜索文本,从而节省用户搜索时间,提高用户的文本搜索效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;

图2示出了根据本申请一个实施例的文本数据处理方法的流程图;

图3示出了根据本申请一个实施例的为所述待推送用户推送所述推荐文本和所述文本属性信息的细节流程图;

图4示出了根据本申请一个实施例的应用文本数据处理方法的界面示意图;

图5示出了根据本申请一个实施例的从所述关联文本集合中选定至少一个关联文本作为推荐文本的细节流程图;

图6示出了根据本申请一个实施例的通过预先训练的排序模型对所述关联文本集合中的各个关联文本进行排序的细节流程图;

图7示出了根据本申请一个实施例的通过所述排序模型确定针对各个关联文本对应的推荐指数的细节流程图;

图8示出了根据本申请一个实施例的所述排序模型的模型示意图;

图9示出了根据本申请一个实施例的在为所述待推送用户推送所述推荐文本和所述文本属性信息之后的方法流程图;

图10示出了根据本申请一个实施例的文本数据处理装置的框图;

图11示出了根据本申请一个实施例的文本数据处理装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要注意的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

本申请中的实施例有涉及到关于人工智能的技术,即通过人工智能实现了对数据(例如文本数据)的完全自动化处理。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等,但并不局限于此,本申请在此不做限制)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。

在本申请的一个实施例中,用户在需要查询或者搜索一个文本时,可以在终端设备上输入搜索文本,服务器105通过网络104获取在终端设备上输入的搜索文本,在检测到所述搜索文本的文本类型属于预设词表中所限定的文本类型时,获取与所述搜索文本相关联的包括关联文本的关联文本集合,然后,服务器105从所述关联文本集合中选定至少一个关联文本作为推荐文本,并获取所述推荐文本的文本属性信息,最后,服务器105通过终端设备为所述待推送用户推送所述推荐文本和所述文本属性信息。

在本实施中,在为用户提供搜索文本相关数据的同时,通过为用户推送与搜索文本相关联的推荐文本和文本属性信息,可以为用户提供更多文本数据的选择,从而提高用户文本搜索的效率。

需要说明的是,本申请实施例所提供的文本数据处理方法可以由服务器105执行,相应地,文本数据处理装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的文本数据处理方案。

还需要说明的是,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要解释的是,如上所述的云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展。通过建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。

以下对本申请实施例的技术方案的实现细节进行详细阐述:

图2示出了根据本申请一个实施例的文本数据处理方法的流程图。参照图2所示,该文本数据处理方法至少包括步骤210至步骤270,详细介绍如下:

步骤210,获取由待推送用户输入的搜索文本。

在本申请中,所述待推送用户可以是指需要查询与搜索文本相关信息的用户,这里的搜索文本可以是一个字,可以是一个词语,也可以是一句话。比如,用户输入一个字“磐”,希望查询与“磐”字相关的属性信息(例如“磐”字的读音,释义等等)。还比如,用户输入一个词语“勤奋”,希望查询与“勤奋”词语相关的属性信息(例如“勤奋”的解释,同义词等等),还比如,用户输入一句谚语“王婆卖瓜,自卖自夸”,希望查询与“王婆卖瓜,自卖自夸”谚语相关的属性信息(例如该谚语的典故等等)。步骤230,在检测到所述搜索文本的文本类型属于预设词表中所限定的文本类型时,获取与所述搜索文本相关联的关联文本集合,所述关联文本集合中包括关联文本。

在本申请中,所述的文本数据处理方法可以应用于在汉语文本的搜索场景,比如,用户需要搜索某一字,或者是搜索某一个词语,或是某一个搜索成语,还或者是搜索某一个谚语或诗句的搜索场景。

具体的,可以预先构建一个预设词表,该预设词表存储有事先采集的各种文本类型的汉语,比如,单字类型的汉语文本,词类型的汉语文本,成语类型的汉语文本,谚语或诗句类型的汉语文本等等。可以理解的是,该预设词表限定的文本类型可以包括单字类型、词类型、成语类型以及谚语类型、诗句类型中的至少一种。

因此,在检测到所述搜索文本的文本类型属于预设词表中所限定的文本类型时,则获取与所述搜索文本相关联的关联文本集合。

在本申请中,所述关联文本集合中的关联文本是指与所述搜索文本具有关联关系的文本,比如,存在语义上的相似关联关系,还比如存在输入时间顺序上的关联关系,还比如存在语音上的相似关联关系。

步骤250,从所述关联文本集合中选定至少一个关联文本作为推荐文本,并获取所述推荐文本的文本属性信息。

可以理解的是,所述关联文本集合中的关联文本的数量为多个,为此可以在关联文本集合中选定一部分关联文本作为推荐文本,也可以将全部关联文本作为推荐文本。

在本申请中,所述推荐文本的文本属性信息的类型可以与用户输入的搜索文本的文本属性信息的类型相同,比如,用户输入搜索文本“磐”的文本属性信息为“磐”的读音和释义,则推荐文本的文本属性信息也为读音和释义。

在本申请中,搜索文本的文本属性信息的类型可以通过识别用户的搜索意图确定,比如,用户输入搜索文本“磐”,可以根据用户在历史上的搜索习惯识别用户的搜索意图为查询“磐”的读音和释义。

步骤270,为所述待推送用户推送所述推荐文本和所述文本属性信息。

在步骤270中,为所述待推送用户推送所述推荐文本和所述文本属性信息,可以按照如图3所示步骤执行。

参见图3,示出了根据本申请一个实施例的为所述待推送用户推送所述推荐文本和所述文本属性信息的细节流程图。具体包括步骤271至步骤272:

步骤271,获取针对每一个推荐文本的推荐参考值,所述推荐参考值用于表征所述推荐文本被搜索的热度。

步骤272,将所述推荐文本,以及推荐文本对应的推荐参考值和文本属性信息显示在界面中。

为了使本领域技术人员更好的理解本申请,下面将结合图4,以一个具体的应用场景进行说明。

参见图4,示出了根据本申请一个实施例的应用文本数据处理方法的界面示意图。

如图4所示,用户在界面401的输入框输入一个搜索文本402“长”字之后,界面401中除了显示与文本“长”字相关的文本属性信息之外,还显示了“长”字的关联文本403“常”、“尝”、“厂”以及“场”字,以及显示与“常”、“尝”、“厂”以及“场”字对应文本属性信息。进一步的,还显示了与各个关联文本对应的推荐参考值,比如,“常”字和“尝”字对应的推荐参考值为92%,“厂”和“场”字对应的推荐参考值为88%。

在本申请中,在界面中显示与用户搜索文本相关信息的同时,还显示推荐文本以及对应的推荐参考值和文本属性信息,如此可以为用户提供搜索其它文本信息的参考,使得用户存在搜索其它关联文本的需求时,无需再次输入搜索文本,从而节省用户搜索时间,提高用户的文本搜索效率。

下面将通过进一步的实施例对上述文本数据处理方案进行具体阐述。

在如图2所示步骤210的一个实施例中,获取与所述搜索文本相关联的关联文本集合,可以按照如下步骤执行:

步骤1,识别所述搜索文本的目标文本类型。

步骤2,基于所述目标文本类型,获取与所述搜索文本相关联的关联文本,得到所述关联文本集合。

在本实施例中,文本类型可以包括单字类型,词语类型,成语类型,句子类型等等。

在本实施例中,基于所述目标文本类型,获取与所述搜索文本相关联的关联文本,比如,若搜索文本类型为词语类型,则关联文本的文本类型也为词语类型。通过使得所述关联文本的类型与所述搜索文本的类型保持一致,可以保证关联文本与搜索文本之间具有较高程度的关联性,进而可以在后续中提高用户的文本搜索效率。

在如图2所示步骤210的另一个实施例中,获取与所述搜索文本相关联的关联文本集合,可以按照如下步骤执行:

步骤1,获取所述待推送用户在预定历史时间区间内输入过的文本,作为待选关联文本。

步骤2,从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本实施例中,所述预定历史时间区间可以是在过去一分钟之内,也可以是在过去三十秒之内,比如,用户在界面搜索引擎的输入框内输入“长”字,目的是查询“长”的读音和释义,而在过去一分钟之内,用户输入过“重”、“常”、“行有几个读音”以及“涨是什么意思”,那么,可以在操作日志记录中获取这些输入过的文本,并从输入的文本中确定关键文本。比如,针对“行有几个读音”的输入文本,可以获取关键字“行”作为关联文本,还比如,针对“涨是什么意思”的输入文本,可以获取关键字“涨”作为关联文本。最终将“重”、“常”、“行”以及“涨”作为“长”的关联文本,得到由“重”、“常”、“中”以及“涨”组成的关联文本集合。

需要说明的是,所述预定历史时间区间可以是根据实际需要而确定的,并不限于如上所列举的那些。

在本实施例中,由于用户在一定时间段内前后输入的文本一般具有一定的相关性,因此将用户在预定历史时间区间内输入过的文本作为待选关联文本,可以保证关联文本与搜索文本之间的具有较高程度的关联性,进而可以在后续中提高用户的文本搜索效率。

在如图2所示步骤210的另一个实施例中,获取与所述搜索文本相关联的关联文本集合,可以按照如下步骤执行:

步骤1,获取与所述搜索文本在第一文本特征上相似的文本,作为待选关联文本,所述第一文本特征包括语义特征、书写形体特征、以及发音特征中的至少一种。

步骤2,从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本实施例中,可以通过确定文本与搜索文本之间在第一文本特征上的相似度来确定待选关联文本,即可以将相似度超过相似度阈值的文本作为待选关联文本。比如,若相似度阈值设为70%,文本“常”与搜索文本“长”在发音特征上的相似度为100%,则文本“常”可以确定为所述搜索文本“长”的待选关联文本。若文本“高”与搜索文本“长”在语义特征上的相似度为71%,则文本“高”也可以确定为所述搜索文本“长”的待选关联文本。

在本实施例中,可以针对各个文本建立文本库,文本库中包括有与对应文本相似的一个或多个文本,比如,包括搜索文本的近义文本,反义文本等等,当检测到用户输入一个文本时,可以将该文本对应相似文本库中的文本作为该文本的待选关联文本。

在本实施例中,通过将与搜索文本在第一文本特征上相似的文本作为待选关联文本,也可以保证关联文本与搜索文本之间的具有较高程度的关联性,进而可以在后续中提高用户的文本搜索效率。

在如图2所示步骤210的另一个实施例中,获取与所述搜索文本相关联的关联文本集合,可以按照如下步骤执行:

步骤1,获取所述待推送用户在预定历史时间区间内输入过的文本,以及与所述搜索文本在第二文本特征上相似的文本,作为待选关联文本,所述第二文本特征包括语义特征、书写形体特征、以及发音特征中的至少一种。

步骤2,从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本实施例中,同时将待推送用户在预定历史时间区间内输入过的文本,以及与搜索文本在第二文本特征上相似的文本,作为待选关联文本,可以扩展关联文本的数量,在后续文本数据处理过程中进一步提高用户的文本搜索效率。

在上述几个实施例的步骤2中,从所述待选关联文本中确定所述关联文本,可以是首先确定所述待选关联文本中的重复文本,并对所述重复文本进行滤重,得到所述关联文本。

在本实施例中,由于待选关联文本可能存在多个重复的文本,直接对待选关联文本进行处理会增加文本处理负荷,所以,对待选关联文本中的重复文本进行滤重,可以降低文本处理负荷,节省计算机资源。

在如图2所示步骤250的一个实施例中,从所述关联文本集合中选定至少一个关联文本作为推荐文本,可以按照如图5所示的步骤执行。

参见图5,示出了根据本申请一个实施例的从所述关联文本集合中选定至少一个关联文本作为推荐文本的细节流程图。具体包括步骤251步骤252:

步骤251,通过预先训练的排序模型对所述关联文本集合中的各个关联文本进行排序,得到各个关联文本对应的参考排序信息,所述参考排序信息用于表征所述关联文本被关联的关联程度。

步骤252,基于所述参考排序信息,从所述关联文本集合中选定至少一个关联文本作为推荐文本。

在本申请中,预先训练的排序模型具有确定所述关联文本与搜索文本之间关联程度的能力。其中,关联文本被关联的关联程度可以通过参考排序信息进行表征。

在本申请中,参考排序信息可以包括排序序号,比如,排序序号靠前的文本则表示关联程度较高,此外,排序信息也可以包括排序权重,其中,文本的排序权重越高,则表示文本的关联程度越高。

在本申请中,基于所述参考排序信息从所述关联文本集合中选定至少一个关联文本作为推荐文本,可以是根据所述参考排序信息,关联文本集合中选定至少一个关联程度较高的关联文本作为推荐文本。

在本申请中,可以是根据历史上针对各个搜索文本或者推荐文本的点击率、搜索量进行文本排序,挖掘各个文本的统计特征、文本特征、以及关键词特征,并基于各个文本的统计特征、文本特征、以及关键词特征训练排序模型,训练好的排序模型最终应用于对各个关联文本进行排序;

在如图5所示步骤251的一个实施例中,通过预先训练的排序模型对所述关联文本集合中的各个关联文本进行排序,可以按照如图6所示的步骤执行。

参见图6,示出了根据本申请一个实施例的通过预先训练的排序模型对所述关联文本集合中的各个关联文本进行排序的细节流程图。具体包括步骤2511步骤2513:

步骤2511,获取所述搜索文本与各个关联文本对应的第三文本特征,所述第三文本特征包括语义特征、书写形体特征、以及发音特征中的至少一种。

步骤2512,基于所述搜索文本与各个关联文本对应的第三文本特征,通过所述排序模型确定针对各个关联文本对应的推荐指数。

步骤2513,通过所述推荐指数对所述关联文本集合中的各个关联文本进行排序。

在本申请中,所述第三文本特征可以包括语义特征、书写形体特征、以及发音特征中的至少一种,而文本语义特征、书写形体特征、以及发音特征具体又可以通过特征向量的形式来表示,不同文本的不同文本特征对应不同的特征向量,比如,文本“长”的语义特征可以通过特征向量“[24,12,34,31,10,31,45,30,10,12,24,5,9,24,12,24]”来表示,文本“长”的发音特征可以通过特征向量“[41,2,5,71,1,47,14,7,8,24,77,31,4,7,55,23]”来表示。

在本申请中,通过排序模型确定的推荐指数可以表示关联文本被关联的程度。

在本申请中,所述排序模型可以是基于一个单模型进行训练得到的,比如,可以是基于机器学习模型进行训练得到的。

在本申请中,所述排序模型也可以是基于多个单模型的组合模型进行训练得到的。比如本申请所公开的排序模型可以包括第一子模型和第二子模型,其中,所述第一子模型具有对所述搜索文本对应的第三文本特征进行记忆的能力,所述第二子模型具有对所述搜索文本对应的第三文本特征进行泛化的能力。

基于此,在如图6所示步骤2512的一个实施例中,基于所述搜索文本与各个关联文本对应的第三文本特征,通过所述排序模型确定针对各个关联文本对应的推荐指数,可以按照如图7所示的步骤执行。

参见图7,示出了根据本申请一个实施例的通过所述排序模型确定针对各个关联文本对应的推荐指数的细节流程图。具体包括步骤25121步骤25123:

步骤25121,将所述搜索文本与各个关联文本对应的第三文本特征输入至第一子模型,以输出针对各个关联文本对应的第一推荐指数。

步骤25122,将所述搜索文本与各个关联文本对应的第三文本特征输入至第二子模型,以输出针对各个关联文本对应的第二推荐指数。

步骤25123,针对每一个关联文本,对所述第一子推荐指数和第二推荐指数进行加权计算,得到所述关联文本对应的推荐指数。

为了使本领域技术人员更好的理解该排序模型,下面将结合图8对本实施例中的提出的排序模型进行简单的说明:

参见图8,示出了根据本申请一个实施例的所述排序模型的模型示意图。

如图8所示,排序模型可以包括输入层,隐藏层,以及输出层。其中,在输入层,将搜索文本“X”的第三文本特征801和关联文本“a,b,c,d,e”的第三文本特征804,输入至第一子模型802和第二子模型805的隐藏层。第一子模型802和第二子模型805的隐藏层分别对搜索文本与各个关联文本对应的第三文本特征进行学习,并在输出层分别输出关联文本“a,b,c,d,e”对应的第一推荐指数803和第二推荐指数806,最后,将第一推荐指数803和第二推荐指数806进行加权计算,得到关联文本“a,b,c,d,e”对应的推荐指数807。

在本实施例中,所述第一子模型可以包括双线性变换模型。

在本实施例中,所述第二子模型可以包括神经网络模型,具体的,所述神经网络模型可以包括多个隐藏层,每层都是全连接,且激活函数都是Relu激活函数。

在本申请中,通过具有记忆的能力第一子模型和具有泛化能力的第二子模型构成排序模型,可以使得所述排序模型同时具备记忆能力与泛化能力,是的排序模型的输出结果同时具备准确性和扩展性,进而在后续文本数据处理过程中进一步提高用户的文本搜索效率。

在本申请中,在为所述待推送用户推送所述推荐文本和所述文本属性信息之后,还可以执行如图9所示的步骤。

参见图9,示出了根据本申请一个实施例的在为所述待推送用户推送所述推荐文本和所述文本属性信息之后的方法流程图。具体包括步骤281步骤282:

步骤281,获取待推送用户根据推送的所述推荐文本和所述文本属性信息而产生的行为数据。

步骤282,基于所述行为数据对所述排序模型进行再训练,得到再训练后的排序模型,所述再训练后的排序模型用于进行下一次关联文本排序。

在如图9所示步骤282的一个实施例中,基于所述行为数据对所述排序模型进行再训练,可以执行如下所示步骤:

步骤1,基于所述行为数据,确定各个关联文本对应的期望排序信息。

步骤2,通过所述期望排序信息与所述参考排序信息的对比,通过梯度反向传递对所述排序模型中的隐层参数进行校正。

在本申请中,所述行为数据可以是指用户针对推荐文本和所述文本属性信息进行点击行为而产生的数据,而所述期望排序信息是基于用户的行为数据确定的。比如,请参照图4,用户点击了“场”字以及“场”字对应的文本属性信息,因此,可以确定“场”字对应的文本属性信息具有较高的期望排序(例如,排序在各个推荐文本中的首位)。

在本申请中,请继续参照图4,比如,基于所述行为数据确定的各个关联文本对应的期望排序信息应该为“场”、“常”、“尝”以及“厂”排序顺序,即“场”字以及“场”字对应的文本属性信息应该是被首先推荐的,而通过排序模型而确定的参考排序信息为“常”、“尝”、“厂”以及“场”的排序顺序,可见,期望排序信息与参考排序信息存在差异。

基于此,可以基于该差异,通过梯度反向传递对所述排序模型中的隐层参数进行校正,得到再训练后的排序模型。

在本申请中,排序模型在应用于为各个关联文本进行排序之后,又通过已产生的行为数据进行训练,使得排序模型中的参数得到持续的优化和更新,从而使得在下一次为各个关联文本进行排序时,能够通过排序模型确定更合适的排序信息。故本申请实施例在一定程度上可以提高对各个关联文本进行排序的准确性,从而提高用户的文本搜索效率。

本申请所提供的技术方案通过在检测到用户所述输入搜索文本的文本类型属于预设词表中所限定的文本类型时,获取与所述搜索文本相关联的关联文本集合,可以从所述关联文本集合中选定至少一个关联文本作为推荐文本,并获取所述推荐文本的文本属性信息,以为所述待推送用户推送所述推荐文本和所述文本属性信息。由于为用户推送与搜索文本相关联的推荐文本和对应文本属性信息,可以为用户提供搜索其它关联文本的参考,使得用户存在搜索其它关联文本的需求时,无需再次输入搜索文本,从而节省用户搜索时间,提高用户的文本搜索效率。

以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本数据处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的文本数据处理方法的实施例。

图10示出了根据本申请的一个实施例的文本数据处理装置的框图。

参照图10所示,根据本申请的一个实施例的文本数据处理装置1000,包括:第一获取单元1001、第二获取单元1002、选定单元1003和推送单元1004。

其中,第一获取单元1001,被用于获取由待推送用户输入的搜索文本;第二获取单元1002,被用于在检测到所述搜索文本的文本类型属于预设词表中所限定的文本类型时,获取与所述搜索文本相关联的关联文本集合,所述关联文本集合中包括关联文本;选定单元1003,被用于从所述关联文本集合中选定至少一个关联文本作为推荐文本,并获取所述推荐文本的文本属性信息;推送单元1004,被用于为所述待推送用户推送所述推荐文本和所述文本属性信息。

在本申请的一些实施例中,基于前述方案,所述推送单元1004配置为:获取针对每一个推荐文本的推荐参考值,所述推荐参考值用于表征所述推荐文本被搜索的热度;将所述推荐文本,以及推荐文本对应的推荐参考值和文本属性信息显示在界面中。

在本申请的一些实施例中,基于前述方案,所述第二获取单元1002配置为:识别所述搜索文本的目标文本类型;基于所述目标文本类型,获取与所述搜索文本相关联的关联文本,得到所述关联文本集合。

在本申请的一些实施例中,基于前述方案,所述第二获取单元1002还配置为:获取所述待推送用户在预定历史时间区间内输入过的文本,作为待选关联文本;从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本申请的一些实施例中,基于前述方案,所述第二获取单元1002还配置为:获取与所述搜索文本在第一文本特征上相似的文本,作为待选关联文本,所述第一文本特征包括语义特征,书写形体特征,以及发音特征中的至少一种;从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本申请的一些实施例中,基于前述方案,所述第二获取单元1002还配置为:获取所述待推送用户在预定历史时间区间内输入过的文本,以及与所述搜索文本在第二文本特征上相似的文本,作为待选关联文本,所述第二文本特征包括语义特征,书写形体特征,以及发音特征中的至少一种;从所述待选关联文本中确定所述关联文本,得到所述关联文本集合。

在本申请的一些实施例中,基于前述方案,所述第二获取单元1002包括:滤重单元,被用于确定所述待选关联文本中的重复文本,并对所述重复文本进行滤重,得到所述关联文本。

在本申请的一些实施例中,基于前述方案,所述选定单元1003配置为:通过预先训练的排序模型对所述关联文本集合中的各个关联文本进行排序,得到各个关联文本对应的参考排序信息,所述参考排序信息用于表征所述关联文本被关联的关联程度;基于所述参考排序信息,从所述关联文本集合中选定至少一个关联文本作为推荐文本。

在本申请的一些实施例中,基于前述方案,所述选定单元1003还配置为:获取所述搜索文本与各个关联文本对应的第三文本特征,所述第三文本特征包括语义特征,书写形体特征,以及发音特征中的至少一种;基于所述搜索文本与各个关联文本对应的第三文本特征,通过所述排序模型确定针对各个关联文本对应的推荐指数;通过所述推荐指数对所述关联文本集合中的各个关联文本进行排序。

在本申请的一些实施例中,基于前述方案,所述排序模型包括第一子模型和第二子模型,所述第一子模型具有对所述搜索文本对应的第三文本特征进行记忆的能力,所述第二子模型具有对所述搜索文本对应的第三文本特征进行泛化的能力,所述选定单元还1003配置为:将所述搜索文本与各个关联文本对应的第三文本特征输入至第一子模型,以输出针对各个关联文本对应的第一推荐指数;将所述搜索文本与各个关联文本对应的第三文本特征输入至第二子模型,以输出针对各个关联文本对应的第二推荐指数;针对每一个关联文本,对所述第一子推荐指数和第二推荐指数进行加权计算,得到所述关联文本对应的推荐指数。

在本申请的一些实施例中,基于前述方案,所述第一子模型包括双线性变换模型,所述第二子模型为神经网络模型。

在本申请的一些实施例中,基于前述方案,所述装置还包括:训练单元,被用于在为所述待推送用户推送所述推荐文本和所述文本属性信息之后,获取待推送用户根据推送的所述推荐文本和所述文本属性信息而产生的行为数据;基于所述行为数据对所述排序模型进行再训练,得到再训练后的排序模型,所述再训练后的排序模型用于进行下一次关联文本排序。

在本申请的一些实施例中,基于前述方案,所述训练单元配置为:基于所述行为数据,确定各个关联文本对应的期望排序信息;通过所述期望排序信息与所述参考排序信息的对比,通过梯度反向传递对所述排序模型中的隐层参数进行校正。

作为另一方面,本申请实施例还提供了另一种文本数据处理装置,包括有存储器,以及一个以上的程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如上述实施例中所述的文本数据处理方法的指令。

图11示出了根据本申请一个实施例的文本数据处理装置的框图。例如,装置1100可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图11,装置1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电源组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)的接口1112,传感器组件1114,以及通信组件1116。

处理组件1102通常控制装置1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1102可以包括一个或多个处理器1120来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在设备1100的操作。这些数据的示例包括用于在装置1100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件1106为装置1100的各种组件提供电力。电源组件1106可以包括电源管理系统,一个或多个电源,及其他与为装置1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述装置1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当设备1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当装置1100处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。

I/O接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器,用于为装置1100提供各个方面的状态评估。例如,传感器组件1114可以检测到设备1100的打开/关闭状态,组件的相对定位,例如所述组件为装置1100的显示器和小键盘,传感器组件1114还可以搜索结果展示装置1100或装置1100一个组件的位置改变,用户与装置1100接触的存在或不存在,装置1100方位或加速/减速和装置1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件1116被配置为便于装置1100和其他设备之间有线或无线方式的通信。装置1100可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1116还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,装置1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1104,上述指令可由装置1100的处理器1120执行以完成上述的文本数据处理方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

作为另一方面,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现上述实施例中所述的文本数据处理方法。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由该装置的处理器加载并执行以实现如上述实施例中所述的文本数据处理方法所执行的操作。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

相关技术
  • 文本数据处理方法以及装置、存储介质、电子装置
  • 文本数据处理方法、装置、电子设备和可读存储介质
技术分类

06120113678245