掌桥专利:专业的专利平台
掌桥专利
首页

对象摘要确定方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 16:11:11



技术领域

本公开涉及互联网技术领域,尤其涉及对象摘要确定方法、装置、电子设备及存储介质。

背景技术

短视频作为一种新的信息载体,除了包含图像信息外,还包括有文本描述信息,比如用户在上传短视频时编辑的与短视频所展示内容相关的文本信息以及短视频标题等;目前,通过对这些短视频的文本描述信息进行摘要信息的提取,将提取的摘要信息应用于搜索场景下,可以有助于搜索准确性的提升。

然而,在目前的文本描述信息的摘要提取过程中,比较依赖人工标注的数据集质量,而当前短视频的体量巨大,根本无法通过人工标注的方法标注足够的数据,因此,现有的方式下无法生成理想的摘要。

发明内容

本公开提供一种对象摘要确定方法、装置、电子设备及存储介质,本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种对象摘要确定方法,包括:

获取对象的文本描述信息;

根据文本摘要模型,对文本描述信息进行关键信息抽取和摘要生成,得到对象的摘要信息;文本摘要模型包括关键信息抽取模型和摘要生成模型;

其中,关键信息抽取模型根据获取的历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词训练得到;摘要生成模型根据历史搜索对象的关键文本信息和筛选后的搜索词训练得到;关键文本信息根据关键信息抽取模型对文本描述信息进行抽取得到;筛选后的搜索词基于关键文本信息对多个搜索词进行筛选得到。

在一些可能的实施例中,关键信息抽取模型的生成方法包括:

获取历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词;

根据文本描述信息和多个搜索词,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型。

在一些可能的实施例中,摘要生成模型的生成方法包括:

根据关键信息抽取模型,对文本描述信息进行抽取,得到历史搜索对象的关键文本信息;

基于关键文本信息对多个搜索词进行筛选,得到筛选后的搜索词;

根据关键文本信息和筛选后的搜索词,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型。

在一些可能的实施例中,获取历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词,包括:

获取搜索日志;搜索日志包括多个历史搜索对象、多个历史搜索对象中各历史搜索对象的文本描述信息和各历史搜索对象对应的多个搜索词;

对各历史搜索对象对应的多个搜索词进行初步筛选,得到初步筛选后的搜索词。

在一些可能的实施例中,对各历史搜索对象对应的多个搜索词进行初步筛选,得到初步筛选后的搜索词,包括:

对各历史搜索对象对应的多个搜索词中各搜索词进行分词处理,得到分词结果;

确定分词结果中各个词的词频;

根据各个词的词频,对各个词进行排序;

根据各个词的排序结果,得到目标词;

将各历史搜索对象对应的多个搜索词中包含目标词的搜索词,作为初步筛选后的搜索词。

在一些可能的实施例中,根据文本描述信息和多个搜索词,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型,包括:

将文本描述信息作为输入,将多个搜索词中各搜索词依次作为输出标签,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型。

在一些可能的实施例中,基于关键文本信息对多个搜索词进行筛选,得到筛选后的搜索词,包括:

确定多个搜索词中各搜索词与关键文本信息之间的匹配值;

将匹配值大于或等于预设匹配值的搜索词作为筛选后的搜索词。

在一些可能的实施例中,根据关键文本信息和筛选后的搜索词,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型,包括:

将关键文本信息作为输入,将筛选后的搜索词作为输出,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型。

根据本公开实施例的第二方面,提供一种对象摘要确定装置,包括:

获取模块,被配置为执行获取对象的文本描述信息;

摘要生成模块,被配置为执行根据文本摘要模型,对文本描述信息进行关键信息抽取和摘要生成,得到对象的摘要信息;文本摘要模型包括关键信息抽取模型和摘要生成模型;

其中,关键信息抽取模型根据获取的历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词训练得到;摘要生成模型根据历史搜索对象的关键文本信息和筛选后的搜索词训练得到;关键文本信息根据关键信息抽取模型对文本描述信息进行抽取得到;筛选后的搜索词基于关键文本信息对多个搜索词进行筛选得到。

在一些可能的实施例中,还包括:

第一模型生成模块,被配置为执行获取历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词;根据文本描述信息和多个搜索词,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型。

在一些可能的实施例中,还包括:

第二模型生成模块,被配置为执行根据关键信息抽取模型,对文本描述信息进行抽取,得到历史搜索对象的关键文本信息;基于关键文本信息对多个搜索词进行筛选,得到筛选后的搜索词;根据关键文本信息和筛选后的搜索词,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型。

在一些可能的实施例中,第一模型生成模块,还被配置为执行获取搜索日志;搜索日志包括多个历史搜索对象、多个历史搜索对象中各历史搜索对象的文本描述信息和各历史搜索对象对应的多个搜索词;对各历史搜索对象对应的多个搜索词进行初步筛选,得到初步筛选后的搜索词。

在一些可能的实施例中,第一模型生成模块,还被配置为执行对各历史搜索对象对应的多个搜索词中各搜索词进行分词处理,得到分词结果;确定分词结果中各个词的词频;根据各个词的词频,对各个词进行排序;根据各个词的排序结果,得到目标词;将各历史搜索对象对应的多个搜索词中包含目标词的搜索词,作为初步筛选后的搜索词。

在一些可能的实施例中,第一模型生成模块,还被配置为执行将文本描述信息作为输入,将多个搜索词中各搜索词依次作为输出标签,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型。

在一些可能的实施例中,第二模型生成模块,还被配置为执行确定多个搜索词中各搜索词与关键文本信息之间的匹配值;将匹配值大于或等于预设匹配值的搜索词作为筛选后的搜索词。

在一些可能的实施例中,第二模型生成模块,还被配置为执行将关键文本信息作为输入,将筛选后的搜索词作为输出,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型。

根据本公开实施例的第三方面,提供一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,处理器被配置为执行指令,以实现本公开实施例第一方面提供的的对象摘要确定方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例第一方面提供的对象摘要确定方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从可读存储介质读取并执行计算机程序,使得计算机设备执行本公开实施例第一方面提供的对象摘要确定方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

通过获取对象的文本描述信息;根据文本摘要模型,对文本描述信息进行关键信息抽取和摘要生成,得到对象的摘要信息;文本摘要模型包括关键信息抽取模型和摘要生成模型;其中,关键信息抽取模型根据获取的历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词训练得到;摘要生成模型根据历史搜索对象的关键文本信息和筛选后的搜索词训练得到;关键文本信息根据关键信息抽取模型对文本描述信息进行抽取得到;筛选后的搜索词基于关键文本信息对多个搜索词进行筛选得到。如此,可以快速精准地生成对象的摘要信息。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图;

图2是根据一示例性实施例示出的一种对象摘要确定方法的流程图;

图3是根据一示例性实施例示出的一种关键信息抽取模型的生成方法的流程图;

图4是根据一示例性实施例示出的一种获取历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词的流程图;

图5是根据一示例性实施例示出的一种对各历史搜索对象对应的多个搜索词进行初步筛选的流程图;

图6是根据一示例性实施例示出的一种摘要生成模型的生成方法的流程图;

图7是根据一示例性实施例示出的一种基于关键文本信息对多个搜索词进行筛选的流程图;

图8是根据一示例性实施例示出的一种对象摘要确定装置的框图;

图9是根据一示例性实施例示出的一种用于对象摘要确定的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的第一对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等),均为经用户授权或者经过各方充分授权的信息。

请参阅图1,图1是根据一示例性实施例示出的一种应用环境的示意图,如图1所示,该应用环境可以包括服务端01和客户端02;服务端01和客户端02通过无线或有线连接。

首先,服务端01生成文本摘要模型,然后根据文本摘要模型对获取的对象的文本描述信息进行关键信息抽取和摘要生成,得到对象的摘要信息;后续服务端01可以将对象的摘要信息推送至客户端02,以在客户端02的指定页面中进行展示。

其中,服务端01可以包括是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows、Unix等。

其中,客户端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的客户端。也可以为运行于上述客户端的软体,例如应用程序、小程序等。可选的,客户端上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows、Unix等。

此外,需要说明的是,图1所示的仅仅是本公开提供的对象摘要确定方法的一种应用环境,在实际应用中,还可以包括其他应用环境。

下面介绍本公开实施例提供的对象摘要确定方法的实施例。图2是根据一示例性实施例示出的一种对象摘要确定方法的流程图,如图2所示,对象摘要确定方法可以应用于服务端,包括以下步骤:

在步骤S201中,获取对象的文本描述信息。

其中,对象是与实际应用场景相匹配的内容;在一些可能的应用场景中,对象可以包括音乐、短视频、商品、新闻资讯、广告等。

在步骤S203中,根据文本摘要模型,对文本描述信息进行关键信息抽取和摘要生成,得到对象的摘要信息;文本摘要模型包括关键信息抽取模型和摘要生成模型。

在实际应用中,将对象的文本描述信息输入文本摘要模型中,文本摘要模型将先通过关键信息抽取模型对文本描述信息进行关键信息抽取,关键信息抽取模型输出对象的关键文本信息,并传递至摘要生成模型的输入端,然后通过摘要生成模型对关键文本信息进行摘要的生成,最终文本摘要模型的输出即摘要生成模型输出的摘要信息。

本公开实施例中,上述的关键信息抽取模型根据获取的历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词训练得到;上述的摘要生成模型根据历史搜索对象的关键文本信息和筛选后的搜索词训练得到;其中,关键文本信息根据关键信息抽取模型对文本描述信息进行抽取得到;筛选后的搜索词基于关键文本信息对多个搜索词进行筛选得到。

下面介绍关键信息抽取模型和摘要生成模型的生成方法。关键信息抽取模型和摘要生成模型分别进行训练得到,在实际应用中,先将待生成摘要对象的信息输入至关键信息抽取模型中,输出的结果再输入至摘要生成模型中,输出对应的摘要信息。

图3是根据一示例性实施例示出的一种关键信息抽取模型的生成方法的流程图,如图3所示,包括以下步骤:

在步骤S301中,获取历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词。

本公开实施例中,通过步骤S301~S303训练得到关键信息抽取模型。在训练关键信息抽取模型的过程中,首先进行训练样本数据集的构建。

在相关领域中,若想要通过训练模型,通过该模型确定特定对象相应的文本摘要,则必须要有有标注的数据集;而在相关领域中,目前仍然没有通用领域的以及精准描述的大规模中文数据集,比如,在短视频领域中,对短视频文本生成相应的文本摘要,除了需要大量短视频文本外,还需要该短视频所对应的摘要作为标注,而目前此类数据集仍然由人工的方法构建,但这一数据集的量级较大,用人工的方式构建非常耗费人力和浪费时间。

基于此,本公开实施例中,服务器通过获取历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词,可以自动构建所需的训练样本数据集。上述的历史搜索对象表征用户过去搜索过的对象,对象是与实际应用场景相匹配的内容;在一些可能的应用场景中,对象可以包括音乐、短视频、商品、新闻资讯、广告等。上述的文本描述信息包括关于对象所展示内容的中文描述文本。上述的历史搜索对象对应的多个搜索词,即用户过去搜索过程中所使用过的搜索词;一般情况下,不同用户或同一用户可以使用多个不同的搜索词搜索到相同的对象,则一个对象可以对应多个不同的搜索词。

在一些可能的实施例中,上述的获取历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词,可以包括如图4所示的以下步骤:

在步骤S401中,获取搜索日志;搜索日志包括多个历史搜索对象、多个历史搜索对象中各历史搜索对象的文本描述信息和各历史搜索对象对应的多个搜索词。

该步骤中,服务器存储有关于对象的搜索日志,搜索日志包括多个历史搜索对象的日志数据;通过获取搜索日志,以从搜索日志中获得各历史搜索对象的文本描述信息和各历史搜索对象对应的多个搜索词。

在步骤S403中,对各历史搜索对象对应的多个搜索词进行初步筛选,得到初步筛选后的搜索词。

由于搜索词需要在训练过程中作为标注使用,而直接从搜索日志中获得的各历史搜索对象的搜索词的数量较多,其中可能包括与历史搜索对象实际内容并不相符的搜索词,即该搜索词并不能非常精准的描述这一历史搜索对象;若直接基于原始搜索日志中的数据构建训练样本数据集,则数据集中将包含大量的噪音,最终影响模型的生成效果。

从而,上述实施例中,通过对各历史搜索对象对应的多个搜索词进行初步筛选,基于初步筛选后的搜索词构建训练样本数据集,可以提高数据集的准确度,从而在后续的训练过程中,降低模型所受的噪音影响,最终可以提高模型输出结果的准确度。

在一些可能的实施例中,上述的对各历史搜索对象对应的多个搜索词进行初步筛选,得到初步筛选后的搜索词,可以包括如图5所示的以下步骤:

在步骤S501中,对各历史搜索对象对应的多个搜索词中各搜索词进行分词处理,得到分词结果。

该步骤中,服务器可以采用分词算法对各历史搜索对象对应的多个搜索词中各搜索词进行分词处理,得到每个搜索词对应的分词结果;其中,分词算法可以包括基于字符串匹配的分词算法或者基于统计以及机器学习的分词算法。

在步骤S503中,确定分词结果中各个词的词频。

在步骤S505中,根据各个词的词频,对各个词进行排序。

在步骤S507中,根据各个词的排序结果,得到目标词。

上述步骤S503~S507中,每个搜索词对应的分词结果包括至少一个词;不同的搜索词在经过分词处理后,可能包含相同的词,统计所有搜索词经过分词后得到的所有词,确定所有词中各个词出现的次数,得到各个词的词频;再根据各个词的词频,对各个词进行排序,根据排序结果,可以将排序前N位的词作为目标词。

在步骤S509中,将各历史搜索对象对应的多个搜索词中包含目标词的搜索词,作为初步筛选后的搜索词。

该步骤中,基于目标词对该历史搜索对象对应的多个搜索词进行初步筛选,即将不包含目标词的搜索词删除,保留包含目标词的搜索词。

下面通过一个具体的例子对上述实施例进行说明。假设在短视频的应用场景中,某一历史搜索对象为短视频A,用户历史使用过的搜索词包括abc、ad、cd、de、a、b这6个搜索词;首先对这6个搜索词进行分词处理后,得到的搜索词abc的分词结果为a、b、c,搜索词ad的分词结果为a、d,搜索词cd的分词结果为c、d,搜索词de的分词结果为d、e,搜索词a的分词结果为a,搜索词b的分词结果为b;然后确定各个词的词频为:a(3次),b(2次),c(2次),d(3次),e(1次);相应的,排序结果为:a,d,b,c,e;其中,相同词频的词随机生成先后顺序;选取排序前2位的词作为目标词,则a和d为目标词,最终初步筛选后,删除搜索词b,剩余搜索词为abc、ad、cd、de、a。

上述实施例中,通过对各历史搜索对象的各搜索词进行分词处理,根据分词结果统计出现频次最多的词,该出现频次最多的词即用户较常使用的词,其更可能能够精准的描述该对象;从而基于该出现频次最多的词实现对多个搜索词的初步筛选,可以将不准确的搜索词进行删除,得到与对象实际描述内容较匹配的搜索词,这有利于提高训练样本数据集的质量。

在步骤S303中,根据文本描述信息和多个搜索词,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型。

本公开实施例中,在训练关键信息抽取模型的过程中,还需要搭建第一预设机器学习模型,利用上述步骤中构建好的训练样本数据集对第一预设机器学习模型进行训练,在满足预设的训练结束条件时,得到训练好的关键信息抽取模型。

在一些可能的实施例中,上述的根据文本描述信息和多个搜索词,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型,可以包括:

将文本描述信息作为输入,将多个搜索词中各搜索词依次作为输出标签,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型。

上述构建好的训练样本数据集包括多个样本对,每个样本对包括历史搜索对象的文本描述信息和多个搜索词中任一搜索词;通常一个对象会对应多个搜索词,则每个搜索词可以与文本描述信息组成一个样本对。从而,在训练时,将历史搜索对象的文本描述信息作为输入,以对应的搜索词为标注,对第一预设机器学习模型进行关键信息抽取训练,具体的,针对当前样本对中的搜索词,将其依次与文本描述信息中的词进行匹配,若匹配成功,则抽取相应的文本信息,该相应的文本信息包括与搜索词的意思相近或相同的词;基于搜索词抽取得到的相应的文本信息,即文本描述信息中关键文本信息,也可以称为是文本描述信息的精炼版本;在满足预设的训练结束条件时,得到训练好的关键信息抽取模型。

其中,预设的训练结束条件可以包括在迭代次数达到预设次数时结束训练;或者,在模型参数达到优化目标时结束训练。

上述实施例中,通过构建的训练样本数据集进行训练,得到关键信息抽取模型;关键信息抽取模型用于对对象的原始文本描述信息进行关键信息的抽取,剔除无关信息,以得到与对象所展示内容强相关的关键文本信息,即更加精炼的描述文本,如此,在后续生成对象摘要的过程中,基于该更加精炼的描述文本,可以获得更加准确的对象摘要信息。

图6是根据一示例性实施例示出的一种摘要生成模型的生成方法的流程图,如图6所示,包括以下步骤:

在步骤S601中,根据关键信息抽取模型,对文本描述信息进行抽取,得到历史搜索对象的关键文本信息。

在步骤S603中,基于关键文本信息对多个搜索词进行筛选,得到筛选后的搜索词。

本公开实施例中,服务器在完成关键信息抽取模型的训练后,利用训练好的关键信息抽取模型,对文本描述信息进行抽取,得到历史搜索对象的关键文本信息;然后再基于关键文本信息对多个搜索词进行筛选,得到筛选后的搜索词。

在上文的实施例中,多个搜索词可以是已经过初步筛选后的多个搜索词;上述步骤S601~S603中,利用历史搜索对象的关键文本信息,再对该初步筛选后的多个搜索词进行二次筛选,以进一步提高数据集的质量。

在一些可能的实施例中,上述基于关键文本信息对多个搜索词进行筛选,得到筛选后的搜索词,可以包括如图7所示的以下步骤:

在步骤S701中,确定多个搜索词中各搜索词与关键文本信息之间的匹配值。

在步骤S703中,将匹配值大于或等于预设匹配值的搜索词作为筛选后的搜索词。

具体的,服务器可以计算各搜索词与关键文本信息之间的相似程度值,将该相似程度值作为匹配值;在短视频的应用场景中,经过抽取后的关键文本信息通常为短语形式,而搜索词也为短语形式,从而可以通过计算各搜索词与关键文本信息之间相同的字的数量,来确定其相似程度值;相同的字的数量越多,则相似程度值越高,匹配值越高。其中,预设匹配值可以根据实际需求确定。

上述实施例中,通过确定多个搜索词中各搜索词与关键文本信息之间的匹配值可以实现对搜索词的二次筛选,最终筛选得到的搜索词可以精准描述对象实际展示的内容,可以进一步提高数据集的质量,继而进一步降低噪声所带来的影响。

此外,为了确保程序筛选结果的准确性,可以再通过人工方式,对筛选结果进行抽样检查,人工判断各历史搜索对象的搜索词是否可靠,若不可靠,则重复上述步骤S303、S601~S603,在判断可靠后执行后续步骤。

在步骤S605中,根据关键文本信息和筛选后的搜索词,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型。

本公开实施例中,通过步骤S605训练得到摘要生成模型。在训练摘要生成模型的过程中,搭建第二预设机器学习模型,基于筛选后的搜索词和关键文本信息,对第二预设机器学习模型进行摘要生成训练,在满足预设的训练结束条件时,得到训练好的摘要生成模型。

在一些可能的实施例中,上述的根据关键文本信息和筛选后的搜索词,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型,可以包括:

将关键文本信息作为输入,将筛选后的搜索词作为输出,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型。

在训练过程中,将关键信息抽取模型抽取的历史搜索对象的关键文本信息作为第二预设机器学习模型的输入,以输出筛选后的任一搜索词为目标,对第二预设机器学习模型进行训练,在满足预设的训练结束条件时,得到训练好的摘要生成模型。

其中,预设的训练结束条件可以包括在迭代次数达到预设次数时结束训练;或者,在模型参数达到优化目标时结束训练。

上述实施例中,以历史搜索对象的关键文本信息为输入,相较于直接将原始文本描述信息作为输入的方式,可以使模型尽可能地在训练过程中少受噪音影响,从而可以在该阶段生成较为精准的摘要。且摘要生成模型最终输出的摘要为与搜索词类似的短语形式,此种形式的摘要可以在对象搜索场景中得到更加广泛地应用。

本公开实施例中,通过上述步骤S301~S303训练得到关键信息抽取模型,通过步骤S601~S605训练得到摘要生成模型,关键信息抽取模型和摘要生成模型即组成本公开所述的文本摘要模型。

本公开实施例提供了一种文本摘要模型的生成方法,即基于S301~S303得到关键信息抽取模型,基于S601~S605得到摘要生成模型,最后基于关键信息抽取模型和摘要生成模型得到文本摘要模型,通过上述的本公开实施例提供的文本摘要模型的生成方法,可以解决目前仍然没有通用领域的或精准描述的大规模中文数据集,而导致的无法快速有效地生成精准的文本摘要模型的问题。,本公开不仅可以快速有效地生成精准的文本摘要模型,且生成的文本摘要模型可以用于对象摘要的确定。

本公开实施例中,最终得到的摘要信息可以非常精准地描述对象实际展示的内容。如上文提到的,该摘要信息可以在对象搜索场景中得到更加广泛地应用;比如,摘要信息可以用于客户端上指定页面中,对用户在搜索框中所输入的内容进行智能补全,以便用户可以直接选择智能补全的词条,由于智能补全的词条即摘要信息是基于已存在的对象生成的,从而,用户一定可以基于选择的词条获得与该词条强相关的对象,如此,可以提高搜索成功率,可以提升用户体验;又比如,摘要信息可以显示在相应对象的显示界面,以帮助用户快速了解对象所展示的内容。

图8是根据一示例性实施例示出的一种对象摘要确定装置框图。参照图8,该装置包括获取模块801和摘要生成模块802;

获取模块801,被配置为执行获取对象的文本描述信息;

摘要生成模块802,被配置为执行根据文本摘要模型,对文本描述信息进行关键信息抽取和摘要生成,得到对象的摘要信息;文本摘要模型包括关键信息抽取模型和摘要生成模型;

其中,关键信息抽取模型根据获取的历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词训练得到;摘要生成模型根据历史搜索对象的关键文本信息和筛选后的搜索词训练得到;关键文本信息根据关键信息抽取模型对文本描述信息进行抽取得到;筛选后的搜索词基于关键文本信息对多个搜索词进行筛选得到。

在一些可能的实施例中,还包括:

第一模型生成模块,被配置为执行获取历史搜索对象的文本描述信息和历史搜索对象对应的多个搜索词;根据文本描述信息和多个搜索词,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型。

在一些可能的实施例中,还包括:

第二模型生成模块,被配置为执行根据关键信息抽取模型,对文本描述信息进行抽取,得到历史搜索对象的关键文本信息;基于关键文本信息对多个搜索词进行筛选,得到筛选后的搜索词;根据关键文本信息和筛选后的搜索词,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型。

在一些可能的实施例中,第一模型生成模块,还被配置为执行获取搜索日志;搜索日志包括多个历史搜索对象、多个历史搜索对象中各历史搜索对象的文本描述信息和各历史搜索对象对应的多个搜索词;对各历史搜索对象对应的多个搜索词进行初步筛选,得到初步筛选后的搜索词。

在一些可能的实施例中,第一模型生成模块,还被配置为执行对各历史搜索对象对应的多个搜索词中各搜索词进行分词处理,得到分词结果;确定分词结果中各个词的词频;根据各个词的词频,对各个词进行排序;根据各个词的排序结果,得到目标词;将各历史搜索对象对应的多个搜索词中包含目标词的搜索词,作为初步筛选后的搜索词。

在一些可能的实施例中,第一模型生成模块,还被配置为执行将文本描述信息作为输入,将多个搜索词中各搜索词依次作为输出标签,对第一预设机器学习模型进行关键信息抽取训练,得到关键信息抽取模型。

在一些可能的实施例中,第二模型生成模块,还被配置为执行确定多个搜索词中各搜索词与关键文本信息之间的匹配值;将匹配值大于或等于预设匹配值的搜索词作为筛选后的搜索词。

在一些可能的实施例中,第二模型生成模块,还被配置为执行将关键文本信息作为输入,将筛选后的搜索词作为输出,对第二预设机器学习模型进行摘要生成训练,得到摘要生成模型。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于对象摘要确定的电子设备的框图。

该电子设备可以是服务器,还可以是终端设备,其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象摘要确定方法。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的对象摘要确定方法。

在示例性实施例中,还提供了一种计算机可读存储介质,当该计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的对象摘要确定方法。

在示例性实施例中,还提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从可读存储介质读取并执行计算机程序,使得计算机设备执行本公开实施例的对象摘要确定方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 对象摘要确定方法、装置、电子设备及存储介质
  • 对象的通行状态确定方法、装置、电子设备和存储介质
技术分类

06120114737306