掌桥专利:专业的专利平台
掌桥专利
首页

文本处理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 12:00:51


文本处理方法、装置、电子设备及存储介质

技术领域

本发明涉及文本处理领域,具体而言,涉及一种文本处理方法、装置、电子设备及存储介质。

背景技术

自然语言处理(Natural Language Processing,NLP)作为计算机科学技术与人工智能领域中的重要方向,可实现人机之间的自然通信。自然语言处理,可将自然语料转换成数字化信息,得到机器可识别的信息。

自然语言处理技术,通常需要神经网络模型的配合。其中,自然语言的生成技术,特别是文本生成,受限于特定的话题。目前,在文本生成技术中,需基于预设话题下的语料库进行训练,得到神经网络结构的文本生成模型。当接收到该预设话题下的输入文本,该文本生成模型便可输出该预设话题下该输入文本对应的输出文本。

也就是说,目前大多的神经网络结构的文本生成模型,需要限定文本的话题,其训练得到模型的准确度才能得到保证,而对于未限定话题的输入文本,该文本生成模型便无法生成对应的输出文本,并且,神经网络模结构的文本生成模型其模型复杂度通常较高,其模型训练和调参时间较长,那么其文本生成模型的时间成本较高。

发明内容

本发明的目的在于,针对上述现有技术中的不足,提供一种文本处理方法、装置、电子设备及存储介质,以生成未限定话题的输入文本的评论文本,减小生成文本的时间成本。

为实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明实施例提供了一种文本处理方法,包括:

对输入文本进行特征提取,得到所述输入文本的特征;

根据所述输入文本的特征,从预先创建的数据库中,选择n条真实文本;所述数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征;

根据所述输入文本的特征和所述n条真实文本对应的评论文本的特征,从所述n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本;其中,n为大于或等于1的整数,m为大于1的整数。

可选的,所述对输入文本进行特征提取,得到所述输入文本的特征,包括:

获取所述输入文本中的多个目标词语;

根据预先构建的语料库,对所述多个目标词语进行映射,得到所述多个目标词语的特征,其中,所述语料库包括:多个基础词语的特征;每个目标词语的特征为所述语料库中与所述每个目标词语匹配的目标基础词语的特征;

根据所述多个目标词语的特征,得到所述输入文本的特征。

可选的,所述根据所述多个目标词语的特征,得到所述输入文本的特征,包括:

采用所述多个目标词语的预设权重,对所述多个目标词语的特征进行加权和运算,得到所述输入文本的特征。

可选的,所述采用所述多个目标词语的预设权重,对所述多个目标词语的特征进行加权和运算,得到所述输入文本的特征之前,所述方法还包括:

根据所述每个目标词语匹配的目标基础词语在所述语料库的逆文档频率指数,确定所述每个目标词语的预设权重。

可选的,所述语料库中的所述多个基础词语来源于多个文档;所述确定所述每个目标词语匹配的目标基础词语在所述语料库的逆文档频率指数为所述每个目标词语的预设权重之前,所述方法还包括:

根据所述每个基础词语在所述语料库中的词频、所述多个文档中具有所述每个基础词语的文档总数量以及预设的比例因子,计算所述每个基础词语的逆文档频率指数。

可选的,所述获取所述输入文本中的多个词语,包括:

对所述输入文本进行分词,得到多个初始词语;

对所述多个初始词语进行处理,以剔除所述多个初始词语中的停用词和/或固定组合词,得到所述多个目标词语。

可选的,所述方法还包括:

若所述语料库中不存在所述每个目标词语匹配的目标基础词语,则确定所述输入文本为无语义的输入文本;

从预设的评论文本库中随机选择评论文本作为目标评论文本。

可选的,所述根据预先构建的语料库,对所述多个目标词语进行映射,得到所述多个目标词语的特征之前,所述方法还包括:

采用预设的词向量模型,对预设数据源中的多个文档进行处理,得到所述多个基础词语的特征。

可选的,所述根据所述输入文本的特征,从预先创建的数据库中,选择所述输入文本对应的n条真实文本之前,所述方法还包括:

从预设网络平台爬取社交文本内容;

对所述社交文本内容中所述多条真实文本进行特征提取,得到所述多条真实文本的特征;

对所述社交文本内容中的所述每条真实文本对应的评论文本进行特征提取,得到所述每条真实文本对应的评论文本的特征。

可选的,所述根据所述输入文本的特征,从预先创建的数据库中,选择n条真实文本,包括:

根据所述输入文本的特征,从所述数据库中,选择与所述输入文本的特征最相关的所述n条真实文本。

可选的,所述根据所述输入文本的特征和所述n条真实文本对应的评论文本的特征,从所述n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本,包括:

分别计算所述输入文本的特征和所述n条真实文本对应的评论文本的特征的相似度;

根据计算的相似度,从所述n条真实文本对应的评论文本中,选择相似度最高的m条评论文本作为目标评论文本。

第二方面,本申请实施例还提供一种文本处理装置,包括:

特征提取模块,用于对输入文本进行特征提取,得到所述输入文本的特征;

第一选择模块,用于根据所述输入文本的特征,从预先创建的数据库中,选择n条真实文本;所述数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征;

第二选择模块,用于根据所述输入文本的特征和所述n条真实文本对应的评论文本的特征,从所述n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本;其中,n为大于或等于1的整数,m为大于1的整数。

第三方面,本申请实施例还提供一种电子设备,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所提供的任一文本处理方法。

第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面所提供的任一文本处理方法。

本申请的有益效果是:

本申请所提供的文本处理方法、装置、电子设备及存储介质中,可通过对输入文本进行特征提取,得到输入文本的特征,根据输入文本的特征,从预先创建的数据库中,选择n条真实文本;数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征,并根据输入文本的特征和该n条真实文本对应的评论文本的特征,从该n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本。由于该文本处理方法,无需采用神经网络进行实现,大大减小了神经网络模型训练和调参带来的时间成本,并且,无需限定输入文本的话题,也可结合预先构建的数据库进行评论文本的生成,提高了文本处理方法针对未限定话题的输入文本的适用性;同时,由于选择打的目标评论文本是从真实文本对应的评论文本中选择的,其评论文本的真实性更强,可使得用户感知到的目标评论文本,更接近真实评论,提高了用户的参与感,丰富虚拟社交场景的丰富性。

其次,采用该文本处理方法,针对输入文本所生成的评论文本,并不限于,可实现一对多的评论文本生成,即选择的目标评论文本可以为多个,丰富了生成评论文本的丰富性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明一实施例提供的文本处理方法的流程示意图;

图2为本申请实施例提供的一种文本处理方法中得到输入文本的特征的方法流程图;

图3为本申请实施例提供的一种文本处理方法中确定词语权重的方法流程图;

图4为本申请实施例提供的一种文本处理方法中输入文本无语义的情况下的方法流程图;

图5为本申请实施例提供的一种文本处理方法中构建数据库的方法流程图;

图6为本申请实施例提供的一种文本处理方法的场景框图;

图7为本申请实施例提供的一种文本处理装置的示意图;

图8为本申请实施例提供的电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

本申请实施例可应用于虚拟社交场景,可基于输入文本,自动生成对应的评论文本,实现了真实评论的模拟,从而提高了用户的参与感,丰富了虚拟社交场景的丰富性。该虚拟社交场景例如可以为:游戏中的虚拟社交场景,当接收到游戏玩家输入的输入文本,便可执行本申请实施例所提供的文本处理方法,基于该输入文本生成对应的目标评论文本,由于该目标评论文本是从预先创建的数据库中获取的真实文本对应的评论文本,因此,该目标评论文本可模拟真实用户的社交评论,使得玩家用户感知到的目标评论文本,更接近真实评论,提高了玩家用户的参与感。当然,该游戏中的虚拟社交场景,仅为本申请实施例提供的文本处理方法的一种可能的应用场景示例,在其他应用的使用场景中,只要涉及社交模拟,均可执行本申请实施例提供的文本处理方法。

在传统的技术中,基于输入文本的文本生成技术,通常需要基于预先训练的神经网络模型进行实现,而神经网络模型的训练和调参通常比较耗时,而在本申请所提供的文本处理方法中,可基于输入文本,以及预先构建的数据库,即可生成对应的目标评论文本,无需基于预先训练的神经网络模型,减少了神经网络模型训练和调参的时间成本。

如下通过多个实例对本申请所提供的文本处理方法进行示例说明。

图1为本发明一实施例提供的文本处理方法的流程示意图,该文本处理方法可由支持虚拟社交的客户端设备实现,也可由支持虚拟社交的服务端设备即服务器实现,如下以客户端设备作为执行主体进行示例说明,对于服务器所执行的过程与客户端设备所执行的方法过程类似,本申请不再赘述。

如图1所示,该文本处理方法可包括:

S101、对输入文本进行特征提取,得到该输入文本的特征。

在一种可能的实现方式中,可将输入文本进行词语为单位进行特征提取,得到输入文本中多个词语的特征,继而基于该多个词语的特征,计算得到该输入文本的特征。其中,每个词语的特征可通过特征向量进行表示,即该每个词语的特征即为该每个词语的特征向量。那么,基于对多个词语的特征向量,所得到的该输入文本的特征可以为该输入文本的特征值。

其中,每个词语的特征可以是采用预设的词向量工具进行处理得到,也可根据该每个词语,从预先得到的多个基础词语的特征中选择与该每个词语匹配的基础词语的特征作为该每个词语的特征。如此,得到的每个词语的特征实际为基础词语的特征,其特征更可靠,有效避免了输入文本中词语输入的不够规范引起的特征不够准确的问题。

在另一种可能实现方式中,也可采用预设的特征提取工具,对该输入文本进行特征提取,得到该输入文本的特征。该预设的特征提取工具例如可以为神经网络结构的特征提取模型。

当然,也可采用其他的方式,对输入文本进行特征提取,本申请实施例不对此进行限制。

在可能的示例场景中,上述输入文本可以为用户通过文本输入界面输入的文本,也可以对用户输入的语音进行转换得到的输入文本,本申请实施例不对此进行限制。

S102、根据该输入文本的特征,从预先创建的数据库中,选择n条真实文本。

该数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征。

该数据库例如可以是基于真实社交场景中的文本内容进行处理得到的包括有真实文本的特征,以及真实文本对应的评论文本的特征。该真实社交场景中的文本内容例如可以为预设社交平台中预设用户所发表的文本内容。来自真实社交场景中的文本内容可以称为社交文本内容,即存在评论文本的文本内容。

该多条真实文本可以为来自该真实社交场景中的文本内容中的多个文本句子;每条真实文本对应的评论文本可以为该每条真实文本在真实社交场景中对应的评论文本。

在可能示例场景中,该输入文本可以为:文本长度小于或等于预设长度阈值的文本,例如不超过预设字符数的文本,其可称为短文本。若该预设字符数例如可以为160字符。相应的,该数据库中的每条真实文本,和对应的评论文本也均可以为短文本。

在得到该输入文本的特征的情况下,可通过对该输入文本的特征和多条真实文本的特征进行比对,根据该输入文本和多条真实文本的特征比对结果,从多条真实文本中选择n条真实文本。该n条真实文本可以为该多条真实文本中满足预设特征条件的真实文本。n可以为大于或等于1的预设整数。

例如,可根据该输入文本的特征,从数据库中,选择与输入文本的特征最相关的n条真实文本。

在该实现方式中,可计算该输入文本和多条真实文本的特征相关性,根据计算的特征相关性,从多条真实文本中选择与输入文本的特征最相关的n条真实文本。

S103、根据该输入文本的特征和该n条真实文本对应的评论文本的特征,从该n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本。

其中,m为大于1的整数。

从多条真实文本中选择的n条真实文本,即为,从该多条真实文本中选择的与该输入文本匹配的真实文本。由于数据库中每条真实文本具有对应的评论文本,在选择n条真实文本之后,该n条真实文本对应的评论文本便确定了。

在可能的实现方式中,可通对该输入文本的特征,和n条真实文本对应的所有评论文本的特征均进行比对,得到该输入文本和n条真实文本对应的所有评论文本的特征比对结果,从该n条真实文本对应的所有评论文本中选择m条评论文本。该m条评论文本可以为n条真实文本对应的所有评论文本中满足预设特征条件的评论文本。

例如,分别计算输入文本的特征和n条真实文本对应的评论文本的特征的相似度;根据计算的相似度,从n条真实文本对应的评论文本中,选择相似度最高的m条评论文本作为目标评论文本。

在具体实现示例中,可根据计算的相似度,对n条真实文本对应的评论文本进行相似度排序,根据相似度排序结果,选择相似度最高的m条评论文本作为目标评论文本。

在选择出该m条评论文本之后,可将该m条评论文本作为该输入文本对应的目标评论文本。在具体应用场景示例中,可将该目标评论文本进行输出,以在社交界面进行展示,也可将目标评论文本进行语音生成,得到目标评论语音进行输出。通过将该目标评论文本进行输出,可实现输入文本的真实评论的模拟。

本实施例所提供的文本处理方法中,可通过对输入文本进行特征提取,得到输入文本的特征,根据输入文本的特征,从预先创建的数据库中,选择n条真实文本;数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征,并根据输入文本的特征和该n条真实文本对应的评论文本的特征,从该n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本。由于该文本处理方法,无需采用神经网络进行实现,大大减小了神经网络模型训练和调参带来的时间成本,并且,无需限定输入文本的话题,也可结合预先构建的数据库进行评论文本的生成,提高了文本处理方法针对未限定话题的输入文本的适用性;同时,由于选择打的目标评论文本是从真实文本对应的评论文本中选择的,其评论文本的真实性更强,可使得用户感知到的目标评论文本,更接近真实评论,提高了用户的参与感,丰富虚拟社交场景的丰富性。

其次,采用该文本处理方法,针对输入文本所生成的评论文本,并不限于,可实现一对多的评论文本生成,即选择的目标评论文本可以为多个,丰富了生成评论文本的丰富性。

在上述图1所示的文本处理方法的基础上,本申请实施例还可提供一种文本处理方法中输入文本的特征提取方式进行示例说明。图2为本申请实施例提供的一种文本处理方法中得到输入文本的特征的方法流程图。如图2所示,上述S101中对输入文本进行特征提取,得到该输入文本的特征可以包括:

S201、获取该输入文本中的多个目标词语。

在可能的实现方式中,可对输入文本进行分词,得到多个初始词语,对该多个初始词语进行筛选,得到该多个目标词语。其中,可采用预设的分词工具,对输入文本进行分词。

示例的,在一种实现示例中,可对该输入文本进行分词,得到多个初始词语;对该多个初始词语进行处理,以剔除该多个初始词语中的停用词和/或固定组合词,得到该多个目标词语。

例如,可通过对多个初始词语进行停用词进行处理,剔除该多个初始词语中的停用词;通过该多个初始词语信息固定组合词处理例如特殊词处理,剔除该多个初始词语中的固定组合词。其中,该停用词例如可以为预设语言的停用词库中的词语;该固定组合词例如可以包括人名、地名或者其它形式的固定组合词。

S202、根据预先构建的语料库,对该多个目标词语进行映射,得到该多个目标词语的特征。

其中,该语料库包括:多个基础词语的特征;每个目标词语的特征为该语料库中与该每个目标词语匹配的目标基础词语的特征。

例如,可采用下述方式进行映射:

可根据该多个目标词语,从该语料库中确定是否存在与该每个目标词语相同的基础词语,若存在,该每个目标词语相同的基础词语即为每个目标词语匹配的目标基础词语的特征,因此,可将语料库中,每个目标词语匹配的目标基础词语的特征作为该每个目标词语的特征。

该语料库中每个基础词语的特征可以是与特征向量进行表示,如此,对于输入文本,通过执行该S202便可得到由该多个目标词语的特征向量组成的特征矩阵。因此,该映射也可处称为特征矩阵的映射,或者矩阵映射。

若语料库中存在该每个目标词语对应的基础词语,则可确定输入文本为具有语义的文本;反之,若语料库中不存在该每个目标词语对应的基础词语,则可确定输入文本为无语义的文本。

S203、根据该多个目标词语的特征,得到该输入文本的特征。

在可能实现方式中,可对该多个目标词语的特征进行累加,得到该输入文本的特征;也可对该多个目标词语的特征进行其他运算,得到该输入文本的特征。

例如,可采用该多个目标词语的预设权重,对该多个目标词语的特征进行加权和运算,得到该输入文本的特征。每个目标词语具有预设权重,不同词语的预设权重可以不同。

该实施例,可根据预先构建的语料库,对输入文本中的多个目标词语进行特征映射,得到该多个目标词语的特征,并基于该多个目标词语的特征,得到该输入文本的特征,可使得输入文本的特征均来自基础词语的特征,可使得输入文本的特征更可靠,更准确,使得提取的输入文本的特征可更准确反应输入用户的语义。

可选的,在可能实现示例中,该实施例还可提供一种文本处理方法中词语权重的确定方法。图3为本申请实施例提供的一种文本处理方法中确定词语权重的方法流程图。如图3所示,在上述方法中采用多个目标词语的预设权重,对多个词语的特征进行加权和运算,得到输入文本的特征之前,该方法还可包括:

S301、根据该每个目标词语匹配的目标基础词语在该语料库的逆文档频率指数,确定该每个目标词语的预设权重。

在可能实现方式中,可直接将该目标基础词语在该语料库的逆文档频率指数,确定为该每个目标词语的预设权重;也可根据该目标基础词语在该语料库的逆文档频率指数,采用预设的计算公式,得到该每个目标词语的预设权重。

语料库中不仅存储有多个基础词语的特征,还可存储有该多个基础词语的逆文档频率指数。其中,每个基础词语的逆文档频率指数可以为基于每个目标词语的词频所确定的逆文档频率指数,因此,该每个基础词语的逆文档频率指数可表示为:词频逆文档频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)。

在从语料库中确定出该每个目标词语匹配的目标基础词语的情况下,便可从该语料库中确定该目标基础词语的逆文档频率指数。

该实施例的方法,可根据该目标基础词语在该语料库的逆文档频率指数,确定该每个目标词语的预设权重,继而根据该每个目标词语的预设权重,对该多个目标词语的特征进行加权和运算,可使得到的输入文本的特征更准确,更可靠。

可选的,如上述所示的该语料库中的该多个基础词语来源于多个文档。

在上述S301中根据该每个目标词语匹配的目标基础词语在该语料库的逆文档频率指数,确定该每个目标词语的预设权重之前,该方法还可包括:

S301a、根据该每个基础词语在该语料库中的词频、该多个文档中具有该每个基础词语的文档总数量以及预设的比例因子,计算该每个基础词语的逆文档频率指数。

例如,可采用下述公式,计算该每个基础词语的逆文档频率指数。Idf_factor=math.log(consts.IDF_FACTOR*totalDocCount/(frequency+1)+1-consts.IDF_FACTOR)

其中,Idf_factor表示每个基础词语的逆文档频率指数,frequency为每个基础词语的词频,totalDocCount为具有该每个基础词语的文档总数量,consts.IDF_FACTOR为预设的比例因子,其可以为大于0的任一数值。

consts.IDF_FACTOR的具体数值,可通过在实验过程进行反复调参确定。

该实施例提供的方法,在计算每个基础词语的逆文档频率指数时,可通过引入预设的比例因子,使得逆文档频率指数的计算公式中斜率趋于平缓,在越靠近Y的地方数轴增量越大,通过该预设比例因子将原来的值val和1(x=1的负方向就是负值)之间进行一个平移,得到的逆文档频率指数可使得使得不同基础词语的差异性更加明显,增加了不同基础词语的区分度。

可选的,在上述任一所示的方法的基础上,本申请实施例还可提供一种输入文本无语义的情况下的评论文本处理方法。图4为本申请实施例提供的一种文本处理方法中输入文本无语义的情况下的方法流程图。如图4所示,该方法还可包括:

S401、若该语料库中不存在该每个目标词语匹配的目标基础词语,则确定该输入文本为无语义的输入文本。

例如,当输入文本为“。。。。。。”,可通过上述语料库的映射,可确定该语料库中不存在该输入文本中各个词语匹配的目标基础词语,因此,便可确定该输入文本为:无语义的输入文本。

当然,在其他场景示例中,也可采用其他的方式对输入文本进行语义判别,本申请实施例中,结合语料库实现语义判别,可使得针对输入文本的语义判别更准确。

S402、从预设的评论文本库中随机选择评论文本作为目标评论文本。

该预设的评论文本库可以存储有:预先创建的多条评论文本,该预设评论文本库中的评论文本可以为真实文本的评论文本,或者,机器生成的无语义评论文本。

在确定该输入文本无语义的情况下,可从预设的评论文本库中随机选择评论文本作为目标评论文本进行输出。

该实施例还提供一种输入文本无语义的情况下的评论文本生成,保证针对用户的输入文本均可输出对应的评论文本,提高虚拟社交的交互性,丰富性。

在上述任一实施例所示的方法的基础上,在上述S202中根据预先构建的语料库,对多个目标词语进行映射,得到多个目标词语的特征之前,该方法还可包括:

采用预设的词向量模型(Word2vec),对预设数据源中的多个文档进行处理,得到该多个基础词语的特征。

该多个文档可以为该预设数据源中针对预设语言的文档,如中文的多个文档,例如32万的中文文档。该预设数据源可以为预设的开源语料库。

该实施例提供的方法中,可基于预设数据源中的多个文档,得到该多个基础词语的特征,从而生成该语料库,实现了语料库的创建,保证了语料库中的基础词语的丰富性。

针对上述任一实施例所示的文本处理方法,本申请实施例还可提供一种具有真实文本的特征和对应的评论文本的特征的数据库进行的构建方法。图5为本申请实施例提供的一种文本处理方法中构建数据库的方法流程图。如图5所示,在上述方法S102中根据输入文本的特征,从预先创建的数据库中,选择输入文本对应的n条真实文本之前,该方法还可包括:

S501、从预设网络平台爬取社交文本内容。

该预设网络平台可以为预设社交平台,或者其他网络平台中的社交功能模块,如评分或者留言功能模块。该社交文本内容可以为:预设网络平台中满足预设用户级别的用户关联的社交文本内容,或者,文本内容的评论数或者转发数满足预设条件的文本内容。

S502、对该社交文本内容中该多条真实文本进行特征提取,得到该多条真实文本的特征。

S503、对该社交文本内容中的该每条真实文本对应的评论文本进行特征提取,得到该每条真实文本对应的评论文本的特征。

在具体实现过程中,对每条真实文本的特征提取的实现过程、以及对评论文本的特征提取的实现过程,均与上述输入文本的特征提取的实现过程类似,参照上述,本申请不再赘述。

该实施例提供的方法中,可通过从预设网络平台爬取社交文本内容,分别对该社交文本内容中的真实文本以及对应的评论文本进行特征提取,得到真实文本的特征和评论文本的特征,可使得数据库中真实文本和评论文本的特征更真实,有效保证后续基于数据库生成目标评论文本的真实性。

为清楚的理解本申请所提供的文本处理方法,如下通过一个具体的示例进行解释说明。图6为本申请实施例提供的一种文本处理方法的场景示意图,如图6所示,可预先采用预设的词向量模型,对预设数据源中的文档进行处理,得到语料库,即上述包括多个基础词语的特征的语料库;也可通过多个真实文本以及真实文本对应的评论文本进行特征提取,得到多个真实文本的特征,以及每个真实文本所对应的评论文本的特征,从而实现了包括:真实文本的特征和对应的评论文本的特征的数据库的构建。

在具体应用过程中,可对获取到的输入文本进行分词处理,并对分词后的多个初始词语进行停用词处理,以及特殊词处理,得到包括多个目标词语的词语集。在获取到该多个目标词语的情况下,可根据预先创建的语料库,对该多个目标词语进行矩阵映射,得到该多个目标词语的特征矩阵,该特征矩阵由:该多个目标词语的特征向量构成。

在得到该多个目标词语的特征矩阵的情况下,还可基于该多个目标词语的特征向量,得到该输入文本的特征,继而根据该输入文本的特征,以及预设数据库中真实文本的特征,从预设数据库中的多个真实文本中选择与该输入文本最相似的n条真实文本,并根据该真实文本的特征,以及该n条真实文本对应的评论文本的特征,从该n条真实文本对应的评论文本中确定与该输入文本最接近的m条评论文本作为该输入文本对应的目标评论文本进行输出。

下述对用以执行的本申请所提供的文本处理方法的装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。

图7为本申请实施例提供的一种文本处理装置的示意图,如图7所示,该文本处理装置700可包括:

特征提取模块701,用于对输入文本进行特征提取,得到该输入文本的特征;

第一选择模块702,用于根据该输入文本的特征,从预先创建的数据库中,选择n条真实文本;该数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征;

第二选择模块703,用于根据该输入文本的特征和该n条真实文本对应的评论文本的特征,从该n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本;其中,n为大于或等于1的整数,m为大于1的整数。

可选的,特征提取模块701,具体用于获取该输入文本中的多个目标词语;根据预先构建的语料库,对该多个目标词语进行映射,得到该多个目标词语的特征,其中,该语料库包括:多个基础词语的特征;每个目标词语的特征为该语料库中与该每个目标词语匹配的目标基础词语的特征;根据该多个目标词语的特征,得到该输入文本的特征。

可选的,特征提取模块701,具体用于采用该多个目标词语的预设权重,对该多个目标词语的特征进行加权和运算,得到该输入文本的特征。

可选的,文本处理装置700还可包括:

第一确定模块,用于根据该每个目标词语匹配的目标基础词语在该语料库的逆文档频率指数,确定该每个目标词语的预设权重。

可选的,文本处理装置700还可包括:

计算模块,用于根据该每个基础词语在该语料库中的词频、该多个文档中具有该每个基础词语的文档总数量以及预设的比例因子,计算该每个基础词语的逆文档频率指数。

可选的,文本处理装置700还可包括:

分词模块,用于对该输入文本进行分词,得到多个初始词语;

处理模块,用于对多个初始词语进行处理,以剔除多个初始词语中的停用词和/或固定组合词,得到多个目标词语。

可选的,文本处理装置700还可包括:

第二确定模块,用于若语料库中不存在每个目标词语匹配的目标基础词语,则确定输入文本为无语义的输入文本;

第三选择模块,用于从预设的评论文本库中随机选择评论文本作为目标评论文本。

可选的,文本处理装置700还可包括:

第一创建模块,用于采用预设的词向量模型,对预设数据源中的多个文档进行处理,得到多个基础词语的特征,实现语料库的创建。

可选的,文本处理装置700还可包括:

第二创建模块,用于从预设网络平台爬取社交文本内容;对社交文本内容中多条真实文本进行特征提取,得到多条真实文本的特征;对社交文本内容中的每条真实文本对应的评论文本进行特征提取,得到每条真实文本对应的评论文本的特征,实现预设数据库的创建。

可选的,第一选择模块,具体用于根据输入文本的特征,从数据库中,选择与输入文本的特征最相关的n条真实文本。

可选的,第二选择模块,具体用于分别计算输入文本的特征和n条真实文本对应的评论文本的特征的相似度;根据计算的相似度,从n条真实文本对应的评论文本中,选择相似度最高的m条评论文本作为目标评论文本。

上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

图8为本申请实施例提供的一种电子设备的示意图,该电子设备可以是具备文本处理功能的计算设备或服务器。

该电子设备800包括:存储器801、处理器802。存储器801和处理器802通过总线连接。

存储器801用于存储程序,处理器802调用存储器801存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。

可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

相关技术
  • 文本处理方法、文本处理装置、电子设备以及计算机可读存储介质
  • 图片文本处理方法、装置、电子设备和存储介质
技术分类

06120113135473