掌桥专利:专业的专利平台
掌桥专利
首页

一种文本处理方法、装置及设备

文献发布时间:2023-06-19 19:13:14


一种文本处理方法、装置及设备

技术领域

本申请涉及自然语言理解技术领域,尤其涉及一种文本处理方法、装置及设备。

背景技术

对文本进行分析处理时,需要将文本表示为文本向量。文本向量包含文本的信息。通过文本向量再进行文本相似度计算、文本分类等后续操作。

当前,得到文本向量的方法可以采用深度学习方法。例如,深度学习方法可采用词向量模型Word2Vec。词向量模型Word2Vec是预先训练好的词语到向量的映射模型,单词到向量是一对一的映射,获取文本向量对文本内容表述不够全面。

发明内容

有鉴于此,本申请实施例提供了一种文本处理方法、装置及设备,旨在提高文本向量包含的文本信息的全面性。

第一方面,本申请实施例提供了一种文本处理方法,包括:

获取待处理的第一文本;

对所述第一文本进行解析,得到单词序列,所述单词序列包括所述第一文本所包括的单词,以及各个所述单词在所述第一文本中的排列顺序;

根据所述单词序列建立第一文本的依存句法图,所述依存句法图包括多个节点以及节点之间的连接关系,所述节点与所述单词序列包括的所述单词一一对应,所述节点之间的连接关系包括每个单词根据依存句法分析确定的连接关系;

对所述第一文本包括的各个单词进行编码,得到各个所述单词的第一编码;

将所述依存句法图和各个所述单词的第一编码输入图神经网络进行迭代编码,得到所述图神经网络输出的每个节点对应的单词的第二编码;

将所述依存句法图中各节点对应的单词的第二编码输入池化层,得到所述池化层输出的所述第一文本的第一文本向量;

根据所述第一文本向量对所述第一文本进行文本处理。

可选的,所述第一文本包括一个句子,所述对所述第一文本进行解析,得到单词序列,包括:

对所述句子进行分词,得到所述句子包括的多个单词;

将多个所述单词按照每个所述单词在句子中的顺序排列,得到单词序列。

可选的,所根据所述单词序列建立第一文本的依存句法图,包括:

对所述句子的单词序列进行依存句法分析获得所述句子的依存句法图。

可选的,所述第一文本包括多个句子,所述对所述第一文本进行解析,得到单词序列,包括:

对每个句子进行分词,得到每个所述句子包括的多个单词;

将每个所述句子包括的多个单词按照每个所述单词在所述句子中的顺序排列,得到每个所述句子的所述单词序列。

可选的,所述根据所述单词序列建立第一文本的依存句法图,包括:

对每个句子的单词序列进行依存句法分析获得所述句子的依存句法树,

将第一文本包括的每个所述句子的依存句法树,按照多个所述句子在所述第一文本中的排列顺序依次合并,形成所述第一文本的依存句法图。

可选的,所述将第一文本包括的每个所述句子的依存句法树,按照多个所述句子在所述第一文本中的排列顺序依次合并,形成所述第一文本的依存句法图,包括:

将第一句子的依存句法树中,所述第一句子的最后一个单词对应的节点,与第二句子的依存句法树中,所述第二句子的第一个单词对应的节点通过无向边的连接方式进行连接;其中,所述第一句子和所述第二句子均为所述第一文本中的句子,所述第一句子在所述第一文本中的排列顺序与所述第二句子在所述第一文本中的排列顺序相邻,且所述第一句子的排列顺序在所述第二句子的排列顺序之前。

可选的,所述方法还包括:

获取第二文本;

生成所述第二文本的第二文本向量;

根据所述第一文本向量和所述第二文本向量,采用余弦相似度或皮尔逊相关系数计算所述第一文本和所述第二文本的相似度。

可选的,所述文本处理包括文本分类。

第二方面,本申请实施例提供了一种文本处理装置,包括:文本获取模块、单词序列生成模块、依存句法图建立模块、第一编码模块、第二编码模块、文本向量生成模块、文本处理模块,

所述文本获取模块用于获取待处理的第一文本;

所述单词序列生成模块用于对所述第一文本进行解析,得到单词序列,所述单词序列包括所述第一文本所包括的单词,以及各个所述单词在所述第一文本中的排列顺序;

所述依存句法图建立模块用于根据所述单词序列建立第一文本的依存句法图,所述依存句法图包括多个节点以及节点之间的连接关系,所述节点与所述单词序列包括的所述单词一一对应,所述节点之间的连接关系包括每个单词根据依存句法分析确定的连接关系;

所述第一编码模块用于对所述第一文本包括的各个单词进行编码,得到各个所述单词的第一编码;

所述第二编码模块用于将所述依存句法图和各个所述单词的第一编码输入图神经网络进行迭代编码,得到所述图神经网络输出的每个节点对应的单词的第二编码;

所述文本向量生成模块用于将所述依存句法图中各节点对应的单词的第二编码输入池化层,得到所述池化层输出的所述第一文本的第一文本向量;

所述文本处理模块用于根据所述第一文本向量对所述第一文本进行文本处理。

第三方面,本申请还提出一种文本处理设备,包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器调用所述指令或代码,以实现上述的一种文本处理方法。

本申请实施例提供了一种文本处理方法、装置及设备,本申请提出根据所述单词序列建立第一文本的依存句法图,依存句法图包括多个节点以及所述节点之间的连接关系,所述节点与所述单词序列包括的单词一一对应,是将第一文本转化成图结构,通过依存句法图建立各个单词词语间的依存结构关系。再对所述第一文本包括的单词进行编码,得到各个单词的第一编码,获得每个单词的词义的向量表示。将所述依存句法图和各个单词的第一编码输入图神经网络进行迭代编码,得到所述图神经网络输出的每个节点对应的单词的第二编码,经过图神经网络编码的单词能够保留单词词义以及文本的结构化信息,丰富语义表示的维度,提高文本向量包含的文本信息的全面性。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本处理方法流程图;

图2为本申请实施例提供的一种依存句法图的示意图;

图3为本申请实施例提供的另一种依存句法图的示意图;

图4为本申请实施例提供的另一种文本处理方法流程图;

图5为本申请实施例提供的一种文本处理装置的结构示意图。

具体实施方式

目前获取文本向量可以采用深度学习的方法,例如词向量模型Word2Vec,Word2Vec由于是预先训练好的词语到向量的映射模型,单词到向量是一对一的映射,不同语境下单词的向量是不变的,得到的文本向量就无法考虑语境,并且采用基于Word2Vec的文本相似度计算时,句子的向量通常用多个单词向量相加求平均的方式得到,也就忽略了单词的顺序对于语义的影响。

基于上述原因,本申请提出根据所述单词序列建立第一文本的依存句法图,依存句法图包括多个节点以及所述节点之间的连接关系,所述节点与所述单词序列包括的单词一一对应,是将第一文本转化成图结构,通过依存句法图建立各个单词词语间的依存结构关系。再对所述第一文本包括的单词进行编码,得到各个单词的第一编码,获得每个单词的词义的向量表示。将所述依存句法图和各个单词的第一编码输入图神经网络进行迭代编码,得到所述图神经网络输出的每个节点对应的单词的第二编码,经过图神经网络编码的单词能够保留单词词义以及文本的结构化信息,丰富语义表示的维度,提高文本向量包含的文本信息的全面性;随着依存句法图的建立,图神经网络识别词语之间语义关系,在不同语境下能生成不同的文本表示,避免了词向量模型Word2Vec等静态词向量方法无法考虑语境的缺点。

显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的一种文本处理方法流程图,参见图1,一种文本处理方法,包括:

S101、获取待处理的第一文本。

待处理的第一文本是指需要进行向量化表示的文本,具体的,向量化表示是指将第一文本表示成一系列能够表达文本语义的向量。待处理的第一文本的来源可以是预设的文本数据库,也可以是从网络下载的文本,也可以是其他能够存储文本的存储器。

第一文本包括一个句子或多个句子。本申请实施例不限定第一文本中划分句子的方式。在一种可能的实现方式中,根据第一文本包括的句号进行句子的划分。在另一种可能的实现方式中,根据第一文本包括的任意类型的标点符号,比如逗号、分号,进行句子的划分。

S102、对所述第一文本进行解析,得到单词序列,所述单词序列包括所述第一文本所包括的单词,以及各个所述单词在所述第一文本中的排列顺序。

对第一文本进行分词,获得多个单词。将多个单词按照排列顺序进行排列获得单词序列。排列顺序例如,可以是根据多个单词在第一文本中的前后顺序,当然也可以是其他根据需要设置的排列顺序。

在一些可能的实现方式中,对于包括的句子的数量不同的第一文本,解析得到单词序列的实现方式不同。本申请实施例提供两种对所述第一文本进行解析,得到单词序列的具体实现方式,具体请参见下文。

S103、根据所述单词序列建立第一文本的依存句法图,所述依存句法图包括多个节点以及节点之间的连接关系,所述节点与所述单词序列包括的所述单词一一对应,所述节点之间的连接关系包括每个单词根据依存句法分析确定的连接关系。

第一文本的依存句法图用于表示第一文本单词之间的依存结构。

依存句法图包括多个节点,每个节点是根据单词序列中每个单词对应建立的。依存句法图包括的节点之间连接。

节点之间的连接关系包括每个单词根据依存句法分析获得的连接关系。具体的,根据依存句法分析确定一个句子中所有单词的依存关系,并根据所有单词的依存关系以有向边的形式(有向边的箭头由支配词指向从属词)将词的节点连接。依存句法分析是指依存语法理论中认为的单词与单词之间存在主从关系,这是一种二元不等价的关系。在句子中,如果一个单词修饰另一个单词,则称修饰词为从属词,被修饰的词称为支配词,两者之间的语法关系称为依存关系。

在一些可能的实现方式中,对于包括的句子的数量不同的第一文本,根据所述单词序列建立第一文本的依存句法图的实现方式不同。本申请实施例提供两种根据所述单词序列建立第一文本的依存句法图的具体实现方式,具体请参见下文。

S104、对所述第一文本包括的各个单词进行编码,得到各个所述单词的第一编码。

对第一文本中的每个单词进行编码,获得各个单词的词向量,单词的词向量为该单词的第一编码,各个单词的第一编码用于表示该单词的词义。

在一种实现方式中,对第一文本包括的单词进行编码可以采用神经网络语言模型进行编码,神经网络语言模型可以选择词向量模型Word2Vec,也可以采用全局词向量Glove,当然也可以采用其他的神经网络语言模型进行编码。

在另一种实现方式中,对第一文本包括的单词进行编码可采用预训练模型进行编码,所述预训练模型可以采用双向编码器bert,当然也可以采用其他的预训练模型进行编码。

当然,在其他的实现方式中,也可采用其他的算法对第一文本包括的单词进行编码。

S105、将所述依存句法图和各个所述单词的第一编码输入图神经网络进行迭代编码,得到所述图神经网络输出的每个节点对应的单词的第二编码。

将依存句法图和依存句法图中多个节点对应单词的第一编码输入图神经网络进行迭代编码,得到图神经网络输出的每个节点对应单词的第二编码,第二编码保留单词词义以及文本的结构化信息,实现对第一文本的文本内容表达的全面性。

在一种实现方式中,图神经网络可以采用递归图神经网络,在另一种实现方式中,图神经网络采用卷积图神经网络模型,当然,在其他实现方式中,图神经网络也可采用其他的算法实现。图神经网络根据需要可以利用最大似然估计来训练神经网络。

S106、将所述依存句法图中各节点对应的单词的第二编码输入池化层,得到所述池化层输出的所述第一文本的第一文本向量。

第一文本向量是第一文本的向量化表示,第一文本向量是将第一文本包含的文本信息数值化,以便计算机能够进行处理。

池化层通过下采样输出第一文本的第一文本向量,池化层可以选择平均池化层进行第一文本向量的获得,也可以选择最大池化层进行第一文本向量的获得。

将依存句法图中各个节点对应的单词的第二编码按照单词在第一文本中的前后位置排列顺序依次输入到池化层中,获得池化层输出的第一文本向量。

S107、根据所述第一文本向量对所述第一文本进行文本处理。

根据文本处理的需要对第一文本向量进行处理。文本处理例如可以是文本分类,也可以是文本相似度计算,当然也可以是其他文本处理的方法。根据上述步骤S101-S107的内容可知,单词的第二编码保留单词词义以及文本的结构化信息,丰富语义表示的维度,提高文本向量包含的文本信息的全面性。不同的文本,根据不同的词语及词语结构,通过该方法可以生成不同的文本向量表示,增强文本整体语义的表达,增加不同文本之间的区分度,对文本处理更有助益。

根据上述图1所述的步骤S102-S103中,第一文本中可以包括一个句子,也可以包括多个句子,分别对应两种不同的实施例。需要说明的是,下文介绍中给出的实现方式仅作为示例性的说明,并不代表本申请实施例的全部实现方式。

下面对第一文本仅有一个句子的情况下,结合具体实施例进行展开介绍。

当第一文本仅有一个句子时,获得依存句法图,具体步骤如下:

A1、对第一文本中的一个句子进行分词,得到该句子包括的多个单词;将多个单词按照每个单词在句子中的顺序排列,得到单词序列。

对第一文本中仅有的一个句子进行分词,将句子分为多个单词。分词的算法可以采用基于字符串匹配的分词方法,也可以采用基于理解的分词方法,也可以采用基于统计的分词方法。

A2、对该句子的单词序列进行依存句法分析获得该句子的依存句法图。

将该句子的单词序列内包括的每个单词对应生成节点。

将该句子的单词序列内包括的所有单词采用依存句法分析,获得单词之间的依存关系。

将单词序列内所有单词对应节点根据单词之间的依存关系通过有向边连接形成依存句法树,由于第一文本仅有一个句子,因此,该句子的依存句法树为该句子的依存句法图。

所述依存句法分析为依存语法理论认为词与词之间存在主从关系,这是一种二元不等价的关系,在句子中,如果一个词修饰另一个词,则称修饰词为从属词,被修饰的词称为支配词,两者之间的语法关系称为依存关系。根据一个句子中所有词的依存关系以有向边的形式(有向边的箭头由支配词指向从属词)将所述词的节点连接,形成依存句法树。

图2为以句子“绿色的植物有叶绿素”为例的一种依存句法图的示意图,参见图2,以句子“绿色的植物有叶绿素”为例,该句子分词得到的单词序列为[“绿色”,“的”,“植物”,“有”,“叶绿素”],进行依存句法分析之后得到的依存句法树为{[绿色->的],[绿色<-植物],[植物<-有],[有->叶绿素]},由于第一文本仅有一个句子,则第一文本的依存句法图为{[绿色->的],[绿色<-植物],[植物<-有],[有->叶绿素]}。

根据步骤A1-A2内容可知,第一文本中仅有一个句子时,该句子的依存句法树即为该句子的依存句法图,该依存句法图对应句子中的内每个单词生成对应节点,并通过该句子内单词之间的依存关系,将单词对应节点通过有向边连接,从而建立该句子的依存句法图,通过依存句法图体现该句子各个单词之间的依存结构关系。随着依存句法图的建立,用于后续图神经网络识别词语之间语义关系,可在不同语境下能生成不同的文本向量,避免了词向量模型Word2Vec等静态词向量方法无法考虑语境的缺点。

上述实施例介绍了第一文本仅有一个句子的情况下,获得依存句法图,下面对第一文本有多个句子的情况下,获得依存句法图结合具体实施例进行展开介绍。

当第一文本有多个句子时,得到依存句法图的方法,具体步骤如下:

B1、对第一文本中的每个句子进行分词,得到每个所述句子包括的多个单词;将每个所述句子的单词按照每个所述单词在所述句子中的顺序排列,得到每个所述句子的所述单词序列。

排列顺序可以为每个句子包括的所有单词在该句子中的前后排列顺序,当然也可根据需要采用其他排列顺序。

分词可以采用基于字符串匹配的分词方法,也可以采用基于理解的分词方法,也可以采用基于统计的分词方法,当然也可以根据需要采用其他分词方法。

第一文本中有多个句子时,可以根据第一文本中的句号对第一文本进行分句,获得多个句子。

对第一文本中的每个句子进行分词,获得每个句子对应的多个单词。

将每个句子对应的多个单词根据多个单词在该句子中的前后排列顺序进行排列获得该句子的单词序列。

B2、对每个句子的单词序列进行依存句法分析获得该句子的依存句法树,将第一文本包括的每个所述句子的依存句法树,按照多个所述句子在所述第一文本中的排列顺序依次合并,形成所述第一文本的依存句法图。

首先,对每个句子的单词序列进行依存句法分析获得该句子的依存句法树。

依存句法分析为依存语法理论认为单词与单词之间存在主从关系,这是一种二元不等价的关系,在句子中,如果一个单词修饰另一个单词,则称修饰词为从属词,被修饰的词称为支配词,两者之间的语法关系称为依存关系。

根据一个句子中所有单词的依存关系以有向边的形式(有向边的箭头由支配词指向从属词)将所述单词的节点连接,形成依存句法树。

具体的,获得每个句子的依存句法树具体为,

将该句子的单词序列内包括的每个单词对应生成节点。

将该句子的单词序列内包括的所有单词采用依存句法分析,获得单词之间的依存关系。

将单词序列内所有单词对应节点根据单词之间的依存关系通过有向边连接形成依存句法树。

然后,将第一文本包括的每个所述句子的依存句法树按照多个所述句子在所述第一文本中的排列顺序依次合并形成所述第一文本的依存句法图。

具体的,将第一句子的依存句法树中,第一句子的最后一个单词对应的节点,与第二句子的依存句法树中,第二句子的第一个单词对应的节点通过无向边的连接方式进行连接。其中,第一句子和第二句子均为第一文本中的句子,第一句子在第一文本中的排列顺序与第二句子在第一文本中的排列顺序相邻,且第一句子的排列顺序在第二句子的排列顺序之前。

图3为以句子“绿色的植物有叶绿素。叶绿素有多种。”为例的另一种依存句法图的示意图,参见图3,该句子分词得到的单词序列为{[“绿色”,“的”,“植物”,“有”,“叶绿素”],[“叶绿素”,“有”,“多种”]},进行依存句法分析之后得到的依存句法树为{[绿色->的],[绿色<-植物],[植物<-有],[有->叶绿素]}、{[[叶绿素<-有],[有->多种]},则第一文本的依存句法图为{{[绿色->的],[绿色<-植物],[植物<-有],[有->叶绿素]}-{[[叶绿素<-有],[有->多种]}}。

根据上述步骤B1-B2可知,该实施例适用于文本中有多个句子时,首先,根据每个句子的单词序列进行依存句法分析,将该句子中的单词的节点通过有向边连接获得该句子的依存句法树;然后,将第一文本包括的每个句子的依存句法树按照多个句子在第一文本中的排列顺序通过无向边进行依次连接合并,形成所述第一文本的依存句法图。依存句法图通过依存句法树建立每个句子中各个词语之间的依存结构关系,并通过无向边连接依存句法树形成依存句法图,建立第一文本中语序结构关系,随着依存句法图的建立,通过后续图神经网络识别词语之间语义关系,在不同语境下能生成不同的文本表示,避免了词向量模型Word2Vec等静态词向量方法无法考虑语境的缺点。

在图1所述的实施例中,步骤S107中的文本处理可以是计算文本相似度,下面结合具体实施例对计算文本相似度的方法进行展开介绍。

图4为本申请实施例提供的另一种文本处理方法的流程图,参见图4,本申请实施例提供的另一种文本处理方法,除上述步骤以外,还包括以下步骤:

S401、获取待处理的第二文本;

待处理的第二文本是指需要进行向量化表示的第二文本。

待处理的第二文本的来源可以是预设的文本数据库,也可以是从网络下载的文本,也可以是其他能够存储文本的存储器。

S402、生成所述第二文本的第二文本向量;

第二文本向量的获得可以采用与第一文本向量相同的方法获得,也可以采用当前现有的文本向量获取方法(例如词向量模型Word2Vec)获得,本申请实施例对此不做限定。

S403、根据所述第一文本向量和所述第二文本向量,采用余弦相似度或皮尔逊相关系数计算所述第一文本和所述第二文本的相似度。

第一文本向量能够保留单词词义以及文本的结构化信息,提高文本向量包含的文本信息的全面性;第二文本向量可以采用与第一文本向量相同的方法获取,即使第一文本和第二文本中有很多相同的词语或同义词,分别建立依存句法图,并通过图神经网络迭代编码,建立词语之间语义关系,第一文本和第二文本,在不同语境下能生成不同的文本表示,避免了词向量模型Word2Vec等静态词向量方法无法考虑语境的缺点,提高计算两个文本的相似度的准确性。

以上为本申请实施例提供一种文本处理方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。

图5为一种文本处理装置的结构示意图,参见图5,一种文本处理装置500,包括:文本获取模块501、单词序列生成模块502、依存句法图建立模块503、第一编码模块504、第二编码模块505、文本向量生成模块506、文本处理模块507,

所述文本获取模块501用于获取待处理的第一文本;

所述单词序列生成模块502用于对所述第一文本进行解析,得到单词序列,所述单词序列包括所述第一文本所包括的单词,以及各个单词在所述第一文本的排列顺序;

所述依存句法图建立模块503用于根据所述单词序列建立第一文本的依存句法图,依存句法图包括多个节点以及所述节点之间的连接关系,所述节点与所述单词序列包括的单词一一对应,所述节点之间的连接关系包括每个句子根据依存句法分析确定的连接关系;

所述第一编码模块504用于对所述第一文本包括的单词进行编码,得到所述单词的第一编码;

所述第二编码模块505用于将所述依存句法图和所述单词的第一编码输入图神经网络进行迭代编码,得到所述图神经网络输出的每个节点对应的单词的第二编码;

所述文本向量生成模块506用于将依存句法图中各节点对应的单词的第二编码输入池化层,得到所述池化层输出的所述第一文本的第一文本向量;

所述文本处理模块507用于根据第一文本向量对所述第一文本进行文本处理。

根据上述装置的模块功能可知,第二编码模块生成的第二编码保留单词词义以及文本的结构化信息,丰富语义表示的维度,提高文本向量包含的文本信息的全面性。不同的文本,根据不同的词语及词语结构,通过该装置可以生成不同的文本向量表示,增强文本整体语义的表达,增加不同文本之间的区分度,对文本处理更有助益。

在本申请提供的一种可行的实现方式中,所述第一文本包括一个句子,所述单词序列生成模块502,具体用于对所述句子进行分词,得到所述句子包括的多个单词;将多个所述单词按照每个所述单词在句子中的顺序排列,得到单词序列。

所述依存句法图建立模块503,具体用于对所述句子的单词序列进行依存句法分析获得所述句子的依存句法图。

在本申请提供的一种可行的实现方式中,所述第一文本包括多个句子,所述单词序列生成模块502,具体用于对每个句子进行分词,得到每个所述句子包括的多个单词;将每个所述句子单词按照每个所述单词在所述句子中的顺序排列,得到每个所述句子的所述单词序列。

所述依存句法图建立模块503包括依存句法树获取子模块和依存句法图获取子模块,所述依存句法树获取子模块用于对每个句子的单词序列进行依存句法分析获得所述句子的依存句法树;所述依存句法图获取子模块用于将第一文本包括的每个所述句子的依存句法树,按照多个所述句子在所述第一文本中的排列顺序依次合并,形成所述第一文本的依存句法图。

在本申请提供的一种可行的实现方式中,所述依存句法图获取子模块,具体用于将第一句子的依存句法树中,所述第一句子的最后一个单词对应的节点,与第二句子的依存句法树中,所述第二句子的第一个单词对应的节点通过无向边的连接方式进行连接;其中,所述第一句子和所述第二句子均为所述第一文本中的句子,所述第一句子在所述第一文本中的排列顺序与所述第二句子在所述第一文本中的排列顺序相邻,且所述第一句子的排列顺序在所述第二句子的排列顺序之前。

在本申请提供的一种可行的实现方式中,所述文本处理模块507,具体用于,获取子模块用于获取第二文本;生成所述第二文本的第二文本向量;根据所述第一文本向量和所述第二文本向量,采用余弦相似度或皮尔逊相关系数计算所述第一文本和所述第二文本的相似度。

本申请实施例还提供了对应的设备以及计算机存储介质,用于实现本申请实施例提供的方案。

一种文本处理设备,其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本申请任一实施例所述的一种文本处理方法。

本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。

相关技术
  • 一种文本处理方法、装置以及相关设备
  • 一种文本处理方法、系统和一种用于文本处理的装置
  • 一种文本处理方法、系统和一种用于文本处理的装置
  • 文本处理方法、装置、设备、计算机设备和存储介质
  • 文本数据处理方法、装置、计算机设备及存储介质
  • 文本处理方法、文本模型的处理方法及装置、计算机设备
  • 文本处理方法、文本处理装置及文本处理设备
技术分类

06120115835828