掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种文本匹配模型的训练方法及装置。

背景技术

文本与标签匹配是NLP领域中涉及句子语义相似度学习的问题。该任务的核心在于衡量文本之间的语义相似度,也即语义匹配。目前,主要有两种解决方法:双塔模式(Bi-Encoder)和交互模式(Cross-Encoder)。在双塔模式中,通常会使用两个编码器(Encoder)将查询(query)和文件(document)分别编码成向量,然后通过相关性判别函数计算这两个向量之间的相似度。而在交互模式中,通常将两个句子拼接在一起,一次性输入给编码器,然后输出两个句子的语义得分。但是,现有的文本与标签匹配的方法还是存在由于文本标签的分布特性导致匹配的准确性不高的技术问题。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本标签确定方法及装置,以至少解决依据词频等进行标签提取、提取出的标签准确度不高的技术问题。

根据本发明实施例的一个方面,提供了一种文本匹配模型的训练方法,包括:将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签;计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分;基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。

根据本发明实施例的另一方面,还提供了一种文本匹配模型的训练装置,包括:输入模块,被配置为将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签;划分模块,被配置为计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分;训练模块,被配置为基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。

在本发明实施例中,将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签;计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分;基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。通过上述方案解决了现有技术中由于文本标签的分布特性导致匹配的准确性不高的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种文本标签确定方法的流程图;

图2是根据本申请实施例的另一种文本标签确定方法的流程图;

图3是根据本申请实施例的一种文本向量化的方法的流程图;

图4是根据本申请实施例的一种多层次聚类分析的方法的流程图;

图5是根据本申请实施例的一种标签重组词生成方法的流程图;

图6是根据本申请实施例的又一种文本标签确定的方法的流程图;

图7是根据本申请实施例的一种基于模型的文本标签确定的方法的流程图;

图8是根据本申请实施例的一种文本匹配模型的训练方法的流程图;

图9是根据本申请实施例的一种文本标签确定装置的结构示意图;

图10示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种文本标签确定方法,如图1所示,该方法包括:

步骤S102,使用分布式表示模型对文本进行向量化处理,将所述文本转化为维度大于预设维度的文本向量。

例如,对所述文本进行预处理,将所述文本转化为词集合,其中,所述预处理包括分词、去除停用词、词干化;使用所述分布式表示模型将所述词集合中的每个词转化为对应的向量表示,并将所有词的向量表示进行合并,形成所述文本的初始文本向量;使用主成分分析方法,将所述初始文本向量映射到大于所述预设维度的维度,得到维度大于所述预设维度的所述文本向量。

本实施例使用分布式表示模型将文本转化为向量表示,不仅保留了词汇之间的语义关系,还提供了更加紧凑的表示形式,降低了存储和计算成本。而通过主成分分析方法将文本向量映射到高维空间,不仅有助于提取文本中的主要特征,还可以减少数据的维度,简化了模型的复杂度,加快了计算速度。综上,本实施例有益于提高文本处理的精度、效率和可扩展性,为后续的文本分析任务提供了更好的基础。

步骤S104,对所述文本向量进行多层次聚类分析,得到文本聚类结果,并利用词频逆文本频率方法来对所述文本聚类结果进行关键词提取,获取所述文本聚类结果对应的标签候选词。

首先,进行多层次聚类分析。计算所述文本向量之间的距离,其中,所述距离用于衡量所述文本向量之间的差异程度;基于所述距离,将所述距离小于预设距离阈值的文本合并为一个文本聚类,形成具有层次结构的所述文本聚类结果。

接着,获取标签候选词。对于每个文本聚类,计算所述每个文本聚类中的每个词的词频逆文本频率;根据所述词频逆文本频率,选择具有权重大于预设权重阈值的词作为关键词,并将所述关键词作为所述文本聚类结果对应的标签候选词。

本实施例通过多层次聚类分析,文本向量之间的距离被用来划分文本聚类,形成层次结构的聚类结果,使得文本数据得以更细致、准确地组织。此外,利用词频逆文本频率方法,不仅帮助提取文本聚类的关键特征,还为每个聚类提供了有意义的标签候选词。

步骤S106,依据预先基于所述文本获得的词与词之间的相似矩阵,确定所述文本聚类结果对应的每两个相似标签候选词的出现次数,并筛选出所述出现次数大于预设次数阈值的至少一对所述标签候选词,生成标签重组词。

首先,确定标签候选词的出现次数。依据预先基于所述文本获得的词与词之间的相似矩阵,确定所述文本聚类结果对应的每两个相似标签候选词的出现次数。具体地,基于所述相似矩阵,计算每两个标签候选词的相似度;统计所述相似度大于相似度阈值的标签候选词对,并统计所述相似度大于相似度阈值的标签候选词对的个数,并将所述个数作为所述出现次数。然后,筛选出所述出现次数大于预设次数阈值的至少一对所述标签候选词,生成标签重组词。

本实施例可以精确地计算文本聚类结果中每两个相似标签候选词的出现次数,这有助于发现具有相关性的标签组合。通过筛选出出现次数大于预设阈值的至少一对标签候选词,生成标签重组词,不仅提高了标签的质量和相关性,还增加了标签的多样性。这对于提高文本聚类结果的可解释性和准确性非常重要,使得用户更容易理解文本聚类的主题和内容。

步骤S108,基于所述标签重组词来确定所述文本的文本标签。

首先,对所述词集合中的每个词进行语义特征提取,解析所述每个词的语义特征信息,并基于所述语义特征信息确定所述每个词的上下文信息,对所述每个词的上下文信息进行特征提取,得到上下文特征;基于所述每个词的上下文信息和所述上下文特征,计算所述每个词的注意力权重信息;基于所述注意力权重信息,生成所述每个词作为所述文本的文本标签的概率,并且基于所述词的上下文特征,计算预设标签词集合的预设标签词作为所述文本的文本标签的概率。

接着,当所述文本中存在所述标签重组词时,对所述标签重组词对应的文本标签概率进行调整,基于调整后的文本标签概率,在所述词集合和预设标签词集合中筛选目标词,作为所述文本的标签;当所述文本中不存在所述标签重组词时,根据所述每个词作为所述文本的文本标签的概率和所述预设标签词作为所述文本的文本标签的概率,在所述词集合和所述预设标签词集合中筛选目标词,作为所述文本的标签。

本实施例通过对每个词进行语义特征提取和上下文信息分析,得到准确的上下文特征和注意力权重信息,为文本标签生成提供了更精细的基础。通过计算每个词作为文本标签的概率,结合预设标签词的概率,确保了标签选择的准确性和相关性。其次,在存在标签重组词的情况下,通过调整文本标签概率,精确地筛选出文本中的目标词,提高了标签的质量。而在不存在标签重组词的情况下,同样可以根据每个词的概率和预设标签词的概率,准确地挑选出文本的标签。这种智能、动态的标签生成方式,不仅提高了文本标签的准确性和相关性,还使得标签选择更加符合实际需求,为文本处理和理解提供了有力支持。

实施例2

本申请实施例提供了另一种文本标签确定方法,如图2所示,该方法包括:

步骤S202,文本预处理。

对输入的文本进行预处理,包括分词、去除停用词、词干化等操作,将文本转化为词集合。

具体地,首先,进行分词操作,将原始文本按照词语的边界进行切分,形成了一个个独立的词语或短语。这个过程是为了将文本拆分为最小的语义单位,为后续的处理提供基础。接着,进行停用词的去除。停用词是在文本处理中没有实际意义、不参与分析的常用词语,例如“的”、“是”、“在”等。通过去除这些停用词,减少了文本中的噪声,提高了后续处理的效率和准确性。最后,进行词干化操作。词干化是将词语还原为其基本形式(词干)的过程。这一步骤的目的是将文本中的词汇统一为其原始形式,减少词汇的变化形式,使得文本分析更为准确。

通过以上预处理步骤,可以将输入文本转化为经过处理的词集合,为接下来的向量化处理提供了基础。这样处理后的文本能够更好地适应机器学习模型的处理需求,为后续的文本标签确定提供了可靠的基础数据。

步骤S204,文本向量化。

使用分布式表示模型将词集合中的每个词转化为对应的向量表示,并将所有词的向量表示进行合并,形成文本的初始文本向量。采用主成分分析方法,将初始文本向量映射到大于预设维度的维度,得到维度大于预设维度的文本向量。

具体地,文本向量化的方法如图3所示,包括以下步骤:

步骤S2042,词向量表示。

首先,将预处理后的每个词语转化为对应的向量表示。可以使用预训练的词向量模型(如Word2Vec、GloVe等)来实现,也可以使用神经网络模型(如Embedding层)在训练数据上进行训练得到。这一步骤将每个词语映射为一个固定维度的向量。

例如,可以计算给定中心词的情况下周围词出现的概率,然后,确定基于周围词出现的概率的词向量表示。例如,给定中心词w

其中,v表示词向量,b表示偏置,v

在一个给定的语境中,某个词出现的概率受到周围词的影响。本实施例可以捕捉到词语的语义相似性。通过预测周围词,模型学到的词向量能够在向量空间中捕捉到词语的语义关系,使得意义相近的词在向量空间中更加接近。这种特性使得可以进行词语的相似性比较和聚类等任务。其次,在语境中,一些词语经常会共同出现,这种关联性对于理解文本语境非常重要。本方法通过预测周围词的出现概率,有利于学习到这种词语之间的关联关系。此外,该方法允许降低词向量的维度。通过学习周围词的概率分布,可以将高维度的词向量映射到低维度,保留大部分词语之间的关系。这样的降维有助于减少计算和存储的复杂性。

另外,通过上面的公式还能够更好地利用上下文信息。通过利用周围词的信息,模型得到的词向量能够更好地反映词语在不同语境下的含义,这对于处理上下文相关的任务非常有帮助,比如自然语言生成和机器翻译等任务。

最后,该方法得到的概率分布通常是稀疏的,即大部分词语的概率非常接近零,只有少数词语的概率较高。这种稀疏性能够降低计算复杂度,并且在一些信息检索等任务中,提高模型的鲁棒性。

为了得到更好的词向量表示,可以通过最大似然估计(Maximum LikelihoodEstimation)来优化模型,目标是最大化给定中心词情况下,周围词出现的概率。通过对损失函数进行求导,可以更新词向量vw

本实施例中,损失函数可以定义为:

其中,(w

上述损失函数帮助模型捕捉了语义相似性,通过优化给定中心词的周围词的预测概率,模型能够使语义相似的词在词向量空间中更加接近。这样,相似意义的词在训练过程中的向量表示更加接近,从而提高了词向量的语义表达能力。此外,该损失函数还支持降低词向量的维度。在优化的过程中,学到的词向量通常是高维度的,但这些向量可以通过降维处理得到更紧凑的表示。降维可以减少存储和计算的开销,同时仍然保留了词语之间的语义关系,提高了计算效率。另外,该方法利用了上下文信息,通过周围词的信息帮助提升中心词的表示质量。在训练过程中,模型可以更好地反映单词在不同语境下的含义,这对于处理上下文相关的自然语言处理任务非常重要。最后,该损失函数得到的概率分布通常是稀疏的。这种稀疏性有助于降低计算复杂度,并在一些信息检索等任务中提高模型的鲁棒性。只有部分词被视为相关的,减少了误匹配的可能性,从而提高了模型的准确性和可靠性。

步骤S2044,文本向量合并。

将文本中所有词语的向量表示进行合并,形成整个文本的初始文本向量。例如,通过对所有词向量取平均值、加权平均值等方法来实现。合并后的文本向量将保留文本中所有词语的语义信息。

步骤S2046,维度映射。

使用主成分分析(PCA)等降维技术,将初始文本向量映射到维度大于预设维度的空间。本实施例通过扩展文本向量的维度,使得文本向量在更高维度的空间中进行聚类分析,提高文本特征的表达能力。

通过以上实现步骤,得到了维度大于预设维度的文本向量。这些向量将保留了文本中词语的语义信息,并且在维度上进行了扩展,为后续的聚类分析和标签提取提供了更多的特征信息。

步骤S206,多层次聚类分析。

对文本向量进行多层次聚类分析。计算文本向量之间的距离,基于设定的距离阈值,将距离小于预设距离阈值的文本合并为一个文本聚类,形成具有层次结构的文本聚类结果。

具体地,多层次聚类分析的方法如图4所示,包括以下步骤:

步骤S2062,计算文本向量之间的距离。

首先,通过选择适当的距离度量方法(如欧氏距离、余弦相似度等),计算所有文本向量之间的距离。这些距离用于衡量文本向量之间的相似度或差异程度。

步骤S2064,多层次聚类分析。

基于计算得到的文本向量之间的距离,使用层次聚类算法(如层次聚类树、凝聚聚类等)将文本进行分层聚类。在这个过程中,相似度较高的文本将被合并为一个聚类簇,形成具有层次结构的文本聚类结果。聚类的层次结构可以帮助理解不同层次的文本相似性,以及文本聚类的内部结构。

步骤S2066,词频逆文本频率方法提取关键词。

对于每个聚类簇,计算其中每个词语的词频逆文本频率(TF-IDF)得分。TF-IDF是一种用于衡量词语在文本集合中的重要性的统计方法,它综合考虑了词频和逆文本频率两个因素。根据TF-IDF得分,选择具有较高权重的词语作为关键词,这些关键词将作为文本聚类结果对应的标签候选词。

通过以上步骤,得到了多层次的文本聚类结果,并从每个聚类簇中提取了关键词作为标签候选词。这些标签候选词将在后续的步骤中用于生成标签重组词,进而确定文本的最终标签。

步骤S208,关键词提取。

对每个文本聚类,计算每个词的词频逆文本频率,选择具有权重大于预设权重阈值的词作为关键词,作为文本聚类结果对应的标签候选词。

步骤S210,标签重组词生成。

依据预先基于文本获得的词与词之间的相似矩阵,计算每两个标签候选词之间的相似度。具体地,如图5所示,标签重组词生成方法包括以下步骤:

步骤S2102,预先基于文本获得相似矩阵。

首先,根据文本数据,可以使用各种自然语言处理技术,如词向量模型(Word2Vec、GloVe等)或词共现矩阵等,得到词与词之间的相似矩阵。这个相似矩阵反映了文本中词语之间的语义关联程度。

步骤S2104,计算标签候选词之间的相似度。

对于每一对标签候选词,利用预先获取的相似矩阵计算它们之间的相似度。相似度计算方法例如可以是余弦相似度。余弦相似度衡量了两个向量在多维空间中的夹角,值在-1到1之间,数值越大表示相似度越高。

步骤S2106,筛选相似度大于相似度阈值的标签候选词对。

对计算得到的所有标签候选词对,筛选出相似度大于预设相似度阈值的标签候选词对。可以选择一个合适的阈值来过滤掉不够相似的标签候选词,提高标签的准确性。

步骤S2108,生成标签重组词。

将筛选出的相似度大于相似度阈值的标签候选词对作为标签重组词,用于后续的文本标签确定。这些标签重组词包含了语义相近的标签候选词,有助于提高文本标签的准确性和多样性。

通过以上步骤,可以利用预先获得的词与词之间的相似矩阵,计算标签候选词之间的相似度,并生成标签重组词,为文本标签的最终确定提供有价值的信息。

步骤S212,文本标签确定。

对词集合中的每个词进行语义特征提取,解析每个词的语义特征信息,并基于语义特征信息确定每个词的上下文信息,计算每个词的注意力权重信息。基于注意力权重信息,生成每个词作为文本的文本标签的概率。如果文本中存在标签重组词,对标签重组词对应的文本标签概率进行调整,基于调整后的文本标签概率,在词集合和预设标签词集合中筛选目标词,作为文本的标签。如果文本中不存在标签重组词,根据每个词作为文本的文本标签的概率和预设标签词作为文本的文本标签的概率,在词集合和预设标签词集合中筛选目标词,作为文本的标签。

具体地,文本标签确定的方法如图6所示,包括以下步骤:

步骤S2121,语义特征提取与上下文信息解析。

对于文本中的每个词,进行语义特征提取,可以通过预训练的词向量模型(如Word2Vec、GloVe等)来实现。获取每个词的语义特征信息。然后,解析每个词的语义特征信息,确定每个词的上下文信息,这些信息描述了词在文本中的语境和关联性。

步骤S2122,计算注意力权重信息。

利用上一步骤得到的每个词的上下文信息,计算每个词的注意力权重信息。权重可以反映每个词在文本中的重要性,即该词是否适合作为标签。注意力权重可以使用各种算法计算,例如,可以使用注意力机制(Attention Mechanism)来根据上下文信息动态计算每个词的权重。

步骤S2123,计算标签概率。

基于每个词的注意力权重信息,计算每个词作为文本标签的概率。这个概率表示了该词被选为标签的可能性。可以使用softmax函数将注意力权重转化为概率分布,确保所有词的概率之和为1。

步骤S2224,获取预设标签词集合的标签概率。

对于预设标签词集合中的每个词,也计算其作为文本标签的概率。

步骤S2225,调整标签概率。

当文本中存在标签重组词时,对这些词对应的文本标签概率进行调整。例如,增加或减小其概率,以反映标签重组词的重要性。

步骤S2226,选取最终文本标签。

当所述文本中存在所述标签重组词时,在对所述标签重组词对应的文本标签概率进行调整之后,基于调整后的文本标签概率,在所述词集合和预设标签词集合中筛选目标词,作为所述文本的标签。

当所述文本中不存在所述标签重组词时,根据所述每个词作为所述文本的文本标签的概率和所述预设标签词作为所述文本的文本标签的概率,在所述词集合和所述预设标签词集合中筛选目标词,作为所述文本的标签。

通过以上实现步骤,可以基于文本的语境和语义信息,结合预设的标签词集合,确定文本的最终标签,从而完成文本标签的确定过程。

实施例3

本申请实施例提供了一种文本标签确定方法。如图7所示,文本标签确定方法包括以下步骤:

步骤S702,文本匹配模型的训练。

文本匹配模型的训练方法,如图8所示,包括以下步骤:

步骤S7022,将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签。

在深度学习模型中,文本数据需要经过表示学习的阶段,将文本转化为机器可理解的数学表示。这通常通过词嵌入技术(如Word2Vec、GloVe)或者预训练的语言模型(例如BERT、ELMo)来实现。这些方法能够将单词或者子词映射到高维度的向量空间中,保留了单词之间的语义关系,为模型提供了丰富的语义信息。

使用神经网络结构进行文本匹配。在匹配任务中,标注好的训练数据中包括文本标签和对应的未标注文本,以及它们之间的匹配关系(正负样本)。模型通过最小化损失函数,使得预测标签与实际标签之间的差距尽量小,从而学习到文本之间的语义相似度。

步骤S7024,计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分。

首先,自适应调整相似度阈值。对所述深度学习模型进行误差分析,确定所述深度学习模型在不同相似度阈值下误差的分布情况;基于所述误差的分布情况,自适应调整所述相似度阈值。之后,计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分。

具体地,包括以下步骤:

1)误差分析。

对深度学习模型进行详细的误差分析,探究在不同相似度阈值下模型产生的误差的分布情况。这可以通过观察模型在训练集、验证集或测试集上的预测结果,以及实际标签之间的差距来实现。这种分析可以帮助识别模型在哪些情况下容易出错,从而为调整相似度阈值提供有价值的信息。

2)自适应调整阈值。

基于误差分析的结果,可以采取自适应的方法来调整相似度阈值。例如,如果模型在高相似度阈值下产生了较多误差,可以降低相似度阈值,使得更多的样本被判定为正样本。反之,如果在低相似度阈值下误差较多,可以提高相似度阈值,提高匹配的严格性。这种自适应调整可以根据具体应用场景和误差分布情况来灵活地进行。

3)语义相似度计算与样本划分。

在确定了自适应相似度阈值后,计算预测标签与文本标签之间的语义相似度。将计算得到的相似度与自适应相似度阈值进行比较,根据比较结果对文本标签进行正负样本划分。如果语义相似度高于阈值,则将其划定为正样本;反之,如果低于阈值,则划定为负样本。

通过这种自适应调整相似度阈值的方法,可以更加灵活地适应不同数据分布和应用场景,提高了文本匹配任务的精度和鲁棒性。本实施例允许模型根据实际情况自动调整判定标准,从而更好地适应多样化的文本匹配需求。

步骤S7026,基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。

首先,采用多通道映射将所述语义相似度和置信度映射为权重参数,使得所述语义相似度和所述置信度在所述交叉熵损失函数中的影响程度分别随着所述语义相似度和所述置信度的取值变化而变化。例如,设置多个通道,利用自动学习来调整所述多个通道中每个通道的权重,其中,所述多个通道中的每个通道对应不同范围的输入;利用调整后的所述多个通道,将所述语义相似度和所述置信度映射为权重参数。

然后,基于所述语义相似度、所述置信度和所述权重参数,构建所述交叉熵损失函数,并利用所述交叉熵损失函数调整所述深度学习模型。计算所述交叉熵损失函数中的每个参数的梯度,按照所述梯度的反方向更新所述每个参数。例如,将所述每个参数的历史梯度加权平均,得到所述每个参数的动量项;计算所述交叉熵损失函数中的每个参数的梯度,利用所述动量项来按照所述梯度的反方向更新所述每个参数。例如,基于第一衰减系数,将所述每个参数的历史梯度加权平均,得到所述每个参数的一阶动量,并基于第二衰减系数将所述每个参数的历史梯度的平方进行加权平均,得到所述每个参数的二阶动量;通过偏差修正机制,对所述一阶动量和所述二阶动量进行修正,得到修正后的所述动量项。根据更新参数后的所述交叉熵损失函数的变化趋势来确定所述交叉熵损失函数的所述收敛条件。

本实施例结合了语义相似度、置信度和权重参数,构建了与现有技术不同的交叉熵损失函数,并运用该函数对深度学习模型进行调整。通过计算损失函数中每个参数的梯度,并按照梯度的反方向更新这些参数,引入动量项、一阶动量和二阶动量的加权平均,再通过偏差修正机制对这些动量项进行修正,实现了更为精准的模型参数调整。基于对交叉熵损失函数变化趋势的分析,本实施例确定了收敛条件,提高了深度学习模型的收敛速度和稳定性,从而有效提升了模型的性能和精度。

在一些实施例中,对于一阶动量,将其与一个偏差修正因子相乘,得到修正后的一阶动量。对于二阶动量,同样将其与一个偏差修正因子相乘,得到修正后的二阶动量。这个修正因子的引入,能够根据历史梯度的特性,对动量项进行更加精细的修正,避免了传统动量项在训练过程中出现的波动或过度偏向某个方向的问题。

下面将详细描述偏差修正因子的确定方法。

1)计算历史梯度的方差。

首先,计算历史梯度的方差σ

其中,g

2)计算偏差修正因子。

得到历史梯度的方差后,可以使用以下公式计算偏差修正因子:

其中,∈是一个小的正数,用于避免分母为零。修正因子的作用是对历史梯度的离散程度进行修正,使得修正后的一阶动量和二阶动量更加稳定。

通过这种方法,可以得到针对每个参数的偏差修正因子,然后将修正因子应用到一阶动量和二阶动量中,得到修正后的动量项。这样,修正后的动量项具有更好的准确性和稳定性,能够更有效地指导深度学习模型的优化过程。

步骤S704,利用文本匹配模型确定文本标签。

实施例4

本申请实施例提供了一种文本标签确定装置,如图9所示,包括:量化模块92、聚类模块94、重组模块96和确定模块98。

量化模块92被配置为使用分布式表示模型对文本进行向量化处理,将所述文本转化为维度大于预设维度的文本向量。聚类模块94被配置为对所述文本向量进行多层次聚类分析,得到文本聚类结果,并利用词频逆文本频率方法来对所述文本聚类结果进行关键词提取,获取所述文本聚类结果对应的标签候选词。重组模块96被配置为依据预先基于所述文本获得的词与词之间的相似矩阵,确定所述文本聚类结果对应的每两个相似标签候选词的出现次数,并筛选出所述出现次数大于预设次数阈值的至少一对所述标签候选词,生成标签重组词。确定模块98被配置为基于所述标签重组词来确定所述文本的文本标签。

需要说明的是:上述实施例提供的文本标签确定装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本标签确定装置与文本标签确定方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。

本申请实施例还提供了一种文本匹配模型的训练装置,包括:输入模块,被配置为将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签;划分模块,被配置为计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分;训练模块,被配置为基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。

实施例5

图10示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图10示出的电子设备仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示,该电子设备包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,电子设备还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

技术分类

06120116526420