掌桥专利:专业的专利平台
掌桥专利
首页

中心词提取模型生成方法及装置和中心词提取方法及装置

文献发布时间:2023-06-19 11:42:32


中心词提取模型生成方法及装置和中心词提取方法及装置

技术领域

本申请涉及但不限于计算机技术,尤指一种中心词提取模型生成方法及装置和中心词提取方法及装置。

背景技术

基于卷积深度网络的语义模型(CDSSM,Convolutional Deep StructuredSemantic Model)是一个基于分类的深度神经网络模型,CDSSM模型的输入是query和doc的词袋模型生成的向量,CDSSM模型通过词的n-gram和卷积池化操作来捕获上下文关系。但是,CDSSM在电商中心词提取任务中,对一个句子只能得到一个中心词输出。

相关技术中,采用CDSSM方法提取句子的中心词,大致包括:通过深度模型计算得到询问(query)或标题(title)与句子中每个词(term)的相似度分数;根据分数排序得到分数最高的term作为中心词。在按照相关技术获取中心词的方法中,仅通过分数排序选择最高的term作为中心词,这样对于一个句子来讲,只能得到一个中心词。其中,query为买家通过电商网站搜索商品使用的搜索词,比如baby clothes、mp3 mp4等;title为卖家在电商网站上填写的商品标题,比如direct factory bto12 razor barbed wire mesh等;term是指title或query中的单个单词(word),举个例子来看,以query包括:mp3 mp4为例,那么,mp3和mp4都是term;中心词是标题或query中与待搜索商品最接近的词。需要说明的是,对于商品标题为中文的情况,会先对该句子进行分词处理,而后再确定中心词。

但是,真实电商场景非常复杂,一个标题或者query可能有多个中心词,相关技术提供的获取中心词的方法是无法适用这种场景的。

发明内容

本申请提供一种中心词提取模型生成方法及装置和中心词提取方法及装置,能够更准确地获取中心词,满足真实电商场景的需求。

本发明实施例提供了一种中心词提取方法,包括:

将待处理的信息输入训练好的中心词提取模型,得到所述信息对应的依存树;其中,在依存树中,所述信息的中心词之间建立关联关系,所述信息的非中心词之间建立关联关系;

根据中心词之间的关联关系和非中心词之间的关联关系,将获得的依存树转换为带有中心词标签的句子,所述句子中带有中心词标签的词为所述信息的中心词。

在一种示例性实例中,所述方法之前还包括生成所述中心词提取模型;包括:

对信息样本的中心词进行标注获取训练数据集;

对训练数据集进行依存句法分析,得到依存树数据集;

利用依存树数据集对预先设置的算法模型进行训练得到所述中心词提取模型。

在一种示例性实例中,所述根据中心词之间的关联关系和非中心词之间的关联关系,将获得的依存树转换为带有中心词标签的句子,包括:

在获得的所述依存树上,对句子中的每个词从左到右进行遍历,如果所述词的父亲节点是预先设置的中心词根节点,则从该词起是一个中心词;如果所述词的父亲节点是预先设置的非中心词根节点,该词是非中心词;

为所述中心词设置中心词标签。

在一种示例性实例中,所述将获得的依存树转换为带有中心词标签的句子的步骤还包括:

如果紧跟所述词后续的词的父亲节点是该后续的词自身的前一个词,则所述词和父亲节点是前一个词的所述后续的词构成中心词短语;

为所述中心词短语设置中心词标签。

在一种示例性实例中,所述对训练数据集进行依存句法分析,得到依存树数据集,包括:

将所述训练数据集中的每一个带有中心词标签的句子分别转换为一棵依存树;转换后得到的一棵以上依存树组成所述依存树数据集。

在一种示例性实例中,所述将带有中心词标签的句子转换为一棵依存树,包括:

在所述句子的句首添加两个词:所述中心词根节点和所述非中心词根节点,其中,中心词根节点表示中心词的父亲节点,非中心词根节点表示非中心词的父亲节点,非中心词根节点的父亲节点是中心词根节点;

对添加中心词的父亲节点和非中心词的父亲节点的句子,从句首到句尾依次遍历,如果遍历到的词未带有中心词标签,则将该词记为依存树中非中心词根节点的子节点;如果遍历到的词带有中心词标签,则将该词记为依存树中中心词根节点的子节点。

在一种示例性实例中,所述方法还包括:

在所述遍历过程中,如果出现短语且该短语带有中心词标签,则短语中的第一个词是所述中心词根节点的子节点,短语中的后续词分别是前一个词的子节点。

在一种示例性实例中,所述利用依存树数据集对预先设置的算法模型进行训练得到中心词提取模型,包括:

将带有中心词标签的句子作为所述算法模型的输入,将该句子对应的依存树作为所述算法模型的输出,对算法模型进行训练以获取所述中心词提取模型的参数。

在一种示例性实例中,所述算法模型包括:双仿射注意力模型,或卷积神经网络CNN模型、或长短期记忆LSTM模型。

在一种示例性实例中,所述待处理的信息包括:电商的标题信息或来自用户输入的检索信息。

本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的中心词提取方法。

本申请又提供了一种用于中心词提取装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的中心词提取方法的步骤。

本申请再提供了一种中心词提取方法,包括:

将待处理的来电商的标题信息或来自用户输入的检索信息输入训练好的中心词提取模型,得到所述标题信息或检索信息对应的依存树;其中,在依存树中,所述标题信息或检索信息的中心词之间建立关联关系,所述标题信息或检索信息的非中心词之间建立关联关系;

根据中心词之间的关联关系和非中心词之间的关联关系,将获得的依存树转换为带有中心词标签的句子,所述句子中带有中心词标签的词为所述标题信息或检索信息的中心词。

在一种示例性实例中,所述方法还包括:

根据所述标题信息或检索信息的中心词,匹配出商品或广告并显示。

本申请还提供了一种中心词提取模型生成方法,包括:

对主题样本的中心词进行标注获取训练数据集;

对训练数据集进行依存句法分析,得到依存树数据集;

利用依存树数据集对预先设置的算法模型进行训练得到中心词提取模型。

在一种示例性实例中,所述对训练数据集进行依存句法分析,得到依存树数据集,包括:

将所述训练数据集中的每一个带有中心词标签的句子分别转换为一棵依存树;转换后得到的一棵以上依存树组成所述依存树数据集。

在一种示例性实例中,,所述将带有中心词标签的句子转换为一棵依存树,包括:

在所述句子的句首添加两个词:所述中心词根节点和所述非中心词根节点,其中,中心词根节点表示中心词的父亲节点,非中心词根节点表示非中心词的父亲节点,非中心词根节点的父亲节点是中心词根节点;

对添加中心词的父亲节点和非中心词的父亲节点的句子,从句首到句尾依次遍历,如果遍历到的词未带有中心词标签,则将该词记为依存树中非中心词根节点的子节点;如果遍历到的词带有中心词标签,则将该词记为依存树中中心词根节点的子节点;

在遍历过程中,如果出现短语且该短语带有中心词标签,则短语中的第一个词是中心词根节点的子节点,短语中的后续词分别是前一个词的子节点。

在一种示例性实例中,所述利用依存树数据集对预先设置的算法模型进行训练得到中心词提取模型,包括:

将带有中心词标签的句子作为所述算法模型的输入,将该句子对应的依存树作为所述算法模型的输出,对算法模型进行训练以获取所述中心词提取模型的参数。

在一种示例性实例中,所述算法模型包括:双仿射注意力模型,或卷积神经网络CNN模型、或长短期记忆LSTM模型。

本申请又提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的中心词提取模型生成方法。

本申请再提供了一种用于中心词提取装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的中心词提取模型生成方法的步骤。

一方面,通过本申请中心词提取模型生成方法,将自然语言的句子转换到了一棵树型结构,巧妙地将中心词提取建模问题成一个依存句法分析的问题,将句子中的所有中心词都表示了出来,为后续将句子中的所有中心词提取出提供了保障。

另一方面,通过本申请中心词提取方法,将中心词提取任务转换成依存句法分析任务,巧妙地找到了句子中的所有中心词,更准确地获取了中心词,满足了真实电商场景的需求。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。

图1为本申请中心词提取模型生成方法的流程示意图;

图2为本申请将句子转换为依存树的实施例的示意图;

图3为本申请中心词提取模型生成装置的组成结构示意图;

图4为本申请中心词提取方法的流程示意图;

图5为本申请中心词提取装置的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请中心词提取模型生成方法的流程示意图,如图1所示,包括:

步骤100:对信息样本的中心词进行标注获取训练数据集。

在一种示例性实例中,信息包括标题(如来源于网站的商品标题等)、或query(如来自用户输入的检索信息)等信息。一个信息可以被看着是一个句子。信息样本包括多个。

在一种示例性实例中,本步骤中的标注可以采用人工标注的方式。

在一种示例性实例中,获得的训练数据集可以包括一条条的记录,比如某条记录包括:new arrival led panel light 36w led panel light low light decay ledpanel light emergency kit|led light,那么,表示标题为:new arrival led panellight 36w led panel light low light decay led panel light emergency kit,中心词包括led和light,在这个实施例中,标题与中心词之间采用符号“|”隔开。

步骤101:对训练数据集进行依存句法分析,得到依存树数据集。

依存句法(DP,Dependency Parsing)是由法国语言学家L.Tesniere最先提出的。依存句法分析是将句子分析成一颗依存树,以描述句子中各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。

在一种示例性实例中,本步骤包括:

将训练数据集中的每一个带有中心词标签的句子分别转换为一棵依存树;转换后得到的一棵以上依存树组成依存树数据集。

在一种示例性实例中,将带有中心词标签的句子转换为一棵依存树,可以包括:

在句子的句首如左侧添加两个词:中心词根节点lROOT和非中心词根节点oROOT,其中,中心词根节点lROOT表示中心词的父亲节点,非中心词根节点oROOT表示非中心词的父亲节点,非中心词根节点oROOT的父亲节点是中心词根节点lROOT;

对添加中心词的父亲节点和非中心词的父亲节点的句子,从句首到句尾(如从左到右)依次遍历,如果遍历到的词未带有中心词标签即不是中心词,则将该词记为依存树中非中心词根节点oROOT的孩子即子节点;如果遍历到的词带有中心词标签即是中心词,则将该词记为依存树中中心词根节点lROOT的孩子即子节点;

在遍历过程中,如果出现短语,那么,短语中的第一个词是中心词根节点lROOT的孩子即子节点,短语中的后续词分别是前一个词的孩子即子节点。

图2为本申请将句子转换为依存树的实施例的示意图,如图2所示,对于句子:A BC D E即包括五个词的句子,这五个词分别是A、B、C、D和E,本实施例中,假设标注出的中心词包括:B C和D,假设这两个中心词,一个是短语B C,另一个是词D。

本步骤将自然语言的句子转换到了一棵树型结构,在这棵树中节点是词,根结点是假节点,而这些词被相应地分别依存(即关联)在中心词根节点lROOT和非中心词根节点oROOT上。本申请巧妙地将中心词提取建模问题转换成一个依存句法分析的问题,将句子中的所有中心词都表示了出来,为后续提取出句子中的所有中心词提供了保障。

步骤102:利用依存树数据集对预先设置的算法模型进行训练得到中心词提取模型。

在一种示例性实例中,本步骤可以包括:

将带有中心词标签的句子作为算法模型的输入,将该句子对应的依存树作为算法模型的输出,对算法模型进行训练以获取中心词提取模型的参数。

在一种示例性实例中,算法模型可以包括但不限于如:双仿射注意力(BiaffineAttention)模型,也可以是其他模型,如卷积神经网络(CNN)模型、长短期记忆(LSTM)模型等。

本步骤主要强调的是将句子与句子对应的依存树作为预先设置的算法模型的输入和输出,这样,训练出来的中心词提取模型便可以用于对句子中的中心词进行处理,获得如图2所示的与该句子对应依存树,在依存树中,句子的中心词依存在中心词根节点lROOT上即句子的中心词与中心词根节点关联,句子的非中心词依存在非中心词根节点oROOT上即句子的非中心词与非中心词根节点关联。

在一种示例性实例中,本步骤还可以包括:

在中心词提取模型的训练过程中,可以利用验证集即用于判断中心词提取模型收敛的数据,对中心词提取模型进行收敛性判断,迭代多轮结果稳定之后再确定出最终的中心词提取模型。

本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项的中心词提取模型生成方法。

本申请再提供一种中心词提取模型生成装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上任一项所述的中心词提取模型生成方法的步骤。

本申请实施例提供的中心词提取方法可以应用于如电商搜索、广告播放等应用场景。

在一种示例性实例中,本申请中心词提取方法可以包括:

将待处理的来电商的标题信息或来自用户输入的检索信息输入训练好的中心词提取模型,得到标题信息或检索信息对应的依存树;其中,在依存树中,标题信息或检索信息的中心词之间建立关联关系,标题信息或检索信息的非中心词之间建立关联关系;

根据中心词之间的关联关系和非中心词之间的关联关系,将获得的依存树转换为带有中心词标签的句子,句子中带有中心词标签的词为标题信息或检索信息的中心词。

在一种示例性实例中,所述方法还包括:

根据得到的标题信息或检索信息的中心词,匹配出商品或广告并显示。

图3为本申请中心词提取模型生成装置的组成结构示意图,如图3所示,至少包括:标注模块、分析模块、训练模块;其中,

标注模块,用于对信息样本的中心词进行标注获取训练数据集。

分析模块,用于对训练数据集进行依存句法分析,得到依存树数据集。

训练模块,用于利用依存树数据集对预先设置的算法模型进行训练得到中心词提取模型。

在一种示例性实例中,分析模块具体用于:

将训练数据集中的每一个带有中心词标签的句子分别转换为一棵依存树;转换后得到的一棵以上依存树组成依存树数据集。

在一种示例性实例中,分析模块中的将带有中心词标签的句子转换为一棵依存树,可以包括:

在句子的句首如左侧添加两个词:中心词根节点lROOT和非中心词根节点oROOT,其中,中心词根节点lROOT表示中心词的父亲节点,非中心词根节点oROOT表示非中心词的父亲节点,非中心词根节点oROOT的父亲节点是中心词根节点lROOT;

对添加中心词的父亲节点和非中心词的父亲节点的句子,从句首到句尾(如从左到右)依次遍历,如果遍历到的词未带有中心词标签即不是中心词,则将该词记为依存树中非中心词根节点oROOT的孩子即子节点;如果遍历到的词带有中心词标签即是中心词,则将该词记为依存树中中心词根节点lROOT的孩子即子节点;

在遍历过程中,如果出现短语,那么,短语中的第一个词是中心词根节点lROOT的孩子即子节点,短语中的后续词分别是前一个词的孩子即子节点。

在一种示例性实例中,训练模块具体用于:

将带有中心词标签的句子作为算法模型的输入,将该句子对应的依存树作为算法模型的输出,对算法模型进行训练以获取中心词提取模型的参数。

图4为本申请中心词提取方法的流程示意图,如图4所示,包括:

步骤400,将待处理的信息输入训练好的中心词提取模型,得到该主题对应的依存树。其中,在依存树中,待处理的信息的中心词之间建立关联关系,待处理的信息的非中心词之间建立关联关系。

在一种示例性实例中,中心词提取模型用于对输入的句子进行解析,以获得该句子对应的依存树,在依存树中,该句子的中心词依存在中心词根节点lROOT上即该句子的中心词与中心词根节点关联,也就是说,中心词之间通过中心词根节点建立了关联关系;该句子的非中心词依存在非中心词根节点oROOT上即该句子的非中心词与非中心词根节点关联,也就是说,非中心词之间通过非中心词根节点建立了关联关系。

在一种示例性实例中,待处理的信息包括标题(如来源于网站的商品标题等)、或query等信息。一个待处理的信息可以被看着是一个句子。

步骤401:根据中心词之间的关联关系和非中心词之间的关联关系,将获得的依存树转换为带有中心词标签的句子,句子中带有中心词标签的词为该主题的中心词。

在一种示例性实例中,本步骤中的将获得的依存树转换为带有中心词标签的句子,可以包括:

根据中心词之间的关联关系和非中心词之间的关联关系,在获得的依存树上,对句子中的每个词从左到右进行遍历,如果某词的父亲节点是预先设置的中心词根节点lROOT,那么,从该词起是一个中心词;如果紧跟该词的词的父亲节点是紧跟该词的词的前一个词,那么,该词和父亲节点是紧跟该词的词的前一个词的这些词构成中心词短语;为中心词和中心词短语设置中心词标签;

如果该词的父亲节点是预先设置的非中心词根节点oROOT,那么,该词不是一个中心词即是非中心词。

通过本申请中心词提取方法,将中心词提取任务转换成依存句法分析任务,巧妙地找到了句子中的所有中心词,更准确地获取了中心词,满足了真实电商场景的需求。

在一种示例性实例中,本申请引入了基于深度双仿射注意力模型解决了标题或query中的中心词提取问题,将中心词提取任务转换成依存句法分析任务,巧妙地找到了句子中的所有中心词,更准确地获取了中心词,满足了真实电商场景的需求。

在一种示例性实例中,通过实验证明,利用本申请训练的中心词提取模型提取中心词的准确率远超过相关技术中的中心词算法,具体地,准确度从76.01%提升至81.49%,召回率从70.61%提升至78.51%,分数F1从73.21%提升至79.97%。

本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项的中心词提取方法。

本申请再提供一种实现中心词提取的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上任一项所述的中心词提取方法的步骤。

图5为本申请中心词提取装置的组成结构示意图,如图5所示,至少包括:解析模块、获取模块;其中,

解析模块,用于将待处理的主题输入训练好的中心词提取模型,得到该主题对应的依存树。

获取模块,用于将获得的依存树转换为带有中心词标签的句子,句子中带有中心词标签的词为该主题的中心词。

在一种示例性实例中,获取模块中的将获得的依存树转换为带有中心词标签的句子,包括:

在获得的依存树上,对句子中的每个词从左到右进行遍历,如果该词的父亲节点是中心词根节点lROOT,那么,从该词起是一个中心词;如果紧跟该词的词的父亲节点是前一个词,那么,这些词构成中心词短语;中心词和中心词短语设置中心词标签;

如果该词的父亲节点是非中心词根节点oROOT,那么,该词不是一个中心词即是非中心词。

虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

相关技术
  • 中心词提取模型生成方法及装置和中心词提取方法及装置
  • 中心词提取方法、装置、设备及存储介质
技术分类

06120113022647