掌桥专利:专业的专利平台
掌桥专利
首页

一种电商商品属性智能抽取方法

文献发布时间:2023-06-19 19:30:30


一种电商商品属性智能抽取方法

技术领域

本发明涉及自然语言处理领域,特别是涉及基于一种电商商品属性智能抽取方法。

背景技术

电子商务的发展是互联网社会时代的产物,电子商务的发展成为社会新浪潮的一个助推器,为互联网的发展推动了巨大的一步。而电子商务中商品是重中之重,商品标题包含了商品的大量关键信息,商品标题实体识别是自然语言处理NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。

传统的机器阅读理解MRC方式,直接将原始文本信息和实体类别标签Query信息进行拼接,利用自我注意力机制隐式的将标签Query信息融合到文本表示中。传统中文实体识别方法范式是通过文本编码器对文本进行编码,然后通过标签解码器进行标签解码。

现有方法中,标签Query信息会被文本信息分散,而不是完全集中在标签Query信息部分,导致标签知识并没有被充分地利用来增强文本表征,且同一样本需要根据Query不同多次进行编码,从而导致训练效率低下,传统机器阅读理解MRC方式面临计算成本高和标签信息利用不充分的问题。

发明内容

为了解决上述问题,本发明提出一种电商商品属性智能抽取方法,利用实体类别信息帮助模型确定实体类型,利用动态实体片段图确定实体边界解决实体嵌套问题,从而提升模型性能,包括以下步骤:

101、获取原始文本信息,设置标签Query信息;

102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;

103、融合文本编码信息和标签编码信息,得到融合标签Query信息;

104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;

105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。

进一步的,所述步骤102对每一类实体类别标签构造一个Query,对原始文本信息使用BERT编码器进行独立编码,得到文本编码信息,对标签Query信息使用BERT编码器进行独立编码得到标签编码信息。

进一步的,所述步骤103包括:

a)将文本编码信息和标签编码信息映射到同一同特征空间;

b)使用注意力机制计算权重;

c)融合文本编码信息和标签编码信息。

进一步的,所述将文本编码信息和标签编码信息映射到同一同特征空间:

h'

h'

其中W

进一步的,所述使用注意力机制计算相关性权重:

其中

进一步的,所述融合文本编码信息和标签编码信息:

其中

进一步的,所述步骤105引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中:

采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为B

进一步的,所述动态实体片段图:

得到更新向量

其中

本发明使用文本编码器和标签Query编码器对原始文本信息和标签Query信息分别编码,并融合原始文本信息与标签Query信息,解决了标签Query信息会被文本信息分散,同一样本需要根据Query不同多次进行编码的问题,改善了传统机器阅读理解MRC方式面临计算成本高和标签信息利用不充分的问题。引入了动态实体片段图,提高了模型实体片段识别能力,从而提高实体识别能力。

附图说明

图1是本发明实施例提供的流程图;

图2是本发明实施例提供的融合流程图;

图3是本发明实施例提供的算法整体流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

本发明解决上述技术问题的技术方案是:

参考图1,图1为本发明实施例提供电商商品属性智能抽取方法的流程图,具体包括:

101、获取原始文本信息,设置标签Query信息;

102、对原始文本信息进行编码得到文本编码信息,对标签Query信息进行编码得到标签编码信息;

参考图3本发明实施例提供的算法整体流程图,记输入原始文本信息X=(x

103、参考图2本发明实施例提供的融合流程图,融合文本编码信息和标签编码信息,得到融合标签Query信息;

a)将文本编码信息和标签编码信息映射到同一同特征空间:

h'

h'

其中W

b)使用注意力机制计算相关性权重:

其中

c)融合文本编码信息和标签编码信息:

其中

104、对融合标签Query信息采用指针网络枚举所有潜在的实体片段,并计算每个实体片段的局部上下文相关的向量空间表示;

步骤一:对于每一个实体类别分别设置头指针、尾指针用于确定当前字符是否为实体片段开始和结尾,并对所有头指针为1的匹配尾指针为1的实体片段,头指针和尾指针计算公式如下:

其中W

步骤二:对于每个实体片段的局部向量表示通过显示加入标签Query信息的

105、引入动态实体片段图将全局的信息整合到实体片段的向量空间表示中,并对实体片段进行分类得到最终抽取结果。

1)引入跨句实体软共指链接构造图:

采用束搜索剪枝beam pruning策略动态地选择高质量的实体片段作为图节点列表记为B

2)使用门机制更新实体片段的向量空间表示

得到更新向量

其中

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

相关技术
  • 一种跨境电商智能物流运筹与优化方法
  • 一种基于商品文本分类的电商类目属性挖掘方法
  • 一种基于图数据库的电商商品属性数据处理方法及装置
技术分类

06120115934139