掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的部门语义信息抽取的方法及装置

文献发布时间:2023-06-19 12:14:58


一种基于深度学习的部门语义信息抽取的方法及装置

技术领域

本发明涉及语言信息处理技术领域,特别是指一种基于深度学习的部门语义信息抽取的方法及装置。

背景技术

部门语义信息抽取是从电信用户问句中识别出与部门相关的实体,例如单位名称、号码,部门名称、号码等实体。语义信息抽取是问答系统、机器翻译等自然语言处理任务的基础,目前的研究方法主要有基于词典、基于机器学习和基于深度学习的方法。

其中基于词典的方法通过构建大量的词典,对所需提取的文本进行匹配提取出文本中的部门信息。词典中主要包括单位、部门等信息,同时词典的质量决定了文本中部门信息提取结果的好坏。由于部门信息随时在更新,更新词典需要消耗巨大的人力物力,同时根据词典提取文本中的部门信息的过程中无法解决一词多义的问题,还存在很大的局限性。

传统机器学习方法有CRF模型和HMM模型用于语义信息抽取,相比基于词典的方法,基于机器学习的方法有更好的泛化能力,但存在需要人工设计特征的问题,抽取文本中的部门信息时受到限制。随着深度学习的发展,神经网络用到文本信息抽取方面,将语义信息抽取转化为序列标注问题,使用BiLSTM-CRF模型提取文本中的部门信息,在词性标记和标签转化方面有很好的准确性。

目前,深度学习在文本信息抽取方面仍处于起步阶段,在某些情况下,现有的神经网络的方法在解决部门语义信息抽取时还存在以下问题:难以构建大量部门信息样本集,存在专用名词边界识别不准确的问题。

发明内容

本发明实施例提供了一种基于深度学习的部门语义信息抽取的方法及装置。所述技术方案如下:

一方面,提供了一种基于深度学习的部门语义信息抽取的方法,该方法应用于电子设备,该方法包括:

对获取的用户问句数据进行预处理,得到预处理数据;

将所述预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;

将所述字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;

基于所述数据标注结果抽取所述用户问句数据中的部门语义信息。

可选地,所述对获取的用户问句数据进行预处理,得到预处理数据,包括:

去除所述用户问句数据中的非文本信息,将所述用户问句数据中的英文字符转化为小写字符,得到统一格式数据;

将所述统一格式数据进行单个字拆分,得到预处理数据。

可选地,所述将所述预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据,包括:

将所述预处理数据输入预先训练好的BERT字编码模型,将所述预处理数据中的每个元素与所述BERT字编码模型中预设的词表进行匹配,得到所述预处理数据对应的字向量数据。

可选地,所述将所述预处理数据中的每个元素与所述BERT字编码模型中预设的词表进行匹配,得到所述预处理数据对应的字向量数据,包括:

获取初始字向量数据;

获取所述初始字向量数据对应的随机初始化位置向量以及上下文文本向量;

将所述初始字向量数据、所述随机初始化位置向量以及所述上下文文本向量进行相加,得到综合向量;

将所述综合向量输入所述BERT字编码模型的transformer层,所述transformer层的最后一层输出结果即为所述预处理数据对应的字向量数据。

可选地,所述位置注意力机制BiLSTM模型包括BiLSTM编码模块、基于位置感知的语义角色影响计算模块以及CRF层;

所述将所述字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果,包括:

将所述字向量数据输入所述BiLSTM编码模块,得到编码结果向量;

将所述字向量数据输入所述基于位置感知的语义角色影响计算模块,得到位置影响向量;

将所述编码结果向量与所述位置影响向量结合,得到基于位置感知影响的语义角色编码向量;

将所述语义角色编码向量输入所述CRF层,得到数据标注结果。

可选地,所述将所述字向量数据输入所述基于位置感知的语义角色影响计算模块,得到位置影响向量,包括:

基于所述字向量数据与预设的部门语义信息库词的相似度对比,确定所述字向量数据中的至少一个核心词;

通过下述公式(1),计算所述字向量数据中每个核心词的影响矩阵K,其中,所述影响矩阵K中每列元素表示距离核心词特定距离对应的影响矢量;

K(i,u)~N(Kernel(u),σ)……(1)

其中,K(i,u)表示第i维中距离核心词为u时的影响,其符合期望值是Kernel(u)、标准差是σ的正态分布,即K(i,u)~N(Kernel(u),σ),其中,Kernel(u)是高斯核函数,用来模拟基于位置感知的影响传播,即

通过下述公式(2),计算位置影响向量;

Sr

其中,Sr

可选地,所述数据标注结果包括分别含有标签B-ORG、I-ORG和O的用户问句数据,其中,所述B-ORG标签表示对应的字位于所述BIO序列的开始位置,所述I-ORG标签表示对应的字位于所述BIO序列的中间位置或者结束位置,所述O标签表示对应的字非部门词;

基于所述数据标注结果抽取所述用户问句数据中的部门语义信息,包括:

确定所述B-ORG标签对应的字,以及所有I-ORG标签对应的字,将所述B-ORG标签对应的字以及所有I-ORG标签对应的字按顺序提取并组成词语,得到所述用户问句数据中的部门语义信息。

一方面,提供了一种基于深度学习的部门语义信息抽取的装置,该装置应用于电子设备,该装置包括:

预处理单元,用于对获取的用户问句数据进行预处理,得到预处理数据;

BERT字编码模型计算单元,用于将所述预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;

BiLSTM模型计算单元,用于将所述字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;

信息抽取单元,用于基于所述数据标注结果抽取所述用户问句数据中的部门语义信息。

可选地,所述预处理单元,用于:

去除所述用户问句数据中的非文本信息,将所述用户问句数据中的英文字符转化为小写字符,得到统一格式数据;

将所述统一格式数据进行单个字拆分,得到预处理数据。

可选地,所述BERT字编码模型计算单元,用于:

将所述预处理数据输入预先训练好的BERT字编码模型,将所述预处理数据中的每个元素与所述BERT字编码模型中预设的词表进行匹配,得到所述预处理数据对应的字向量数据。

可选地,所述BERT字编码模型计算单元,用于:

获取初始字向量数据;

获取所述初始字向量数据对应的随机初始化位置向量以及上下文文本向量;

将所述初始字向量数据、所述随机初始化位置向量以及所述上下文文本向量进行相加,得到综合向量;

将所述综合向量输入所述BERT字编码模型的transformer层,所述transformer层的最后一层输出结果即为所述预处理数据对应的字向量数据。

可选地,所述位置注意力机制BiLSTM模型包括BiLSTM编码模块、基于位置感知的语义角色影响计算模块以及CRF层;

所述BiLSTM模型计算单元,用于:

将所述字向量数据输入所述BiLSTM编码模块,得到编码结果向量;

将所述字向量数据输入所述基于位置感知的语义角色影响计算模块,得到位置影响向量;

将所述编码结果向量与所述位置影响向量结合,得到基于位置感知影响的语义角色编码向量;

将所述语义角色编码向量输入所述CRF层,得到数据标注结果。

可选地,所述BiLSTM模型计算单元,用于:

基于所述字向量数据与预设的部门语义信息库词的相似度对比,确定所述字向量数据中的至少一个核心词;

通过下述公式(1),计算所述字向量数据中每个核心词的影响矩阵K,其中,所述影响矩阵K中每列元素表示距离核心词特定距离对应的影响矢量;

K(i,u)~N(Kernel(u),σ)……(1)

其中,K(i,u)表示第i维中距离核心词为u时的影响,其符合期望值是Kernel(u)、标准差是σ的正态分布,即K(i,u)~N(Kernel(u),σ),其中,Kernel(u)是高斯核函数,用来模拟基于位置感知的影响传播,即

通过下述公式(2),计算位置影响向量;

Sr

其中,Sr

可选地,所述数据标注结果包括分别含有标签B-ORG、I-ORG和O的用户问句数据,其中,所述B-ORG标签表示对应的字位于所述BIO序列的开始位置,所述I-ORG标签表示对应的字位于所述BIO序列的中间位置或者结束位置,所述O标签表示对应的字非部门词;

所述信息抽取单元,用于:

确定所述B-ORG标签对应的字,以及所有I-ORG标签对应的字,将所述B-ORG标签对应的字以及所有I-ORG标签对应的字按顺序提取并组成词语,得到所述用户问句数据中的部门语义信息。

一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于深度学习的部门语义信息抽取的方法。

一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于深度学习的部门语义信息抽取的方法。

本发明实施例提供的技术方案带来的有益效果至少包括:

上述方案中,对获取的用户问句数据进行预处理,得到预处理数据;将预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;将字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;基于数据标注结果抽取用户问句数据中的部门语义信息。本发明使用的BIO标注方式可以解决部门实体部门边界区分不明显的问题,同时以字为单位使用BERT预训练模型对文本序列进行字编码,得到字在文本中的上下文表示,增强字的语义表征,解决一词多义问题;提出基于位置感知的语义角色影响机制的BiLSTM模型,在对文本序列进行双向编码的同时关注句子中的特有名词,增强文本中特有名词的语义特征;使用CRF层对得到的序列标签进行约束,减少无效预测标签的数量,得到最优的标签预测序列,提高了抽取的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于深度学习的部门语义信息抽取的方法流程图;

图2是本发明实施例提供的一种基于深度学习的部门语义信息抽取的方法示意框图;

图3是本发明实施例提供的一种BIO标记规则的举例示意图;

图4是本发明实施例提供的一种基于深度学习的部门语义信息抽取的方法流程图;

图5是本发明实施例提供的一种transformer单元编码结构示意图;

图6是本发明实施例提供的一种基于位置感知的语义角色影响机制的流程示意图;

图7是本发明实施例提供的一种部门语义信息抽取模型的结构示意图;

图8是本发明实施例提供的一种基于深度学习的部门语义信息抽取的装置框图;

图9是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于深度学习的部门语义信息抽取的方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的基于深度学习的部门语义信息抽取的方法流程图,如图2所示的是基于深度学习的部门语义信息抽取的方法示意框图,所示为该方法的处理流程可以包括如下的步骤:

步骤101、对获取的用户问句数据进行预处理,得到预处理数据;

步骤102、将预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;

步骤103、将字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;

步骤104、基于数据标注结果抽取用户问句数据中的部门语义信息。

可选地,对获取的用户问句数据进行预处理,得到预处理数据,包括:

去除用户问句数据中的非文本信息,将用户问句数据中的英文字符转化为小写字符,得到统一格式数据;

将统一格式数据进行单个字拆分,得到预处理数据。

可选地,将预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据,包括:

将预处理数据输入预先训练好的BERT字编码模型,将预处理数据中的每个元素与BERT字编码模型中预设的词表进行匹配,得到预处理数据对应的字向量数据。

可选地,将预处理数据中的每个元素与BERT字编码模型中预设的词表进行匹配,得到预处理数据对应的字向量数据,包括:

获取初始字向量数据;

获取初始字向量数据对应的随机初始化位置向量以及上下文文本向量;

将字向量数据、随机初始化位置向量以及上下文文本向量进行相加,得到综合向量;

将综合向量输入BERT字编码模型的transformer层,transformer层的最后一层输出结果即为预处理数据对应的字向量数据。

可选地,位置注意力机制BiLSTM模型包括BiLSTM编码模块、基于位置感知的语义角色影响计算模块以及CRF层;

将字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果,包括:

将字向量数据输入BiLSTM编码模块,得到编码结果向量;

将字向量数据输入基于位置感知的语义角色影响计算模块,得到位置影响向量;

将编码结果向量与位置影响向量结合,得到基于位置感知影响的语义角色编码向量;

将语义角色编码向量输入CRF层,得到数据标注结果。

可选地,将字向量数据输入基于位置感知的语义角色影响计算模块,得到位置影响向量,包括:

基于字向量数据与预设的部门语义信息库词的相似度对比,确定字向量数据中的至少一个核心词;

通过下述公式(1),计算字向量数据中每个核心词的影响矩阵K,其中,影响矩阵K中每列元素表示距离核心词特定距离对应的影响矢量;

K(i,u)~N(Kernel(u),σ)……(1)

其中,K(i,u)表示第i维中距离核心词为u时的影响,其符合期望值是Kernel(u)、标准差是σ的正态分布,即K(i,u)~N(Kernel(u),σ),其中,Kernel(u)是高斯核函数,用来模拟基于位置感知的影响传播,即

通过下述公式(2),计算位置影响向量;

Sr

其中,Sr

可选地,数据标注结果包括分别含有标签B-ORG、I-ORG和O的用户问句数据,其中,B-ORG标签表示对应的字位于BIO序列的开始位置,I-ORG标签表示对应的字位于BIO序列的中间位置或者结束位置,0标签表示对应的字非部门词;

基于数据标注结果抽取用户问句数据中的部门语义信息,包括:

确定B-ORG标签对应的字,以及所有I-ORG标签对应的字,将B-ORG标签对应的字以及所有I-ORG标签对应的字按顺序提取并组成词语,得到用户问句数据中的部门语义信息。

本发明实施例中,对获取的用户问句数据进行预处理,得到预处理数据;将预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;将字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;基于数据标注结果抽取用户问句数据中的部门语义信息。本发明使用的BIO标注方式可以解决部门实体部门边界区分不明显的问题,同时以字为单位使用BERT预训练模型对文本序列进行字编码,得到字在文本中的上下文表示,增强字的语义表征,解决一词多义问题;提出基于位置感知的语义角色影响机制的BiLSTM模型,在对文本序列进行双向编码的同时关注句子中的特有名词,增强文本中特有名词的语义特征;使用CRF层对得到的序列标签进行约束,减少无效预测标签的数量,得到最优的标签预测序列,提高了抽取的准确率。

本发明实施例提供了一种基于深度学习的部门语义信息抽取的方法中,对BERT字编码模型以及位置注意力机制BiLSTM模型进行训练的方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。具体训练过程可以参考下述说明:

先获取数据,本发明实施例中的数据主要是电信用户问句,可以从相关网站上的用户提问记录得到电信用户文具数据,若句子过长对句子进行分句,并筛选出需要人工标注的句子,过滤掉无关的句子。当然,结合用户的使用需求可以获取不同种类的用户问句,本发明对此不作限定。

然后,对清洗后的用户问句数据人工提取出其中的部门语义信息,例如,从“承德日报社驻围场记者站副部长办公室”句子中标记出“副部长办公室”,并将其整理到模型的部门语义信息库中,用于后续的对比操作。

对提取出的部门语义信息检查更正,去除表情符号、图片等非文本信息,将句中的英文字符统一转化为小写字符,便于单词统计。然后,将句子进行单个字的拆分得到文本序列,按照BIO标记规则对文本序列中的每个字进行标注,每个字标注的BIO标签由边界标签和类别标签两部分组成,边界标签由BIO来表示元素在部门语义信息中的位置信息,B表示元素在部门语义信息的开头,I表示元素在部门语义信息的中间或结尾部分,O表示元素非部门语义信息,;类别标签即为部门语义信息对应的类别,本发明实施例中,将部门语义信息对应的类别采用英文单词前三个字母表示,例如,部门语义信息是组织(organization)时,其类别标签用ORG表示。举例来说,如图3所示,如果采集的数据是“承德日报社驻围场记者站副部长办公室”,从中提取出部门语义信息为“副部长办公室”,则对该数据进行BIO标记时,“承德日报社驻围场记者站”中的每个字均标注为“O”,“副”标注为“B-ORG”,“部长办公室”每个字均标注为“I-ORG”。当然,也可以采用其它规则设定类别标签,本发明对此不作限定。

按照上述步骤得到的含有标签的文本序列即为样本数据,将样本数据中的文本序列输入初始部门语义信息抽取模型中,该初始部门语义信息抽取模型包括初始BERT字编码模型以及初始位置注意力机制BiLSTM模型,样本数据中的文本序列作为初始BERT字编码模型的输入,而初始BERT字编码模型的输出结果作为初始位置注意力机制BiLSTM模型的输入,最后得到初始部门语义信息抽取模型的输出结果,最终将输出结果与样本数据中文本序列对应的BIO标签进行比对,进而调整初始BERT字编码模型以及初始位置注意力机制BiLSTM模型中的参数。然后再将样本数据按照上述步骤输入模型中,再将模型的输出结果与样本标签进行比对,直至模型的输出结果与样本标签的比对结果收敛,此时的BERT字编码模型以及位置注意力机制BiLSTM模型即为训练好的模型。

需要说明的是,上述训练过程仅为一种可实行的训练方法,并不代表模型训练仅能采用该方法,也就是说,其它训练方法也可以使用,本发明对此不作限定。

本发明实施例提供了一种基于深度学习的部门语义信息抽取的方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图4所示的基于深度学习的部门语义信息抽取的方法流程图,该方法的处理流程可以包括如下的步骤:

步骤401、去除用户问句数据中的非文本信息,将用户问句数据中的英文字符转化为小写字符,得到统一格式数据。

一种可行的实施方式中,用户问句数据的获取方式可以有多种,例如,用户通过终端想服务器发送用户问句数据,由服务器发送给电子设备;或者用户使用的终端与实现本申请方法的电子设备是同一个设备,用户直接在终端上输入用户问句数据,等等。

获取用户问句数据后,去除用户问句数据中的表情符号、图片等非文本信息,然后将用户问句数据中的英文字符转化为小写字符,这样便于单词的统计,得到统一格式数据。

步骤402、将统一格式数据进行单个字拆分,得到预处理数据。

一种可行的实施方式中,从上述步骤401获取统一格式数据后,使用预设的拆字算法,将统一格式数据拆分成单个字的数据,得到一个文字序列,可以用W={w

步骤403、将预处理数据输入预先训练好的BERT字编码模型,得到初始字向量数据。

其中,BERT(Bidirectional Encoder Representations from Transformers,自Transformer的双向编码器)字编码模型,旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。

一种可行的实施方式中,将通过上述步骤402得到的文字序列W={w

步骤404、获取初始字向量数据对应的随机初始化位置向量以及上下文文本向量。

步骤405、将字向量数据、随机初始化位置向量以及上下文文本向量进行相加,得到综合向量。

步骤406、将综合向量输入BERT字编码模型的transformer层,transformer层的最后一层输出结果即为预处理数据对应的字向量数据。

一种可行的实施方式中,综合向量输入transformer层后,经过12层transformer进行编码,transformer单元编码结构如图5所示,取transformer层的最后一层编码得到的数据将其作为预处理数据对应的字向量数据,作为下游BiLSTM层的输入。

步骤407、将字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果。

一种可行的实施方式中,为了进一步提高抽取的准确度,在BiLSTM层加入了位置注意力机制,对BiLSTM的输出进行了微调,首先使用语义角色标注技术对用户问句进行处理,识别句子中的不同成分,将句子中的成分和人工标记得到的部门信息库进行相似度的对比,当相似度大于某个阈值时,认为句子中的某个词是部门语义信息中的核心词。假设在句子中,核心词对其周边词的影响程度随着距离的变化而变化,基于这个假设设计了基于位置感知的语义角色影响机制,相应的流程可以参考图6。

这样,本发明实施例中的位置注意力机制BiLSTM模型,至少包括位置注意力机制BiLSTM模型包括BiLSTM编码模块、基于位置感知的语义角色影响计算模块以及CRF层这三个部分。

BiLSTM编码模块用于生成编码结果向量,基于位置感知的语义角色影响计算模块用于对BiLSTM编码模块生成的编码结果向量进行修正,CRF层用于得到最优的标签序列。该步骤包括下述步骤4071-4074:

步骤4071、将字向量数据输入BiLSTM编码模块,得到编码结果向量。

步骤4072、将字向量数据输入基于位置感知的语义角色影响计算模块,得到位置影响向量。

一种可行的实施方式中,具体步骤可以如下:

基于字向量数据与预设的部门语义信息库词的相似度对比,确定字向量数据中的至少一个核心词。

通过下述公式(1),计算字向量数据中每个核心词的影响矩阵K,其中,影响矩阵K中每列元素表示距离核心词特定距离对应的影响矢量。

K(i,u)~N(Kernel(u),σ)……(1)

其中,K(i,u)表示第i维中距离核心词为u时的影响,其符合期望值是Kernel(u)、标准差是σ的正态分布,即K(i,u)~N(Kernel(u),σ),其中,Kernel(u)是高斯核函数,用来模拟基于位置感知的影响传播,即

通过下述公式(2),计算位置影响向量。

Sr

其中,Sr

步骤4073、将编码结果向量与位置影响向量结合,得到基于位置感知影响的语义角色编码向量。

步骤4074、将语义角色编码向量输入CRF层,得到数据标注结果。

一种可行的实施方式中,将语义角色编码向量r

将矩阵P输入CRF层中,同时CRF层初始化一个转移矩阵T,其中t

需要说明的是,上述步骤403-步骤407中用到的BERT模型以及BiLSTM模型可以统称为部门语义信息抽取模型,其相应结构可以参照图7中的结构。

步骤408、基于数据标注结果抽取用户问句数据中的部门语义信息。

可选地,数据标注结果包括分别含有标签B-ORG、I-ORG和O的用户问句数据,其中,B-ORG标签表示对应的字位于BIO序列的开始位置,I-ORG标签表示对应的字位于BIO序列的中间位置或者结束位置,O标签表示对应的字非部门词。

基于数据标注结果抽取用户问句数据中的部门语义信息,包括:

确定B-ORG标签对应的字,以及所有I-ORG标签对应的字,将B-ORG标签对应的字以及所有I-ORG标签对应的字按顺序提取并组成词语,得到用户问句数据中的部门语义信息。

本发明实施例中,对获取的用户问句数据进行预处理,得到预处理数据;将预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;将字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;基于数据标注结果抽取用户问句数据中的部门语义信息。本发明使用的BIO标注方式可以解决部门实体部门边界区分不明显的问题,同时以字为单位使用BERT预训练模型对文本序列进行字编码,得到字在文本中的上下文表示,增强字的语义表征,解决一词多义问题;提出基于位置感知的语义角色影响机制的BiLSTM模型,在对文本序列进行双向编码的同时关注句子中的特有名词,增强文本中特有名词的语义特征;使用CRF层对得到的序列标签进行约束,减少无效预测标签的数量,得到最优的标签预测序列,提高了抽取的准确率。

图8是根据一示例性实施例示出的一种基于深度学习的部门语义信息抽取的装置框图。参照图8,该装置包括预处理单元810、BERT字编码模型计算单元820、BiLSTM模型计算单元830、信息抽取单元840。

预处理单元810,用于对获取的用户问句数据进行预处理,得到预处理数据;

BERT字编码模型计算单元820,用于将所述预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;

BiLSTM模型计算单元830,用于将所述字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;

信息抽取单元840,用于基于所述数据标注结果抽取所述用户问句数据中的部门语义信息。

可选地,所述预处理单元810,用于:

去除所述用户问句数据中的非文本信息,将所述用户问句数据中的英文字符转化为小写字符,得到统一格式数据;

将所述统一格式数据进行单个字拆分,得到预处理数据。

可选地,所述BERT字编码模型计算单元820,用于:

将所述预处理数据输入预先训练好的BERT字编码模型,将所述预处理数据中的每个元素与所述BERT字编码模型中预设的词表进行匹配,得到所述预处理数据对应的字向量数据。

可选地,所述BERT字编码模型计算单元820,用于:

获取初始字向量数据;

获取所述初始字向量数据对应的随机初始化位置向量以及上下文文本向量;

将所述初始字向量数据、所述随机初始化位置向量以及所述上下文文本向量进行相加,得到综合向量;

将所述综合向量输入所述BERT字编码模型的transformer层,所述transformer层的最后一层输出结果即为所述预处理数据对应的字向量数据。

可选地,所述位置注意力机制BiLSTM模型包括BiLSTM编码模块、基于位置感知的语义角色影响计算模块以及CRF层;

所述BiLSTM模型计算单元830,用于:

将所述字向量数据输入所述BiLSTM编码模块,得到编码结果向量;

将所述字向量数据输入所述基于位置感知的语义角色影响计算模块,得到位置影响向量;

将所述编码结果向量与所述位置影响向量结合,得到基于位置感知影响的语义角色编码向量;

将所述语义角色编码向量输入所述CRF层,得到数据标注结果。

可选地,所述BiLSTM模型计算单元830,用于:

基于所述字向量数据与预设的部门语义信息库词的相似度对比,确定所述字向量数据中的至少一个核心词;

通过下述公式(1),计算所述字向量数据中每个核心词的影响矩阵K,其中,所述影响矩阵K中每列元素表示距离核心词特定距离对应的影响矢量;

K(i,u)~N(Kernel(u),σ)……(1)

其中,K(i,u)表示第i维中距离核心词为u时的影响,其符合期望值是Kernel(u)、标准差是σ的正态分布,即K(i,u)~N(Kernel(u),σ),其中,Kernel(u)是高斯核函数,用来模拟基于位置感知的影响传播,即

通过下述公式(2),计算位置影响向量;

Sr

其中,Sr

可选地,所述数据标注结果包括分别含有标签B-ORG、I-ORG和O的用户问句数据,其中,所述B-ORG标签表示对应的字位于所述BIO序列的开始位置,所述I-ORG标签表示对应的字位于所述BIO序列的中间位置或者结束位置,所述O标签表示对应的字非部门词;

所述信息抽取单元840,用于:

确定所述B-ORG标签对应的字,以及所有I-ORG标签对应的字,将所述B-ORG标签对应的字以及所有I-ORG标签对应的字按顺序提取并组成词语,得到所述用户问句数据中的部门语义信息。

本发明实施例中,对获取的用户问句数据进行预处理,得到预处理数据;将预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;将字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;基于数据标注结果抽取用户问句数据中的部门语义信息。本发明使用的BIO标注方式可以解决部门实体部门边界区分不明显的问题,同时以字为单位使用BERT预训练模型对文本序列进行字编码,得到字在文本中的上下文表示,增强字的语义表征,解决一词多义问题;提出基于位置感知的语义角色影响机制的BiLSTM模型,在对文本序列进行双向编码的同时关注句子中的特有名词,增强文本中特有名词的语义特征;使用CRF层对得到的序列标签进行约束,减少无效预测标签的数量,得到最优的标签预测序列,提高了抽取的准确率。

图9是本发明实施例提供的一种电子设备900的结构示意图,该电子设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)901和一个或一个以上的存储器902,其中,所述存储器902中存储有至少一条指令,所述至少一条指令由所述中央处理器901加载并执行以实现下述基于深度学习的部门语义信息抽取的方法的步骤:

对获取的用户问句数据进行预处理,得到预处理数据;

将预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;

将字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;

基于数据标注结果抽取用户问句数据中的部门语义信息。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于深度学习的部门语义信息抽取的方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于深度学习的部门语义信息抽取的方法及装置
  • 一种基于深度学习的专家抽取需求预测方法、装置
技术分类

06120113228730