掌桥专利:专业的专利平台
掌桥专利
首页

一种长尾工艺实体识别方法与设备

文献发布时间:2024-04-18 19:58:26


一种长尾工艺实体识别方法与设备

技术领域

本发明属于制造工艺实体识别相关技术领域,更具体地,涉及一种长尾工艺实体识别方法与设备。

背景技术

实体是知识最基本的表现形式之一,也是结构化的知识图谱的基本组成要素之一。在生产制造和管理中,会积累多种来源、不同结构的工艺规程、工艺标准文件。这些文件中含有大量半结构化、非结构化的文本数据,蕴含着大量实体。在这些文本数据中蕴含着大量经过实践验证的工艺实体知识,为工艺人员提供了可靠、有效的参考。然而,随着零件种类、文件形式不断积累,这些工艺实体知识分布在多源异构的文件中,不便整合。未整合的实体难以形成结构化的数据,因而很难被工艺人员检索、参考、利用。使制造工艺实体知识从多源异构的文件准确、快捷地流入结构化的数据,是制造业转型升级中的一个重要目标。随着数据、算力、算法的发展,实体识别技术也取得了长足的进步。如今,基于深度学习的实体识别技术,已经可以在数据充足的通用领域实现较准确、快捷的应用,并且可以应对困扰传统方法的实体重叠与嵌套等现象。

然而,在制造工艺领域,不够充足的数据,以及细粒度的实体类别划分,会导致长尾问题。长尾问题,即大部分样本集中在少量实体类别中,其它实体类别样本稀少,存在严重的样本不平衡。比如,一个八分类实体识别任务中,90%以上的实体样本都属于其中的四个甚至更少的实体类别。在长尾问题中,深度学习模型学习到的充足类的特征空间通常会比稀有类的特征空间更大,决策边界会更偏向对充足类有利的方向。长尾问题带来的后果是,稀有类的实体识别效果远远落后于充足类。由于稀有类的样本有限,长尾问题通常不会对总体实体识别指标产生灾难性的影响,但如果考虑每一类的实体识别指标,与充足类相比,稀有类的性能通常是达不到实用要求的。

通用领域中,提升稀有类比例与提升稀有类权重,是缓解长尾问题的常用方法。提升稀有类比例的一种主要方式是数据增强,即由现有数据,根据一定的规则人为生成更多的数据,以缓解类别之间样本比例的差异;提升稀有类权重的一种主要方式是重加权,即根据一定的规则赋予不同类别不同的权重,以调节训练损失,使得稀有类在训练中占有更大的权重。

然而,与通用领域的长尾分类问题相比,长尾工艺实体识别存在更多的技术难点:

(1)针对提升稀有类比例,在数据增强中,工艺领域有标签语句扩充的选择范围小。先进的掩码语言模型数据增强方法,已经可以针对实体识别字符级别的标签,根据有标签语句,通过对实体字符掩码后重新给出概率较高且与原字符不相同的预测,生成更多新的实体,例如在学习过“北京市”、“南宁市”的情况下,在相似的上下文中生成“南京市”、“北宁市”等新的实体,这些新的实体可能在现有的训练数据中并不存在,由此,实体多样性得到了提升。这种数据增强方法需要有标签语句有丰富的数据,例如大量类似“北京市”、“南宁市”的实体,以微调出泛化能力良好的模型,而这一条件在工艺领域是无法得到满足的,因此要生成更多语义正确的语句,对有标签语句进行扩充。然而,工艺领域生成语义正确的语句,难度远大于通用领域。例如,通用领域,将一个城市类的实体替换为任何一个真实存在或是虚构的城市名,不仅数据得到了扩充,而且在上下文语境中都不会有语义问题,选择范围极大;而工艺领域的设备工具等类别的实体本身就很有限,并且直接替换可能会造成语义不正确的问题,例如“用铣床铣盖板下陷”,如果直接将设备工具类的实体“铣床”替换为另一种设备工具来扩充数据,会带来不符合上下文的风险,比如“用百分表铣盖板下陷”。这种扩充后的语句会使得模型学习到不符合专业常识的知识,给出不合理的预测。

(2)针对提升稀有类权重,在重加权中,长尾工艺实体识别各类实体的权重难以确定。通用领域的长尾分类问题通常可以直接根据样本出现频次来确定权重,某类样本出现频次越高,其权重越小;而在长尾工艺实体识别中,一些实体类别实体重名现象严重,出现频次较低的实体类别并不一定需要高权重,例如,检测方式类实体出现频次并不高,但是存在大量的实体重名现象,“测量”、“检查”等实体名高度重复。重名实体的编码中,虽然与位置、上下文相关的编码有差异,但是字符编码部分完全相同,这会一定程度上削弱识别难度,模型记住实体名就可以识别出大部分此类实体,所以此类实体可以被看作“伪”稀有类,如何综合考虑出现频次和实体重名来调节权重,是待解决的问题。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种长尾工艺实体识别方法与设备,其从提升稀有类比例及提升稀有类权重两个角度来提升稀有类的实体识别性能。

为实现上述目的,按照本发明的一个方面,提供了一种长尾工艺实体识别方法,该方法包括以下步骤:

S1,将所有工艺文件中包含的工艺语句划分为两部分,一部分不进行实体标注,作为预训练语料;另一份进行实体标注以形成工艺实体识别数据集,所述工艺实体识别数据集划分为训练集、验证集及测试集;

S2,基于预训练语料对掩码语言模型进行领域自适应预训练,训练掩码语言模型还原被掩码的字符,以实现共现、词汇、语法、语义多角度的工艺语句字符编码;

S3,基于工艺语句字符编码对实体进行编码表示与聚类,并通过聚类到同一簇中实体的相互替换来扩充训练集;

S4,用扩充后的训练集作为微调数据对掩码语言模型进行微调,仅训练掩码语言模型还原被掩码的实体字符,实现工艺语句实体字符的预测;

S5,基于经微调后的掩码语言模型通过替换实体字符来对训练集中的稀有类进行数据增强以提高稀有类比例,得到数据增强后的工艺实体识别训练集;

S6,利用数据增强后的工艺实体识别训练集及验证集来训练工艺实体识别模型,并采用所述工艺实体识别模型进行长尾工艺实体识别。

进一步地,S2中,预训练任务为加入领域词汇的整词掩码语言模型任务,以比例η对原始工艺语句X进行整词掩码得到

X=x

其中,b(·)将真实的表述映射到1,将错误的表述映射到0;

其中,θ是模型参数;

进一步地,领域词汇是基于在预训练语料中的出现频次确定的,采样预训练语料中所有长度在[length

(1)

(2)

进一步地,S3包括以下子步骤:

S3-1:用掩码语言模型对训练集中的所有实体进行编码,每一类所有实体的编码形成该类的实体编码集合;

S3-2:通过聚类算法,根据每一类的实体编码集合,将该类中包含的所有实体划分为若干个簇;

S3-3:对训练集中的每个工艺语句,将其中每个实体替换为同类同簇的实体得到新的工艺语句,形成扩充后的训练集。

进一步地,实体的编码是由掩码语言模型对该实体首尾字符的编码表示拼接而成,或对该实体首尾或全部字符的编码取平均值;

进一步地,采用层次聚类算法,不同实体类别分别采取不同层次聚类阈值,每个样本都会被聚类到一个簇;采用主成分分析去噪后,使用欧氏距离作为层次聚类算法中对两个向量的距离度量:

进一步地,S4中,首先在每个实体字符前后显式地插入该实体类别符号:

其中,e

接下来对X进行掩码,只掩码实体字符:

其中,n

根据实体掩码语言模型训练轮数E,确认由一个X生成的

进一步地,S5中,对包含稀有类的句子,显式插入所有实体的实体类别符号,得到X;然后,对其中长度为length的实体,以高斯分布N(μ,1/length

进一步地,S6中,工艺实体识别模型训练的损失函数为:

其中,τ是设定的放大系数,确定了对不同类样本数量差异的重视程度;α是设定的类别基准权重,确定了每一类实体在计算损失时的最小权重;p

其中,num

本发明还提供了一种长尾工艺实体识别系统,所述系统包括存储器及处理器,所述存储器储存有计算机程序,所述处理器执行所述计算机程序时执行如上所述的长尾工艺实体识别方法。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上所述的长尾工艺实体识别方法。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,本发明提供的长尾工艺实体识别方法与设备主要具有以下有益效果:

1.基于工艺语句字符编码对实体进行编码表示与聚类,并通过聚类到同一簇中实体的相互替换来扩充训练集,这一操作是为了使掩码语言模型在后序步骤的微调中接触到更多样化,并且无明显语义问题的工艺语句,例如原句“内窥镜检查壳体内腔,保证无脏污。”与替换后的“探头勘探外框架内壁,保证没有铁屑。”等语句之间存在差异,体现出了多样性,但后者并没有体现出明显的语义问题。这样,后序步骤中掩码语言模型的微调不仅会更多地增强泛化性能,而且能尽量避免学习到不符合专业常识的知识。由此,在后序步骤中对训练集中的稀有类进行数据增强时,用非最大概率的预测字符来作为新的字符,有更大概率获得逻辑更清晰、更通顺的增强数据。

2.考虑实体重名的类别权重计算方法来设计的损失函数,进行工艺实体识别模型的训练与测试,权重的计算充分考虑到了实体重名对预测难度的衰减,且将充足类映射到了接近最小值α的权重,将稀有类映射到了高权重。

3.本发明可以实现长尾问题下,各类制造工艺实体知识从工艺文件向结构化数据准确、快捷的流动,从而有效降低人工成本,提高制造工艺实体知识整合的自动化、智能化水平。

附图说明

图1是本发明提供的长尾工艺实体识别方法的流程示意图;

图2是步骤S2中加入领域词汇的整词掩码语言模型任务的预训练示意图;

图3是本发明提供的长尾工艺实体识别方法中步骤S3的流程示意图;

图4是步骤S3中对实体进行编码表示与聚类,通过聚类到同一簇中实体的相互替换来扩充训练集的示意图;

图5是步骤S4中实体掩码语言模型任务的微调示意图;

图6是步骤S5中通过替换实体字符,对训练集中的稀有类进行数据增强的示意图;

图7是步骤S6中考虑实体重名的类别权重计算方法来设计的损失函数,进行工艺实体识别模型的训练与测试的示意图;

图8中的(a)、(b)分别是本发明略过步骤S3的一个实例得到的预测概率排序示意图;

图9中的(a)、(b)分别是本发明的一个实例得到的预测概率排序示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明针对工艺领域、大部分样本集中在少量实体类别中,其他实体类型样本稀少,存在严重的样本不平衡,即长尾问题,提出了长尾工艺实体识别的聚类实体扩充与权重调节方法,从稀有类比例、稀有类权重两个角度提升实体识别性能。从稀有类比例角度,针对先进的掩码语言模型数据增强方法,在工艺领域微调数据稀缺的问题,提出通过实体聚类来扩充微调数据,从而训练出泛化性良好的模型,丰富数据增强结果,提升稀有类比例。从稀有类权重角度,解决直接根据各类实体出现频次来确定权重的传统方法无法处理的实体重名问题。本发明可以实现长尾问题下各类制造工艺实体知识从工艺文件向结构化数据准确、快捷的流动,从而有效降低人工成本,提高制造工艺实体知识整合的自动化及智能化水平。

请参阅图1、图2、图3、图4、图5、图6及图7,本发明所提供的一种长尾工艺实体识别方法主要包括以下步骤:

步骤S1,将所有工艺文件中包含的工艺语句划分为两部分,一部分不进行实体标注,作为预训练语料;另一份进行实体标注以形成工艺实体识别数据集,所述工艺实体识别数据集划分为训练集、验证集及测试集。

工艺实体识别数据集应根据人工成本、工艺语句总规模等因素来确定,预训练语料规模应足够大,大于工艺实体识别数据集的规模,以在后续步骤中获得具有可靠编码能力的掩码语言模型。

本实施方式中,确定的实体类别、示例及训练集统计信息如表1所示,可见工艺领域不同实体类别的出现频次统计有着较大差异。

表1

步骤S2,基于预训练语料对掩码语言模型进行领域自适应预训练,训练掩码语言模型还原被掩码的字符,以实现共现、词汇、语法、语义多角度的工艺语句字符编码。

预训练任务为加入领域词汇的整词掩码语言模型任务,以比例η对原始工艺语句X进行整词掩码得到

X=x

其中,b(·)将真实的表述映射到1,将错误的表述映射到0;

其中,θ是模型参数;

领域词汇是基于在预训练语料中的出现频次确定的,采样预训练语料中所有长度在[length

(1)

(2)

本实施方式提供的加入领域词汇的整词掩码语言模型任务,预训练示意图如图2所示。掩码语言模型,即给定遮掩了一定比例字符的语句,通过对遮掩字符的预测,重建原句的模型。预训练得到的掩码语言模型,可以根据上下文,将单一的字符编码为具有丰富的共现、词汇、语法、语义信息的高维向量。由大量制造工艺无标签预训练语料,训练掩码语言模型以实现共现、词汇、语法、语义多角度的工艺语句字符编码。

整词掩码是掩码语言模型任务中的一种掩码方式,首先根据词汇表对语句进行分词,然后在同一词下所有字符同时被遮掩的规则下,遮掩一定比例字符。例如,图2中的输入语句“半精铣轴头部位及与三角区顶面的过渡锥面。”,在掩码比例为15%(三个字符)的情况下,非整词掩码的一种情况是:“半精铣轴[MASK]部位及[MASK]三角区顶面的过[MASK]锥面。”,这种掩码较简单,模型可以学到的知识较少,因为由同一个词内未被掩码的其余字符,模型就可以很好地预测被掩码的字符,例如由“轴”预测下一个字为“头”,由“过”预测下一个字为“渡”,而无需学习更宏观、更复杂的语义知识。相比之下,整词掩码的一种情况是“半精铣[MASK][MASK]部位及[MASK]三角区顶面的过渡锥面。”,因为同一个词所有字符均被掩码,模型不再能够根据同一个词内未被掩码的其余字符直接很好地预测出被掩码的字符,而需要在全句上下文中学习更宏观、更复杂的语义知识来正确的预测出“轴头”等整词。

在制造工艺领域,许多专业名词并不存在于公开的通用词汇中。要高质量地对工艺语句进行分词与整词掩码,则需要融合了工艺领域词汇的词汇表。根据本实施方式提供的领域词汇搜索策略,首先确认预训练语料中的所有领域词汇,记录它们的出现频次,例如,选取出现频次阈值threshold为50,再进一步按照本实施方式提出的条件进行筛选,即可得到图2中的领域词汇及出现频次;不难看出,领域词汇与通用词汇存在差异,是对工艺语句进行合理分词的必要条件;融合公开的通用词汇与本实施例的领域词汇,即可形成整词掩码分词所依据的词汇表,对工艺语句进行分词与整词掩码,从而进行加入领域词汇的整词掩码语言模型训练。

步骤S3,基于工艺语句字符编码对实体进行编码表示与聚类,并通过聚类到同一簇中实体的相互替换来扩充训练集。

本实施方式所提供的基于工艺语句字符编码,对实体进行编码表示与聚类,通过聚类到同一簇中实体的相互替换来扩充训练集,具体包含以下步骤:

步骤S3-1:用掩码语言模型对训练集中的所有实体进行编码,每一类所有实体的编码形成该类的实体编码集合。

实体的编码是由掩码语言模型对该实体首尾字符的编码表示拼接而成,或对该实体首尾或全部字符的编码取平均值。

步骤S3-2:通过聚类算法,根据每一类的实体编码集合,将该类中包含的所有实体划分为若干个簇。

采用层次聚类算法,不同实体类别分别采取不同层次聚类阈值,每个样本都会被聚类到一个簇。采用主成分分析去噪后,使用欧氏距离作为层次聚类算法中对两个向量的距离度量:

步骤S3-3:对训练集中的每个工艺语句,将其中每个实体替换为同类同簇的实体得到新的工艺语句,形成扩充后的训练集。

可根据原始工艺语句含有稀有类实体的情况来确定生成多少新的工艺语句。

实体类别l聚类得到c

本实施方式中,如图4所示,首先用步骤S2得到的掩码语言模型,将所有实体编码为富含共现、词汇、语法、语义信息的形状统一的向量,然后使用层次聚类算法,以向量距离为衡量标准,将每类实体进一步地划分到当前类的多个簇中,相同簇中的实体拥有相近的向量表示,也就是有着相似的共现、词汇、语法、语义信息。聚类完成后,每个实体属于且仅属于一个簇。

得到所有实体簇后,进行同类同簇实体替换,形成聚类实体扩充后的实体识别训练集。这一操作是为了使掩码语言模型在后序步骤S4的微调中接触到更多样化,并且无明显语义问题的工艺语句,例如原句“内窥镜检查壳体内腔,保证无脏污。”与替换后的“探头勘探外框架内壁,保证没有铁屑。”等语句之间存在差异,体现出了多样性,但后者并没有体现出明显的语义问题。这样,后序步骤S4中掩码语言模型的微调不仅会更多地增强泛化性能,而且能尽量避免学习到不符合专业常识的知识。由此,在后序步骤S5中对训练集中的稀有类进行数据增强时,用非最大概率的预测字符来作为新的字符,有更大概率获得逻辑更清晰、更通顺的增强数据。

相反地,若不进行同类同簇实体替换,后序步骤S4中仅使用原语句“内窥镜检查壳体内腔,保证无脏污。”来微调掩码语言模型,则会出现严重的过拟合,得到的掩码语言模型在后序步骤S5中对掩码后的该句进行预测时,掩码预测结果会赋予原字符过大的概率;而预测概率非最大的字符,可能是无逻辑、不通顺的,因为掩码语言模型在微调中见到的样本太少,仅仅过度拟合了原语句,而未关注到当前语境下还有哪些其它字符是合适的。综上所述,若无步骤S3,则后序步骤难以微调出泛化能力强的模型,难以进行高质量的数据增强。

步骤S4,用扩充后的训练集作为微调数据对掩码语言模型进行微调,仅训练掩码语言模型还原被掩码的实体字符,实现工艺语句实体字符的预测。

微调任务为实体掩码语言模型任务,仅掩码一定比例的属于实体的字符,具体地,首先在每个实体字符前后显式地插入该实体类别符号:

其中,e

接下来对X进行掩码,只掩码实体字符:

其中,n

本实施方式提供的实体掩码语言模型任务,微调示意图如图5所示。本步骤中的实体掩码语言模型任务,只有实体字符被掩码;此外,实体掩码语言模型任务,输入需要显式地插入实体类别符号。例如,设备工具类的类别序号为1,对于图5中的例句“内窥镜检查壳体内腔,保证无脏污。”,“内窥镜”为设备工具类实体,在“内”前后插入实体类别符号“B

步骤S5,基于经微调后的掩码语言模型通过替换实体字符来对训练集中的稀有类进行数据增强以提高稀有类比例,得到数据增强后的工艺实体识别训练集。

用与步骤S4相同的方式,对包含稀有类的句子,显式插入所有实体的实体类别符号,得到X;然后,对其中长度为length的实体,以高斯分布N(μ,1/length

如图6所示,对原句显式插入实体类别符号后,以高斯分布N(μ,1/length

步骤S6,利用数据增强后的工艺实体识别训练集及验证集来训练工艺实体识别模型,并采用所述工艺实体识别模型进行长尾工艺实体识别。

采用基于片段的实体识别方法,即采样工艺语句中所有长度不超过L的片段来进行特征编码与解码预测;记所有实体标签组成的集合为Y,负样本记为∈

其中,τ是人为设定的放大系数,确定了对不同类样本数量差异的重视程度;α是人为设定的类别基准权重,确定了每一类实体在计算损失时的最小权重;p

其中,num

本实施方式中,考虑实体重名的类别权重计算方法来设计的损失函数,进行工艺实体识别模型的训练与测试,如图7所示。本实施例中,根据训练集中实体最大长度,确认片段采样长度上限L为18,即工艺语句中所有长度不超过18的片段都会被输入实体识别模型进行训练或测试。所有片段的标签与预测结果都在九类实体范围内,即人为定义的八类实体:设备工具、检测方式、加工方式、生产准备方式、零件或特征、状态、尺寸形位公差、值,外加负类:非实体。

本实施例中,充足系数计算里的β取0.8;损失计算里的τ取1,α取0.5,各实体类别的充足系数,以及损失计算中的权重

表2

/>

对比设备工具与检测方式两类别可见,充足系数充分考虑到了实体重名对预测难度的削减,不考虑实体重名时出现频次更高的设备工具类,却有着较低的充足系数;此外,所提出的类别损失权重

对于负样本,即y为∈

Loss=-α(1-p

在一个实施方式中,如果跳过步骤S3,那么实体掩码语言模型微调过程,输入的微调数据就是如“内窥镜检查壳体内腔,保证无脏污。”这样的原始训练集中的句子。微调数据与原始训练集规模一致。训练出来的模型将会过度拟合原始训练集,泛化性能更弱,在对掩码字符进行预测时,更容易出现以下现象:原始字符的得分以绝对的优势排序第一,而从得分排序第二的字符开始,都不适合代替原始字符。如图8所示,由于模型过度拟合原始训练集,缺乏泛化能力,预测概率排序中,原始字符以极大的得分排序第一,排序第二及以后的字符并不适合代替原字符。原句“内窥镜检查壳体内腔,保证无脏污。”得到的增强数据类似“内附镜检视框体内壁,保证无态污。”,不是符合词汇、语法、语义的句子。

在一个实施方式中,使用本发明所提供的方法,那么实体掩码语言模型微调过程,输入的微调数据就是原始训练集中的句子加上聚类实体扩充后的句子。训练出来的模型不会过度拟合原始训练集,泛化性能更强,在对掩码字符进行预测时,更容易出现以下现象:原始字符的得分以微弱优势排序第一,或排序第二甚至更靠后,而得分较高的其余字符,同样是适合代替原字符的。如图9所示,由于模型不会过度拟合原始训练集,有很强的泛化能力,预测概率排序中,处原始字符外的多个排序靠前的字符,都是适合代替原始字符的。原句“内窥镜检查壳体内腔,保证无脏污。”得到的增强数据类似“内探镜检视框体内壁,保证无铁污。”,是符合词汇、语法、语义的句子。

本发明还提供了一种长尾工艺实体识别系统,所述系统包括存储器及处理器,所述存储器储存有计算机程序,所述处理器执行所述计算机程序时执行如上所述的长尾工艺实体识别方法。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上所述的长尾工艺实体识别方法。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种命名实体识别方法、语言识别方法及系统
  • 命名实体识别方法、装置、电子设备、机器可读存储介质
  • 实体识别方法、装置、设备及存储介质
  • 一种长尾关键词识别方法、关键词搜索方法及计算机设备
  • 一种实体识别模型生成方法、实体识别方法及装置、设备
技术分类

06120116490365