掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及自然语言处理领域,尤其涉及一种基于NLP技术bert模型的CAD中文输入快捷命令方法。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它主要研究能够实现人与机器之间用自然语言进行有效通信的各种理论和方法。对于自然语言处理技术,传统的机器学习算法如SVM、LR等,对文本信息映射到高纬度空间进行处理,大部分应用在文本分类、情感分析等任务。近年来,一些非线性模型尤其是人工神经网络模型在自然语言处理领域中取得了极大的成功。

人工神经网络是一种仿生运算模型,由大量的运算节点(或者称之为神经元)之间相互联结构成,随着近年来人工神经网络研究工作的不断深入,人工神经网络技术已经取得了很大的进展,在模式识别、智能机器人、自动控制、数据预测、生物、医学、经济等领域取得较为突出的成果。与传统机器学习算法不同,人工神经网络需要大量标注数据,而且模型的准确度和泛化能力很大程度受标注数据的质量影响,这就意味着人工神经网络模型在数据处理上会消耗更多的成本。

现有技术其泛化能力弱,使用者只能通过特定的命令输入才能触发快捷命令;使用难度高,使用者需要记住多数的指令并理解指令含义,无法做到使用者只需要输入类似含义的文字描述即可触发快捷命令;容错率低,用户输入文字不正确将不会触发。

因此,有必要提供一种基于NLP技术bert模型的CAD中文输入快捷命令方法解决上述技术问题。

发明内容

本发明提供一种基于NLP技术bert模型的CAD中文输入快捷命令方法,解决了现有技术其泛化能力弱,使用者只能通过特定的命令输入才能触发快捷命令;使用难度高,使用者需要记住多数的指令并理解指令含义,无法做到使用者只需要输入类似含义的文字描述即可触发快捷命令;容错率低,用户输入文字不正确将不会触发的问题。

为解决上述技术问题,本发明提供的基于NLP技术bert模型的CAD中文输入快捷命令方法,包括以下步骤:

S1:收集数据,分类标注;

S2:对文本标注进行归一处理;

S3:搭建Embadding词嵌入层;

S4:搭建12层transformer层的BERT模型;

S5:搭建多层神经网络模型;

S6:对训练好的模型进行保存;

S7:使用时,加载训练得到的模型,用户输入的中文信息进行处理得到特征向量并进行onehot编码,根据编码触发相应的CAD快捷命令;

S8:收集用户使用信息等数据,对模型进行二次训练优化。

优选的,所述S1为收集CAD快捷命令、中文输入数据,对CAD快捷命令排序,对应编号01-N对大量中文输入数据根据其对应的CAD快捷命令进行分类并做好标注。

优选的,所述S2为对文本标注进行归一化处理,生成N+1个相应的one-hot目标向量,并建立目标向量与对应CAD快捷命令的映射表以及触发器。

优选的,所述S3为搭建Embadding词嵌入层,将标注文本通过Embadding词嵌入层转化为三种词嵌入特征向量,分别是Token Embeddings,将文本输入划分成单个汉字并编码组成向量;Position Embeddings,将汉字的位置信息按0-N的序列编码成特征向量和Segment Embeddings,将汉字所在句子编号编码成特征向量,并将得到的三种词嵌入特征向量求和,从而得到文本的输入特征向量。

优选的,所述S4为搭建12层transformer层的BERT模型,加载训练好的BERT预训练模型,将S03得到的文本向量通过BERT模型计算,得到相应的语义特征向量。

优选的,所述S5为搭建多层神经网络模型,并使用Softmax函数作为输出层激活函数,用S04得到的特征向量作为输入,S02得到的目标向量作为输出对多层神经网络模型进行训练。

与相关技术相比较,本发明提供的基于NLP技术bert模型的CAD中文输入快捷命令方法具有如下有益效果:

本发明提供一种基于NLP技术bert模型的CAD中文输入快捷命令方法,通过神经网络语言模型的泛化能力,对用户输入的文本信息进行理解并映射到相应的快捷命令,方便高效,用户无需死记繁琐的快捷命令,只需要对所需命令进行一定的中文描述即可触发;使用者只需要掌握一定的中文表达能力即可使用;由于BERT模型的机制,模型能在一定范围内允许用户出现输入错误。

附图说明

图1为本发明提供的基于NLP技术bert模型的CAD中文输入快捷命令方法的流程图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

请结合参阅图1。基于NLP技术bert模型的CAD中文输入快捷命令方法,包括以下步骤:

S1:收集数据,分类标注;

S2:对文本标注进行归一处理;

S3:搭建Embadding词嵌入层;

S4:搭建12层transformer层的BERT模型;

S5:搭建多层神经网络模型;

S6:对训练好的模型进行保存;

S7:使用时,加载训练得到的模型,用户输入的中文信息进行处理得到特征向量并进行onehot编码,根据编码触发相应的CAD快捷命令;

S8:收集用户使用信息等数据,对模型进行二次训练优化。

所述S1为收集CAD快捷命令、中文输入数据,对CAD快捷命令排序,对应编号01-N(N为CAD快捷命令数量)对大量中文输入数据根据其对应的CAD快捷命令进行分类并做好标注。

所述S2为对文本标注进行归一化处理,生成N+1个相应的one-hot目标向量,并建立目标向量与对应CAD快捷命令的映射表以及触发器。

所述S3为搭建Embadding词嵌入层,将标注文本通过Embadding词嵌入层转化为三种词嵌入特征向量,分别是Token Embeddings,将文本输入划分成单个汉字(单词)并编码组成向量;Position Embeddings,将汉字的位置信息按0-N的序列编码成特征向量和Segment Embeddings,将汉字所在句子编号编码成特征向量,并将得到的三种词嵌入特征向量求和,从而得到文本的输入特征向量。

所述S4为搭建12层transformer层的BERT模型,加载训练好的BERT预训练模型,将S03得到的文本向量通过BERT模型计算,得到相应的语义特征向量。

所述S5为搭建多层神经网络模型,并使用Softmax函数作为输出层激活函数,用S04得到的特征向量作为输入,S02得到的目标向量作为输出对多层神经网络模型进行训练。

使用目前自然语言处理领域先进的人工神经网络模型,通过BERT模型对用户输入文本数据转化为词向量并进行语义抽取,得到其语义特征再进行多层神经网络模型进行处理。

与相关技术相比较,本发明提供的基于NLP技术bert模型的CAD中文输入快捷命令方法具有如下有益效果:

通过神经网络语言模型的泛化能力,对用户输入的文本信息进行理解并映射到相应的快捷命令,方便高效,用户无需死记繁琐的快捷命令,只需要对所需命令进行一定的中文描述即可触发;使用者只需要掌握一定的中文表达能力即可使用;由于BERT模型的机制,模型能在一定范围内允许用户出现输入错误。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 一种基于NLP技术bert模型的CAD中文输入快捷命令方法
  • 一种基于BERT模型技术的电力科技成果数据抽取方法
技术分类

06120113240304