掌桥专利:专业的专利平台
掌桥专利
首页

一种具备分析训练性能的自然语言处理系统

文献发布时间:2024-04-18 19:59:31


一种具备分析训练性能的自然语言处理系统

技术领域

本发明涉及自然语言处理技术领域,具体为一种具备分析训练性能的自然语言处理系统。

背景技术

现有的自然语言处理系统在理解语义时可能存在误差,尤其是对于复杂的句子结构和上下文的理解,系统可能无法正确解析含有歧义、隐喻或多义词的句子,导致错误的理解和处理结果。

中国专利CN108197105B公开了一种自然语言处理方法、装置、存储介质及电子设备。该方法包括:获取用户输入的自然语言信息,以及与所述自然语言信息相关联的相关信息;根据所述自然语言信息得到多个语义解析信息;将所述多个语义解析信息和所述相关信息输入预测模型,所述预测模型根据所述相关信息得到对应所述多个语义解析信息的多个概率值;从所述多个概率值中确定概率值最大的语义解析信息为目标语义解析信息。不再仅仅针对自然语言信息本身进行解析识别,在预测模型中,通过相关信息对自然语言信息进行辅助识别,提高了对自然语言信息解析识别的准确度;

该自然语言处理方法虽然可以通过预测模型结合大量数据去训练和预测,但是通常只会从多个结果中获取可能性最大的结果,但是可能性最大的结果,不一定就是正确结构,依旧存在较大的错误概率;且由于自然语言处理系统的训练数据通常是从现实世界中收集的,其中可能存在偏见和歧视,一些常见网络用词还会与原有含义偏离甚至完全相反,这些误差可能会被系统学习和复制,导致系统在进行一些语义识别翻译,或人工智能对话方面运用时,会表现出无法正确识别语义或识别的语义误差较大的行为。

发明内容

针对现有技术的不足,本发明提供了一种具备分析训练性能的自然语言处理系统,解决了的问题。

为实现以上目的,本发明通过以下技术方案予以实现:一种具备分析训练性能的自然语言处理系统,包括处理系统和云数据库,所述处理系统从云数据库获取数据并将处理结果数据上传至云数据库,所述处理系统包括:

所述语句词汇拆分标记单元,用于将待处理语句拆分为小单元并分别标记标签,标签按

所述数据对比标记单元,用于从云数据库或上下文中同类型文案获取与

所述训练模型,将特征和对应的标签输入训练模型使用机器学习算法进行训练,训练过程中,模型会学习特征与标签之间的关系,得出若干类整合的语句的释义

所述置信度处理分析单元,用于对若干组置信度概率进行排序并与设定阈值对比,依据对比结果直接获得最终释义或再次训练后获得最终释义。

优选的,所述置信度处理分析单元对若干组置信度概率按从大到小顺序重新排序,并标记为

其中,若有

所述上下文推理插件,对于

优选的,所述人工管理模块,用于人工查看上下文推理插件选取的上下文内容和待重复训练语句,或置信度处理分析单元分析出的结果,并由人工选择正确释义;

所述语义输出模块,用于输出置信度处理分析单元直接得到的唯一释义,或再次训练得到唯一释义,或人工管理模块直接确定的正确释义,并将训练结果上传至云数据库保存。

优选的,所述数据对比标记单元获取的特征包括词汇、词性、句法结构、上下文关系,以辅助训练模型理解语义。

优选的,所述语句词汇拆分标记单元包括语句词汇拆分模块和拆分词汇标记模块,所述语句词汇拆分模块将完整语句拆分为词语、词组、分句、从句,拆分词汇标记模块对拆分出的语句单元标记标签。

优选的,所述云数据库内的数据资料按照类别进行分类,并提取关键词标记,其加载有爬虫程序以从网络上爬取资料,爬取的数据仅保留与待处理语言相关的数据,去除多余无关数据,筛选规则人工设定。

优选的,所述数据对比标记单元包括:

所述上下文数据输入模块,输入待训练语句的上下文内容,用于再次训练使用;

所述数据库数据提取模块,用于从云数据库中获取需要的资料数据,获取方式通过关键词或类别从云数据库内获取对应数据;

所述数据对比筛选模块,用于对数据库数据提取模块获取的数据,对比语句词汇拆分标记单元拆分的小单元语句,筛选对应有用的数据;

所述筛选数据标记模块,用于对数据对比筛选模块筛选出的数据进行标记。

优选的,所述置信度处理分析单元包括:

所述置信度阈值设定模块,用于人工设定置信度阈值

所述置信度对比排列模块,用于将训练获取的置信度概率值相互对比排序,以及与置信度阈值

优选的,通过所述人工管理模块选择的释义具有优先权。

优选的,所述置信度处理分析单元内设定循环训练次数

本发明提供了一种具备分析训练性能的自然语言处理系统。与现有技术相比具备以下有益效果:

1、该具备分析训练性能的自然语言处理系统,通过采用训练模型可自动将待处理语言对比大数据分析获取多种释义并获取对应的置信度概率,相对于现有技术直接获取最大值的方式,本申请采用阈值对比方式将置信度概率分为三个批次,在概率较大的情况下可直接获取最大值对应的释义,而置信度概率中等时,可结合上下文内容再次训练来进一步筛分,获得更高的置信度,而在所有置信度概率均较低时,即表示系统判定目前的置信度均较低,则还可从网络上再次爬取数据作为对比依据,反复进行训练,直至获取合格的置信度概率,采用此方式有效的避免了单一选择导致的误差值,提高了获取正确释义的准确度。

2、该具备分析训练性能的自然语言处理系统,通过设置人工管理模块,提供了人工参与的窗口,对于翻译等自然语言处理时,可通过具有优先权的人工选择方式直接确定,在先机器处理缩小范围后,由人工进行选择,可进一步提高准确度,为系统处理自然语言的方式增加了人力因素,更为精准的同时也不会有较大的工作量。

3、该具备分析训练性能的自然语言处理系统,通过设置规则对爬虫程序爬取的数据进行筛选精简,可在冗杂的网络大数据中获取精简有效的通过记录循环的次数并设置上限,在循环若干次后若依旧没有足够大的置信度概率,则选择最大概率的释义,此方式在保证较大的置信度概率的基础上,可保证系统不会有过大的数据处理工作量,避免处理时间过长影响效率。

4、该具备分析训练性能的自然语言处理系统,采用多种类型的机器学习算法,为系统提供了多种选择,应用于不同自然语言处理的运用场合,选择合适的机器学习算法,可提高效率并提高适配性。

附图说明

图1为本发明的总系统原理框图;

图2为本发明语句词汇拆分标记单元的原理框图;

图3为本发明数据对比标记单元的原理框图;

图4为本发明置信度处理分析单元的原理框图;

图5为本发明的逻辑流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供四种技术方案:

图1-3示出了第一种实施方式:一种具备分析训练性能的自然语言处理系统,包括处理系统和云数据库,处理系统从云数据库获取数据并将处理结果数据上传至云数据库,处理系统包括:

语句词汇拆分标记单元,用于将待处理语句拆分为小单元并分别标记标签,标签按

数据对比标记单元,用于从云数据库或上下文中同类型文案获取与

训练模型,将特征和对应的标签输入训练模型使用机器学习算法进行训练,训练过程中,模型会学习特征与标签之间的关系,得出若干类整合的语句的释义

置信度处理分析单元,置信度处理分析单元对若干组置信度概率按从大到小顺序重新排序,并标记为

其中,若有

上下文推理插件,对于

通过采用训练模型可自动将待处理语言对比大数据分析获取多种释义并获取对应的置信度概率,相对于现有技术直接获取最大值的方式,本申请采用阈值对比方式将置信度概率分为三个批次,在概率较大的情况下可直接获取最大值对应的释义,而置信度概率中等时,可结合上下文内容再次训练来进一步筛分,获得更高的置信度,而在所有置信度概率均较低时,即表示系统判定目前的置信度均较低,则还可从网络上再次爬取数据作为对比依据,反复进行训练,直至获取合格的置信度概率,采用此方式有效的避免了单一选择导致的误差值,提高了获取正确释义的准确度。

人工管理模块,用于人工查看上下文推理插件选取的上下文内容和待重复训练语句,或置信度处理分析单元分析出的结果,并由人工选择正确释义;

语义输出模块,用于输出置信度处理分析单元直接得到的唯一释义,或再次训练得到唯一释义,或人工管理模块直接确定的正确释义,并将训练结果上传至云数据库保存。

数据对比标记单元获取的特征包括词汇、词性、句法结构、上下文关系,以辅助训练模型理解语义。

语句词汇拆分标记单元包括语句词汇拆分模块和拆分词汇标记模块,语句词汇拆分模块将完整语句拆分为词语、词组、分句、从句,拆分词汇标记模块对拆分出的语句单元标记标签。

数据对比标记单元包括:

上下文数据输入模块,输入待训练语句的上下文内容,用于再次训练使用;

数据库数据提取模块,用于从云数据库中获取需要的资料数据,获取方式通过关键词或类别从云数据库内获取对应数据;

数据对比筛选模块,用于对数据库数据提取模块获取的数据,对比语句词汇拆分标记单元拆分的小单元语句,筛选对应有用的数据;

筛选数据标记模块,用于对数据对比筛选模块筛选出的数据进行标记。

置信度处理分析单元包括:

置信度阈值设定模块,用于人工设定置信度阈值

置信度对比排列模块,用于将训练获取的置信度概率值相互对比排序,以及与置信度阈值

通过人工管理模块选择的释义具有优先权。

通过设置人工管理模块,提供了人工参与的窗口,对于翻译等自然语言处理时,可通过具有优先权的人工选择方式直接确定,在先机器处理缩小范围后,由人工进行选择,可进一步提高准确度,为系统处理自然语言的方式增加了人力因素,更为精准的同时也不会有较大的工作量。

云数据库内的数据资料按照类别进行分类,并提取关键词标记,其加载有爬虫程序以从网络上爬取资料,爬取的数据仅保留与待处理语言相关的数据,去除多余无关数据,筛选规则人工设定。

置信度处理分析单元内设定循环训练次数

通过设置规则对爬虫程序爬取的数据进行筛选精简,可在冗杂的网络大数据中获取精简有效的通过记录循环的次数并设置上限,在循环若干次后若依旧没有足够大的置信度概率,则选择最大概率的释义,此方式在保证较大的置信度概率的基础上,可保证系统不会有过大的数据处理工作量,避免处理时间过长影响效率。

训练模型的机器学习算法采用向量机(SVM)算法,将预处理后的文本数据转换成特征向量表示,可以使用词袋模型、TF-IDF等方法将文本数据转换成数值特征,训练好的SVM模型可以用来预测新的文本数据的标签,并且可以输出特征和标签之间的置信度概率,其预测函数可以表示为:

f(x)= sign(w^T×x+b);

其中,w是特征的权重向量,b是偏置项,x是特征向量,sign是符号函数,表示输出标签的正负,置信度概率可以通过对f(x)进行sigmoid函数转换得到:

P(y=1|x)=1/(1+exp(-f(x));

其中,P(y=1|x)表示在给定特征x的条件下,标签y为1的概率,exp表示指数函数,这个概率可以用来衡量模型对于给定特征的置信度。

第二种实施方式,与第一种实施方式的主要区别在于:训练模型的机器学习算法采用随机森林算法,随机森林算法预测置信度概率的公式如下:

P(label|features)=(1/n)×ΣP(label|features,tree_i);

其中,P(label|features) 表示给定特征时标签的置信度概率,n 表示随机森林中树的数量,P(label|features, tree_i) 表示在第 i 棵树中给定特征时标签的置信度概率,通过计算所有树中的置信度概率的平均值,可以得到最终的置信度概率。

第三种实施方式,与第二种实施方式的主要区别在于:训练模型的机器学习算法采用决策树算法,预测置信度概率的具体公式如下:

P(y|x)=Nt/N;

其中,P(y|x)表示在给定特征x的条件下,标签y的置信度概率;Nt表示在决策树叶节点t中满足特征x的样本数量;N表示在决策树叶节点t中的样本总数量。

通过计算上述公式,可以得到在给定特征x的条件下,标签y的置信度概率,这样就可以利用决策树算法对自然语言学习特征与标签之间的关系进行预测,并得到相应的置信度概率。

采用多种类型的机器学习算法,为系统提供了多种选择,应用于不同自然语言处理的运用场合,选择合适的机器学习算法,可提高效率并提高适配性。

在某次模拟训练时,设定

同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120116525882