掌桥专利:专业的专利平台
掌桥专利
首页

用于人工智能文本分析的模型训练方法及相关设备

文献发布时间:2023-06-19 12:14:58


用于人工智能文本分析的模型训练方法及相关设备

技术领域

本申请涉及文本分析领域,特别是指一种用于人工智能文本分析的模型训练方法及相关设备。

背景技术

中文自然语言理解是人工智能的重要研究问题和方向。在特定领域的中文文本分析中,如古文、医疗电子病历、散文、诗歌等,由于标注数据集通常难以获得,文本分析结果往往忽略了文本数据的句法和语义结构信息。并且文本分析模型的输入数据多是先验数值,无法保证模型输出的中文文本分析结果的准确性。

发明内容

鉴于以上内容,有必要提供一种用于人工智能文本分析的模型训练方法及相关设备,可以辅助进行文本分析模型的优化,提高模型输出的文本分析结果的准确性。

所述用于人工智能文本分析的模型训练方法,包括:获取预先构建的双词典模型,所述双词典模型包括目标文本的初始词语词典

可选地,所述方法还包括:基于所述双词典模型,获取所述目标文本的未分词文本片段T,确定所述未分词文本片段T的隐状态H;设定缺失数据

可选地,所述对所述更新的参数体系η进行参数推断包括:利用数据增强算法,对所述更新的参数体系η进行后验分布抽样,获得所述更新的参数体系η的目标后验分布,所述目标后验分布为:

可选地,所述双词典模型还包括:由目标文本中所有字符a

可选地,所述对所述更新的参数体系η进行参数推断包括:利用期望最大化算法极大化更新的参数体系η的后验分布,所述期望最大化算法包括E步和M步,所述期望最大化算法通过在所述E步和所述M步中进行的迭代收敛,获得所述更新的参数体系η的点估计结果。

可选地,所述方法还包括:基于所述双词典模型,获取所述目标文本的未分词文本片段T,确定所述未分词文本片段T的隐状态H;设定缺失数据

可选地,所述基于所述参数推断获得的结果,对所述双词典模型进行后验分析包括:构建超模式p、词语w和类别词语对(c,w)的显著性得分;及构建词语w的后验分类分布。

可选地,所述获取所述目标文本的未分词文本片段T,确定所述未分词文本T的隐状态H包括:从所述初始超模式词典

所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述用于人工智能文本分析的模型训练方法。

所述计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现所述用于人工智能文本分析的模型训练方法。

相较于现有技术,所述用于人工智能文本分析的模型训练方法及相关设备,可以对双词典模型进行优化,提高模型输出的文本分析结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的用于人工智能文本分析的模型训练方法的流程图。

图2是本申请实施例提供的计算机装置的架构图。

图3A是本申请实施例提供的对目标文本中的词语进行分割的示例图。

图3B是本申请实施例提供的用不同的标记区分目标文本中的命名实体的示例图。

图3C是本申请实施例提供的长度不超过超模式中形符的最大长度阈值的超模式及其频率的示例图。

图3D是本申请实施例提供的频率低于超模式出现的最低频率阈值的超模式的示例图。

图3E是本申请实施例提供的频率不低于超模式出现的最低频率阈值的超模式的示例图。

图4是本申请实施例提供的未分词文本片段“趙普為太師”的隐状态的生成概率的示例图。

图5是本申请实施例提供的未分词文本片段“趙普為太師”的隐状态的条件概率的示例图。

图6是本申请实施例提供的根据图5中的参数计算得到的n

主要元件符号说明

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。

参阅图1所示,为本申请实施例提供的用于人工智能文本分析的模型训练方法的流程图。

在本实施例中,所述用于人工智能文本分析的模型训练方法可以应用于计算机装置(例如,图2所示的计算机装置3)中,实现对文本进行分析。具体地,对于需要进行文本分析的计算机装置,可以直接在计算机装置上集成本申请的方法所提供的用于文本分析的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在计算机装置上。

如图1所示,所述用于人工智能文本分析的模型训练方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

步骤S1,计算机装置获取预先构建的双词典模型,所述双词典模型包括目标文本的初始词语词典

在一个实施例中,计算机装置对所述双词典模型的构建包括:获取目标文本;构建所述目标文本的双词典模型,所述双词典模型包括初始词语词典

在一个实施例中,计算机装置可以接收用户输入的目标文本;所述目标文本可以是特定领域的中文文本,例如,古文、医疗电子病历、散文、诗歌等。

在一个实施例中,所述贝叶斯逻辑包括贝叶斯定理和贝叶斯统计,是一种概率论系统。

在一个实施例中,计算机装置对所述目标文本中的字符进行文本分割,获取所述目标文本中的每个字符a

在一个实施例中,计算机装置根据所述目标文本中词语的先验信息,设定词语集合

在一个实施例中,计算机装置按照预设的第一规则获得词语集合

在一个实施例中,计算机装置根据所述目标文本中词语类别的先验信息,设定目标文本中词语类别的集合为

在一个实施例中,计算机装置按照预设的第二规则获得词语集合

在一个实施例中,计算机装置整合所述字符集合

在一个实施例中,所述初始超模式词典

在一个实施例中,计算机装置根据所述目标文本中超模式的先验信息,设定超模式集合

在一个实施例中,计算机装置按照预设的第三规则获得超模式集合

在一个实施例中,计算机装置整合所述终止符e、词语类别集合

在一个实施例中,计算机装置对初始参数体系(γ,θ

步骤S2,计算机装置基于所述初始参数体系(γ,θ

在一个实施例中,计算机装置基于所述初始参数体系(γ,θ

在一个实施例中,所述基于所述初始参数体系(γ,θ

需要说明的是,当更新的参数体系(γ,θ

在一个实施例中,所述设定所述更新的参数体系(γ,θ

步骤S3,计算机装置基于所述双词典模型,获取所述目标文本的未分词文本片段T,确定所述未分词文本片段T的隐状态H(Hidden State);设定缺失数据(Missing Data)

在一个实施例中,集合

在一个实施例中,计算机装置从所述初始超模式词典

在一个实施例中,所述从所述初始超模式词典

在一个实施例中,计算机装置计算所述P的抽样概率

在一个实施例中,所述根据所述超模式序列P抽取词语w,获得词语序列W

在一个实施例中,计算机装置计算给定所述P的情况下的所述W

例如,假设给定如下表1的双词典模型,

表1

那么,例如图4所示,抽取到的超模式序列P

在一个实施例中,计算机装置基于所述序列W,获得未分词文本片段T,确定所述未分词文本片段T的多个隐状态H,计算每个所述隐状态H的生成概率

在一个实施例中,计算机装置将所述序列W中的分隔符“|”去掉,获得未分词文本片段T=T

在一个实施例中,将H=(P,W)记为所述未分词文本片段T的隐状态,所述隐状态H的生成概率(即抽样概率)

需要说明的是,在实际应用中,隐状态H是观测不到的,是缺失数据,只有未分词文本片段T是可观测数据。可以通过不同的隐状态H来生成不同的未分词文本片段T,将

在一个实施例中,在给定未分词文本片段T的条件下,隐状态H的条件分布为

在一个实施例中,每个未分词文本片段T的隐状态H

步骤S4,计算机装置对所述更新的参数体系η进行参数推断。

在一个实施例中,所述对所述更新的参数体系η进行参数推断包括方法一和方法二。需要说明的是,两种方法中方法一的实用性更强。

在一个实施例中,所述方法一包括:利用期望最大化(Expectation-Maximization,EM)算法极大化更新的参数体系η的后验分布,所述期望最大化算法包括E步和M步,所述期望最大化算法将所述更新的参数体系η=(γ,θ

在一个实施例中,所述方法一中的所述E步包括:计算Q函数:

在一个实施例中,计算机装置设定未分词文本片段T=A

在一个实施例中,对n

在一个实施例中,所述方法一中的所述M步包括:设定限制条件

在一个实施例中,所述方法二包括:利用数据增强(Data Augmentation,DA)算法,对所述更新的参数体系η进行后验分布抽样,获得所述更新的参数体系η的目标后验分布,所述目标后验分布为:

步骤S5,计算机装置基于所述参数推断获得的结果,对所述双词典模型进行后验分析。

在一个实施例中,所述基于所述参数推断获得的结果,对所述双词典模型进行后验分析包括:构建超模式p、词语w和类别词语对(c,w)的显著性得分;及构建词语w的后验分类分布。

在一个实施例中,所述构建超模式p、词语w和类别词语对(c,w)的显著性得分包括:设

在一个实施例中,所述构建词语w的后验分类分布包括:定义词语的后验分类分布为

步骤S6,计算机装置基于所述参数推断获得的结果,获取所述未分词文本片段T的文本切分结果,所述文本切分结果包括最优隐状态

在一个实施例中,所述基于所述参数推断获得的结果,获取所述未分词文本片段T的文本切分结果包括:计算机装置利用极大似然(Maximize Likelihood)的方法,给出未分词文本片段T的最优隐状态的预测结果

在一个实施例中,可以基于所述未分词文本片段T的最优隐状态

上述图1详细介绍了本申请的用于人工智能文本分析的模型训练方法,下面结合图2,对实现所述用于人工智能文本分析的模型训练方法的硬件装置架构进行介绍。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

参阅图2所示,为本申请较佳实施例提供的计算机装置的结构示意图。在本申请较佳实施例中,所述计算机装置3包括存储器31、至少一个处理器32。本领域技术人员应该了解,图2示出的计算机装置的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述计算机装置3包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。

需要说明的是,所述计算机装置3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如双词典模型、安装在所述计算机装置3中的模型训练系统30等,并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。

在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit),利用各种接口和线路连接整个计算机装置3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机装置3的各种功能和处理数据,例如执行模型训练的功能。

在一些实施例中,所述模型训练系统30运行于计算机装置3中。所述模型训练系统30可以包括多个由程序代码段所组成的功能模块。所述模型训练系统30中的各个程序段的程序代码可以存储于计算机装置3的存储器31中,并由至少一个处理器32所执行,以实现模型训练功能(详见图1描述)。

本实施例中,所述模型训练系统30根据其所执行的功能,可以被划分为多个功能模块。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。

尽管未示出,所述计算机装置3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本申请各个实施例所述方法的部分。

在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述计算机装置3的操作系统以及安装的各类应用程序(如所述的模型训练系统30)、程序代码等,例如,上述的各个模块。

在本申请的一个实施例中,所述存储器31存储一个或多个指令(即至少一个指令),所述至少一个指令被所述至少一个处理器32所执行以实现图1所示的模型训练的目的。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照以上较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

相关技术
  • 用于人工智能文本分析的模型训练方法及相关设备
  • 用于人工智能文本分析的双词典模型的初始化方法及设备
技术分类

06120113228034