掌桥专利:专业的专利平台
掌桥专利
首页

文本信息抽取框架、方法、计算机设备和存储介质

文献发布时间:2023-06-19 12:05:39


文本信息抽取框架、方法、计算机设备和存储介质

技术领域

本申请涉及文本特征挖掘与提取技术领域,特别是涉及文本信息抽取框架、方法、计算机设备和存储介质。

背景技术

当进行一些行业研究时,经常需要从海量文本中抽取有用的信息以生成所需行业研究报告,而传统抽取方案主要基于对关键词和短语的抽取,对句子级别(sentence-level)抽取性能较差,行业研究报告的生成却更多依赖sentence-level的表示,如“AA相较于BB,精度提升了CC%”,这样的表达如果使用关键词抽取方案,表述不如sentence-level直白。

目前针对相关技术中抽取性能差的问题,尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本信息抽取框架、方法、计算机设备和存储介质,结合机器学习和规则判定进行文本信息的提取,以至少解决相关技术抽取性能差的问题。

第一方面,本申请实施例提供了一种文本信息抽取框架,包括:

规则判定模块,根据预设规则将文本进行规则抽取得到对应的假设标签和假设分布;

机器学习模块,根据假设标签拟合预测模型并据此对文本进行句子抽取;

交互学习模块,将机器学习模块的抽取结果作为规则判定模块的更新依据,再次利用规则判定模块进行规则提取,进行迭代交替修正训练;

预测模型获取模块,预测模型的KL散度损失函数持续减小并反向传播更新预测模型,当预测模型拟合稳定或迭代交替修正训练的次数达到设定的超参数时,获取此时的预测模型;

信息抽取模块,将待抽取文本输入训练后的预测模型,并输出抽取信息。

在其中一些实施例中,KL散度损失函数由机器学习模块得到的抽取结果的统计分布和规则判定模块得到的假设分布通过KL散度计算得到,KL散度损失函数具体为:

其中,p(x

在其中一些实施例中,机器学习模块包括:

抽取结果预测单元,根据假设标签,利用encoder模型进行对应文本特征的提取,再利用decoder模型解码文本特征并预测抽取结果,

标注单元,根据抽取结果对文本进行标注,并据此来修正规则判定模块。

在其中一些实施例中,信息抽取模块将待抽取文本输入至预测模型,输出对应抽取信息的向量,将对应向量通过softmax算法或log-liner算法得到具体抽取信息。

第二方面,本申请实施例提供了一种文本信息抽取方法,应用于第一方面的文本信息抽取框架,包括以下步骤:

规则判定步骤,根据预设规则,将文本进行规则抽取并得到对应的假设标签和假设分布;上述预测规则可以包括抽取时间范围、地点、人物等

机器学习步骤,根据假设标签拟合预测模型并据此对文本进行句子抽取;该步骤将无监督学习转换为伪标记半监督学习。

交互学习步骤,将机器学习步骤得到的抽取结果作为规则判定步骤的更新结果,重复规则判定步骤,进行迭代交替修正训练;此步骤即为重复规则判定步骤中的有监督训练过程,进行所谓的结果修正和迭代训练。

预测模型获取步骤,预测模型的KL散度损失函数持续减小并反向传播更新预测模型,当预测模型拟合稳定或迭代交替修正训练的次数达到设定的超参数时,获取此时的预测模型;

信息抽取步骤,将待抽取文本输入至训练后的预测模型,输出抽取信息。

在其中一些实施例中,KL散度损失函数由机器学习步骤得到的抽取结果的统计分布和规则判定步骤得到的假设分布通过KL散度定义得到,KL散度损失函数具体为:

其中,p(x

在其中一些实施例中,机器学习步骤具体包括:

抽取结果预测步骤,根据假设标签,利用encoder模型进行对应文本特征的提取,再利用decoder模型解码文本特征并预测抽取结果;

标注步骤,根据抽取结果对文本进行标注,并据此修正规则判定步骤。

在其中一些实施例中,信息抽取步骤具体包括:

将待抽取文本输入至预测模型,并输出对应的抽取信息的向量,将对应的向量通过softmax算法或log-liner算法得到具体抽取信息。

第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第二方面所述的文本信息抽取方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第二方面所述的文本信息抽取方法。

相比于相关技术,本申请实施例提供的文本信息提取的方法、系统、计算机设备和存储介质,本发明可以应用于深度学习技术技术领域,还可以应用于自然语言处理技术领域。通过设置一个交互学习的框架,利用先验经验或规则将一个无监督学习转换为一个准监督学习的场景,有效进行海量文本的信息抽取工作,降低了从事文本信息提取的人工成本。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为根据本申请实施例的文本信息抽取框架的结构框架图;

图2是根据本申请实施例的文本信息抽取的另一结构框图;

图3为根据本申请实施例的文本信息抽取方法的流程图;

图4为根据本申请实施例的机器学习步骤的流程图;

图5是根据本申请优选实施例的文本信息抽取方法的流程图。

图6为根据本申请实施例的计算机设备的硬件结构示意图。

附图说明:

规则判定模块1;机器学习模块2;交互学习模块3;

预测模型获取模块4;信息抽取模块5;抽取结果预测单元21;

标注单元22;处理器81;存储器82;通信接口83;

总线80。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

本实施例提供了一种文本信息抽取框架,如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的框架较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图1为根据本申请实施例的文本信息抽取框架的结构框架图,如图1所示,该框架包括:

规则判定模块1,根据预设规则将文本进行规则抽取得到对应的假设标签和假设分布;

上述预设规则为根据具体需求提前定义的规则,可以包括抽取时间、地点、人物和数据等设定。

机器学习模块2,根据假设标签拟合预测模型并据此对文本进行句子抽取;

交互学习模块3,将机器学习模块的抽取结果作为规则判定模块的更新依据,再次利用规则判定模块进行规则提取,进行迭代交替修正训练;

预测模型获取模块4,预测模型的KL散度损失函数持续减小并反向传播更新预测模型,当预测模型拟合稳定或迭代交替修正训练的次数达到设定的超参数时,获取此时的预测模型;

上述迭代交替修正训练为机器学习模块和交互学习模块相互学习修正的过程。

信息抽取模块5,将待抽取文本输入训练后的预测模型,并输出抽取信息。

通过设置上述框架,将机器学习和规则判定相结合,互相修正、训练学习,得到预测模型,大大的提升了对海量文本的sentence-level的抽取效果,从而大量降低人工成本,并实现智能化、自动化抽取信息的目的。

需要说明的是,上述假设分布为根据预设规则进行抽取所形成的的假设分布,用以一定程度上反映预设规则的特征,即,预设规则在规则判定模型上是有什么样的分布,句子就抽取什么样的文本特征的组合分布,例如,“今年、去年、增长”这样的一条预设规则,可以从句子中抽取出“今年比去年增长X%”式的重要信息,其分布即为假设分布。

在其中一些实施例中,KL散度损失函数由机器学习模块2得到的抽取结果的统计分布和规则判定模块1得到的假设分布通过KL散度计算得到,KL散度损失函数具体为:

其中,p(x

KL散度损失函数可以表示机器学习模块2得到的抽取结果的统计分布和规则判定模块1得到的假设分布之间的相似程度,从而判定机器学习模块2和规则判定模块1之间相互学习及修正的效果,从而实现更好的抽取效果。

在其中一些实施例中,机器学习模块2包括:

抽取结果预测单元21,根据假设标签,利用encoder模型进行对应文本特征的提取,再利用decoder模型解码文本特征并预测抽取结果,

标注单元22,根据抽取结果对文本进行标注,并据此来修正规则判定模块1。

在其中一些实施例中,信息抽取模块5将待抽取文本输入至预测模型,输出对应抽取信息的向量,将对应向量通过softmax算法或log-liner算法得到具体抽取信息。

图2是根据本申请实施例的文本信息抽取的另一结构框图,如图2所示,该框架包括:

Text:待抽取的文本内容,一般包含x个sentence;

ML Model:机器学习模块,一般为基于机器学习模型的抽取器,用以抽取包含重要信息的句子;可以选择典型的encoder-decoder结构模型,使用encoder提取文本特征,使用decoder解码特征并预测抽取结果,将抽取出的sentence标记1,未抽取的标记0;

Rules Model:规则判定模块,一般为人工预先定义的规则抽取器,通过人工定义规则判定,抽取符合规则的句子;在预测模型初始化启动训练时,通过该规则判定模块制定的规则形成Text文本的初始化“假设分布”特征,抽取关键语句。

如,sentence1包含rule1的特征就给sentence1标记1,包含rule2就标记2,以此类推,如果同时包含1和2就标记为[1,2],不包含则不标记特征;

当预测模型正在训练时,该规则判定模块用以修正ML Model预测的sentence是否符合rules,即判定在ML Model中标记1的sentence是否包含预先设定的rules;

Mutual Learning:交互学习模块,用以对上述ML Model和Rules Model的相互修正、训练学习;一般通过Mutual Learning进行ML model和Rules Model两个模块的交替学习,并以前一个模块的抽取结果作为修正,训练拟合后续模块;

如,当sentence1在启动训练时,Rules Model标记的sentence1为[1,3],则说明sentence1为符合rule1和rule3的有效句子,那么ML Model在训练中则将sentence1作为应当被标记1的数据进行监督训练;同理,如果sentence2在Rules Model中未得到任何分布标记,但是在ML Model中预测为标记1,那么在第二轮中,将sentence2作为标记1进行更新Rule Model的参数来训练;

Log-Linear/Softmax:预测模块,完成上述模块训练后,用以最终的预测抽取。

需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本申请实施例提供了一种文本信息抽取方法,该方法用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。图3为根据本申请实施例的文本信息抽取方法的流程图,如图3所示,该流程包括以下步骤:

规则判定步骤S1,根据预设规则,将文本进行规则抽取并得到对应的假设标签和假设分布;

上述预测规则包括抽取时间范围、地点、人物等。

机器学习步骤S2,根据假设标签拟合预测模型并据此对文本进行句子抽取;

根据此步骤可以将无监督学习转换为伪标记半监督学习,提高了机器学习的效率,从而提高了预测模型的准确性,提高预测效果。

交互学习步骤S3,将机器学习步骤得到的抽取结果作为规则判定步骤的更新结果,重复规则判定步骤,进行迭代交替修正训练;

上述迭代交替修正训练为机器学习模块和交互学习模块相互学习修正的过程,重复有监督训练过程,即为所谓的结果修正和迭代训练。

预测模型获取步骤S4,预测模型的KL散度损失函数持续减小并反向传播更新预测模型,当预测模型拟合稳定或迭代交替修正训练的次数达到设定的超参数时,获取此时的预测模型;

信息抽取步骤S5,将待抽取文本输入至训练后的预测模型,输出抽取信息。

通过上述步骤,将机器学习和规则判定相结合,互相修正、训练学习,得到预测模型,大大的提升了对海量文本的sentence-level的抽取效果,从而大量降低人工成本,并实现智能化、自动化抽取信息的目的。

在其中一些实施例中,KL散度损失函数由机器学习步骤得到的抽取结果的统计分布和规则判定步骤得到的假设分布通过KL散度定义得到,KL散度损失函数具体为:

其中,p(x

需要说明的是,上述KL散度损失函数代表两个模型抽取结果的相似程度。越相似则拟合效果越好,预测效果越好。

图4为根据本申请实施例的机器学习步骤的流程图,如图4所示,在其中一些实施例中,机器学习步骤S2具体包括:

抽取结果预测步骤S21,根据假设标签,利用encoder模型进行对应文本特征的提取,再利用decoder模型解码文本特征并预测抽取结果;

标注步骤S22,根据抽取结果对文本进行标注,并据此修正规则判定步骤S1。

在其中一些实施例中,信息抽取步骤S5具体包括:

将待抽取文本输入至预测模型,并输出对应的抽取信息的向量,将对应的向量通过softmax算法或log-liner算法得到具体抽取信息。

下面通过优选实施例对本申请实施例进行描述和说明。

图5是根据本申请优选实施例的文本信息抽取方法的流程图。

S501,初始启动模型训练,需要由人工定义规则模块的内容,如抽取时间范围;地点、人物等设定,并将文本通过规则判断模块,规则判定模块会将文本标记初始化假设“标签”;

S502,利用机器学习模型进行有监督训练,通过规则判定模块预测的“标签”,将直接抽取sentence的无标签学习场景转化为pesudo有监督学习,从而开始拟合训练模型;

机器学习模块中输入的抽取前的原始文本,将规则判定模块抽取出来一句话作为机器学习的标签,通过机器学习从原始文本中学习,从而实现机器学习模型进行有监督训练;

S503,将S502中的模型训练一轮完成后,进行交互学习模块交互学习,即利用S502训练的模型进行sentence抽取,利用抽取结果作为规则判定模块的更新结果,重复S501;即进行所谓的结果修正和迭代训练;

S504,定义损失函数训练预测模型,这里的损失函数可以是通过机器学习模型学习出的结果分布和规则判定的结果分布的KL散度定义;通过S503中的N次迭代交替修正训练,达到KL散度损失函数的持续减小,并进行反向传播更新预测模型参数;

S505,获得预测模型并进行信息抽取,当预测模型拟合稳定或者训练迭代交替修正训练达到设定的超参数时,可以停止训练,并使用预测函数来预测结果,即完成选取抽取出的sentence的过程。

由于预测函数得到对应信息的数据向量,可以使用softmax或者log-linear算法来输出结果具体抽取的哪几个句子。

需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。例如,S501和S502可以顺序进行调整。

另外,结合图1描述的本申请实施例文本信息抽取方法可以由计算机设备来实现。图6为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种文本信息抽取方法。

在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图6所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(Infini Band)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

该计算机设备可以基于获取到的文本,执行本申请实施例中的规则判定步骤、机器学习步骤和交互学习步骤,得到预测模型,从而实现结合图1描述的文本信息抽取方法。

另外,结合上述实施例中的文本信息抽取方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种文本信息抽取方法。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 文本信息抽取框架、方法、计算机设备和存储介质
  • 通知文本信息实体属性抽取方法、计算机设备及存储介质
技术分类

06120113161850