掌桥专利:专业的专利平台
掌桥专利
首页

信息分类抽取方法、装置和电子设备

文献发布时间:2023-06-19 10:16:30


信息分类抽取方法、装置和电子设备

技术领域

本公开涉及计算机技术领域中的数据处理、自然语言处理、深度学习技术领域,尤其涉及一种信息分类抽取方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

目前,随着人工智能、自然语言处理等技术的发展,信息抽取技术在对话信息整理、保险合同信息入库、企业策划信息整理等领域中得到了广泛的应用。例如,在保险合同信息入库场景下,保险合同字数较多,需要从保险合同中抽取出保险类型、被保险人、保险期限等重要信息并存储在服务器中。然而,相关技术中的信息抽取方法,大多需要预先标注想要抽取的信息和信息在待处理文本中的位置,标注成本过高。

发明内容

提供了一种信息分类抽取方法、装置、电子设备、存储介质和计算机程序产品。

根据第一方面,提供了一种信息分类抽取方法,包括:获取待处理的文本;将所述文本输入至训练好的信息抽取模型中,所述信息抽取模型中的语义理解层、分类层、全连接层和分类网络层依次处理,得到所述文本对应的信息和所述信息的类型。

根据第二方面,提供了一种信息分类抽取装置,包括:获取模块,用于获取待处理的文本;第一输入模块,用于将所述文本输入至训练好的信息抽取模型中,所述信息抽取模型中的语义理解层、分类层、全连接层和分类网络层依次处理,得到所述文本对应的信息和所述信息的类型。

根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面所述的信息分类抽取方法。

根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开第一方面所述的信息分类抽取方法。

根据第五方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本公开第一方面所述的信息分类抽取方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开第一实施例的信息分类抽取方法的流程示意图;

图2是根据本公开第二实施例的信息分类抽取方法中文本对应的信息的类型的示意图;

图3是根据本公开第三实施例的信息分类抽取方法中信息抽取模型的示意图;

图4是根据本公开第四实施例的信息分类抽取方法中得到文本对应的信息和信息的类型之后的流程示意图;

图5是根据本公开第五实施例的信息分类抽取方法的示意图;

图6是根据本公开第五实施例的信息分类抽取方法中训练好的信息抽取模型的获取的流程示意图;

图7是根据本公开第一实施例的信息分类抽取装置的框图;

图8是根据本公开第二实施例的信息分类抽取装置的框图;

图9是用来实现本公开实施例的信息分类抽取方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

数据处理(Data Processing)的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据,包括数据的采集、存储、检索、加工、变换和传输等。

NLU(Natural Language Processing,自然语言处理)是研究能有效地实现自然语言通信的计算机系统,特别是其中的软件系统的一门科学,是计算机科学领域与人工智能领域中的一个重要方向。

DL(Deep Learning,深度学习)是ML(Machine Learning,机器学习)领域中一个新的研究方向,是学习样本数据的内在规律和表示层次,使得机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据的一门科学,广泛应用于语音和图像识别。

图1是根据本公开第一实施例的信息分类抽取方法的流程示意图。

如图1所示,本公开第一实施例的信息分类抽取方法包括:

S101,获取待处理的文本。

需要说明的是,本公开实施例的信息分类抽取方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地,执行主体可包括工作站、服务器,计算机、用户终端及其他智能设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

本公开的实施例中,可获取待处理的文本。

需要说明的是,本公开的实施例中,对待处理的文本的内容、类型等均不做限定。例如,待处理的本文包括但不限于对话文本、合同文书、企业策划文本等。

S102,将文本输入至训练好的信息抽取模型中,信息抽取模型中的语义理解层、分类层、全连接层和分类网络层依次处理,得到文本对应的信息和信息的类型。

相关技术中的信息抽取方法,需要标注想要抽取的信息和信息在待处理文本中的位置,标注成本过高。

为了解决这一问题,本公开的实施例中,可将文本输入至训练好的信息抽取模型中,信息抽取模型中的语义理解层、分类层、FC(Fully Connected,全连接)层和分类网络层依次处理,得到文本对应的信息和信息的类型。

可以理解的是,该方法中仅需要标注想要抽取的信息,不需要标注信息在待处理文本中的位置,就可通过信息抽取模型获取待处理文本对应的信息和信息的类型,标注成本低。

本公开的实施例中,信息抽取模型包括语义理解层、分类层、全连接层和分类网络层。可选的,语义理解层、分类层、全连接层、分类网络层均可根据实际情况进行设置。例如,语义理解层可为文心(Ernie)语义理解层,文心语义理解层采用了大量大数据进行预训练,具备信息迁移能力,适用于多任务场景。另外,分类层可为CLS层、分类网络层可为Softmax层。

可选的,信息的类型可包括多层级信息类型。例如,如图2所示,在保险合同文本信息抽取场景下,信息的类型可包括2层级信息类型,1层级信息类型可包括保险类别、保险期限、被保险人学历、被保险人证件类型等,其中,每个1层级信息类型可包括至少一个2层级信息类型,比如,保险类别可包括保险类别1、保险类别2、保险类别3这三个2层级信息类型,保险期限可包括5年、10年、其他这三个2层级信息类型,被保险人学历可包括本科、硕士、专科及以下这三个2层级信息类型,被保险人证件类型可包括身份证、护照、港澳通行证这三个2层级信息类型。

相关技术中的信息抽取模型,无法处理多层级信息类型,为了解决这一问题,如图3所示,以信息的类型为2层级信息类型为例,可采用语义理解层获取待处理文本的语义信息,之后通过分类层获取文本分类的共享语义信息,对每个第一层次级别的信息类型设置一个独立的全连接层,以通过每个全连接层实现第一层次级别的信息类型的识别,每个全连接层可设置至少一个分类网络层,以通过每个分类网络层实现第一层次级别对应的第二层次级别的信息类型的识别。由此,本公开实施例中的信息抽取模型,可实现多层级信息类型的处理。

综上,根据本公开实施例的信息分类抽取方法,将待处理的文本输入至训练好的信息抽取模型中,信息抽取模型中的语义理解层、分类层、全连接层和分类网络层依次处理,得到文本对应的信息和信息的类型,不需要标注信息在待处理文本中的位置,标注成本低,且可实现多层级信息类型的处理。

在上述任一实施例的基础上,如图4所示,步骤S102中得到文本对应的信息和信息的类型之后,还可包括:

S401,将文本输入至专家系统,专家系统对文本进行预设的数字字符串和/或文本字符串匹配,得到数值信息和/或术语信息。

本公开的实施例中,专家系统可根据实际情况进行设置,专家系统可对文本进行预设的数字字符串和/或文本字符串匹配,得到数值信息和/或术语信息。

可以理解的是,待处理文本中可能存在数字、文本等字符串,通过专家系统直接对文本进行预设的数字字符串和/或文本字符串匹配,可直接识别出文本中的数值信息和/或术语信息,不需要任何标注数据,标注成本低。

S402,将数值信息和/或术语信息、信息和信息的类型进行整合,得到文本对应的整合后的信息和整合后的信息的类型。

可选的,可采用后处理规则,将数值信息和/或术语信息、信息和信息的类型进行整合,得到文本对应的整合后的信息和整合后的信息的类型。

例如,如图5所示,在保险合同文本信息抽取场景下,可将保险合同文本输入至训练好的信息抽取模型中,得到文本对应的信息和信息的类型,还可将保险合同文本输入至专家系统,得到数值信息和/或术语信息,之后可采用后处理规则,将数值信息和/或术语信息、信息和信息的类型进行整合,得到文本对应的整合后的信息和整合后的信息的类型。比如,图5所示的整合后的信息和整合后的信息的类型可采用“整合后的信息的类型:整合后的信息”的形式,比如,“保险类别:XX险”,其中,保险类别为整合后的信息的类型,XX险为整合后的信息。

由此,该方法可将文本输入至专家系统,专家系统对文本进行预设的数字字符串和/或文本字符串匹配,得到数值信息和/或术语信息,将数值信息和/或术语信息、信息和信息的类型进行整合,得到文本对应的整合后的信息和整合后的信息的类型,有助于提升信息抽取模型在小样本处理下的信息抽取效果。

在上述任一实施例的基础上,如图6所示,步骤S102中训练好的信息抽取模型的获取,可包括:

S601,获取样本文本、样本文本对应的样本信息和样本信息的类型。

可以理解的是,为了提高信息抽取模型的性能,可获取大量的样本文本、样本文本对应的样本信息和样本信息的类型。

可选的,样本信息和样本信息的类型为对样本文本进行人工标注得到的,该方法采用人工标注获取样本信息和样本信息的类型,灵活性较高。

或者,还可将样本文本输入至专家系统,专家系统对样本文本进行预设的数字字符串和/或文本字符串匹配,以得到样本信息和样本信息的类型。该方法采用专家系统获取样本信息和样本信息的类型,准确度较高,耗时较短,人工成本低。

S602,根据样本文本、样本信息和样本信息的类型对待训练的信息抽取模型进行训练,得到训练好的信息抽取模型。

可选的,可将样本文本输入至待训练的信息抽取模型,获取待训练的信息抽取模型输出的第一样本信息和第一样本信息的类型,可根据第一样本信息和样本信息之间的误差,以及第一样本信息的类型和样本信息的类型之间的误差,对待训练的信息抽取模型进行训练,直至待训练的信息抽取模型收敛,或者迭代次数达到预设的迭代次数阈值,或者模型精度达到预设的精度阈值,则可结束模型的训练,将最后一次训练得到的信息抽取模型作为训练好的信息抽取模型。其中,迭代次数阈值、精度阈值均可根据实际情况进行设置。

由此,该方法可根据样本文本、样本信息和样本信息的类型对待训练的信息抽取模型进行训练,得到训练好的信息抽取模型。

图7是根据本公开第一实施例的信息分类抽取装置的框图。

如图7所示,本公开实施例的信息分类抽取装置700,包括:获取模块701、第一输入模块702。

获取模块701,用于获取待处理的文本;

第一输入模块702,用于将所述文本输入至训练好的信息抽取模型中,所述信息抽取模型中的语义理解层、分类层、全连接层和分类网络层依次处理,得到所述文本对应的信息和所述信息的类型。

在本公开的一个实施例中,所述语义理解层为文心语义理解层。

综上,本公开实施例的信息分类抽取装置,将待处理的文本输入至训练好的信息抽取模型中,信息抽取模型中的语义理解层、分类层、全连接层和分类网络层依次处理,得到文本对应的信息和信息的类型,不需要标注信息在待处理文本中的位置,标注成本低,且可实现多层级信息类型的处理。

图8是根据本公开第二实施例的信息分类抽取装置的框图。

如图8所示,本公开实施例的信息分类抽取装置800,包括:获取模块801、第一输入模块802、第二输入模块803、整合模块804、训练模块805。

其中,获取模块801与获取模块701具有相同功能和结构,第一输入模块802与第一输入模块702具有相同功能和结构。

在本公开的一个实施例中,所述信息分类抽取装置800还包括:第二输入模块803,用于将所述文本输入至专家系统,所述专家系统对所述文本进行预设的数字字符串和/或文本字符串匹配,得到数值信息和/或术语信息;整合模块804,用于将所述数值信息和/或术语信息、所述信息和所述信息的类型进行整合,得到所述文本对应的整合后的信息和所述整合后的信息的类型。

在本公开的一个实施例中,所述信息分类抽取装置800还包括:训练模块805,所述训练模块805,包括:获取单元8051,用于获取样本文本、所述样本文本对应的样本信息和所述样本信息的类型;训练单元8052,用于根据所述样本文本、所述样本信息和所述样本信息的类型对待训练的信息抽取模型进行训练,得到所述训练好的信息抽取模型。

在本公开的一个实施例中,所述样本信息和所述样本信息的类型为对所述样本文本进行人工标注得到的。

在本公开的一个实施例中,所述训练模块805,还包括:输入单元8053,用于将所述样本文本输入至专家系统,所述专家系统对所述样本文本进行预设的数字字符串和/或文本字符串匹配,得到所述样本信息和所述样本信息的类型。

综上,本公开实施例的信息分类抽取装置,将待处理的文本输入至训练好的信息抽取模型中,信息抽取模型中的语义理解层、分类层、全连接层和分类网络层依次处理,得到文本对应的信息和信息的类型,不需要标注信息在待处理文本中的位置,标注成本低,且可实现多层级信息类型的处理。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如图1至图6所述的信息分类抽取方法。例如,在一些实施例中,信息分类抽取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的信息分类抽取方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息分类抽取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

根据本申请的实施例,本申请还提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本申请上述实施例所述的信息分类抽取方法。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 信息分类抽取方法、装置和电子设备
  • 问询信息分类方法、模型训练方法、装置和电子设备
技术分类

06120112481129