掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法、装置、设备及介质

文献发布时间:2023-06-19 13:26:15


一种数据处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及介质。

背景技术

随着网络的发展,用户所能获取的信息量急剧增长,如何从大量的信息中确定出有效信息,特别是能够反映变化趋势的信息,是一个重要课题。

有鉴于此,需要更有效和更高效的用于确定有效信息的数据处理方案。

发明内容

本说明书实施例提供一种数据处理方法、装置、设备及介质,用以解决如何更有效和更高效地确定主体的变化趋势的技术问题。

为解决上述技术问题,本说明书实施例提供如下技术方案:

本说明书实施例提供第一种数据处理方法,包括:

获取原始信息,对所述原始信息并列执行文本分类任务和主体识别任务,确定所述原始信息的文本分类结果和主体识别结果;

根据文本分类结果确定所述原始信息中是否存在目标句,以及根据主体识别结果确定所述原始信息中是否存在主体,并确定所述原始信息中存在的各主体对应的主体标签;

若所述原始信息存在目标句,则根据所述目标句中包含的目标主体对应的主体标签确定所述目标主体的趋势判断结果。

本说明书实施例提供一种数据处理装置,包括:

任务模块,用于获取原始信息,对所述原始信息并列执行文本分类任务和主体识别任务,确定所述原始信息的文本分类结果和主体识别结果;

分析模块,用于根据文本分类结果确定所述原始信息中是否存在目标句,以及根据主体识别结果确定所述原始信息中是否存在主体,并确定所述原始信息中存在的各主体对应的主体标签;

判断模块,用于若所述原始信息存在目标句,则根据所述目标句中包含的目标主体对应的主体标签确定所述目标主体的趋势判断结果。

本说明书实施例提供一种数据处理设备,包括:

至少一个处理器;

以及,

与所述至少一个处理器通信连接的存储器;

其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,使所述至少一个处理器能够执行上述第一种数据处理方法。

本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述第一种数据处理方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:

通过对原始信息并列执行文本分类任务和主体识别任务,且同时进行文本分类和主体识别,即从原始信息中同时确定目标句和主体,进而根据目标句中的目标主体对应的主体标签确定所述目标主体的趋势判断结果。由于文本分类任务和主体识别任务可并列同时执行,故降低了原始信息中目标主体的变化趋势判断时间,提高了原始信息中目标主体的变化趋势判断效率。

本说明书实施例提供第二种数据处理方法,包括:

构建多任务模型,使用第一类别样本训练所述多任务模型,将使用第一类别样本训练后的所述多任务模型对属于第一类别的原始信息,并列执行第一种数据处理方法所述的文本分类任务和主体识别任务;

使用第二类别样本部分替代所述第一类别样本,使用所述第二类别样本和未经替代的所述第一类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第一类别或第二类别的原始信息,并列执行第一种数据处理方法所述的文本分类任务和主体识别任务;或,使用第二类别样本替代所述第一类别样本,使用所述第二类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第二类别的原始信息,并列执行第一种数据处理方法所述的文本分类任务和主体识别任务。

本说明书实施例提供一种数据处理装置,包括:

应用模块,用于构建多任务模型,使用第一类别样本训练所述多任务模型,将使用第一类别样本训练后的所述多任务模型对属于第一类别的原始信息,并列执行第一种或第二种数据处理方法所述的文本分类任务和主体识别任务;

迁移模块,用于使用第二类别样本部分替代所述第一类别样本,使用所述第二类别样本和未经替代的所述第一类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第一类别或第二类别的原始信息,并列执行第一种或第二种数据处理方法所述的文本分类任务和主体识别任务;或,使用第二类别样本替代所述第一类别样本,使用所述第二类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第二类别的原始信息,并列执行第一种或第二种数据处理方法所述的文本分类任务和主体识别任务。

本说明书实施例提供一种数据处理设备,包括:

至少一个处理器;

以及,

与所述至少一个处理器通信连接的存储器;

其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,使所述至少一个处理器能够执行上述第二种数据处理方法。

本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述第二种数据处理方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:

使用特定类别的样本训练的多任务模型,可以用于同种类别的原始信息的文本分类任务和主体识别任务的并列执行,进而通过第一种数据处理方法确定同种类别的原始信息中目标主体的趋势判断结果。这样一来,在上述有益效果的基础上,由于样本和原始信息属同种类别,有利于提高训练得到的多任务模型对原始信息中目标主体的变化趋势判断准确性,即提高了原始信息中目标主体的变化趋势判断效果。

通过不同类别样本之间的部分或全部替换,能够将训练得到的多任务模型用于不同类别的原始信息中目标主体的变化趋势判断,实现了多任务模型在不同类别的原始信息之间的迁移使用和复用,提高了多任务模型的应用广泛性和多样性,进一步提高了不同类别的原始信息中目标主体的变化趋势判断效果和效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面介绍的附图仅仅是本说明书中记载的实施例可能涉及的部分附图,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是现有技术的建模示意图。

图2是本说明书第一个实施例中的数据处理方法的执行主体示意图。

图3是本说明书第一个实施例中的数据处理方法的流程示意图。

图4是本说明书第一个实施例中的共享参数层示意图。

图5是本说明书第一个实施例中的多任务模型部署示意图。

图6是本说明书第二个实施例中的数据处理方法的流程示意图。

图7是本说明书第二个实施例中的样本池变化示意图。

图8是本说明书第三个实施例中的数据处理装置的结构示意图。

图9是本说明书第四个实施例中的数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例的附图,对本说明书实施例的技术方案清楚、完整地进行描述。显然,本说明书所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

当前社会处于一个信息爆炸的时代,用户或者机构或者其他主体所能获取的信息量急剧增长,从大量的信息中确定出有效信息的难度也随之增长。特别的,所述的“有效信息”可以是主体的变化趋势信息。例如,在金融场景下,每年每月甚至每日都有从业者们或者各种机构发布的各种资讯,这其中可以包含各类主体的变化趋势信息。显然,想要阅读全部的资讯并从中提取各类主体的变化趋势信息极其困难。主体的变化趋势一般可以通过观点三要素来表示,观点三要素即观点句、观点主体和观点趋势。其中,观点句指资讯中用于表示主体的发展变化情况的句子;一般的,观点句应当是以从业者或机构发布的,代表资讯中对主体发展变化情况的整体或主要观点或结论,像“某些受采访者认为猪肉价格成下降趋势”可能只是资讯中的一句描述,资讯的主要观点可能与其不同;观点主体也可称为标的,指观点句中涉及的主体,观点趋势指观点句中对主体的发展变化的具体描述。

现有技术中,可以使用计算机技术从各种资讯中获取主体的变化趋势信息,即针对观点三要素分别建模,然后用pipline的方式把各个模型的执行流程整合起来,最终得到主体的变化趋势信息。具体的,现有技术的方案是先建立一个针对观点句的观点分类模型,从资讯中抽取观点句,得到观点句集合;然后会用主体提取模型对观点句集合中的每个句子使用实体标注或关键词/正则表达式匹配的策略,得到其中的观点主体;最后,使用一个情感分类模型(通常是三分类模型),确定对观点主体的变化趋势预期,如图1所示。可见,现有技术中共用了观点分类模型、主体提取模型、情感分类模型三个模型,每一个下游模型都需要依赖上游模型的结果,这一方面造成了计算资源的浪费,增加了计算耗时;另一方面依赖最后的情感分类模型去判断主体的变化趋势,造成了一个观点句只能存在一个变化趋势结果,对应一个主体;在一个观点句存在多个主体的情况下(如“未来生猪价格将呈现下行趋势,但是牛肉价格将上行可期”存在生猪价格和牛肉价格两个主体),现有技术的方案无法得到多个主体对应的变化趋势,即出现了对复杂场景的不兼容;再一方面现有技术的方案由于是分别建模,不能利用单个要素的样本数据对每个要素产生增益,造成了数据的性能损失。另外,现有技术中的方案无法在不同场景之间复用,包括无法针对不同场景的资讯进行变换趋势信息的获取。

本说明书第一个实施例(以下简称“实施例一”)提供了一种数据处理方法,实施例一的执行主体可以是终端(包括但不限于手机、计算机、pad、电视)或者服务器或者操作系统或者应用程序或者数据处理平台或者数据处理系统等,即执行主体可以是多种多样的,可以根据需要设置、使用或者变换执行主体。另外,也可以有第三方应用程序协助所述执行主体执行实施例一。例如图2所示,可以由服务器来执行实施例一中的数据处理方法,并且可以在(用户所持有的)终端上安装(与所述服务器)相对应的应用程序,终端或应用程序与服务器之间可以进行数据传输,通过终端或应用程序来进行数据的采集或输入或输出或(向用户)进行页面或信息处理,从而辅助服务器执行实施例一中的数据处理方法。

如图3所示,实施例一提供的数据处理方法包括:

S101:(执行主体)获取原始信息,对所述原始信息并列执行文本分类任务和主体识别任务,确定所述原始信息的文本分类结果和主体识别结果;

实施例一执行主体可以获取原始信息,所述原始信息一般为文本形式的信息。其中,所述原始信息可以是上传到实施例一的执行主体的,也可以是其他设备传输给实施例一的执行主体的。实施例一对如何获取原始信息不作具体限定。

原始信息可能包括单个文本句,例如原始信息为单个中文句或英文句;原始信息也可能包括多个文本句,例如原始信息为一篇文章,文章包括多个中文句。若原始信息包括多个文本句,可以对原始信息进行分句,以确定原始信息包含的各个文本句。其中,对原始信息进行分句可以包括,根据原始信息中的标点符号(例如句号、分号)对原始信息进行分局。另外,可以由其他设备进行分句,将单个句子作为原始信息传输给实施例一的执行主体。

获取原始信息后,实施例一的执行主体可以对所述原始信息并列执行文本分类任务和主体识别任务,且文本分类任务和主体识别任务可以同时进行。其中,若原始信息包括多个文本句,则对所述原始信息并列执行文本分类任务和主体识别任务可以包括:(对所述原始信息分句后)对原始信息包含的任一文本句,对该文本句并列执行文本分类任务和主体识别任务。

实施例一中,对原始信息并列执行文本分类任务和主体识别任务可以包括:使用多任务模型对所述原始信息并列执行文本分类任务和主体识别任务。参照图5,下面针对所述多任务模型进行说明:

实施例一中,将原始信息中主体的变化趋势抽象为观点句和主体两部分。主体包括但不限于各类账户、用户、商户或企业、网络业务服务商、机构等,每个主体可以由属性和趋势两个对应的参数构成,属性用于表征主体的含义或类型或形式,例如上述的账户、用户、商户或企业、网络业务服务商、机构等,属性又可以称为主体名称。例如若文本句为“生猪出栏有望加速,生猪价格或将下行”,则其中包含“生猪出栏”和“生猪价格”两个主体属性,“生猪出栏”对应的趋势为“加速”,“生猪价格”对应的趋势为下行。在定义好变化趋势的上述结构后,就可以对上述结构进行建模。

实施例一中,可以定义文本分类任务和主体识别任务,且两者可以都是深度学习任务。所述文本分类任务用于判断原始信息中是否存在目标句,包括判断原始信息包括的各文本句是否为目标句,所述目标句可以是观点句,即所述文本分类任务为文本二分类任务;所述主体识别任务用于确定原始信息中是否存在主体,以及确定原始信息中存在的各主体对应的主体标签。

实施例一中,可以构建多任务模型,所述多任务模型可以并列(且同时)执行上述文本分类任务和主体识别任务。其中,可以基于multi-task框架构建所述多任务模型,并在multi-task框架上定义上述文本分类任务和主体识别任务。multi-task:多任务学习,是一种联合学习,多个任务并行学习,结果相互影响。在实际问题中,就是将多个学习任务融合到一个模型中完成,例如文本分类任务和主体识别任务。multi-task框架就是利用多个学习任务中所包含的有用信息来帮助每个学习任务得到更为准确的结果的学习器。

在定义好上述文本分类任务和主体识别任务后,可以选择BERT预训练模型作为multi-task框架的共享参数层,即选择BERT预训练模型作为上述多任务模型的共享参数层,例如图4所示。将所述BERT预训练模型的最后一层隐藏层连接用于主体识别的全链接层,作为主体识别任务的子任务层;将所述BERT预训练模型的最后一层隐藏层中的第一个节点(即「CLS」对应的节点)连接用于文本分类的二分类全链接层,作为文本分类任务的子任务层。

通过上述内容,将针对变化趋势的上述结构所做的建模完美融入到了multi-task的算法框架中,实现了物理定义和算法定义的兼容,形成了上述的多任务模型。

实施例一中,构建多任务模型后,可以使用样本对多任务模型进行训练。特别的,训练多任务模型所用的样本携带有类别标签,所述类别标签由实体标签和序列标注标签做笛卡尔积得到。下面对如何生成样本进行进一步说明:

实施例一中,可以构建实体标签集合。其中,可以将变化趋势定义为涨跌平三种趋势,使用不同的标签表示不同的变化趋势,实施例一中使用POS标签代表涨,使用NEG标签代表跌,使用MID标签代表平。将表示变化趋势的标签与实体标签(实体标签记为P)融合,从而构建了实体标签集合{P_POS,P_NEG,P_MID,O}(O一般代表无关系或可以忽略的字词)。其中,P可以表示属性,POS、NEG、MID则表示趋势。

根据BIESO标注准则,可以确定序列标注标签{B,I,E,S,O},B标签表示实体的开始(Begin),I标签表示内部(inside),O标签表示外部(outside),E标签表示实体的结束(End),S表示单字符实体(Single)。

确定实体标签集合和序列标注标签集合的笛卡尔积,所述笛卡尔积即为{P_POS_B,P_POS_I,P_POS_E,P_POS_S,O,P_NEG_B,P_NEG_I,P_NEG_E,P_NEG_S,O,P_MID_B,P_MID_I,P_MID_E,P_MID_S,O}。其中,序列标注标签与“O”的积为“O”。笛卡尔积中的元素融合了实体标签与序列标注标签,从而具有了实体的序列标注意义和变化趋势意义。将笛卡尔积中的每一元素作为类别标签,所述类别标签也就具有了序列标注意义和变化趋势意义,能够用于表征实体和变化趋势。由于单个字符可以由实体标签和序列标注标签,而笛卡尔积是实体标签和序列标注标签的融合,从而将原有的实体标签集合和序列标注标签集合扩展为字级别的标签集(即笛卡尔积),每个字符都可以对应到笛卡尔积中的类别标签,类别标签用于表征字符是否为实体(通过字符对应的类别标签中的序列标注标签判断)和变化趋势(通过字符对应的类别标签中的变化趋势标签确定)。

实施例一中,可以对已有的大量文章或资讯等信息进行分词/分句,将分词/分句后得到的字级别(即单个字符)或词级别(即单个词)作为待标注的样本,从而形成待标注样本集。使用上述笛卡尔积中的元素对待标注样本集进行标注,使得每个样本对应到笛卡尔积中的元素,每个样本携带其对应的笛卡尔积中的元素,从而形成已标注的样本集合。

完成多任务模型的搭建和已标注的样本集合后,可以使用已标注的样本对多任务模型进行训练,以便确定多任务模型的各项权重参数,包括更新BERT模型的参数,对BERT模型进行fine-tune。这也可以看出,上述定义的文本分类任务和主体识别任务是有监督的深度学习任务。训练后的多任务模型可以部署在实施例一的执行主体上,用于对原始信息并列执行文本分类任务和主体识别任务,确定所述原始信息的文本分类结果(即文本分类任务的执行结果)和主体识别结果(即主体识别任务的执行结果)。

另外,多任务模型可以是由实施例一的执行主体搭建和训练的,也可以是由其他设备搭建或训练的,并部署在实施例一的执行主体上。

S103:(执行主体)根据文本分类结果确定所述原始信息中是否存在目标句,以及根据主体识别结果确定所述原始信息中是否存在主体,并确定所述原始信息中存在的各主体对应的主体标签;

确定原始信息的文本分类结果后,实施例一的执行主体可以根据文本分类结果确定所述原始信息中是否存在目标句,即确定原始信息包含的各个文本句是否为目标句,包括确定原始信息包含的各个文本句是否为观点句。其中,确定原始信息包含的各个文本句是否为目标句包括:对原始信息包含的任一文本句,根据文本分类任务的全链接层(即上述二分类全链接层)的输出数据(即文本分类结果)确定该文本句是否为目标句。例如,可以设置阈值,通过判断二分类全链接层的输出数据与所述阈值,判断该文本句是否为目标句。

确定原始信息的主体识别结果后,实施例一的执行主体可以确定原始信息中是否存在主体,以及对于原始信息中存在的任一主体,确定该主体对应的主体标签。其中,所述主体识别结果包括对原始信息的序列标注结果,确定原始信息中是否存在主体可以包括:根据原始信息的序列标注结果确定原始信息中是否存在主体。

确定原始信息存在的各主体对应的主体标签可以包括:对于原始信息中存在的任一主体,根据主体识别任务的全链接层的输出数据确定该主体对应的主体标签。由于训练多任务模型所用样本具有类别标签,则采用多任务模型执行主体识别任务过程中,原始信息中每个字符作为或对应一个token,故可以确定出原始信息中的每个字符或每个字符对应的token的类别标签。实施例一中,确定原始信息存在的各主体对应的主体标签可以包括:对原始信息中存在的任一主体,确定该主体对应的各个token的类别标签;根据该主体对应的各个token的类别标签,确定该主体对应的主体标签。其中,根据该主体对应的各个token的类别标签,确定该主体对应的主体标签可以包括:对该主体对应的任一token,将该token的类别标签中的实体标签,作为该主体对应的主体标签。这是因为,同一主体对应的各个token的类别标签中的实体标签相同。例如某主体对应的两个token的类别标签分别是P_POS_B和P_POS_I,则对该主体对应的任一token,将其类别标签中的实体标签,即P_POS,作为该主体的主体标签。

具体的,由于原始信息中单个文本句中的每个字符都会对应一个多任务模型(具体为BERT模型)的token,故若任一主体包含一个字符,则该字符对应的token即为该主体对应的token;若任一主体包含多个字符,则该主体包含的各个字符对应的token都是该主体对应的token。

S105:若所述原始信息存在目标句,则(执行主体)根据所述目标句中包含的目标主体对应的主体标签确定所述目标主体的趋势判断结果。

需要说明的是,原始信息中可以存在多个文本句,有的文本句即使不是目标句,也可能存在主体和主体的变化趋势,参见上述观点句的说明。例如“某些受采访者认为生猪价格呈下降趋势”并非目标句,但其中仍然存在“生猪价格”这一主体和“下降”这一变化趋势。一般的,实施例一关心的是目标句中的主体的变化趋势。

实施例一中,在原始信息中存在目标句的情况下,实施例一的执行主体可以将确定出的目标句中存在的主体作为目标主体,根据目标主体对应的主体标签确定目标主体的趋势判断结果。其中,根据目标主体对应的主体标签确定目标主体的趋势判断结果可以包括:根据目标主体的主体标签判断目标主体的变化趋势,并确定目标主体的趋势判断结果。例如对任一目标主体,该目标主体的主体标签为P_NEG,而NEG对应的趋势为跌,故判断该目标主体的变化趋势为下跌趋势,该目标主体的趋势判断结果为下跌或类似结果。

下面通过一个非限定的例子对实施例一进行进一步说明:

例如原始信息中包含文本句“猪肉价格和牛肉价格分别上升和下降”,使用多任务模型对该文本句执行文本分类任务和主体识别任务。

具体的,将该文本句进行ID化,利用字典将该文本句转换为向量。由于该文本句长度为16,则将该文本句转换为16维向量。

将所述16维向量根据定义的最大长度(max_seq)进行补全,例如定义的最大长度是128维,则将所述16为向量补全到128维。

将所述128维向量输入到BERT模型,输出16*768维向量;

将BERT模型的[CLS]输出的1*768维向量,输入768*1的全链接层(文本分类任务的全链接层),得到1*1维向量,即单个值。将所述单个值进行sigmoid归一化,获得文本分类任务的全链接层的输出数据,即归一化后的值。可以预设阈值为0.5,若文本分类任务的全链接层的输出数据大于0.5,则判断该文本句为目标句,即为观点句;若文本分类任务的全链接层的输出数据不大于0.5,则判断该文本句不是目标句,即不是观点句。以下假设该文本句为目标句。

该文本句中的每个字对应一个token,BERT模型的每个token(1*768向量)接一个768*num_label(num_label即笛卡尔积中的元素数量,也就是类别标签数量,上述的笛卡尔积中num_label为15,故以下以num_label为15为例进行说明)的全链接层(主体识别任务的全链接层),从而进行主体识别,得到每个token对应的1*15维向量。对每个token对应的1*15维向量进行softmax归一化,得到每个token对应的归一化后的1*15维向量(简称1*15维归一化向量)。

对任一个token,该token对应的1*15维归一化向量中的各个元素的值,代表了该token的类别标签为上述笛卡尔积中的相应元素的概率。即该token对应的1*15维归一化向量中的第1个元素的值,代表了该token的类别标签为上述笛卡尔积中的第1个元素的概率;该token对应的1*15维归一化向量中的第2个元素的值,代表了该token的类别标签为上述笛卡尔积中的第2个元素的概率;以此类推,该token对应的1*15维归一化向量中的第15个元素的值,代表了该token的类别标签为上述笛卡尔积中的第15个元素的概率,则概率最大的元素即为该token的类别标签,如下表1所示:

表1

可见,上述目标句中包含“猪肉价格”和“牛肉价格”两个目标主体。对于“猪肉价格”对应的4个token中的任一token的类别标签,其包含的实体标签均为P_POS,故“猪肉价格”这一目标主体对应的主体标签为P_POS,这说明“猪肉价格”这一目标主体的变化趋势为涨趋势,该目标主体的趋势判断结果为上涨或上升或类似结果;对于“牛肉价格”对应的4个token中的任一token的类别标签,其包含的实体标签均为P_NEG,故“牛肉价格”这一目标主体对应的主体标签为P_NEG,这说明“牛肉价格”这一目标主体的变化趋势为跌趋势,该目标主体的趋势判断结果为下跌或下降或类似结果。当然,趋势判断结果可以以合适方式展示给用户,例如文字或图表或其他形式,实施例一不作具体限定。

上述例子仅为示例,其可以应用于任何文本句,上述示例中的步骤或过程也不是惟一的,例如可以使用多种方式进行归一化。

实施例一中,通过对原始信息并列执行文本分类任务和主体识别任务,且同时进行文本分类和主体识别,即从原始信息中同时确定目标句和主体(而非先后确定观点句和观点主体),进而根据目标句中的目标主体对应的主体标签确定所述目标主体的趋势判断结果。由于文本分类任务和主体识别任务可并列同时执行,即同时对目标句和主体建模,能够提高系统性能利用率,降低原始信息中目标主体的变化趋势判断时间,提高原始信息中目标主体的变化趋势判断效率。

实施例一中,将观点系统的物理结构融入到了多任务模型中,以BERT模型作为共享参数层,文本分类任务和主体识别任务可以共用参数,观点三要素之间共享参数层,可以利用更多的文本先验信息,使得多任务之间并行计算和相互促进,提高样本数据利用率,提高文本分类效果和主体识别效果,从而提高原始信息中目标主体的变化趋势判断效率。

实施例一中,只需一个多任务模型,即可实现执行文本分类任务和主体识别任务的同时训练和同时并列执行,以及观点三要素的同时提取,能够提高原始信息中目标主体的变化趋势判断效率。多任务模型的多个任务相互促进,使得每一条样本数据都能被充分利用,实现了多任务并行计算,提高计算效率以及原始信息中目标主体的变化趋势判断效果和效率。

实施例一中,将变化趋势通过实体标签(POS,NEG,MID)的方式融入了主体识别任务当中,无论单个文本句中有多少个主体,每个主体都能对应变化趋势,从而可以适用于单主体和多主体的复杂原始信息,适用范围更广。

本说明书第二个实施例(以下简称“实施例二”)提供了一种数据处理方法,实施例二的执行主体可以是终端(包括但不限于手机、计算机、pad、电视)或者服务器或者操作系统或者应用程序或者数据处理平台或者数据处理系统等,即执行主体可以是多种多样的,可以根据需要设置、使用或者变换执行主体。另外,也可以有第三方应用程序协助所述执行主体执行实施例二。例如图2所示,可以由服务器来执行实施例二中的数据处理方法,并且可以在(用户所持有的)终端上安装(与所述服务器)相对应的应用程序,终端或应用程序与服务器之间可以进行数据传输,通过终端或应用程序来进行数据的采集或输入或输出或(向用户)进行页面或信息处理,从而辅助服务器执行实施例二中的数据处理方法。

如图6所示,实施例二提供的数据处理方法包括:

S202:(执行主体)构建多任务模型,使用第一类别样本训练所述多任务模型,将使用第一类别样本训练后的所述多任务模型对属于第一类别的原始信息,并列执行实施例一所述的文本分类任务和主体识别任务;

实施例二的执行主体可以构建多任务模型,使用第一类别样本训练所述多任务模型,将使用第一类别样本训练后的所述多任务模型对属于第一类别的原始信息,并列执行实施例一所述的文本分类任务和主体识别任务以及其他过程,以便确定“第一类别的原始信息”中的目标主体的趋势判断结果。

可见,实施例二的执行主体也可以执行实施例一的全部过程,只不过实施例二中的样本限定为第一类别样本,实施例二中的原始信息限定为第一类别的原始信息。

S204:(执行主体)使用第二类别样本部分替代所述第一类别样本,使用所述第二类别样本和未经替代的所述第一类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第一类别或第二类别的原始信息,并列执行实施例一所述的文本分类任务和主体识别任务;或,使用第二类别样本替代所述第一类别样本,使用所述第二类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第二类别的原始信息,并列执行实施例一所述的文本分类任务和主体识别任务。

(1)实施例二的执行主体可以将部分第一类别样本替代为第二类别样本,使用所述第二类别样本和未经替代的所述第一类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第一类别或第二类别的原始信息,并列执行实施例一所述的文本分类任务和主体识别任务以及其他过程,以便确定“第一类别或第二类别的原始信息”中的目标主体的趋势判断结果,即既可确定第一类别的原始信息中的目标主体的趋势判断结果,又可确定第二类别的原始信息中的目标主体的趋势判断结果。

上述模型训练过程和并列执行文本分类任务和主体识别任务,以便确定“第一类别或第二类别的原始信息”中的目标主体的趋势判断结果的过程参照第一个实施例。

可见,既然使用了第一类别样本和第二类别样本训练多任务模型,则经第一类别样本和第二类别样本训练得到的多任务模型可以用于确定“第一类别或第二类别的原始信息”中的目标主体的趋势判断结果。

(2)实施例一的执行主体可以将第一类别样本全部替代为第二类别样本,使用所述第二类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第二类别的原始信息,并列执行实施例一所述的文本分类任务和主体识别任务以及其他过程,以便确定“第二类别的原始信息”中的目标主体的趋势判断结果。

上述模型训练过程和并列执行文本分类任务和主体识别任务,以便确定“第二类别的原始信息”中的目标主体的趋势判断结果参照第一个实施例。

可见,既然使用了第二类别样本训练多任务模型,则经第二类别样本训练得到的多任务模型可以用于确定“第二类别的原始信息”中的目标主体的趋势判断结果。

实施例一说明了每个主体具有属性和趋势两部分,则样本也具有属性和趋势两部分。在进行第一类别和第二类别的样本替换时,只需将第一类别样本的属性部分(也可称为关键词组)替换为第二样本的属性,即可将由第一样本组成的样本池变成第一样本和第二样本组成的样本池或第二样本组成的样本池。

由于实施例二可以执行实施例一的全部过程,故实施例二具备实施例一所述的有益效果。

由于样本和原始信息可以同类别,那么将第一类别样本和/或第二类别样本训练的多任务模型,用于确定“第一类别和/或第二类别的原始信息”中的目标主体的趋势判断结果,由于原始信息和样本类别相同,有利于提高训练得到的多任务模型对原始信息中目标主体的变化趋势判断准确性,即提高了原始信息中目标主体的变化趋势判断效果。

实施例二中的类别可以根据需要设置,包括可将不同的场景作为不同的类别,例如第一类别对应金融场景,第二类别对应即时通讯场景等。通过不同类别的样本之间的部分或全部替换,可以使得训练得到的多任务模型用于不同类别或多个类别的原始信息中目标主体的变化趋势判断,即使得实施例一所述数据处理方法可以在不同类别或多个类别的原始信息上应用,即实现了实施例一所述数据处理方法在不同类别或多个类别上的原始信息上的迁移应用和复用。由于类别可以对应场景,也就实现了实施例一所述数据处理方法在不同场景或多个场景上的迁移应用和复用。

由于是通过样本的替换实现实施例一所述数据处理方法在不同场景上的迁移应用,故无论用于何种场景,用于训练多任务模型的样本池是可以共享的,只需部分或全部改变样本池中的样本类别,即可实现实施例一所述数据处理方法在不同场景或多个场景上的迁移应用和复用。

特别的,只需将某一类别的样本中的小部分替换为其他类别的样本,例如第二样本,无需针对每个类别重新生成大量样本,即可实现实施例一所述数据处理方法在不同类别的原始信息上的迁移应用,降低了多任务模型复用和迁移的难度和复杂度。

由于实施例一和实施例二中只需要一个多任务模型即可实现原始信息中目标主体的变化趋势判断,那么在进行不同类别或不同场景之间的迁移时,也仅需要针对一个多任务模型进行再次训练,需要训练的模型数量越少,则更加有利于提高迁移和复用效率。

实施例二中,若将部分第一类别样本替代为第二类别样本,则可以随机选取被替代的第一类别样本,提高第二类别样本的广泛性。

实施例一和实施例二中,将样本定位为属性和趋势这样的结构,这种结构具有通用性,只需替换样本中的属性,即可将某一类样本替换为其他类样本,例如第一类别样本中的属性是金融账户、银行、支付机构之类的金融场景下的属性,可以将其替换为社交账户、媒体之类的社交场景下的属性,即将金融类别的样本替换为社交类别的样本,实现不同类别样本的替换POS、NEG、MID、O等标签可以不变,例如图7所示,能够降低样本替换难度和复杂度。

实施例一或实施例二的执行主体都可以是区块链中的节点,实施例一或实施例二的执行主体所部署的多任务模型以及确定的目标句、主体以及主体标签等各项数据可以(经过共识)后存储到其所在区块链的其他节点,实现所述各项数据的分布式存储,防止所述各项数据被篡改,同时所述其他节点也都可以充当实施例或实施例二的执行主体的角色,执行实施例一或实施例二所述的内容。

如图8所示,本说明书第三个实施例提供一种与实施例一所述数据处理方法对应的数据处理装置,包括:

任务模块301,用于获取原始信息,对所述原始信息并列执行文本分类任务和主体识别任务,确定所述原始信息的文本分类结果和主体识别结果;

分析模块303,用于根据文本分类结果确定所述原始信息中是否存在目标句,以及根据主体识别结果确定所述原始信息中是否存在主体,并确定所述原始信息中存在的各主体对应的主体标签;

判断模块305,用于若所述原始信息存在目标句,则根据所述目标句中包含的目标主体对应的主体标签确定所述目标主体的趋势判断结果。

可选的,对所述原始信息并列进行文本分类和主体识别包括:

使用多任务模型对所述原始信息并列执行文本分类任务和主体识别任务。

可选的,所述装置还包括:

模型模块,用于构建多任务模型,所述多任务模型采用BERT预训练模型作为共享参数层。

可选的,构建多任务模型包括:

将所述BERT预训练模型的最后一层隐藏层连接主体识别任务的全链接层,将所述BERT预训练模型的最后一层隐藏层中的第一个节点连接文本分类任务的全链接层,以形成多任务模型。

可选的,根据文本分类结果确定所述原始信息中是否存在目标句包括:

对所述原始信息包含的任一文本句,根据所述文本分类任务的全链接层的输出数据,确定该文本句是否为目标句;

和/或,

确定所述原始信息中存在的各主体对应的主体标签包括:

对于所述原始信息中存在的任一主体,根据主体识别任务的全链接层的输出数据确定该主体对应的主体标签;

和/或,

所述主体识别结果包括序列标注结果;根据主体识别结果确定所述原始信息中是否存在主体包括:

根据序列标注结果确定所述原始信息中是否存在主体。

可选的,所述模型模块还用于:使用多任务模型对所述原始信息并列执行文本分类任务和主体识别任务前,使用样本训练所述多任务模型;其中,所述样本携带有类别标签,所述类别标签由实体标签和序列标注标签做笛卡尔积得到。

可选的,所述模型模块还用于:构建实体标签集合,确定所述实体标签集合和序列标注标签集合的笛卡尔积,所述笛卡尔积中的每一元素作为类别标签;

可选的,确定所述原始信息中存在的各主体对应的主体标签包括:

对所述原始信息中存在的任一主体,确定该主体对应的各个token的类别标签;

根据该主体对应的各个token的类别标签,确定该主体对应的主体标签。

可选的,根据该主体对应的各个token的类别标签,确定该主体对应的主体标签包括:

对该主体对应的任一token,将该token的类别标签中的实体标签,作为该主体对应的主体标签。

可选的,根据所述目标句中包含的目标主体对应的主体标签确定所述目标主体的趋势判断结果包括:

根据所述目标句中包含的目标主体的主体标签判断所述目标主体的变化趋势,并确定所述目标主体的趋势判断结果。

可选的,对所述原始信息并列执行文本分类任务和主体识别任务包括:

对所述原始信息包含的任一文本句,对该文本句并列执行文本分类任务和主体识别任务。

可选的,对所述原始信息并列执行文本分类任务和主体识别任务包括:

对所述原始信息并列且同时执行文本分类任务和主体识别任务。

如图9所示,本说明书第四个实施例提供一种与实施例二所述数据处理方法对应的数据处理装置,包括:

应用模块402,用于构建多任务模型,使用第一类别样本训练所述多任务模型,将使用第一类别样本训练后的所述多任务模型对属于第一类别的原始信息,并列执行实施例一或实施例二所述的文本分类任务和主体识别任务;

迁移模块404,用于使用第二类别样本部分替代所述第一类别样本,使用所述第二类别样本和未经替代的所述第一类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第一类别或第二类别的原始信息,并列执行实施例一或实施例二所述的文本分类任务和主体识别任务;或,使用第二类别样本替代所述第一类别样本,使用所述第二类别样本重复训练所述多任务模型,将重复训练后的所述多任务模型对属于第二类别的原始信息,并列执行实施例一或实施例二所述的文本分类任务和主体识别任务。

可选的,所述迁移模块404还用于:若使用第二类别样本部分替代所述第一类别样本,则随机选取被替代的所述第一类别样本。

本说明书第五个实施例提供一种数据处理设备,包括:

至少一个处理器;

以及,

与所述至少一个处理器通信连接的存储器;

其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,使所述至少一个处理器能够执行实施例一或实施例二所述的数据处理方法。

本说明书第六个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现实施例一或实施例二所述的数据处理方法。

上述各实施例可以结合使用,不同实施例之间或同一实施例内的名称相同的模块可以是相同或不同的模块。

上述对本说明书特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 一种缓存设备的数据处理方法、装置、设备及介质
  • 多介质预刻画数据处理方法、装置、电子设备及存储介质
技术分类

06120113678334