掌桥专利:专业的专利平台
掌桥专利
首页

长文本数据识别方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 11:32:36


长文本数据识别方法、装置、电子设备及存储介质

技术领域

本发明涉及大数据技术领域,具体涉及一种长文本数据识别方法、装置、电子设备及存储介质。

背景技术

简历解析技术逐渐成为各个招聘系统的标配功能,该技术能够快速准确地将简历文本解析导入招聘系统,可以提升求职者地投递体验。

基于规则与字典的简历识别方法在针对毕业院校、邮箱、手机号等具有明显特征的信息或能达到较为理想的效果。但是对于简历中工作经历、项目经验、个人兴趣爱好等内容解析效果不佳。

基于神经网络的命名实体识别模型对所输入的文本序列长度有所限制,对于简历这种字数较多的文本,通常需要先进行模块分割后,再分别输入模型进行标注。然而,对于简历这种没有明显分割符的文本,常用的分割方式为根据已知的特征关键词对文本进行分割。但是,该方法泛化能力较差,分割效果不佳。而误差较大的模块分割结果将会影响后续模型对整体语义的理解,影响标注结果,从而降低简历解析的准确率。

发明内容

有鉴于此,本发明提供一种长文本数据识别方法、装置、电子设备及存储介质,以解决上述提及的至少一个问题。

根据本发明的第一方面,提供一种长文本数据识别方法,所述方法包括:

获取长文本数据,所述长文本数据包含:多个主题;

基于预定的主题聚合模型对所述长文本数据进行聚类处理,生成多个主题模块数据;

将所述多个主题模块数据分别输入至预先训练的文本识别模型,生成对各主题模块数据的标注结果,所述标注结果用于标识数据的主题;

根据所述各主题模型数据的标注结果识别所述长文本数据的各主题数据,并将识别的各主题数据输入至对应的文字区域部分。

根据本发明的第二方面,提供一种长文本数据识别装置,所述装置包括:

数据获取单元,用于获取长文本数据,所述长文本数据包含:多个主题;

主题模块数据生成单元,用于基于预定的主题聚合模型对所述长文本数据进行聚类处理,生成多个主题模块数据;

标注单元,用于将所述多个主题模块数据分别输入至预先训练的文本识别模型,生成对各主题模块数据的标注结果,所述标注结果用于标识数据的主题;

识别单元,用于根据所述各主题模型数据的标注结果识别所述长文本数据的各主题数据;

输入单元,用于将识别的各主题数据输入至对应的文字区域部分。

根据本发明的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。

根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。

由上述技术方案可知,通过基于预定的主题聚合模型对获取的长文本数据进行聚类处理,生成多个主题模块数据,之后将各主题模块数据输入至文本识别模型,生成对各主题模块数据的标注结果,随后根据各主题模型数据的标注结果识别长文本数据的各主题数据,并将识别的各主题数据输入至对应的文字区域部分,相比于现有技术,本技术方案基于主题聚合模型在文本聚类上的优势,对长文本数据可以准确地内容分割,提高文本识别模型的标注准确率,从而可以提高对长文本数据识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的长文本数据识别方法的流程图;

图2是根据本发明实施例的长文本数据识别方法的详细流程图;

图3是根据本发明实施例的训练数据的结构示意图;

图4是根据本发明实施例的BERT文本识别模型输入表征的示意图;

图5根据本发明实施例的BERT文本识别模型的整体结构示意图;

图6是根据本发明实施例的长文本数据识别装置的结构框图;

图7为本发明实施例的电子设备600的系统构成的示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前,通过BERT(Bidirectional Encoder Representation from Transformers,Transformer的双向编码器表示)、BiLSTM-CRF(一种序列标注算法)等命名实体识别模型对简历进行识别,由于这些模型对输入的序列长度有限制,因而需要对简历这种长文本序列先进行分割操作,再输入模型进行标注。常用的内容分割方法是根据简历的标题关键词(如教育经历、工作经历)进行内容分割,但是该方法泛化能力较差,在遇到非常见标题或无标题的简历时,将会无法进行有效的内容分割。而内容分割的准确度会影响模型对整体语境的理解,如果内容分割准确度低,则会导致模型标注准确率的下降,从而导致模型对简历识别的准确率低。

基于此,本发明实施例提供一种长文本数据识别方案,该方案基于预定的主题聚合模型在文本聚类上的优势,对长文本数据进行准确地内容分割,提高文本识别模型的标注准确率,从而可以提高对长文本数据识别的准确率。以下结合附图来详细描述本发明实施例。

图1是根据本发明实施例的长文本数据识别方法的流程图,如图1所示,该方法包括:

步骤101,获取长文本数据,所述长文本数据包含:多个主题。

这里的长文本数据可以是具有多个主题的、字符数量较多的文本,例如,电子简历。该长文本数据的文本字符序列长度超过文本识别模型输入序列的字符阈值长度,因而,在执行文本识别模型之前,需要对长文本数据进行分割处理,即执行如下步骤102。

步骤102,基于预定的主题聚合模型对所述长文本数据进行聚类处理,生成多个主题模块数据。

这里的主题聚合模型可以是基于LDA(Latent Dirichlet Allocation,隐狄利克雷分布)算法的主题聚合模型。利用LDA主题聚合模型在文本聚类上的优势,对长文本数据进行聚类处理(或者称为内容分割处理),再将聚类处理后得到的内容,导入步骤103的文本识别模型进行标注操作。

具体地,可以先对长文本数据以行为单位进行分割处理;之后根据预定的分词器对分割后的每一行数据进行分词处理。

随后,基于LDA主题聚合模型对长文本数据中每一行分词处理后的数据进行聚类操作,确定每行数据所属的主题;并根据每行数据及其所属的主题生成所属主题的模块数据,以此生成所述多个主题模块数据。

步骤103,将所述多个主题模块数据分别输入至预先训练的文本识别模型,生成对各主题模块数据的标注结果,所述标注结果用于标识数据的主题。

在一个实施例中,当主题模块数据的字符长度还是超过文本识别模型输入序列的字符阈值长度时,可以根据所述字符阈值长度对该主题模块数据进行拆分处理,生成多个主题子模块数据。之后,将各主题子模块数据输入至文本识别模型,生成对各主题子模块数据的标注结果。

这里的文本识别模型可以是BERT文本识别模型(即,上述的BERT命名实体识别模型)。

在实际操作中,可以通过如下方式训练该文本识别模型:首先,获取历史长文本数据,所述历史长文本数据包括:具有标注结果的各主题数据;随后,根据所述历史长文本数据生成训练数据,并基于预定损失函数(例如,交叉熵函数)、预定激活函数(例如,softmax函数)和所述训练数据训练所述文本识别模型。

步骤104,根据所述各主题模型数据的标注结果识别所述长文本数据的各主题数据,并将识别的各主题数据输入至对应的文字区域部分。

通过基于预定的主题聚合模型对获取的长文本数据进行聚类处理,生成多个主题模块数据,之后将各主题模块数据输入至文本识别模型,生成对各主题模块数据的标注结果,随后根据各主题模型数据的标注结果识别长文本数据的各主题数据,并将识别的各主题数据输入至对应的文字区域部分,相比于现有技术,本发明实施例基于主题聚合模型在文本聚类上的优势,对长文本数据可以准确地内容分割,提高文本识别模型的标注准确率,从而可以提高对长文本数据识别的准确率。

为了更清楚地描述本发明,以下以长文本数据为电子简历(简称为简历)为例并结合图2来详细描述本发明实施例。

如图2所示,在该实例中,长文本数据识别流程主要包含三个部分:BERT模型构建、简历解析、模型进化,以下分别描述这三个部分。

一、BERT模型构建

步骤1,确定信息类型与标签。

一般而言,简历中的信息大体可分为个人基本信息、教育经历、工作(实习)经历、语言能力、荣誉及奖励、其它信息这6大类。例如,姓名、性别、年龄、联系方式等信息属于个人基本信息。学历、专业、毕业院校等属于教育经历。工作单位、工作岗位、工作经历内容等属于工作(实习)经历。英语四六级或托福雅思分数则属于语言能力。获得的各种奖项信息属于荣誉及奖励。

在本发明实施例中,每个信息又会被分为开头、中间、结尾3个部分,例如,工作单位名称中的每个字符会被划分为工作单位开头、工作单位中间、工作单位结尾3部分,最终得到的标签类型如下表1所示:

表1

在实际使用过程中,各企业招聘网站可根据各自招聘系统所需的信息类型对标签进行修改。

步骤2,生成训练数据。

使用已存储的历史简历数据,即,结构化的历史简历数据,并随机添加一些实际解析简历时常见的无意义字符(如空格、换行符等),生成BERT文本识别模型的训练数据,训练数据的结构形式如图3所示。最终需要转换为基于所有类别的one-hot(独热编码)编码表示,方便后续交叉熵损失函数的计算。

以图3中输入的第一个字符“2”为例,其对应的编码向量中只有类别T-S对应的位置值为1,其它位置的数值皆为0。这里将输入序列X中的第i个字符记为x

步骤3,模型构建。

图4为BERT文本识别模型输入表征的示意图,如图4所示,模型的原始输入为一段文本序列X,该序列需要转换为字向量、文本向量、位置向量,这3个向量之和即为BERT网络的输入表征B。字向量是文本中每个字编码的组合、文本向量体现了文本中每个字所属的句子、位置向量体现了文本中每个字出现的位置。

图5为BERT文本识别模型的整体结构示意图,如图5所示,在BERT网络的最后一层,连接一个前馈神经网络作为分类器,并使用softmax函数进行激活,最终输出的序列为

在该实例中,可以使用交叉熵函数作为模型的损失函数。

损失函数定义如下:

其中,

其中,θ为网络参数。

步骤4,根据步骤1-3构建的模型,开始模型训练。

二、简历解析

步骤1,简历文件导入。

步骤2,内容分割。

(1)先将从简历中获取到的内容以行为单位进行分割,每行作为一个独立的文本。对所有的文本,使用分词器进行分词操作,得到的词语集合即为聚类操作的词典。该分词器可以使用现有技术中的分词器,本发明对此不作限制。

(2)确定主题类别数量k,可根据表1中大类的数量来确定k值。

(3)使用LDA模型对文本进行聚类操作,得到每行内容所属的主题类别。

(4)根据聚类结果与文本出现的顺序,将连续出现的、相同主题的行归纳到同一模块中。

步骤3,以模块为单位将文本输入到BERT模型中进行序列标注,得到每个字符对应的分类。若模块的字符长度依旧超出模型所能接受的最大序列长度,则在最大长度处对模块进行拆分。

步骤4,根据BERT模型输出的分类结果与文本出现的先后顺序对简历内容进行归纳。例如:将标记为工作经历的连续语句归纳为同一段工作经历,出现在该段语句前面,且距离最近的标记为时间、工作单位的内容,即为该段工作经历对应的时间段与工作单位。之后,将最终的结果填入招聘系统中对应的输入框,完成简历解析。

三、模型进化

步骤1,在上述简历解析过程中,当用户对解析结果进行修正时,记录该简历的文件流中的内容。

步骤2,根据用户修正后得到的正确解析结果,修改标注内容,生成用于模型进化训练的新数据集。具体方法如下:

假设原始输入文本序列如下:

2/0/1/6/年/7/月/-/2/0/1/9/年/5/月/在/中/国/工/商/银/行/软/件/开/发/中/心/工/作/

模型输出的标签序列如下:

T-S/T-M/T-M/T-M/T-M/T-E/T-F/T-S/T-M/T-M/T-M/T-M/T-E/N/C-S/C-M/C-M/C-M/C-M/C-E/WE-S/WE-M/WE-M/WE-M/WE-M/WE-M/WE-M/WE-M

经过对模型输出结果的分析处理,2016年7月-2019年5月会被填入工作经历的时间部分,中国工商银行会填入该段工作经历的工作单位模块,软件开发中心工作会被填入工作经历的描述部分。此时用户对工作单位进行修正,修改为中国工商银行软件开发中心。之后,触发模型的进化流程,先会将模型输出的标注序列修改为T-S/T-M/T-M/T-M/T-M/T-E/T-F/T-S/T-M/T-M/T-M/T-M/T-E/N/C-S/C-M/C-M/C-M/C-M/C-M/C-M/C-M/C-M/C-M/C-M/C-E/WE-M/WE-M,再将其放入模型进化训练的训练数据集中,用于进化训练。

这样,就可以提高文本识别模型的标注准确率,从而可以提高对长文本数据识别的准确率。

由以上描述可知,本发明实施例将LDA模型与BERT模型相结合,利用LDA主题聚合模型在文本聚类上的优势,对简历文本进行内容分割,再将分割后得到的内容,导入BERT模型进行序列标注操作。在BERT模型的训练阶段,可利用招聘系统中已存在的大量结构化的简历数据生成训练数据,对模型进行训练与微调,最终得到一个可针对简历文本的标注模型。同时在实际使用中,根据使用者对简历解析结果的修正,继续训练模型,进一步提升模型的准确性。通过本发明实施例,可以提升招聘系统简历解析的准确性,提升求职者的投递体验。

基于相似的发明构思,本发明实施例还提供一种长文本数据识别装置,优选地,该装置可以用于实现上述方法实施例中的流程。

图6是该长文本数据识别装置的结构框图,如图6所示,该装置包括:数据获取单元1、主题模块数据生成单元2、标注单元3、识别单元4和输入单元5,其中:

数据获取单元1,用于获取长文本数据,所述长文本数据包含:多个主题。

主题模块数据生成单元2,用于基于预定的主题聚合模型对所述长文本数据进行聚类处理,生成多个主题模块数据。

具体地,主题模块数据生成单元包括:主题确定模块和主题模块数据生成模块,其中:

主题确定模块,用于基于所述主题聚合模型对所述长文本数据中每一行数据进行聚类操作,确定每行数据所属的主题;

主题模块数据生成模块,用于根据每行数据及其所属的主题生成所属主题的模块数据,以此生成所述多个主题模块数据。

标注单元3,用于将所述多个主题模块数据分别输入至预先训练的文本识别模型,生成对各主题模块数据的标注结果,所述标注结果用于标识数据的主题。

识别单元4,用于根据所述各主题模型数据的标注结果识别所述长文本数据的各主题数据。

输入单元5,用于将识别的各主题数据输入至对应的文字区域部分。

通过主题模块数据生成单元基于预定的主题聚合模型对数据获取单元获取的长文本数据进行聚类处理,生成多个主题模块数据,之后标注单元将各主题模块数据输入至文本识别模型,生成对各主题模块数据的标注结果,随后识别单元根据各主题模型数据的标注结果识别长文本数据的各主题数据,输入单元将识别的各主题数据输入至对应的文字区域部分,相比于现有技术,本发明实施例基于主题聚合模型在文本聚类上的优势,对长文本数据可以准确地内容分割,提高文本识别模型的标注准确率,从而可以提高对长文本数据识别的准确率。

在一个实施例中,上述装置还包括:分割单元和分词单元,其中:

分割单元,用于对所述长文本数据以行为单位进行分割处理;

分词单元,用于根据预定的分词器对分割后的每一行数据进行分词处理。

通过对长文本数据执行分割和分词操作之后,就可以执行上述的主题模块数据生成单元2,对长文本数据执行聚类操作。

在一个实施例中,上述装置还包括:拆分单元,用于响应于主题模块数据的字符长度超过所述文本识别模型的字符阈值长度,根据所述字符阈值长度对该主题模块数据进行拆分处理,生成多个主题子模块数据。

在具体实施过程中,上述装置还包括:模型训练单元,用于训练所述文本识别模型。具体地,模型训练单元包括:历史数据获取模块和模型训练模块,其中:

历史数据获取模块,用于获取历史长文本数据,所述历史长文本数据包括:具有标注结果的各主题数据;

模型训练模块,用于根据所述历史长文本数据生成训练数据,并基于预定损失函数、预定激活函数和所述训练数据训练所述文本识别模型。

上述各单元、各模块的具体执行过程,可以参见上述方法实施例中的描述,此处不再赘述。

在实际操作中,上述各单元、各模块可以组合设置、也可以单一设置,本发明不限于此。

本实施例还提供一种电子设备,该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照上述方法实施例进行实施及长文本数据识别装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。

图7为本发明实施例的电子设备600的系统构成的示意框图。如图7所示,该电子设备600可以包括中央处理器100和存储器140;存储器140耦合到中央处理器100。值得注意的是,该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。

一实施例中,长文本数据识别功能可以被集成到中央处理器100中。其中,中央处理器100可以被配置为进行如下控制:

获取长文本数据,所述长文本数据包含:多个主题;

基于预定的主题聚合模型对所述长文本数据进行聚类处理,生成多个主题模块数据;

将所述多个主题模块数据分别输入至预先训练的文本识别模型,生成对各主题模块数据的标注结果,所述标注结果用于标识数据的主题;

根据所述各主题模型数据的标注结果识别所述长文本数据的各主题数据,并将识别的各主题数据输入至对应的文字区域部分。

从上述描述可知,本申请实施例提供的电子设备,通过基于预定的主题聚合模型对获取的长文本数据进行聚类处理,生成多个主题模块数据,之后将各主题模块数据输入至文本识别模型,生成对各主题模块数据的标注结果,随后根据各主题模型数据的标注结果识别长文本数据的各主题数据,并将识别的各主题数据输入至对应的文字区域部分,相比于现有技术,本发明实施例基于主题聚合模型在文本聚类上的优势,对长文本数据可以准确地内容分割,提高文本识别模型的标注准确率,从而可以提高对长文本数据识别的准确率。

在另一个实施方式中,长文本数据识别装置可以与中央处理器100分开配置,例如可以将长文本数据识别装置配置为与中央处理器100连接的芯片,通过中央处理器的控制来实现长文本数据识别功能。

如图7所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图7中所示的所有部件;此外,电子设备600还可以包括图7中没有示出的部件,可以参考现有技术。

如图7所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。

该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述长文本数据识别方法的步骤。

综上所述,本发明实施例将LDA模型与BERT模型结合,用于简历解析,克服了基于神经网络的命名实体识别方法进行简历解析时,因序列超长无法输入,以及内容分割不当导致模型标注准确度下降的问题。通过本发明实施例,可以提升招聘系统简历解析的准确性,提升求职者的投递体验。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 长文本数据识别方法、装置、电子设备及存储介质
  • 文本数据类别的识别方法及装置、存储介质、计算机设备
技术分类

06120112965778