掌桥专利:专业的专利平台
掌桥专利
首页

基于生成模型的数据标注方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:08:20


基于生成模型的数据标注方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种基于生成模型的数据标注方法、装置、设备及存储介质。

背景技术

随着知识图谱在各个垂直领域的作用越来越凸显,如何从对大规模的无标注数据进行数据标注是当前知识图谱领域关注重点。

虽然现在针对有标注数据的命名实体识别的准确率已经达到了99%以上,但是针对不同领域的文本标注数据的人工构建,时间周期极长。而且不同领域的标注数据并不完全具有通用性。业务场景、目标用户以及产品定义的区别,都直接导致文本领域很难有可以适用于各个领域的大规模的标注数据。所以如何提高对大规模数据进行标注的效率成为了一个难题。

针对以上难题,现有解决方法是通过获取与原始文本对应的词序列,将词序列进行转化和映射,从而得到实体标注向量,并统计实体标注向量中预设实体信息的数量,从而实现对数据的标注;然而这种标注方式是有词向量进行转化和映射而得到,容易造成对数据的标注出现错误,从而导致对大规模数据的数据标注的准确率较低。现亟需一种能够提高数据标注准确率的方法。

发明内容

本申请实施例的目的在于提出一种基于生成模型的数据标注方法、装置、设备及存储介质,以提高数据标注的准确率。

为了解决上述技术问题,本申请实施例提供一种基于生成模型的数据标注方法,包括:

获取待标注文本,并对所述待标注文本进行拆分,得到拆分语句;

通过对所述拆分语句进行分词处理,得到目标分词,并对所述目标分词进行合并,得到目标短语;

获取多种预设标注规则,并通过多种所述预设标注规则分别对所述目标短语进行标注,得到每一种所述预设规则对应的标签样本;

获取每一种所述预设标注规则对应的标签样本对所述目标短语的样本标注概率,并根据所述样本标注概率和所述标签样本,得到生成模型的初始参数;

通过所述样本标注概率对所述生成模型的初始参数进行迭代更新,得到训练好的生成模型,并通过所述训练好的生成模型输出所述标签样本对应的标注准确率;

选取所述标注准确率最高的所述标签样本,作为目标标签样本。

为了解决上述技术问题,本申请实施例提供一种基于生成模型的数据标注装置,包括:

待标签文本拆分模块,用于获取待标注文本,并对所述待标注文本进行拆分,得到拆分语句;

目标短语获取模块,用于通过对所述拆分语句进行分词处理,得到目标分词,并对所述目标分词进行合并,得到目标短语;

标签样本生成模块,用于获取多种预设标注规则,并通过多种所述预设标注规则分别对所述目标短语进行标注,得到每一种所述预设规则对应的标签样本;

初始参数生成模块,用于获取每一种所述预设标注规则对应的标签样本对所述目标短语的样本标注概率,并根据所述样本标注概率和所述标签样本,得到生成模型的初始参数;

标注准确率输出模块,用于通过所述样本标注概率对所述生成模型的初始参数进行迭代更新,得到训练好的生成模型,并通过所述训练好的生成模型输出所述标签样本对应的标注准确率;

标签样本选取模块,用于选取所述标注准确率最高的所述标签样本,作为目标标签样本。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种计算机设备,包括,一个或多个处理器;存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的基于生成模型的数据标注方法。

为解决上述技术问题,本发明采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的基于生成模型的数据标注方法。

本发明实施例提供了一种基于生成模型的数据标注方法、装置、设备及存储介质。本发明实施例通过对获取的待标注文本进行拆分、分词和合并处理后,得到目标短语,便于后续针对待标注文本分别按照目标短语进行数据标注;再获取多种预设标注规则,并通过多种预设标注规则分别对目标短语进行标注,得到每一种预设规则对应的标签样本,然后获取每一种预设标注规则对应的标签样本对目标短语的样本标注概率,并根据样本标注概率和标签样本,得到生成模型的初始参数,再通过样本标注概率对生成模型的初始参数进行迭代更新,得到训练好的生成模型,并通过训练好的生成模型输出标签样本对应的标注准确率,选取标注准确率最高的标签样本,作为目标标签样本,实现通过多种预设规则对数据进行标注,并根据生成模型选取数据标注准确率最高的标签样本,有利于提高数据标注的准确率。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于生成模型的数据标注方法的应用环境示意图;

图2根据本申请实施例提供的基于生成模型的数据标注方法的一实现流程图;

图3是本申请实施例提供的基于生成模型的数据标注方法中子流程的一实现流程图;

图4是本申请实施例提供的基于生成模型的数据标注方法中子流程的又一实现流程图;

图5是本申请实施例提供的基于生成模型的数据标注方法中子流程的又一实现流程图;

图6是本申请实施例提供的基于生成模型的数据标注方法中子流程的又一实现流程图;

图7是本申请实施例提供的基于生成模型的数据标注方法中子流程的又一实现流程图;

图8是本申请实施例提供的基于生成模型的数据标注方法中子流程的又一实现流程图;

图9是本申请实施例提供的基于生成模型的数据标注装置示意图;

图10是本申请实施例提供的计算机设备的示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的基于生成模型的数据标注方法一般由服务器执行,相应地,基于生成模型的数据标注装置一般配置于服务器中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

请参阅图2,图2示出了基于生成模型的数据标注方法的一种具体实施方式。

需注意的是,若有实质上相同的结果,本发明的方法并不以图2所示的流程顺序为限,该方法包括如下步骤:

S1:获取待标注文本,并对待标注文本进行拆分,得到拆分语句。

具体的,服务器在获取到待标注文本后,会对其进行预处理,例如对其进行数据清洗,然后根据文本中的分割符将待标注文本按照段落、句子等进行拆分后,从而得到拆分语句。其中,待标签文本为需要对其进行数据标注,从而生成具有标注标签的文本。

S2:通过对拆分语句进行分词处理,得到目标分词,并对目标分词进行合并,得到目标短语。

具体的,在上述步骤中,待标注文本已经被拆分成拆分语句,而拆分语句以短句的形式存在,为了后续更好的对其进行数据标注,通过预设的分词工具对拆分语句进行分词处理,从而生成各个目标分词,再根据目标分词的词性进行词性标注,按照依存句法分析的方式,对目标分词进行合并,从而生成目标短语。

需要说明的是,预设的分词工具包括但不限于:结巴分词、NLPIR分词系统和SnowNLP等。优选的,采用结巴分词对拆分语句进行分词,得到目标分词。结巴分词具有将句子最精确地切开,适合文本分析,并且其把句子中所有的可以成词的词语都扫描出来,速度较快,适合本实施例的对拆分语句进行分词处理。

其中,依存句法分析是由法国语言学家L.Tesniere最先提出。它将句子分析成一棵依存句法树,描述出各个词语之间的依存关系,也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。在本申请实施例中,通过依存句法分析的方式,对目标分词进行合并。

S3:获取多种预设标注规则,并通过多种预设标注规则分别对目标短语进行标注,得到每一种预设规则对应的标签样本。

具体的,本申请实施例是通过将待标注文本经过拆分、分词和合并之后,通过多种标注规则对目标短语进行标注,然后通过生成模型确定各种规则对数据标注的准确率,从而选取准确率最高的标签样本,从而完成对数据的标注。所以服务器通过获取多种预设标注规则,然后根据每一种预设标注规则分别对目标短语标注对应的标签,从而使得目标短语生成每一种预设规则对应的标签样本。

需要说明的是,多种预设标注规则包括但不限于:正则识别,远程匹配知识库识别以及匹配外部数据方式。其中,正则识别是指通过预先设置不同的SQL查询语句,匹配相应的标注规则,从而实现不同的规则对目标短语进行标注。远程匹配知识库是指通过将目标短语与外设的知识库进行一一匹配,从而完成对其进行标注。匹配外部数据方式是指通过例如众包平台提供的外部数据,将目标短语与其进行匹配,从而完成对目标短语的标注。优选的,通过采用多种不同的标注规则对目标短语进行标注,能够对多种方式下数据标注的准确率进行筛选,从而提高数据标注的准确率。

S4:获取每一种预设标注规则对应的标签样本对目标短语的样本标注概率,并根据样本标注概率和标签样本,得到生成模型的初始参数。

具体的,样本标注概率是指利用预设标注规则得到的样本标签对目标短语的覆盖率,其后续可以对生成模型的参数进行迭代更新。并且由于每一种预设标注规则对不同的目标短语的样本标注概率不同,所以需要先获取每一种预设标注规则对应的样本标注概率。服务器还通过对样本标注概率和标签样本进行初始化后,得到生成模型的初始估计参数,也即是得到生成模型的初始参数。

其中,生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。生成模型给观测值和标注数据序列指定一个联合概率分布。在本申请实施例中,隐含参数对应本申请的目标短语的真实标签,观测值对应本申请的样本标注概率,标注数据序列对应本申请的标签样本;所以根据该隐含参数,也即真实的数据标签,随机生成观测数据的模型,其能够判断出每一种预设标注规则对目标短语的标注概率。

S5:通过样本标注概率对生成模型的初始参数进行迭代更新,得到训练好的生成模型,并通过训练好的生成模型输出标签样本对应的标注准确率。

具体的,通过样本标签概率对生成模型的初始参数进行拟合,利用随机梯度下降的方式,将样本标签概率反向传播回去对初始参数进行迭代更新,使得其样本标签概率不同接近生成模型的参数,从而得到训练好的生成模型。利用训练好的生成模型的参数对标签样本进行概率估计,并进行加权平均处理后,从而得到每一种预设规则下标签样本的标注准确率。

其中,迭代更新是指通过样本标签概率对生成模型的初始参数进行拟合,利用随机梯度下降的方式,将样本标签概率反向传播回去对初始参数进行迭代计算,使得其样本标签概率不同接近生成模型的参数。

S6:选取标注准确率最高的标签样本,作为目标标签样本。

具体的,通过上述步骤已经得到了每一种预设标注规则下标签样本的标注准确率,所以选取标注准确率最高的标签样本,作为目标标签样本,从而实现尝试多种标注规则对目标短语进行标注,选择其中准确率最高的标签样本,有利于提高数据标注的准确率。

本实施例中,通过对获取的待标注文本进行拆分、分词和合并处理后,得到目标短语,便于后续针对待标注文本分别按照目标短语进行数据标注;再获取多种预设标注规则,并通过多种预设标注规则分别对目标短语进行标注,得到每一种预设规则对应的标签样本,然后获取每一种预设标注规则对应的标签样本对目标短语的样本标注概率,并根据样本标注概率和标签样本,得到生成模型的初始参数,再通过样本标注概率对生成模型的初始参数进行迭代更新,得到训练好的生成模型,并通过训练好的生成模型输出标签样本对应的标注准确率,选取标注准确率最高的标签样本,作为目标标签样本,实现通过多种预设规则对数据进行标注,并根据生成模型选取数据标注准确率最高的标签样本,有利于提高数据标注的准确率。

请参阅图3,图3示出了步骤S4的一种具体实施方式,步骤S4中获取每一种预设标注规则对应的标签样本对目标短语的样本标注概率,并根据样本标注概率和标签样本,得到生成模型的初始参数的具体实现过程,详叙如下:

S41:计算每一种预设标注规则对应的标签样本对目标短语的覆盖率,并将覆盖率作为样本标注概率。

具体的,为了后续对生成模型进行训练,使得样本标注概率接近生成模型的参数,需要先获取到样本标注概率。所以计算每一种预设标注规则对应的标签样本对目标短语的覆盖率,并将覆盖率作为样本标注概率。在本申请实施例中,覆盖率是通过计算标签样本对目标短语的覆盖程度而得来的。

在一具体实施例中,当采用远程匹配知识库识别的方式对目标短语进行标注时,由于外设的知识库可能存在与目标短语中的目标分词无法一一匹配的情况,导致这些目标分词无法通过该方式进行标注,使得该目标短语标注失败;目标短语中的目标分词与外设的知识库能够一一匹配的,则该目标短语标注成功。将目标短语标注成功的标签样本除以总的目标短语量,得到的结果则是远程匹配知识库识别的方式对目标短语的覆盖率,并将覆盖率作为样本标注概率。例如,目标短语标注成功的数量为9000条,总的目标短语量为10000条,则样本标注概率为90%。

S42:将样本标签概率和标签样本进行初始化处理,得到生成模型的初始参数。

具体的,初始化处理是指根据样本标签概率和标签样本,对生成模型的初始参数赋予估计参数值,从而得得到生成模型的初始参数。

在本实施中,通过计算每一种预设标注规则对应的标签样本对目标短语的覆盖率,并将覆盖率作为样本标注概率,再将样本标签概率和标签样本进行初始化处理,得到生成模型的初始参数,实现获取样本标注概率和生成模型的初始参数,便于后续进行生成模型的训练,从而便于提高数据标注的准确率。

请参阅图4,图4示出了步骤S5的一种具体实施方式,步骤S5中通过样本标注概率对生成模型的初始参数进行迭代更新,得到训练好的生成模型,并通过训练好的生成模型输出标签样本对应的标注准确率的具体实现过程,详叙如下:

S51:将生成模型的参数和样本标注概率的差值作为优化特征值。

具体的,本申请实施例是通过对生成模型的参数进行迭代更新,从而使得生成模型的参数不断接近样本标注概率,所以将生成模型的参数和样本标注概率的差值作为优化特征值,通过评估其优化特征值,判断出生成模型的训练程度。

具体的,当数据量达到一定规模以后,基于多种预设标注规则对目标短语进行标注,并训练得到的生成模型,基于该生成模型对目标短语的真实标签的估计要优于对样本标签的随机猜测;并且由于生成模型的参数是用来估计标签样本的准确性,以及样本标签概率是通过目标短语标注成功的数量对总的目标短语量的覆盖而计算得来的;所以当生成模型的参数越接近样本标注概率,也即优化特征值越小,生成模型越接近训练完成。例如,生成模型的初始参数为0.4,样本标签概率为0.92,则优化特征值为0.52,当不断进行迭代更新后,优化特征值逐渐变小,当优化特征值变成0.01,此时生成模型的参数已经很接近样本标签概率,则结束迭代更新。

S52:采用随机梯度下降的方式,将样本标注概率进行反向传播,以对初始参数进行迭代更新,其中,每次迭代更新都得到生成模型新的参数和优化特征值发生改变。

具体的,通过采用随机梯度下降的方式,将样本标注概率进行反向传播,以对初始参数进行迭代更新,每进行一次更新计算生成模型都会得到一个新的参数,将该新的参数和样本标注概率的进行差值计算,可以得到新的优化特征值。其中,由于优化特征值是通过生成模型的参数与样本标注概率的差值计算而来的,并且每次迭代更新后,生成模型的参数都会发生改变,所以每次迭代更新都使得优化特征值发生改变。

其中,梯度下降法是迭代法的一种,可以用于求解最小二乘问题。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。在本申请实施例中,采用随机梯度下降的方式,将样本标注概率进行反向传播,以对初始参数进行迭代更新。

其中,反向传播算法是适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上。反向传播网络的输入输出关系实质上是一种映射关系:一个n输入m输出的反向传播神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射,这一映射具有高度非线性。

在一具体实施例中,将样本标注概率输入到神经网络的输入层,经过隐藏层,最后达到输出层并输出结果,该过程为前向传播过程。但是由于神经网络的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,该误差也即优化特征值,并将该优化特征值从输出层向隐藏层反向传播,直至传播到输入层;在反向传播的过程中,根据优化特征值随机下降进行调整样本标注概率的值,使得优化特征值减小。迭代上述步骤,直到优化特征值达到预设阈值。

S53:当优化特征值达到预设阈值时,停止迭代更新,得到训练好的生成模型。

具体的,当优化特征值达到预设阈值时,说明生成模型的参数很接近样本标注概率,此时停止对生成模型的参数的更新,从而得到训练好的生成模型。

需要说明的是,预设阈值根据实际情况进行设定,此处不做限定。在一具体实施例中,预设阈值为0.01。

S54:通过训练好的生成模型输出标签样本对应的标注准确率。

具体的,上述步骤已经生成训练好的生成模型,再通过训练好的生成模型对标签样本进行概率估计,输出标签样本对应的标注准确率。

本实施例中,通过将生成模型的参数和样本标注概率的差值作为优化特征值,采用随机梯度下降的方式,将样本标注概率进行反向传播,以对初始参数进行迭代更新,当优化特征值达到预设阈值时,停止迭代更新,得到训练好的生成模型,通过训练好的生成模型输出标签样本对应的标注准确率,实现对生成模型进行训练,输出标签样本对应的标注准确率,从而有利于提高数据标注的准确率。

请参阅图5,图5示出了步骤S54的一种具体实施方式,步骤S54中通过训练好的生成模型输出标签样本对应的标注准确率的具体实现过程,详叙如下:

S541:通过训练好的生成模型的当前参数对标签样本进行概率估计,得到基础概率。

具体的,通过当前参数对标签样本进行概率估计,得到基础概率,便于后续对基础概率进行进一步处理,从而得到最终的标注准确率。其中当前参数是指优化特征值达到预设阈值时,迭代更新得到生成模型的参数。

具体的,由于生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。生成模型给观测值和标注数据序列指定一个联合概率分布。在本申请实施例中,隐含参数对应本申请的目标短语的真实标签,观测值对应本申请的样本标注概率,标注数据序列对应本申请的标签样本;所以根据该隐含参数,也即真实的数据标签,随机生成观测数据的模型,该模型有其当前参数构成,其能够判断出每一种预设标注规则对标签样本的概率估计,从而得到基础概率。

S542:对基础概率进行加权平均处理,得到标签样本对应的标注准确率。

具体的,通过对对基础概率进行加权平均处理,使得标注准确率更加精确。

本实施例中,通过训练好的生成模型的当前参数对标签样本进行概率估计,得到基础概率,并对基础概率进行加权平均处理,得到标签样本对应的标注准确率,使得生成标注准确率更加精确,从而有利于提高数据标注的准确率。

请参阅图6,图6示出了步骤S1的一种具体实施方式,步骤S1中获取待标注文本,并对待标注文本进行拆分,得到拆分语句的具体实现过程,详叙如下:

S11:获取待标注文本,并对待标注文本进行预处理,得到基础文本。

具体的,预处理包括对待标注文本进行数据清洗。其中,数据清洗(Datacleaning)是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

S12:采用正则匹配的方式,获取基础文本中包含的文本分隔符。

S13:通过文本分隔符对基础文本进行拆分,得到拆分语句。

具体的,采用正则匹配的方式,获取基础文本中包含的文本分隔符,用于后续步骤对文本进行分割。

可选地,文本分隔符包括格式分隔符和标点分隔符。

其中,格式分隔符指根据文本编码类型或文本的结构进行分割的分隔符。通过格式分隔符有实现根据文本的编码类型或文本的结构,将基础文本进行拆分。

其中,标点分隔符指根据标点符号将文本进行分割的分隔符。通过标点分隔符,实现快速将基本文本进行拆分。

本实施例中,通过获取待标注文本,并对待标注文本进行预处理,得到基础文本,采用正则匹配的方式,获取基础文本中包含的文本分隔符,通过文本分隔符对基础文本进行拆分,得到拆分语句,便于后续生成目标短语,有利于后续对其进行标注对应标签。

请参阅图7,图7示出了步骤S6之后的一种具体实施方式,该实施例包括:

S61:获取待标注文本的存储路径,作为目标存储路径;

S62:通过预设的数据映射方式,将目标标签样本映射到目标存储路径之中。

具体的,为了数据溯源,便于查询待标注文本对应的目标标签样本,将目标标签样本和待标注文件存储于同一路径之中。

其中,预设的数据映射方式包括但不限于:手工编码(Hand-coded)和可视化操作(Graphical manual)。手工编码是直接用类似XSLT,JAVA,C++这样的编程语言定义数据对应关系;可视化操作通常支持用户在数据项之间画一条线以定义数据项之间的对应关系。在一具体的实施例中,通过可视化操作将目标标签样本映射到目标存储路径之中。

请参阅图8,图8示出了对目标分词进行合并,得到目标短语的具体实现过程,详叙如下:

S2A:通过词性标注的方式,将目标分词进行词性标注,得到词性分词。

其中,词性标注也被称为语法标注或词类消疑,是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。词性标注可以由人工或特定算法完成,使用机器学习方法实现词性标注是自然语言处理的研究内容。常见的词性标注算法包括隐马尔可夫模型、条件随机场等。本申请实施例中,通过词性标注的方式,将目标分词进行词性标注,得到词性分词。

S2B:根据依存句法分析的方式,将符合一致性规则的词性分词进行合并,得到目标短语。

其中,一致性规则为使用主-谓-宾(SBV)关系,通过对应单词上作标注。例如“我吃苹果”标注为(我,Subject)、(吃,Predict)、(苹果,Object),将提取到的词性分词对应到词性上成分上,将符合一致性规则的词性分词进行合并,得到目标短语。

本实施例中,通过词性标注的方式,将目标分词进行词性标注,得到词性分词,并根据依存句法分析的方式,将符合一致性规则的词性分词进行合并,得到目标短语,实现对目标分词进行合并,便于后续进行数据标注。

需要强调的是,为进一步保证上述待标注文本的私密和安全性,上述待标注文本还可以存储于一区块链的节点中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

请参考图9,作为对上述图2所示方法的实现,本申请提供了一种基于生成模型的数据标注装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图9所示,本实施例的基于生成模型的数据标注装置包括:待标签文本拆分模块71、目标短语获取模块72、标签样本生成模块73、初始参数生成模块74、标注准确率输出模块75及标签样本选取模块76,其中:

待标签文本拆分模块71,用于获取待标注文本,并对待标注文本进行拆分,得到拆分语句;

目标短语获取模块72,用于通过对拆分语句进行分词处理,得到目标分词,并对目标分词进行合并,得到目标短语;

标签样本生成模块73,用于获取多种预设标注规则,并通过多种预设标注规则分别对目标短语进行标注,得到每一种预设规则对应的标签样本;

初始参数生成模块74,用于获取每一种预设标注规则对应的标签样本对目标短语的样本标注概率,并根据样本标注概率和标签样本,得到生成模型的初始参数;

标注准确率输出模块75,用于通过样本标注概率对生成模型的初始参数进行迭代更新,得到训练好的生成模型,并通过训练好的生成模型输出标签样本对应的标注准确率;

标签样本选取模块76,用于选取标注准确率最高的标签样本,作为目标标签样本。

进一步的,初始参数生成模块74包括:

样本标注概率获取单元,用于计算每一种预设标注规则对应的标签样本对目标短语的覆盖率,并将覆盖率作为样本标注概率;

初始化处理单元,用于将样本标签概率和标签样本进行初始化处理,得到生成模型的初始参数。

进一步的,标注准确率输出模块75包括:

优化特征值定义单元,用于将生成模型的参数和样本标注概率的差值作为优化特征值;

迭代更新进行单元,用于采用随机梯度下降的方式,将样本标注概率进行反向传播,以对初始参数进行迭代更新,其中,每次迭代更新都得到生成模型新的参数和优化特征值发生改变;

迭代更新停止单元,用于当优化特征值达到预设阈值时,停止迭代更新,得到训练好的生成模型;

标注准确率获取单元,用于通过训练好的生成模型输出标签样本对应的标注准确率。

进一步的,标注准确率获取单元包括:

基础概率获取子单元,用于通过训练好的生成模型的当前参数对标签样本进行概率估计,得到基础概率;

基础概率处理子单元,用于对基础概率进行加权平均处理,得到标签样本对应的标注准确率。

进一步的,待标签文本拆分模块71包括:

基础文本生成单元,用于获取待标注文本,并对待标注文本进行预处理,得到基础文本;

文本分隔符获取单元,用于采用正则匹配的方式,获取基础文本中包含的文本分隔符;

拆分语句生成单元,用于通过文本分隔符对基础文本进行拆分,得到拆分语句。

进一步的,在标签样本选取模块76之后,该基于生成模型的数据标注装置还包括:

目标存储路径获取模块,用于获取待标注文本的存储路径,作为目标存储路径;

数据映射模块,用于通过预设的数据映射方式,将目标标签样本映射到目标存储路径之中。

进一步的,目标短语获取模块72还包括:

词性分词生成单元,用于通过词性标注的方式,将目标分词进行词性标注,得到词性分词;

目标短语生成单元,用于根据依存句法分析的方式,将符合一致性规则的词性分词进行合并,得到目标短语。

需要强调的是,为进一步保证上述待标注文本的私密和安全性,上述待标注文本还可以存储于一区块链的节点中。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。

计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是,图中仅示出了具有三种组件存储器81、处理器82、网络接口83的计算机设备8,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field -Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器81至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器81可以是计算机设备8的内部存储单元,例如该计算机设备8的硬盘或内存。在另一些实施例中,存储器81也可以是计算机设备8的外部存储设备,例如该计算机设备8上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器81还可以既包括计算机设备8的内部存储单元也包括其外部存储设备。本实施例中,存储器81通常用于存储安装于计算机设备8的操作系统和各类应用软件,例如基于生成模型的数据标注方法的程序代码等。此外,存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器82在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备8的总体操作。本实施例中,处理器82用于运行存储器81中存储的程序代码或者处理数据,例如运行上述基于生成模型的数据标注方法的程序代码,以实现基于生成模型的数据标注方法的各种实施例。

网络接口83可包括无线网络接口或有线网络接口,该网络接口83通常用于在计算机设备8与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序可被至少一个处理器执行,以使至少一个处理器执行如上述的一种基于生成模型的数据标注方法的步骤。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 基于生成模型的数据标注方法、装置、设备及存储介质
  • 基于用户行为的数据标注方法、装置、设备及存储介质
技术分类

06120112810719