掌桥专利:专业的专利平台
掌桥专利
首页

一种数据标注方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 09:24:30


一种数据标注方法、装置、存储介质及电子设备

技术领域

本发明实施例涉及数据处理技术领域,尤其涉及一种数据标注方法、装置、存储介质及电子设备。

背景技术

深度学习的发展使得人工智能效果有了很大的进步,人工智能的应用越来越广泛,尤其在金融应用领域,如在金融领域中的智能机器人对文档、交易流水、客户交互记录、工单数据、语音数据、监控数据及图像数据的处理,均可采用深度学习的方式进行高效地处理。但深度学习对高质量有标注数据的要求也成为了一大难点,尤其对应用于金融系统中的金融数据的标注。因此,如何准确地对应用于金融系统中金融数据进行标注变得至关重要。

发明内容

本发明实施例提供一种数据标注方法、装置、存储介质及电子设备,可以有效提高对应用于金融系统中的金融数据标注的准确性。

第一方面,本发明实施例提供了一种数据标注方法,该方法包括:

获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据;

基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果;

基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据;

基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。

第二方面,本发明实施例还提供了一种数据标注装置,该装置包括:

第一数据集合获取模块,用于获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据;

预标注结果获取模块,用于基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果;

最终标注结果确定模块,用于基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据;

数据标注模块更新模块,用于基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。

第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的数据标注方法。

第四方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的数据标注方法。

本发明实施例中提供的数据标注方案,获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据;基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果;基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据;基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。通过采用上述技术手段,能够有效提高对应用于金融系统中的金融数据标注的准确性和效率,有利于为金融系统提供更高质量的具有标注结果的数据源。

附图说明

图1为本发明实施例提供的一种数据标注方法的流程示意图;

图2为本发明实施例提供的另一种数据标注方法的流程示意图;

图3为本发明实施例提供的另一种数据标注方法的流程示意图;

图4为本发明实施例提供的一种数据标注装置的结构框图;

图5为本发明实施例提供的一种电子设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的一种数据标注方法的流程示意图,该方法可以由数据标注装置执行,其中该装置可由软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法包括:

步骤101、获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据。

在本发明实施例中,获取第一样本数据集合,其中,第一样本数据集合中包含至少一个应用于金融系统中的样本数据。可选的,应用于金融系统中的样本数据可以包括文档、交易流水、客户交互记录、工单数据、语音数据、监控数据及图像数据中的任意一种。示例性的,可以对预设时间段内金融系统中的数据进行埋点采集,并对采集到的原始数据进行预处理操作,生成对应的样本数据。其中,预处理操作可以包括数据的格式转换及无效数据的踢除等操作。

需要说明的是,本发明实施例对第一样本数据集合中包含的样本数据的数量不做限制。

步骤102、基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果。

在本发明实施例中,数据标注模型可以理解为可以快速确定出样本数据的预标注结果的网络模型。基于数据标注模型对第一样本数据集合中的样本数据进行预标注,确定样本数据的标注结果,可以理解为,利用数据标注模型对第一样本数据集合中的样本数据进行预分类,从而可以根据分类结果对各个样本数据打标签。其中,样本数据的不同分类也可以称作不同的标签。例如,对于金融系统中图像数据,在人脸标注的应用中,图像数据的分类结果包括图像数据中包含人脸和不包含人脸,也即图像数据中是否包含人脸为该数据的预标注结果。又示例性的,对金融系统中的文档数据进行标注时,文档数据的分类结果可以包括11种不同的分类结果,每种分类结果可以不用不同的数字进行标注。

可选的,基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果,包括:将所述第一样本数据集合中的样本数据输入至数据标注模型中,获取所述数据标注模型的输出结果;其中,所述输出结果包括所述样本数据属于各个预设类型的概率;将所述输出结果中概率最大的预设类型作为所述样本数据的预标注结果。这样设置的好处在于,可以根据数据标注模型的输出结果准确确定样本数据的预标注结果。

示例性的,将第一样本数据集合中的各个样本数据分别输入至数据标注模型中,数据标注模型分别对各个样本数据进行分析,并对应输出样本数据的分析结果,也即数据标注模型的输出结果,在数据标注模型的输出结果包括该样本数据属于各个预设类型的概率,其中,概率值越大表示该样本数据属于对应预设类型的可能性越大,反之,概率值越小表示该样本数据属于对应预设类型的可能性越小。例如,在金融系统中的样本数据为文本数据,该文本数据对应的预设类型共包含5中,则在将文本数据输入至数据标注模型后,数据标注模型的输出结果为一个包含5个元素的向量,向量中的每个元素表示属于对应的预设类型的概率值。将数据标注模型的输出结果中概率最大的预设类型作为样本数据的预标注结果。

在本发明实施例中,数据标注模型可以理解为能够简单对样本数据进行预标注的初标注模型,但是此时,数据标注模型对数据进行标注的准确性可能不是很高。可选的,在基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注之前,还包括:获取第二样本数据集合;其中,所述第二样本数据集合中包含至少一个应用于所述金融系统的样本数据;获取所述第二样本数据集合中的样本数据的人工标注结果;基于所述第二样本数据集合中的样本数据及对应的人工标注结果对预设机器学习模型进行训练,生成所述数据标注模型。示例性的,获取第二样本数据集合,其中,第二样本数据集合中包含至少一个应用于金融系统的样本数据。例如,可以从金融系统数据库中随机抽取预设数量的样本数据,基于随机抽取的预设数量的样本数据构成的第二样本数据集合。获取用户对第二样本数据集合中的各个样本数据的人工标注结果,并基于第二样本数据集合中的样本数据及对应的人工标注结果对预设机器学习模型进行训练,生成数据标注模型。可以理解的是,基于人工标注结果对第二样本数据集合中的各个样本数据进行标注,将标注好对应的人工标注结果的样本数据作为数据标注模型的训练样本集,利用训练样本集对预设机器学习模型进行训练,生成数据标注模型。其中,预设机器学习模型可以包括支持向量机、逻辑回归、卷积神经网络模型或长短时记忆网络模型等机器学习模型。

步骤103、基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据。

由于数据标注模型对样本数据进行预标注时,可能存在一定偏差,即标注准确性不能达到百分百,因此,基于数据标注模型获取的第一样本数据集合中的各个样本数据的预标注结果中,并不是每个预标注结果都可以作为样本数据的最终标注结果,故需要对存在偏差的预标注结果进行修正。在本发明实施例中,从第一样本数据集合中选取第一数目的样本数据和第二数目的样本数据,其中,第一数目的样本数据可以理解为预标注结果存在偏差的样本数据,第二数目的样本数据可以理解为预标注结果比较准确的样本数据。示例性的,可以将预标注结果对应的标注概率小于第一概率阈值的样本数据作为第一样本数据,将预标注结果对应的标注概率大于第二概率阈值的样本数据作为第二样本数据。其中,第一概率阈值小于或等于第二概率阈值。需要说明的是,本发明实施例对从第一样本数据集合中选取第一数目的样本数据和第二数目的样本数据的方式不做限定。

在本发明实施例中,获取用户对第一数目的样本数据的预标注结果的反馈信息,并基于反馈信息确定第一数目的样本数据的最终标注结果。其中,反馈信息可以包括对第一数目的样本数据的预标注结果的修正标注结果,如将修正标注结果作为第一数目的样本数据的最终标注结果。可以将第二数目的样本数据的预标注结果直接作为对应的样本数据的最终标注结果。通过上述方式,可以准确确定出第一样本数据集合中第三数目的样本数据的最终标注结果,其中,第三数目的样本数据可以理解为第一样本数据集合中的第一数目的样本数据和第二数目的样本数据构成的样本数据集合,第三数目为第一数目和第二数目的和。需要说明的是,第三数目小于或等于第一样本数据集合中包含的样本数据的总量。

步骤104、基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。

在本发明实施例中,将第三数目的样本数据(也即第一数目的样本数据与第二数目的样本数据)及对应的最终标注结果输入至数据标注模型中,重新对数据标注模型进行训练,以更新数据标注模型。可以理解的是,增加了数据标注模型的训练样本的数据量,而且新增的样本数据为具备准确标注结果的数据,可以有效提高基于数据标注模型进行标注的准确性。

本发明实施例中提供的数据标注方法,本发明实施例中提供的数据标注方案,获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据;基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果;基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据;基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。通过采用上述技术手段,能够有效提高对应用于金融系统中的金融数据标注的准确性和效率,有利于为金融系统提供更高质量的具有标注结果的数据源。

在一些实施例中,在基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型之后,还包括:基于所述第一样本数据集合中的剩余样本数据更新所述第一样本数据集合,将更新后的数据标注模型作为所述数据标注模型,并返回执行基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,直至所述第一样本数据集合中不存在剩余样本数据,其中,所述剩余样本数据为第一样本数据集合中除所述第三数目的样本数据之外的样本数据。这样设置的好处在于,可以基于具有准确标注结果的样本数据不断更新数据标注模型,有效提高了基于数据标注模型进行标注的准确性。

示例性的,在基于第三数目的样本数据及对应的最终标注结果,更新数据标注模型后,判断第一样本数据集合中是否存在除第三数据的样本数据之外的剩余样本数据,若是,则将剩余样本数据重新构成第一样本数据集合,并更新后的数据标注模型作为新的数据标注模型,并返回执行上述步骤102-步骤104,直至第一样本数据集合中不存在剩余样本数据。可以理解的是,通过上述步骤,基于第一样本数据集合中的部分样本数据及对应的最终数据标注结果,不断更新数据标注模型,直至基于第一样本数据集合中所有的样本数据及其对应的最终数据标注结果更新数据标注模型为止。例如,在第一轮更新数据标注模型的过程中,初始的第一样本数据集合中共包含10万条样本数据,基于初始的数据标注模型获取到这10万条样本数据的预标注结果后,从10万条样本数据中选取出2000条的样本数据作为第一数目的样本数据,5000条的样本数据作为第二数目的样本数据,并基于用户对选取的2000条样本数据的预标注结果的反馈信息确定对应的样本数据的最终标注结果,将选取的5000条样本数据的预标注结果作为对应的样本数据的最终标注结果。然后,基于7000条样本数据及对应的最终标注结果更新初始的数据标注模型,从而完成数据标注模型的第一轮更新操作。在完成数据标注模型的第一轮更新操作后,第一样本数据集合(10万条样本数据)中除第一数目的样本数据(2000条样本数据)及第二数目的样本数据(5000条样本数据)外,剩余样本数据9.3万条。在本发明实施例中,将9.3万条剩余样本数据重新作为第一样本数据集合,将更新后的数据标注模型作为新的数据标注模型。在第二轮更新数据标注模型的过程中,将9.3万条剩余样本数据重新输入至更新后的数据标注模型中,从而获取9.3万条剩余样本数据的预标注结果,并通过步骤103确定出1万条样本数据(第一数目的样本数据3000条和第二数目的样本数据7000条)的最终标注结果,然后基于该1万条样本数据及对应的最终标注结果更新数据标注模型。在经过第二轮数据标注模型的更新操作后,剩余8.3万样本数据,然后再次通过上述步骤102-步骤104不断更新数据标注模型,直至经过某一轮数据标注模型的更新操作后,第一样本数据集合中不存在剩余样本数据。需要说明的是,在每一轮数据标注模型的更新过程中,第一数目和第二数目可以相同,也可以不同,本发明实施例对此不做限定。

在一些实施例中,基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注时,还包括:确定所述样本数据的数据权重;其中,所述数据权重用于指示所述样本数据的预标注结果的准确性;基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果,包括:基于所述数据权重从所述第一样本数据集合中选取第一数目的样本数据和第二数目的样本数据;获取用户对所述第一数目的样本数据的预标注结果的反馈信息,并基于所述反馈信息确定所述第一数目的样本数据的最终标注结果;将所述第二数目的样本数据的预标注结果作为所述第二数目的样本数据的最终标注结果。这样设置的好处在于,可以基于数据权重从第一样本数据集中合理选取第一数目的预标注结果准确性低的样本数据和第二数目的预标注结果准确性高的样本数据,从而有助于进一步提高数据标注模型进行数据标注的准确性。

示例性的,基于数据标注模型对第一样本数据集合中的样本数据进行预标注时,根据数据标注模型的输出结果确定样本数据的数据权重,其中,数据权重可以准确反映对应的样本数据的预标注结果的准确性。因此,可以基于数据权重从第一样本数据集合中选取第一数目的预标注结果准确性低的样本数据以及第二数目的预标注结果准确性高的样本数据。对于第一数目的样本数据,可以基于用户对该样本数据的反馈信息确定该样本数据的最终标注结果,也可以理解为将用户对第一数目的样本数据的预标注结果的修正标注结果作为最终标注结果,或者舍弃第一数目的样本数据的预标注结果,直接以用户对第一数目的样本数据的人工标注结果作为最终标注结果。而对于第二数目的样本数据,可直接将其预标注结果作为最终的标注结果。

可选的,确定所述样本数据的数据权重,包括:获取所述数据标注模型输出的所述第一样本数据集合中样本数据属于各个预设类型的概率;基于所述样本数据属于各个预设类型的概率确定所述样本数据的数据权重。示例性的,针对第一样本数据集合中的每个样本数据,将该样本数据输入至数据标注模型后,获取数据标注模型针对该样本数据的输出结果,其中,输出结果可以为一个向量,在该向量中包含该样本数据属于各个预设类型的概率,可以将该样本数据属于各个预设类型的概率的最大值作为该样本数据的数据权重,也可以基于该样本数据属于各个预设类型的概率分布确定该样本数据的数据权重。

示例性的,基于所述样本数据属于各个预设类型的概率确定所述样本数据的数据权重,包括:从所述样本数据属于各个预设类型的概率中确定最大概率;将所述最大概率作为所述样本数据的数据权重;其中,所述数据权重越大,所述样本数据的预标注结果的准确性越高。可以理解的是,将样本数据属于各个预设类型的概率中的最大概率作为该样本数据的数据权重,也即将样本数据的预标注结果对应的标注概率作为该样本数据的数据权重。这样设置的好处在于,可以直接基于预标注结果对应的标注概率确定该样本数据的数据权重,可直接反映预标注结果的准确性高低。

可选的,基于所述样本数据属于各个预设类型的概率确定所述样本数据的数据权重,包括:基于所述样本数据属于各个预设类型的概率确定所述各个预设类型的概率分布的熵;将所述概率分布的熵作为所述样本数据的数据权重;其中,所述数据权重越小,所述样本数据的预标注结果的准确性越大。可选的,基于所述样本数据属于各个预设类型的概率确定所述各个预设类型的概率分布的熵,包括:根据如下公式计算所述各个预设类型的概率分布的熵:

Entropy=-∑p

其中,Entropy表示概率分布的熵,p

示例性的,根据数据标注模型的输出结果确定样本数据属于各个预设类型的概率分布,并基于样本数据属于各个预设类型的概率分布计算概率分布的熵。通过上述计算概率分布的熵的公式可知,样本数据属于各个预设类型的概率分布越分散,对应的熵值越小,也即数据权重越小,样本数据的预标注结果的准确性越大;反之,样本数据属于各个预设类型的概率分布越集中,对应的熵值越大,也即数据权重越大,样本数据的预标注结果的准确性越小。

在一些实施例中,基于所述数据权重从所述第一样本数据集合中选取第一数目的样本数据和第二数目的样本数据,包括:基于所述数据权重对所述第一样本数据集合中的样本数据进行排序,生成样本数据列表;从所述样本数据列表中选取数据权重最大或最小的第一数目的样本数据和数据权重最小或最大的第二数目的样本数据。示例性的,当将样本数据属于各个预设类型的概率中的最大概率作为数据权重时,此时,数据权重越大,样本数据的预标注结果的准确性越高。因此,可从第一样本数据集合中选取数据权重小于第一预设权重阈值的样本数据作为预标注结果不准确的第一数目的样本数据,从第一样本数据集合中选取数据权重大于第二预设权重阈值的预标注结果较准确的第二数目的样本数据,其中,此时第一预设权重阈值小于或等于第二预设权重阈值。当将样本数据属于各个预设类型的概率分布的熵作为数据权重时,此时,数据权重越小,样本数据的预标注结果的准确性越高。因此,可从第一样本数据集合中选取数据权重大于第一预设权重阈值的预标注结果不准确的第一数目的样本数据,从第一样本数据集合中选取数据权重小于第二预设权重阈值的预标注结果较准确的第二数目的样本数据,其中,此时第一预设权重阈值大于或等于第二预设权重阈值。

在一些实施例中,在基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果之前,还包括:计算所述数据标注模型进行数据标注的准确率;基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果,包括:当所述数据标注模型进行数据标注的准确率小于预设准确率阈值时,基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果。

示例性的,在基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果之前,计算数据标注模型进行数据标注的准确率,并判断数据标注模型进行数据标注的准确率是否小于预设准确率阈值,若是,则基于该数据标注模型确定第一样本数据集合中样本数据的预标注结果,并基于上述实施例中的步骤103-步骤104更新该数据标注模型,以提高该数据标注模型进行数据标注的准确率。当数据标注模型进行数据标注的准确率大于预设准确率阈值时,则不需要通过上述步骤102-步骤104来更新数据标注模型,可直接基于当前数据标注模型对待标注数据进行标注。可选的,计算所述数据标注模型进行数据标注的准确率,包括:获取测试数据集合,其中,测试数据集合中包含至少一个应用于金融系统的测试数据,并获取测试数据集合中各个测试数据的真实标注结果;将测试数据集合中的各个测试数据输入至该数据标注模型中,基于数据标注模型的输出结果确定各个测试数据的预标注结果;确定测试数据集合中的预测数据的预标注结果与真实标注结果一致的目标数量,将该目标数量与测试数据集合中包含的预测数据的总数量的比值作为数据标注模型的准确率。

在一些实施例中,在基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型之后,还包括:获取至少一个测试数据及所述测试数据的真实标注结果;其中,所述测试数据为应用于金融系统的数据;将所述测试数据输入至所述数据标注模型中,基于所述数据标注模型的输出结果确定所述测试数据的测试标注结果;基于所述真实标注结果及所述测试标注结果计算所述数据标注模型进行数据标注的准确率。这样设置的好处在于,可以准确地计算出数据标注模型进行数据标注的准确率,从而有助于判断更新后的数据标注模型是否可以直接用于进行数据标注或是否需要进一步对数据标注模型进行更新。

示例性的,获取测试数据及测试数据的真实标注结果,基于数据标注模型对测试数据进行预标注,将数据标注模型输出的预标注结果作测试数据的测试标注结果。确定测试数据的测试标注结果与真实标注结果相同的数量,将测试标注结果与真实标注结果相同的数量与测试数据的总量的比值作为更新后的数据标注模型进行数据标注的准确率。当更新后的数据标注模型进行数据标注的准确率大于预设阈值时,可直接基于该数据标注模型对待标注数据进行标注;当更新后的数据标注模型进行数据标注的准确率小于预设阈值时,可继续获取其他样本数据或基于第一样本数据集合中除第三数目的样本数据外的剩余样本数据,通过上述步骤102-步骤104对数据标注模型进行更新。

图2为本发明实施例提供的另一种数据标注方法的流程示意图,如图2所示,该方法包括如下步骤:

步骤201、获取第二样本数据集合;其中,所述第二样本数据集合中包含至少一个应用于金融系统的样本数据。

步骤202、获取所述第二样本数据集合中的样本数据的人工标注结果。

步骤203、基于所述第二样本数据集合中的样本数据及对应的人工标注结果对预设机器学习模型进行训练,生成数据标注模型。

步骤204、获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据。

步骤205、将所述第一样本数据集合中的样本数据输入至数据标注模型中,获取所述数据标注模型的输出结果;其中,所述输出结果包括所述样本数据属于各个预设类型的概率。

步骤206、将所述输出结果中概率最大的预设类型作为所述样本数据的预标注结果。

步骤207、基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据。

步骤208、基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。

步骤209、判断第一样本数据集合中是否存在除第三数目的样本数据之外的样本数据,若是,则执行步骤210,否则,执行步骤211。

步骤210、基于所述第一样本数据集合中的剩余样本数据更新所述第一样本数据集合,将更新后的数据标注模型作为所述数据标注模型,并返回执行步骤205。

步骤211、数据标注结束。

本发明实施例中提供的数据标注方法,通过数据标注模型对第一样本数据集合中的样本数据进行预标注,确定样本数据的预标注结果,并基于预标注结果和/或用户对预标注结果的反馈信息,确定第一样本数据集合中样本数据的最终标注结果,基于第一样本数据集合中的样本数据及对应的最终标注结果,不断更新数据标注模型,不仅可以基于具有准确标注结果的样本数据不断更新数据标注模型,有效提高了基于数据标注模型进行标注的准确性,还有利于为金融系统提供更高质量的具有标注结果的数据源。

图3为本发明实施例提供的另一种数据标注方法的流程示意图,如图3所示,该方法包括如下步骤:

步骤301、获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据。

步骤302、基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果及数据权重。

其中,所述数据权重用于指示所述样本数据的预标注结果的准确性。

可选的,确定所述样本数据的数据权重,包括:获取所述数据标注模型输出的所述第一样本数据集合中样本数据属于各个预设类型的概率;基于所述样本数据属于各个预设类型的概率确定所述样本数据的数据权重。

可选的,基于所述样本数据属于各个预设类型的概率确定所述样本数据的数据权重,包括:从所述样本数据属于各个预设类型的概率中确定最大概率;将所述最大概率作为所述样本数据的数据权重;其中,所述数据权重越大,所述样本数据的预标注结果的准确性越高。

可选的,基于所述样本数据属于各个预设类型的概率确定所述样本数据的数据权重,包括:基于所述样本数据属于各个预设类型的概率确定所述各个预设类型的概率分布的熵;将所述概率分布的熵作为所述样本数据的数据权重;其中,所述数据权重越小,所述样本数据的预标注结果的准确性越大。可选的,基于所述样本数据属于各个预设类型的概率确定所述各个预设类型的概率分布的熵,包括:根据如下公式计算所述各个预设类型的概率分布的熵:

Entropy=-∑p

其中,Entropy表示概率分布的熵,p

步骤303、基于所述数据权重从所述第一样本数据集合中选取第一数目的样本数据和第二数目的样本数据。

可选的,基于所述数据权重从所述第一样本数据集合中选取第一数目的样本数据和第二数目的样本数据,包括:基于所述数据权重对所述第一样本数据集合中的样本数据进行排序,生成样本数据列表;从所述样本数据列表中选取数据权重最大或最小的第一数目的样本数据和数据权重最小或最大的第二数目的样本数据。

可选的,基于所述数据权重从所述第一样本数据集合中选取第一数目的样本数据和第二数目的样本数据,包括:从所述第一样本数据集合中选取数据权重的大于或小于第一预设权重阈值的样本数据作为第一数目的样本数据;从所述第一样本数据集合中选取数据权重的小于或大于第二预设权重阈值的样本数据作为第二数目的样本数据。

步骤304、获取用户对所述第一数目的样本数据的预标注结果的反馈信息,并基于所述反馈信息确定所述第一数目的样本数据的最终标注结果。

步骤305、将所述第二数目的样本数据的预标注结果作为所述第二数目的样本数据的最终标注结果。

步骤306、基于所述第一数目的样本数据和第二数据的样本数据以及与所述样本数据对应的最终标注结果,更新所述数据标注模型。

步骤307、获取至少一个测试数据及所述测试数据的真实标注结果;其中,所述测试数据为应用于金融系统的数据。

步骤308、将所述测试数据输入至更新后的数据标注模型中,基于所述数据标注模型的输出结果确定所述测试数据的测试标注结果。

步骤309、基于所述真实标注结果及所述测试标注结果计算所述数据标注模型进行数据标注的准确率。

需要说明的是,本发明实施例对步骤304与步骤305的执行顺序不做限定,可以先执行步骤304,再执行步骤305,还可以先执行步骤305,后执行步骤304,还可以同时执行步骤304余步骤305。

本发明实施例中提供的数据标注方法,可以基于具有准确标注结果的样本数据不断更新数据标注模型,有效提高了基于数据标注模型进行标注的准确性。而且还可以准确地计算出更新后的数据标注模型进行数据标注的准确率,从而有助于判断更新后的数据标注模型是否可以直接用于进行数据标注或是否需要进一步对数据标注模型进行更新。

图4为本发明实施例提供的一种数据标注装置的结构框图,该装置可由软件和/或硬件实现,一般集成在电子设备中,可通过执行数据标注方法来进行数据标注。如图4所示,该装置包括:

第一数据集合获取模块401,用于获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据;

预标注结果获取模块402,用于基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果;

最终标注结果确定模块403,用于基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据;

数据标注模块更新模块404,用于基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。

本发明实施例中提供的数据标注装置,获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据;基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果;基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据;基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。通过采用上述技术手段,能够有效提高对应用于金融系统中的金融数据标注的准确性和效率,有利于为金融系统提供更高质量的具有标注结果的数据源。

可选的,所述预标注结果获取模块,用于:

将所述第一样本数据集合中的样本数据输入至数据标注模型中,获取所述数据标注模型的输出结果;其中,所述输出结果包括所述样本数据属于各个预设类型的概率;

将所述输出结果中概率最大的预设类型作为所述样本数据的预标注结果。

可选的,所述装置还包括:

第二数据集合获取模块,用于在基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注之前,获取第二样本数据集合;其中,所述第二样本数据集合中包含至少一个应用于所述金融系统的样本数据;

人工标注结果获取模块,用于获取所述第二样本数据集合中的样本数据的人工标注结果;

数据标注模型生成模块,用于基于所述第二样本数据集合中的样本数据及对应的人工标注结果对预设机器学习模型进行训练,生成所述数据标注模型。

可选的,所述装置还包括:

重复更新模块,用于在基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型之后,基于所述第一样本数据集合中的剩余样本数据更新所述第一样本数据集合,将更新后的数据标注模型作为所述数据标注模型,并返回执行基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,直至所述第一样本数据集合中不存在剩余样本数据,其中,所述剩余样本数据为第一样本数据集合中除所述第三数目的样本数据之外的样本数据。

可选的,所述装置还包括:

数据权重确定模块,用于基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注时,确定所述样本数据的数据权重;其中,所述数据权重用于指示所述样本数据的预标注结果的准确性;

所述最终标注结果确定模块,包括:

样本数据选取单元,用于基于所述数据权重从所述第一样本数据集合中选取第一数目的样本数据和第二数目的样本数据;

第一最终标注结果确定单元,用于获取用户对所述第一数目的样本数据的预标注结果的反馈信息,并基于所述反馈信息确定所述第一数目的样本数据的最终标注结果;

第二最终标注结果确定单元,用于将所述第二数目的样本数据的预标注结果作为所述第二数目的样本数据的最终标注结果。

可选的,所述数据权重确定模块,包括:

概率获取单元,用于获取所述数据标注模型输出的所述第一样本数据集合中样本数据属于各个预设类型的概率;

数据权重确定单元,用于基于所述样本数据属于各个预设类型的概率确定所述样本数据的数据权重。

可选的,所述数据权重确定单元,用于:

从所述样本数据属于各个预设类型的概率中确定最大概率;

将所述最大概率作为所述样本数据的数据权重;其中,所述数据权重越大,所述样本数据的预标注结果的准确性越高。

可选的,所述数据权重确定单元,用于:

基于所述样本数据属于各个预设类型的概率确定所述各个预设类型的概率分布的熵;

将所述概率分布的熵作为所述样本数据的数据权重;其中,所述数据权重越小,所述样本数据的预标注结果的准确性越大。

可选的,基于所述样本数据属于各个预设类型的概率确定所述各个预设类型的概率分布的熵,包括:

根据如下公式计算所述各个预设类型的概率分布的熵:

Entropy=-∑p

其中,Entropy表示概率分布的熵,p

可选的,所述样本数据选取单元,用于:

基于所述数据权重对所述第一样本数据集合中的样本数据进行排序,生成样本数据列表;

从所述样本数据列表中选取数据权重最大或最小的第一数目的样本数据和数据权重最小或最大的第二数目的样本数据。

可选的,所述样本数据选取单元,用于:

从所述第一样本数据集合中选取数据权重的大于或小于第一预设权重阈值的样本数据作为第一数目的样本数据;

从所述第一样本数据集合中选取数据权重的小于或大于第二预设权重阈值的样本数据作为第二数目的样本数据。

可选的,所述装置还包括:

第一准确率计算模块,用于在基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果之前,计算所述数据标注模型进行数据标注的准确率;

所述预标注结果获取模块,用于:

当所述数据标注模型进行数据标注的准确率小于预设准确率阈值时,基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果。

可选的,所述装置还包括:

测试数据获取模块,用于在基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型之后,获取至少一个测试数据及所述测试数据的真实标注结果;其中,所述测试数据为应用于金融系统的数据;

测试标注结果确定模块,用于将所述测试数据输入至所述数据标注模型中,基于所述数据标注模型的输出结果确定所述测试数据的测试标注结果;

第二准确率计算模块,用于基于所述真实标注结果及所述测试标注结果计算所述数据标注模型进行数据标注的准确率。

本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行数据标注方法,该方法包括:

获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据;

基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果;

基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据;

基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的数据标注操作,还可以执行本发明任意实施例所提供的数据标注方法中的相关操作。

本发明实施例提供了一种电子设备,该电子设备中可集成本发明实施例提供的数据标注装置。图5为本发明实施例提供的一种电子设备的结构框图。电子设备500可以包括:存储器501,处理器502及存储在存储器501上并可在处理器运行的计算机程序,所述处理器502执行所述计算机程序时实现如本发明实施例所述的数据标注方法。

本发明实施例中提供的电子设备,获取第一样本数据集合;其中,所述第一样本数据集合中包含至少一个样本数据,所述样本数据为应用于金融系统的数据;基于数据标注模型对所述第一样本数据集合中的样本数据进行预标注,确定所述样本数据的预标注结果;基于用户对所述第一样本数据集合中第一数目的样本数据的预标注结果的反馈信息及第二数目的样本数据的预标注结果,确定所述第一样本数据集合中第三数目的样本数据的最终标注结果;其中,所述第三数目的样本数据为第一数目的样本数据和第二数目的样本数据;基于所述第三数目的样本数据及与所述样本数据对应的最终标注结果,更新所述数据标注模型。通过采用上述技术手段,能够有效提高对应用于金融系统中的金融数据标注的准确性和效率,有利于为金融系统提供更高质量的具有标注结果的数据源。

上述实施例中提供的数据标注装置、存储介质及电子设备可执行本发明任意实施例所提供的数据标注方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的数据标注方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

相关技术
  • 一种数据标注方法、装置、电子设备及存储介质
  • 一种数据标注的方法、装置、可读存储介质和电子设备
技术分类

06120112149860