掌桥专利:专业的专利平台
掌桥专利
首页

一种数据价值评估方法、装置、设备和存储介质

文献发布时间:2023-06-19 13:46:35


一种数据价值评估方法、装置、设备和存储介质

技术领域

本发明涉及互联网和区块链技术领域,尤其涉及一种数据价值评估方法、装置、设备和存储介质。

背景技术

通过可信执行环境相关技术,结合对信任的强约束,搭建可信人工智能(Artificial Intelligence,AI)底层;数据通证化,通证化的数据利于数据定价、流转与追溯,一套数据可多次交易,优质数据在流转过程中又可进一步积累附加的可信价值,有利于规避柠檬市场问题,但在数据所述数据釜中,各可信AI与区块链底层相结合,存在如何避免将重复的、无价值或低价值的数据进入数据釜的问题。针对该问题,目前尚无有效解决方案。

发明内容

为解决现有存在的技术问题,本发明的主要目的在于提供一种数据价值评估方法、装置、设备和存储介质。

为达到上述目的,本发明的技术方案是这样实现的:

第一方面,本发明提供一种数据价值评估方法,应用于可信人工智能AI系统;所述可信AI系统至少包括数据代理节点和数据釜;所述方法包括:

获得待入所述数据釜的标签数据;

将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果;

根据所述比对结果判断所述标签数据是否准许录入所述数据釜。

在上述方案中,所述标签数据至少包括数据产生的场景类型标签数据、数据的格式类型标签数据、数据的条数标签数据和数据的补充描述标签数据;所述将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果,包括:

判断所述预设数据中是否存在与所述场景类型标签数据相同的第一数据;

在所述预设数据中存在与所述场景类型标签数据相同的所述第一数据的情况下,判断所述第一数据中的格式类型是否存在与所述格式类型标签不匹配的格式类型,在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获得所述标签数据的价值分数初始值;

基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果。

在上述方案中,所述方法还包括:

判断所述第一数据的总条数是否小于等于第一预设阈值;

在所述第一数据的总条数大于所述第一预设阈值的情况下;判断所述第一数据的格式类型是否存在与所述格式类型标签不匹配的格式类型,在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获所述第一数据的价值分数初始值;

基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果。

在上述方案中,所述基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果,包括:

判断所述格式类型标签的种类是否大于等于第二预设阈值,在所述格式类型标签的种类大于等于所述第二预设阈值的情况下,根据所述价值分数初始值、所述格式类型标签数据的种类和所述第二预设阈值确定所述格式类型标签数据的第一价值分数;

获得所述条数标签数据的条数与所述第一数据的条数的比值,根据所述比值确定所述条数标签数据的第二价值分数;

根据所述补充描述标签数据确定所述补充描述标签数据的第三价值分数;

基于所述第一价值分数、所述第二价值分数、所述第三价值分数确定所述比对结果为所述标签数据的第四价值分数。

在上述方案中,所述根据所述比对结果判断所述标签数据是否准许录入所述数据釜,包括:

判断所述第四价值分数是否大于等于第三预设阈值;

在所述第四价值分数大于等于所述第三预设阈值的情况下,确定所述标签数据准许录入所述数据釜;

在所述第四价值分数小于所述第三预设阈值的情况下,确定所述标签数据不准许录入所述数据釜。

在上述方案中,所述确定所述标签数据不准许录入所述数据釜之后,所述方法还包括:

重新获得基于所述数据代理节点更新所述补充描述标签数据后的目标标签数据;

在预设周期内,获得所述目标标签数据不准许录入所述数据釜的次数,判断所述次数是否大于等于第四预设阈值;

在所述次数是大于等于所述第四预设阈值的情况下,则在所述预设周期内不再获得待入所述数据釜的所述目标标签数据;

在所述次数是小于所述第四预设阈值的情况下,则在所述预设周期内再获得待入所述数据釜的所述目标标签数据,直到所述目标标签数据准许录入所述数据釜。

在上述方案中,所述方法还包括:

在所述预设数据中不存在与所述场景类型标签数据相同的所述第一数据的情况下,和/或,在所述第一数据的总条数小于等于所述第二预设阈值的情况下;确定所述标签数据准许录入所述数据釜;所述第二预设阈值与所述场景类型相关。

在上述方案中,所述方法还包括:

在所述第一数据中的格式类型存在与所述格式类型标签不匹配的格式类型的情况下,确定所述标签数据准许录入所述数据釜。

第二方面,本发明还提供一种数据价值评估装置,所述装置应用于可信人工智能AI系统;所述可信AI系统至少包括数据代理节点和数据釜;所述装置包括:获得单元、比对单元和判断单元,其中,所述获得单元,用于获得待入所述数据釜的标签数据;

所述比对单元,用于将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果;

所述判断单元,用于根据所述比对结果判断所述标签数据是否准许录入所述数据釜。

在上述方案中,所述标签数据至少包括数据产生的场景类型标签数据、数据的格式类型标签数据、数据的条数标签数据和数据的补充描述标签数据;

所述比对单元,还用于判断所述预设数据中是否存在与所述场景类型标签数据相同的第一数据; 在所述预设数据中存在与所述场景类型标签数据相同的所述第一数据的情况下,判断所述第一数据中的格式类型是否存在与所述格式类型标签不匹配的格式类型,在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获得所述标签数据的价值分数初始值;基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果。

在上述方案中,所述比对单元,还用于判断所述第一数据的总条数是否小于等于第一预设阈值;在所述第一数据的总条数大于所述第一预设阈值的情况下;判断所述第一数据的格式类型是否存在与所述格式类型标签不匹配的格式类型,在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获所述第一数据的价值分数初始值;基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果。

在上述方案中,所述比对单元,还用于判断所述格式类型标签的种类是否大于等于第二预设阈值,在所述格式类型标签的种类大于等于所述第二预设阈值的情况下,根据所述价值分数初始值、所述格式类型标签数据的种类和所述第二预设阈值确定所述格式类型标签数据的第一价值分数;获得所述条数标签数据的条数与所述第一数据的条数的比值,根据所述比值确定所述条数标签数据的第二价值分数;根据所述补充描述标签数据确定所述补充描述标签数据的第三价值分数;基于所述第一价值分数、所述第二价值分数、所述第三价值分数确定所述比对结果为所述标签数据的第四价值分数。

在上述方案中,所述判断单元,还用于判断所述第四价值分数是否大于等于第三预设阈值;在所述第四价值分数大于等于所述第三预设阈值的情况下,确定所述标签数据准许录入所述数据釜;在所述第四价值分数小于所述第三预设阈值的情况下,确定所述标签数据不准许录入所述数据釜。

在上述方案中,所述获得单元,还用于重新获得基于所述数据代理节点更新所述补充描述标签数据后的目标标签数据;在预设周期内,获得所述目标标签数据不准许录入所述数据釜的次数。

所述判断单元,还用于判断所述次数是否大于等于第四预设阈值;在所述次数是大于等于所述第四预设阈值的情况下,则在所述预设周期内不再获得待入所述数据釜的所述目标标签数据;在所述次数是小于所述第四预设阈值的情况下,则在所述预设周期内再获得待入所述数据釜的所述目标标签数据,直到所述目标标签数据准许录入所述数据釜。

在上述方案中,所述装置还包括确定单元,用于在所述预设数据中不存在与所述场景类型标签数据相同的所述第一数据的情况下,和/或,在所述第一数据的总条数小于等于所述第二预设阈值的情况下;确定所述标签数据准许录入所述数据釜;所述第二预设阈值与所述场景类型相关。

在上述方案中,所述确定单元,还用于在所述第一数据中的格式类型存在与所述格式类型标签不匹配的格式类型的情况下,确定所述标签数据准许录入所述数据釜。

第三方面,本发明实施例提供一种存储介质,所述存储介质上存储有计算机程序;所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

第四方面,本发明实施例提供一种数据价值评估设备,所述数据价值评估设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行上述任一项所述方法的步骤。

本发明实施例提供一种数据价值评估方法、装置、设备和存储介质。其中,所述方法应用于可信人工智能AI系统;所述可信AI系统至少包括数据代理节点和数据釜;所述方法包括:获得待入所述数据釜的标签数据;将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果;根据所述比对结果判断所述标签数据是否准许录入所述数据釜。采用本发明实施例的技术方案,通过根据所述比对结果判断所述标签数据是否准许录入所述数据釜,进而将价值程度较高的标签数据准许录入所述数据釜。

附图说明

图1为本发明实施例提供的一种数据价值评估方法的流程示意图;

图2为本发明实施例提供的一种数据价值评估方法的应用场景的流程示意图;

图3为本发明实施例提供的一种数据价值评估装置的结构示意图;

图4为本发明实施例提供的一种数据价值评估设备的一种硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对发明的具体技术方案做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

图1为本发明实施例提供的一种数据价值评估方法的流程示意图。如图1所示,所述方法应用于可信人工智能AI系统;所述可信AI系统至少包括数据代理节点和数据釜;所述方法包括:

S101:获得待入所述数据釜的标签数据。

需要说明的是,所述标签数据可以为所述数据代理节点提交的待入所述数据釜的数据描述对应的数据;所述标签数据可以根据实际情况进行确定,在此不做限定。作为一种示例,所述标签数据至少包括数据产生的场景类型标签数据、数据的格式类型标签数据、数据的条数标签数据和数据的补充描述标签数据。在实际应用中,所述标签数据也可以称为拟入釜数据,记为A。

S102:将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果。

需要说明的是,所述数据釜中的预设数据可以为所述数据釜中的历史数据;所述历史数据可以理解为所述数据釜中已有的数据。在实际应用中,所述数据釜可以看作是“多进少出”的数据匣子,其中存在很多可信AI(agent)和已经提交的数据描述,所述数据釜将已有的数据作为预设数据。

将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果可以为将所述标签数据与所述数据釜中的预设数据进行价值评估比对,获得表征所述标签数据价值程度的比对结果。在实际应用中,所述价值评估也可以称为价值评分或质量评分;所述价值评分或所述质量评分可以记为R。

S103:根据所述比对结果判断所述标签数据是否准许录入所述数据釜。

需要说明的是,根据所述比对结果判断所述标签数据是否准许录入所述数据釜可以为根据所述比对结果判断所述标签数据的价值分数是否大于等于预设阈值,获得判断结果;根据所述判断结果确定所述标签数据是否准许录入所述数据釜。其中,所述预设阈值可以根据实际情况进行确定,在此不做限定,作为一种示例,所述预设阈值可以为60。根据所述判断结果确定所述标签数据是否准许录入所述数据釜可以为在所述判断结果表明所述标签数据的价值分数大于等于所述预设阈值的情况下,确定所述标签数据准许录入所述数据釜;在所述判断结果表明所述标签数据的价值分数小于所述预设阈值的情况下,确定所述标签数据不准许录入所述数据釜。

本发明实施例提供的数据价值评估方法,通过获得待入所述数据釜的标签数据;将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果;根据所述比对结果判断所述标签数据是否准许录入所述数据釜,进而将价值程度较高的标签数据准许录入所述数据釜。

在本发明的一种可选实施例中,所述标签数据至少包括数据产生的场景类型标签数据、数据的格式类型标签数据、数据的条数标签数据和数据的补充描述标签数据;所述将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果,包括:判断所述预设数据中是否存在与所述场景类型标签数据相同的第一数据;在所述预设数据中存在与所述场景类型标签数据相同的所述第一数据的情况下,判断所述第一数据中的格式类型是否存在与所述格式类型标签不匹配的格式类型,在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获得所述标签数据的价值分数初始值;基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果。

需要说明的是,所述标签数据至少包括数据产生的场景类型标签数据、数据的格式类型标签数据、数据的条数标签数据和数据的补充描述标签数据;所述场景类型标签数据、所述格式类型标签数据、所述条数标签数据、所述补充描述标签数据均可以根据实际情况进行确定,在此不做限定。作为一种示例,所述场景类型标签数据可以指数据产生时的场景类型,例如,医疗、教育、购物、交通、住宿、餐饮、娱乐、自定义等,最少有一种;所述格式类型标签数据可以指数据格式,例如,数字、文字、图片、音频、视频、自定义等,最少有一种;所述条数标签数据可以指数据条数,例如,有1000条病例记录;所述补充描述标签数据可以为代理节点自行添加补充描述;例如,代理节点自行添加补充描述的形式是可扩展的“Key-Value”键值对,例如“特殊病例(key)——是(value)”或者“特殊病例(key)——包含Rh阴性血型、先天性XXX、XXXX症......其中的某2种(value)”,这种键值对信息可以是0对(无补充信息)或者多对(代理根据实际情况编辑),为了保护隐私,信息可能以模糊信息或者是信息混淆的方式来补充说明,但包含可以验证的真实信息。

判断所述预设数据中是否存在与所述场景类型标签数据相同的第一数据可以为将所述预设数据中任一数据的场景类型与所述场景类型标签数据进行比对,确定所述预设数据中是否存在与所述场景类型标签数据相同的第一数据。在实际应用中,所述第一数据可以为数据集合,该数据集合可以理解为找到同场景类型的数据集合,为了方便理解,该数据集合可以记为数据集合B。

在所述预设数据中存在与所述场景类型标签数据相同的所述第一数据的情况下可以理解为在所述预设数据中至少存在一个与所述场景类型标签数据重复的数据。

判断所述第一数据中的格式类型是否存在与所述格式类型标签数据不匹配的格式类型可以为将所述第一数据中的格式类型与所述格式类型标签数据的类型进行匹配,获得所述第一数据中的格式类型不存在与所述格式类型标签数据不匹配的格式类型或所述第一数据中的格式类型存在与所述格式类型标签数据不匹配的格式类型的结果。

在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获得所述标签数据的价值分数初始值;其中,所述价值分数初始值可以根据实际情况进行确定,在此不做限定。作为一种示例,所述价值分数初始值可以为0。在所述第一数据中的格式类型不存在与所述格式类型标签数据不匹配的格式类型的情况下可以理解为在所述第一数据中的格式类型中找不到与所述格式类型标签数据的类型相同的数据。

为了方便理解,这里示例说明,找到同场景类型的数据集合B,比较A和B的数据格式标签。如果拟入釜数据A的格式不存在B没有的格式,获得拟入釜数据A的价值分数初始值为0。

基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果可以为基于所述价值分数初始值、所述格式类型标签数据确定所述格式类型标签数据的第一价值分数;基于所述条数标签数据的条数与所述第一数据的条数确定所述条数标签数据的第二价值分数;根据所述补充描述标签数据确定所述补充描述标签数据的第三价值分数;基于所述第一价值分数、所述第二价值分数、所述第三价值分数确定所述比对结果。

在本发明的一种可选实施例中,所述方法还包括:判断所述第一数据的总条数是否小于等于第一预设阈值;在所述第一数据的总条数大于所述第一预设阈值的情况下;判断所述第一数据的格式类型是否存在与所述格式类型标签不匹配的格式类型,在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获所述第一数据的价值分数初始值;基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果。

需要说明的是,所述第一预设阈值可以根据实际情况进行确定,在此不做限定。在实际应用中,所述第一预设阈值可以为所述AI系统的阈值,该阈值可以与场景相关。在所述第一数据的总条数小于所述第一预设阈值的情况下可以理解为所述第一数据的总条数过少,还处于冷启动阶段;在所述第一数据的总条数大于所述第一预设阈值的情况下可以理解为所述第一数据的总条数达到所述第一预设阈值,不处于冷启动阶段。

基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果可以为基于所述价值分数初始值、所述格式类型标签数据确定所述格式类型标签数据的第一价值分数;基于所述条数标签数据的条数与所述第一数据的条数确定所述条数标签数据的第二价值分数;根据所述补充描述标签数据确定所述补充描述标签数据的第三价值分数;基于所述第一价值分数、所述第二价值分数、所述第三价值分数确定所述比对结果。

在本发明的一种可选实施例中,所述基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果,包括:判断所述格式类型标签的种类是否大于等于第二预设阈值,在所述格式类型标签的种类大于等于所述第二预设阈值的情况下,根据所述价值分数初始值、所述格式类型标签数据的种类和所述第二预设阈值确定所述格式类型标签数据的第一价值分数;获得所述条数标签数据的条数与所述第一数据的条数的比值,根据所述比值确定所述条数标签数据的第二价值分数;根据所述补充描述标签数据确定所述补充描述标签数据的第三价值分数;基于所述第一价值分数、所述第二价值分数、所述第三价值分数确定所述比对结果为所述标签数据的第四价值分数。

需要说明的是,所述第二预设阈值可以根据实际情况进行确定,在此不做限定,作为一种示例,所述第二预设阈值可以为1;作为一种示例,判断所述格式类型标签的种类是否大于等于第二预设阈值,在所述格式类型标签的种类大于等于所述第二预设阈值的情况下,根据所述价值分数初始值、所述格式类型标签数据的种类和所述第二预设阈值确定所述格式类型标签数据的第一价值分数可以为判断所述格式类型标签的种类是否大于等于1,在所述格式类型标签的种类大于等于1的情况下,根据所述价值分数初始值、所述格式类型标签数据的种类和所述第二预设阈值确定所述格式类型标签数据的第一价值分数;其中,根据所述价值分数初始值、所述格式类型标签数据的种类和所述第二预设阈值确定所述格式类型标签数据的第一价值分数可以为根据所述格式类型标签数据的种类和所述第二预设阈值确定所述格式类型标签数据的种类加分值,基于所述价值分数初始值和所述种类加分值确定所述格式类型标签数据的第一价值分数。

为了方便理解,这里示例说明,A与B进行更细致的比较,R初始值设为0。如果A的数据格式种类超过1种,R增加10,再每增加1种,R增加5,由格式种类的加分最多加30分。

获得所述条数标签数据的条数与所述第一数据的条数的比值可以为将所述条数标签数据的条数与所述第一数据的条数相除,获得所述条数标签数据的条数与所述第一数据的条数的比值。根据所述比值确定所述条数标签数据的第二价值分数可以为判断所述比值所在的预设范围,根据所述预设范围确定所述条数标签数据的第二价值分数;其中,所述预设范围可以根据实际情况进行确定,在此不做限定,作为一种示例,所述预设范围可以为(0,0.01)、【0.01,0.05)、【0.05,0.1)、【0.1, 1)等。

为了方便理解,这里示例说明,计算A的条数与B的条数的比值x,如果x≥0.1,R增加60,如果0.05≤x<0.1,R增加40,如果0.01≤x<0.05,R增加20,如果x<0.01,R增加10。

根据所述补充描述标签数据确定所述补充描述标签数据的第三价值分数可以为判断所述补充描述标签数据中是否有补充数据描述,获得所述补充描述标签数据中有补充数据描述或所述补充描述标签数据中没有补充数据描述的判断结果,根据所述判断结果确定所述补充描述标签数据的第三价值分数。作为一种示例,其中,所述根据所述判断结果确定所述补充描述标签数据的第三价值分数可以为在所述判断结果表征为在所述补充描述标签数据中有补充数据描述的情况下,确定所述补充描述标签数据的增加分值,将所述增加分值作为第三价值分数,或者,在所述判断结果表征为在所述补充描述标签数据中没有补充数据描述的情况下,确定所述补充描述标签数据的第三价值分数为零。

为了方便理解,这里示例说明,如果A有补充数据描述,R增加10;如果A没有补充数据描述,R增加为0。

基于所述第一价值分数、所述第二价值分数、所述第三价值分数确定所述比对结果为所述标签数据的第四价值分数可以为将所述第一价值分数、所述第二价值分数、所述第三价值分数相加,确定所述比对结果为所述标签数据的第四价值分数。

在本发明的一种可选实施例中,所述方法还包括:从所述预设数据中匹配出与所述标签数据相似程度最高的目标数据,判断所述目标数据是否与所述标签数据重复,在所述目标数据与所述标签数据重复的情况下,更新所述第四价值分数。

需要说明的是,在所述目标数据与所述标签数据重复的情况下,更新所述第四价值分数可以为在所述目标数据与所述标签数据重复的情况下,将所述第四价值分数减少预设阈值分值,获得第五价值分数,将所述第五价值分数更新所述第四价值分数。

为了方便理解,这里示例说明,根据A的全部描述,在B中寻找最近似的一条数据描述C。先匹配各标签,然后通过NLP分词和语义分析匹配补充描述,找到最接近的记录C,判断A和C是否为重复数据,如果数据标签一致,且补充描述的语义内容相近,将R减少40。

在本发明的一种可选实施例中,所述根据所述比对结果判断所述标签数据是否准许录入所述数据釜,包括:判断所述第四价值分数是否大于等于第三预设阈值;在所述第四价值分数大于等于所述第三预设阈值的情况下,确定所述标签数据准许录入所述数据釜;在所述第四价值分数小于所述第三预设阈值的情况下,确定所述标签数据不准许录入所述数据釜。

需要说明的是,所述第三预设阈值可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第三预设阈值可以为60。

判断所述第四价值分数是否大于等于第三预设阈值可以为判断所述第四价值分数是否大于等于60;在所述第四价值分数大于等于所述第三预设阈值的情况下,确定所述标签数据准许录入所述数据釜可以为在所述第四价值分数大于等于60的情况下,确定所述标签数据准许录入所述数据釜;在所述第四价值分数小于所述第三预设阈值的情况下,确定所述标签数据不准许录入所述数据釜可以为在所述第四价值分数小于60的情况下,确定所述标签数据不准许录入所述数据釜。

在实际应用中,所述第四价值分数可以为评分结果;可以根据评分结果决定是否接收该数据入釜。如果R≥60,数据A可以入釜,否则退还给代理节点。

在本发明的一种可选实施例中,所述确定所述标签数据不准许录入所述数据釜之后,所述方法还包括:重新获得基于所述数据代理节点更新所述补充描述标签数据后的目标标签数据;在预设周期内,获得所述目标标签数据不准许录入所述数据釜的次数,判断所述次数是否大于等于第四预设阈值;在所述次数是大于等于所述第四预设阈值的情况下,则在所述预设周期内不再获得待入所述数据釜的所述目标标签数据;在所述次数是小于所述第四预设阈值的情况下,则在所述预设周期内再获得待入所述数据釜的所述目标标签数据,直到所述目标标签数据准许录入所述数据釜。

需要说明的,重新获得基于所述数据代理节点更新所述补充描述标签数据后的目标标签数据可以理解为数据代理节点可以优化数据补充说明后再次提交入釜申请。

所述预设周期可以根据实际情况进行确定,在此不做限定。作为一种示例,所述预设周期可以为一周。

在预设周期内,获得所述目标标签数据不准许录入所述数据釜的次数可以为在一周内,统计所述目标标签数据不准许录入所述数据釜的次数。

判断所述次数是否大于等于第四预设阈值;其中,所述第四预设阈值可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第四预设阈值可以为3次。

在实际应用中,如果R<60,数据A不可以入釜,退还给数据代理节点。数据代理节点可以优化数据补充说明后再次提交入釜申请,重复上述的流程,如果在系统周期内(例如一周内)该数据被打回3次,需等待下一周期才能提交该数据的入釜申请。

在本发明的一种可选实施例中,所述方法还包括:在所述预设数据中不存在与所述场景类型标签数据相同的所述第一数据的情况下,和/或,在所述第一数据的总条数小于等于所述第二预设阈值的情况下;确定所述标签数据准许录入所述数据釜;所述第二预设阈值与所述场景类型相关。

需要说明的是,在所述预设数据中不存在与所述场景类型标签数据相同的所述第一数据的情况下可以理解为在所述预设数据中没有与所述场景类型标签数据相同的重复数据。即说明所述标签数据的价值程度较高。

在所述第一数据的总条数小于等于所述第二预设阈值的情况下可以理解为在所述预设数据中没有与所述场景类型标签数据相同的重复数据,但该重复数据的总条数小于等于所述第二预设阈值;该重复数据的总条数小于等于所述第二预设阈值可以理解为该类型数据条数过少,还处于冷启动阶段。即说明所述标签数据的价值程度较高。

在实际应用中,如果釜中还没有相同场景类型的数据,或者B的总条数低于某个系统阈值(相当于该类型数据条数过少,还处于冷启动阶段;阈值与场景相关,C端市场数据一般为1000,B端或G端数据一般为100,可以根据具体场景调整),则R记为100,接收该数据入釜。

在本发明的一种可选实施例中,所述方法还包括:在所述第一数据中的格式类型存在与所述格式类型标签不匹配的格式类型的情况下,确定所述标签数据准许录入所述数据釜。

需要说明的是,在所述第一数据中的格式类型存在与所述格式类型标签不匹配的格式类型的情况下可以理解为所述标签数据的格式存在所述预设数据没有的格式,即表明所述标签数据的价值程度较高。

在实际应用中,找到同场景类型的数据集合B,比较A和B的数据格式标签。如果拟入釜数据A的格式存在B没有的格式,则R记为100,接收该数据入釜。

本发明实施例提供的数据价值评估方法,通过数据釜根据已有的数据,对预备进入数据釜的数据进行比较,判断拟进入的数据是否为重复的、无价值或低价值的数据,将重复的、无价值或低价值的数据不准入釜,将不重复的、价值程度高的数据准入釜。

为了理解本发明实施例,本发明实施例示例一种数据价值评估方法的具体应用场景,该具体应用场景包括判断数据是否具有准入价值,与釜内现有数据的比对的具体过程。图2为本发明实施例提供的一种数据价值评估方法的应用场景的流程示意图,可以结合图2进行理解。

数据釜可以看作是“多进少出”的数据匣子,其中存在很多可信AI(agent)和已经提交的数据描述,数据釜根据已有的数据,对预备进入数据釜的数据进行比较,判断拟进入的数据是否为重复的、无价值或低价值的数据。具体步骤:

第一步:数据代理节点提交的拟入釜数据描述。

需要说明的是,数据描述应包括几类数据标签:(1)数据产生的场景,即指数据产生时的场景类型,例如,医疗、教育、购物、交通、住宿、餐饮、娱乐、自定义等,最少有一种。(2)数据格式,例如,数字、文字、图片、音频、视频、自定义等,最少有一种。(3)数据条数,例如,有1000条病例记录。(4)补充描述,由代理节点自行添加补充描述。建议的形式是可扩展的“Key-Value”键值对,例如“特殊病例(key)——是(value)”或者“特殊病例(key)——包含Rh阴性血型、先天性XXX、XXXX症......其中的某2种(value)”,这种键值对信息可以是0对(无补充信息)或者多对(代理根据实际情况编辑),为了保护隐私,信息可能以模糊信息或者是信息混淆的方式来补充说明,但包含可以验证的真实信息。

第二步:数据釜将从第一步获取到的拟入釜数据与所述数据釜中数据进行比较,为拟入釜的数据进行质量评分。

需要说明的是,所述拟入釜数据可以记为釜数据A;所述质量评分可以记为R;所述质量评分可以评价所述拟入釜数据是否具有准入价值,一般,所述质量评分越高,准入价值越高;所述质量评分越低,准入价值越低。

作为一种示例,数据釜将从第一步获取到的拟入釜数据与所述数据釜中数据进行比较,为拟入釜的数据进行质量评分可以为数据釜将从第一步获取到的拟入釜数据A与所述数据釜中数据进行比较,为拟入釜的数据进行质量评分(R)。具体步骤如下:

(1)如果所述数据釜中还没有相同场景类型的数据,或者所述数据釜中有相同场景类型的数据B的总条数低于某个系统阈值(相当于该类型数据条数过少,还处于冷启动阶段;阈值与场景相关,C端市场数据一般为1000,B端或G端数据一般为100,可以根据具体场景调整),则R记为100,进入第三步。否则,进入(2)。

(2)找到同场景类型的数据集合B,比较A和B的数据格式标签。如果拟入釜数据A的格式存在B没有的格式,则R记为100,进入第三步;否则进入(3)。

(3)A与B进行更细致的比较,R初始值设为0。

作为一种示例,A与B进行更细致的比较可以为如下过程:

(31)如果A的数据格式种类超过1种,R增加10,每增加1种,R增加5,由格式种类的加分最多加30分。

(32)计算A的条数与B的条数的比值x,如果x≥0.1,R增加60,如果0.05≤x<0.1,R增加40,如果0.01≤x<0.5,R增加20,如果x<0.01,R增加10。

(33)如果A有补充数据描述,R增加10。

(34)根据A的全部描述,在B中寻找最近似的一条数据描述C。先匹配各标签,然后通过NLP分词和语义分析匹配补充描述,找到最接近的记录C,判断A和C是否为重复数据,如果数据标签一致,且补充描述的语义内容相近,将R减少40。

第三步:根据第二步得出的评分结果,决定是否接收该数据入釜。如果R≥60,数据A可以入釜,否则退还给代理节点。代理节点可以优化数据补充说明后再次提交入釜申请,重复第一步至第二步的流程,如果在系统周期内(例如一周内)该数据被打回3次,需等待下一周期才能提交该数据的入釜申请。

需要说明的是,这里所出现的名词在前述已经详细描述,在此不再赘述。

基于与前述相同的发明构思,图3为本发明实施例提供的一种数据价值评估装置的结构示意图,所述装置200应用于可信人工智能AI系统;所述可信AI系统至少包括数据代理节点和数据釜;所述装置200包括:获得单元201、比对单元202和判断单元203,其中,

所述获得单元201,用于获得待入所述数据釜的标签数据;

所述比对单元202,用于将所述标签数据与所述数据釜中的预设数据进行比对,获得表征所述标签数据价值程度的比对结果;

所述判断单元203,用于根据所述比对结果判断所述标签数据是否准许录入所述数据釜。

在一些实施例中,所述标签数据至少包括数据产生的场景类型标签数据、数据的格式类型标签数据、数据的条数标签数据和数据的补充描述标签数据;

所述比对单元202,还用于判断所述预设数据中是否存在与所述场景类型标签数据相同的第一数据; 在所述预设数据中存在与所述场景类型标签数据相同的所述第一数据的情况下,判断所述第一数据中的格式类型是否存在与所述格式类型标签不匹配的格式类型,在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获得所述标签数据的价值分数初始值;基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果。

在一些实施例中,所述比对单元202,还用于判断所述第一数据的总条数是否小于等于第一预设阈值;在所述第一数据的总条数大于所述第一预设阈值的情况下;判断所述第一数据的格式类型是否存在与所述格式类型标签不匹配的格式类型,在所述第一数据中的格式类型不存在与所述格式类型标签不匹配的格式类型的情况下,获所述第一数据的价值分数初始值;基于所述价值分数初始值、所述格式类型标签数据、所述条数标签数据和所述补充描述标签数据确定所述比对结果。

在一些实施例中,所述比对单元202,还用于判断所述格式类型标签的种类是否大于等于第二预设阈值,在所述格式类型标签的种类大于等于所述第二预设阈值的情况下,根据所述价值分数初始值、所述格式类型标签数据的种类和所述第二预设阈值确定所述格式类型标签数据的第一价值分数;获得所述条数标签数据的条数与所述第一数据的条数的比值,根据所述比值确定所述条数标签数据的第二价值分数;根据所述补充描述标签数据确定所述补充描述标签数据的第三价值分数;基于所述第一价值分数、所述第二价值分数、所述第三价值分数确定所述比对结果为所述标签数据的第四价值分数。

在一些实施例中,所述判断单元203,还用于判断所述第四价值分数是否大于等于第三预设阈值;在所述第四价值分数大于等于所述第三预设阈值的情况下,确定所述标签数据准许录入所述数据釜;在所述第四价值分数小于所述第三预设阈值的情况下,确定所述标签数据不准许录入所述数据釜。

在一些实施例中,所述获得单元201,还用于重新获得基于所述数据代理节点更新所述补充描述标签数据后的目标标签数据;在预设周期内,获得所述目标标签数据不准许录入所述数据釜的次数。

在一些实施例中,所述判断单元203,还用于判断所述次数是否大于等于第四预设阈值;在所述次数是大于等于所述第四预设阈值的情况下,则在所述预设周期内不再获得待入所述数据釜的所述目标标签数据;在所述次数是小于所述第四预设阈值的情况下,则在所述预设周期内再获得待入所述数据釜的所述目标标签数据,直到所述目标标签数据准许录入所述数据釜。

在一些实施例中,所述装置200还包括确定单元,用于在所述预设数据中不存在与所述场景类型标签数据相同的所述第一数据的情况下,和/或,在所述第一数据的总条数小于等于所述第二预设阈值的情况下;确定所述标签数据准许录入所述数据釜;所述第二预设阈值与所述场景类型相关。

在一些实施例中,所述确定单元,还用于在所述第一数据中的格式类型存在与所述格式类型标签不匹配的格式类型的情况下,确定所述标签数据准许录入所述数据釜。

需要说明的是,本发明实施例提供的数据价值评估装置与前述的本发明实施例提供的数据价值评估方法属于同一发明构思,此处所出现的词语的含义在前述已经详细说明,在此不再赘述。

本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序处理器被处理器执行时实现上述方法实施例的步骤,而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种数据价值评估设备,所述数据价值评估设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行存储在存储器中的上述方法实施例的步骤。

图4为本发明实施例提供的一种数据价值评估设备的一种硬件结构示意图,该数据价值评估设备30包括:至少一个处理器301、存储器302,可选的,数据价值评估设备30还可进一步包括至少一个通信接口303,数据价值评估设备30中的各个组件通过总线系统304耦合在一起,可理解,总线系统304用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统304。

可以理解,存储器302可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器302旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器302用于存储各种类型的数据以支持数据价值评估设备30的操作。这些数据的示例包括:用于在数据价值评估设备30上操作的任何计算机程序,实现本发明实施例方法的程序可以包含在存储器302中。

上述本发明实施例揭示的方法可以应用于处理器301中,或者由处理器301实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。

在示例性实施例中,数据价值评估设备30可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行上述方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

技术分类

06120113806837