掌桥专利:专业的专利平台
掌桥专利
首页

数据标注的校验方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 11:05:16


数据标注的校验方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域,更具体地,涉及一种数据标注的校验方法、装置、电子设备及存储介质。

背景技术

人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。现阶段,机器学习是研究和实现人工智能的一种热点研究方法。机器学习通过算法解析和大量的学习数据,在相似的环境里做出决定或预测。

数据在机器学习中具有重要的作用。但数据本身杂乱无章,为了更加有效的去使用数据,最大程度的发挥数据的价值,需要对数据进行标注。数据本身包含着多维信息,例如性别、年龄、地点等。现有技术中通常可以通过算法等智能的方式对数据进行标注,但算法等方式也很难做到100%的标注准确率,因此在实际操作中不免还是会依赖人工对数据进行标注。而以人工的方式进行标注,主观性较强,需要多人进行标注。但专职标注人员较少,也存在标注不规范等情况。

发明内容

有鉴于此,本申请实施例提出了一种数据标注的校验方法、装置、电子设备及存储介质,以改善上述问题。

第一方面,本申请实施例提供了一种数据标注的校验方法,所述方法包括:

当用户进行交互任务时,展示待校验数据和验证问题;所述验证问题根据所述待校验数据和所述待校验数据的待校验标注获得;

获取用户对所述验证问题的回复内容;

根据所述回复内容验证用户是否通过交互任务,以及

根据所述回复内容校验所述待校验标注。

第二方面,本申请实施例还提供了一种数据标注的校验装置,所述装置包括:

验证模块,用于当用户进行交互任务时,展示待校验数据和验证问题;其中,所述验证问题根据所述待校验数据和所述待校验数据的待校验标注获得;

回复内容获取模块,用于获取用户对所述验证问题的回复内容;

任务验证模块,用于根据所述回复内容验证用户是否通过交互任务;

校验模块,用于根据所述回复内容校验所述待校验标注。

第三方面,本申请实施例还提供了一种电子设备,所述电子设备包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行以实现上述的方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行以实现上述的方法。

本发明提供的技术方案,当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对所述验证问题的回复内容,并根据所述回复内容验证用户是否通过交互任务,且根据所述回复内容校验所述待校验标注,从而将数据标注的校验与交互任务进行结合以实现对数据标注进行校验,提高数据标注校验的准确性,降低数据标注校验的难度和成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本发明保护的范围。

图1示出了本申请另一实施例所涉及的一种应用环境的示意图;

图2示出了本申请又一实施例所涉及的一种应用环境的示意图;

图3示出了本申请一实施例提出的一种数据标注的校验方法的流程示意图;

图4示出了本申请另一实施例提出的一种数据标注的校验方法的流程示意图;

图5示出了本申请又一实施例提出的一种数据标注的校验方法的流程示意图;

图6示出了本申请再一实施例提出的一种数据标注的校验方法的流程示意图;

图7示出了本申请再一实施例中步骤S480的流程示意图;

图8示出了本申请还一实施例提出的一种数据标注的校验方法的流程示意图;

图9示出了本申请还一实施例中步骤S508的流程示意图;

图10示出了本申请又另一实施例提出的一种数据标注的校验方法的流程示意图;

图11示出了本申请一实施例提出的一种数据标注的校验装置的结构框图;

图12示出了本申请一实施例提出的一种电子设备的结构框图;

图13示出了本申请一实施例提出的一种计算机可读存储介质的结构框图。

具体实施方式

日前,随着大数据、人工智能等行业的崛起,数据的重要性也与日俱增。数据本身包含着多维信息,例如性别、大致年龄、地点等,准确的数据标注对机器学习具有重要的作用。而现有技术一般通过算法等方式对数据进行标注,算法等方式存在误差,难以做到100%的标注准确率,依然存在偏离正常阈值的异常数据标注,这些异常的数据标注无法直接使用,如果通过人工进行标注,在参与标注的人数较少的情况下,会由于人的主观性导致数据标注的偏差,实际上专职标注人员较少,而且人工标注还存在标注不规范等问题。

为了改善上述问题,发明人提出了本申请提供的数据标注的校验方法、装置、电子设备及存储介质,当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对验证问题的回复内容,并根据回复内容验证用户是否通过交互任务,且根据回复内容校验待校验标注,从而将数据标注的校验与交互任务进行结合以实现对数据标注进行校验,提高数据标注校验的准确性,降低数据标注校验的难度和成本。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

下面将针对本发明实施例提供的数据标注的校验方法的应用环境进行介绍。

作为一种实施方式,本申请实施例提供的一种数据标注的校验系统可以包括交互终端100。

在本实施例中,交互终端100可以包括但不限于智能手机、平板电脑、门禁验证终端等终端设备。交互终端100可以与用户进行交互,包括展示信息给用户和获取用户输入的信息。在一些实施方式中,交互终端100可以包括但不限于显示屏、扬声器、摄像头、触控屏等部件,以通过显示交互界面、显示交互文本或图片、播放交互视频、播放交互音频等方式向用户展示信息,或者通过获取用户图像、用户在显示屏触发的命令、用户声音等方式获取用户输入的信息。

在一些实施方式中,交互终端100还可以集成有数据采集模块。数据采集模块可以通过麦克风、摄像头、触控屏等部件采集音频、视频、图像、文本等数据。交互终端100也可以通过但不限于性别标注算法、年龄标注算法、地点标注算法等数据标注算法,以对采集的数据进行标注。交互终端100还可以通过标注准确度的匹配算法对数据的标注准确度进行计算。在本申请的实施例中,准确度低于预设阈值的标注无法正常使用,可以作为待校验标注,并通过交互终端100与用户的交互进行校验。

请参阅图1,图1示出了本申请实施例提供的另一种数据标注的校验系统,该数据标注的校验系统包括:交互终端100和服务器200。

在本实施例中,交互终端100的结构可以参照上述实施例的描述,在此不再进行赘述。

在本实施例中,交互终端100通过互联网与服务器200进行连接。可选地,上述互联网使用标准通信技术和/或协议。互联网通常为因特网,但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

在本实施例中,服务器200可以采用传统服务器200,也可以采用云端服务器200,在此不做限定。

在一些实施方式中,服务器200可以集成有数据采集模块,交互终端100可以不包括数据采集模块,由服务器200采集数据。可选地,服务器200采集的数据通过互联网传输给交互终端100,再由交互终端100对数据进行处理,以确定采集数据中的待校验数据和待校验标注。可选地,服务器200可以先将采集的数据进行处理,以确定采集数据中的待校验数据和待校验标注,然后服务器200将待校验数据和待校验标注通过互联网传输给交互终端100。

在另一些实施方式中,服务器200和交互终端100均集成有数据采集模块,由服务器200和交互终端100共同采集数据。可选地,服务器200采集的数据通过互联网传输给交互终端100,再由交互终端100统一将采集的数据进行处理,以确定采集数据中的待校验数据和待校验标注。此处,采集的数据包括交互终端100采集的数据和服务器200采集的数据。可选地,交互终端100可以将采集的数据发送给服务器200,服务器200将采集的数据进行处理,以确定采集数据中的待校验数据和待校验标注,然后服务器200将待校验数据和待校验标注通过互联网传输给交互终端100。此处,采集的数据包括交互终端100采集的数据和服务器200采集的数据。

具体地,数据采集模块的具体结构可以参照上述实施例的描述,在此不再赘述。

请参阅图2,图2示出了本申请实施例提供的又一种数据标注的校验系统,该数据标注的校验系统包括:交互终端100和服务器200和数据采集终端300。

在本实施例中,交互终端100的结构可以参照上述实施例的描述,在此不再进行赘述。

在本实施例中,服务器200的结构可以参照上述实施例的描述,在此不再进行赘述。

在本实施例中,交互终端100与服务器200通过互联网连接。服务器200通过互联网与数据采集终端300连接。

在一些实施方式中,数据采集终端300可以包括但不限于智能手机、平板电脑、可穿戴设备、门禁验证终端等终端设备。数据采集终端300可以包括但不限于麦克风、摄像头、触控屏等部件,从而可以通过上述部件采集音频、视频、图像、文本等数据。

在一些实施方式中,服务器200和交互终端100均不包括数据采集模块,仅由数据采集终端300采集数据。

在另一些实施方式中,服务器200和交互终端100的至少其中之一集成有数据采集模块。例如,服务器200集成有数据采集模块,交互终端100不包括数据采集模块。又如服务器200不包括数据采集模块,交互终端100集成有数据采集模块。还如服务器200和交互终端100均集成有数据采集模块。

在一些实施方式中,对采集的数据进行处理以确定采集数据中的待校验数据和待校验标注的步骤由交互终端100、服务器200或数据采集模块的至少其中之一进行处理。具体可以参照上述实施例的描述,在此不再赘述。

下面将结合附图具体描述本申请的各实施例。

请参阅图3,本申请一实施例提供了一种数据标注的校验方法,可应用于交互终端100,本实施例描述的是交互终端100侧的步骤流程,该方法可以包括步骤S110至步骤S140。

步骤S110、当用户进行交互任务时,展示待校验数据和验证问题。验证问题根据待校验数据和待校验数据的待校验标注获得。

在一些实施方式中,交互任务是指用户与交互终端100交互过程中,需要用户根据对应要求完成的任务。

作为一种实施方式,交互任务可以是身份识别任务。例如用户在登录账号、打卡、开门、支付或者其它需要具有权限的用户才可以执行的操作时,可以通过身份识别任务以识别用户的身份。

作为另一种实施方式,交互任务还可以是非身份认证任务。

可选地,非身份认证任务可以是通关任务。例如用户为了获得奖励需要完成的任务,例如通过完成通关任务可以获得积分提升账号等级,或者通过完成通关任务可以解锁下一关卡的游戏等。

可选地,非身份认证任务可以是调查任务。例如可以随机发送给任意用户,有调查意愿的用户可以完成调查任务。也可以通过设置奖励等方式鼓励用户配合完成调查任务。

可选地,非身份认证任务可以是免除任务,用户可以通过完成免除任务以免除用户的其他特定任务。例如非会员用户在播放器观看视频时,可以选择完成在短时间内可以做完的免除任务,从而可以免除需要观看的广告。

在一些实施方式中,待校验数据是指具有待校验标注的采集数据。作为一种实施方式,采集数据可以是交互终端100采集获得,采集数据也可以是服务器200采集获得,采集数据还可以是数据采集装置采集获得。采集数据经过数据标注算法标注后,具有至少一个对于采集数据的标注。具体地,还可以进一步通过算法计算该标注的准确度。如果标注的准确度低于预设阈值,则该标注无法直接使用,该标注需进行校验。需要进行校验的标注为待校验标注。待校验标注对应的采集数据为待校验数据。

在一些实施方式中,标注可以是对待校验数据的特定标签对应的内容。例如待校验数据为一用户声音的音频,标签为“性别”,标注为“男性”。可以理解的是,待校验标注可以是一个或多个。每个待校验标注对应一个标签。若待校验数据的多个标签的标注的准确度都低于预设阈值,则待校验数据可以具有多个待校验标注。例如,待校验数据为一用户音频,对应性别标签的标注为“男生”的准确度低于预设阈值,对应年龄标签的标注为“30~40岁”的准确度低于预设阈值。则该待校验数据包括性别为“男生”和年龄为“30~40岁”两个待校验标注。

可选地,待校验数据可以是图片、音频、视频、文本等一种或多种数据形式。

在一些实施方式中,验证问题是根据待校验数据和待校验标注获得。验证问题是为了对待校验标注的准确性进行判断。可以通过验证问题获得用户对待校验数据的标注,从而判断待校验标注的准确度。

作为一种实施方式,验证问题可以是直接获取用户对待校验数据的标注。例如:待校验数据为音频,待校验标注为性别为男生。验证问题可以是“请问音频中说话的人的性别是?”。

作为另一种实施方式,验证问题可以是将待检验标注作为选项获取用户的判断内容。例如:待校验数据为音频,待校验标注性别为“男生”。验证问题可以是“请问音频中说话的人是男生吗?”或者“请问音频中说话的人不是男生吗?”

在一些实施方式中,展示待校验数据的方式可以根据待校验数据的数据形式进行选择,例如待校验数据为音频,可以通过扬声器播放音频的方式展示待校验数据。又如待校验数据为视频,可以通过显示屏播放视频的方式展示待校验数据。还如待校验数据为图片,可以通过显示屏展示图片的方式展示待校验数据等。

在一些实施方式中,展示验证问题可以通过播放音频、播放视频、展示文本、展示图片中的一种或者多种方式。

在一些实施方式中,对于待校验数据对应的一个待校验标注可以设置一个或多个验证问题。

步骤S120、获取用户对验证问题的回复内容。

其中,用户可以通过多种方式回复验证问题,根据用户的回复方式可以选择对应的方式获取用户回复的内容。

作为一种实施方式,用户可以通过语音的方式回复验证问题,交互终端100可以通过麦克风采集用户的语音。交互终端100还可以进一步通过调用语音识别算法对用户的语音进行识别。例如,验证问题为“这个用户是男生吗?”,获取用户的语音,通过语音识别获得用户的语音内容为“是的”,则可以确认用户的回复内容为“这个用户是男生”。

作为另一种实施方式,用户可以通过手势的方式回复验证问题,交互终端100可以通过摄像头获取用户的图像。交互终端100还可以进一步通过调用手势识别算法对用户的手势进行识别,通过相应手势对应的含义获取用户对验证问题的回复内容。例如,验证问题为“这个用户是男生吗?”,交互终端100通过摄像头获取用户的图像,交互终端100通过调取手势识别算法识别用户的图像,获得用户的图像对应的手势为“OK”手势,假设预先设定“OK”手势表示同意,则可以确认用户的回复内容为“这个用户是男生”。

作为又一种实施方式,用户可以通过选择交互终端100显示屏显示的对应的选项的方式回复验证问题,可以获取被用户激活的选项对应的内容作为用户对验证问题的回复内容。例如,验证问题为“这个用户是男生吗?”,交互终端100显示的交互界面提供了“是”和“否”两个选项,当用户选择选项“是”时,则可以确认用户的回复内容为“这个用户是男生”。

作为还一种实施方式,用户可以通过头部动作的方式回复验证问题,交互终端100可以通过摄像头获取用户的头部动作。交互终端100还可以进一步通过头部动作识别算法对用户的头部动作进行识别,通过相应头部动作的含义获取用户对验证问题的回复内容。例如,验证问题为“这个用户是男生吗?”,交互终端100通过摄像头获取用户的多张头部图像以确定用户的头部动作。例如,验证问题为“这个用户是男生吗?”,交互终端100通过摄像头获取用户的多张图像,交互终端100通过调取头部动作识别算法识别用户的多张图像,进而获得多张图像对应的头部动作为“点头”,假设预先设定“点头”的头部动作表示同意,则可以确认用户的回复内容为“这个用户是男生”。

步骤S130、根据回复内容验证用户是否通过交互任务。

其中,交互终端100根据对应交互任务的要求选择对应的验证方式对回复内容进行验证,从而验证用户是否通过交互任务。

作为一种实施方式,当交互任务是身份识别任务时,交互终端100根据回复内容提取用户的身份特征,通过比对用户的身份特征和目标身份特征验证用户是否通过交互任务。当用户的身份特征与目标身份特征匹配时,用户通过验证。具体地,交互终端100可以通过用户的回复方式选择提取用户的身份特征的方式。例如,当用户通过语音回复时,交互终端100可以通过麦克风获取用户的语音,交互终端100可以调用声纹提取算法提取用户语音中的声纹特征,交互终端100还可以调用声纹匹配算法对用户的声纹特征和目标身份特征进行匹配,从而通过匹配结果判断用户身份。又如,又如,当用户通过手势回复时,交互终端100可以通过摄像头获取用户的图像。可以理解的是,摄像头具有一定的拍摄范围,可以通过设置摄像头的拍摄范围,使摄像头获取的图像不仅包括用户的手势还包括用户的人脸,因此交互终端100还可以进一步利用获取的用户的图像,提取用户的图像中的人脸特征。交互终端100通过调用人脸识别算法对用户的人脸特征和目标身份特征进行匹配,从而通过匹配结果判断用户身份。再如,当用户通过选择选项的方式回复时,交互终端100在用户在显示屏上点击选项框时获取用户的指纹特征。可以理解的是,为了提高获取指纹特征的成功率,还可以通过提醒用户在对应选择的选项框处停留预设时间,例如2~3秒,以提高获取指纹特征的成功率。还如,当用户通过头部动作回复时,交互终端100可以通过摄像头获取用户的图像,提取用户的图像中的人脸特征。交互终端100通过调用人脸识别算法对用户的人脸特征和目标身份特征进行匹配,从而通过匹配结果判断用户身份。

作为一种实施方式,当交互任务是非身份识别任务,例如是通关任务或者调查任务又或者是免除任务时,交互终端100可以通过判断用户是否提供了回复内容,验证用户是否通过交互任务。当用户提供了回复内容,确认用户通过交互任务。

在一些情况下,获取的回复内容可能是无效的回复内容,例如噪音、或者用户回复的与验证问题无关的内容。无效的回复内容表示用户没有成功按照对应要求完成交互任务,且无效的回复内容对校验待校验标注无法起到任何作用,因此,进一步地,还可以通过识别回复内容与验证问题是否相关,以验证用户是否通过交互任务。若用户提供了回复内容且回复内容与验证问题相关,则用户通过验证。

步骤S140、根据回复内容校验待校验标注。

其中,用户的回复内容可以是用户对待校验数据的标注内容的确定,例如回复内容为“这个声音是男生”。用户的回复内容也可以是用户对待校验数据的标注内容的排除,例如用户的回复内容为“这个地方不是公园”。用户的回复内容还可以是用户对待校验数据的内容的不确定,有些音频音质较差,无法识别出声音对应用户的性别。

通过用户的回复内容可以获取用户对待校验数据的标注,例如用户确定待校验数据的标注为某个具体的标注内容,还如用户确定待校验数据的标注不为某个具体的标注内容,也可以是用户无法确定待校验数据的标注具体的标注内容。通过用户对待校验数据的标注可以判断待校验标注为待校验数据的标注的准确性。

在一些实施方式中,交互终端100还可以综合多人的回复内容校验待校验标注的准确性。交互终端100在每个用户执行交互任务后更新对校验批注的校验结果,并判断是否达到校验终止条件。当达到校验终止条件时,获得待校验批注的校验结果。交互终端100的多人执行交互任务的场景可以包括但不限于有大量用户进出的门禁场景、超市收银台、自动售货机等有大量用户使用的支付场景等。在多人场景下,可以获得大量用户的回复内容,根据大量用户的回复内容校验待校验标注,可以降低人工主观性对待校验标注校验结果的影响,提高待校验标注的校验结果的准确性。

可以理解的是,本申请的实施例对步骤S130与步骤S140的顺序不作限制,步骤S130是交互终端100通过回复内容校验用户是否通过交互任务,步骤S140是交互终端100通过回复内容校验待校验标注是否通过校验。示例性地,步骤S130和步骤S140可以同时执行,也可以不同时执行。也可以先执行步骤S130,再执行步骤S140。还可以先执行步骤S140,再执行步骤S130,本申请对此不作限制。

本申请一实施例提供的数据标注的校验方法,当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对验证问题的回复内容,并根据回复内容验证用户是否通过交互任务,且根据回复内容校验待校验标注,从而将数据标注的校验与交互任务进行结合以实现对数据标注进行校验,提高数据标注校验的准确性,降低数据标注校验的难度和成本。

请参阅图4,本申请另一实施例提供了一种数据标注的校验方法,可应用于交互终端100,本实施例描述的是交互终端100侧的步骤流程,该方法可以包括步骤S210至步骤S250。

步骤S210、当用户进行交互任务时,展示待校验数据和验证问题。验证问题根据待校验数据和待校验数据的待校验标注获得。

步骤S220、获取用户对验证问题的回复内容。

步骤S230、根据回复内容验证用户是否通过交互任务。

其中,步骤S210至步骤S230的具体描述请参阅步骤S110至步骤S130,在此不再进行赘述。

步骤S240、根据回复内容确定用户对待校验数据的验证标注。验证标注表征用户根据待校验数据和验证问题对待校验数据的标注。

其中,验证标注是指根据回复内容确定的用户对待校验数据的标注。在一些实施方式中,可以根据回复内容确定用户对待校验数据的对应标签的标注的判断,对应标签为待校验标注对应的标签。例如,待校验数据为音频数据,待校验标注为“该音频的用户的性别男生”,对应的标签为“性别”,通过用户的回复内容可以获得用户对待校验数据在对应标签的标注内容。

作为一种实施方式,交互终端100可以根据回复内容确定用户对待校验数据的标注的内容。例如,校验数据为音频数据,用户的回复内容为“该音频的用户为男生”,则用户对待校验数据的验证标注为“性别为男生”。

作为另一种实施方式,可以根据回复内容排除用户对校验数据的标注的内容。例如,校验数据为音频数据,用户的回复内容为“该音频的用户不是男生”,则用户对待校验数据的验证标注为“性别不为男生”。

作为又一种实施方式,由于待校验数据本身的识别难度、数据的质量等原因,导致算法和用户都难以识别出待校验数据的标注,可以通过用户的回复内容,判断无法获得待校验数据的标注。例如,校验数据为音频数据,用户的回复内容为“我不清楚该用户的性别”,则用户无法确定待校验数据的标注。

步骤S250、根据验证标注校验待校验标注。

其中,根据用户的验证标注可以获得用户对待校验数据的标注。在多人校验的情况下,综合结合多人的回复内容,校验待检验标注。

本申请另一实施例提供的数据标注的校验方法,当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对验证问题的回复内容,并根据回复内容验证用户是否通过交互任务,且根据回复内容校验确认用户对待校验数据的验证标注,通过验证标注校验待校验标注,从而将数据标注的校验与交互任务进行结合以实现对数据标注进行校验,提高数据标注校验的准确性,降低数据标注校验的难度和成本。

请参阅图5,本申请又一实施例提供了一种数据标注的校验方法,可应用于交互终端100,本实施例描述的是交互终端100侧的步骤流程,该方法可以包括步骤S310至步骤S360。

步骤S310、当用户进行交互任务时,展示待校验数据和验证问题。验证问题根据待校验数据和待校验数据的待校验标注获得。

步骤S320、获取用户对验证问题的回复内容。

步骤S330、根据回复内容验证用户是否通过交互任务。

步骤S340、根据回复内容确定用户对待校验数据的验证标注。验证标注表征用户根据待校验数据和验证问题对待校验数据的标注。

其中,步骤S310至步骤S340的具体描述请参阅步骤S210至步骤S240,在此不再进行赘述。

步骤S350、当待校验标注与验证标注匹配时,更新第一人数。第一人数表征验证标注与待校验标注匹配的人数。

其中,第一人数表示验证标注与待校验标注匹配的人数。即认为待校验数据的标注为待校验标注的人数。

在一些实施方式中,交互终端100可以判断待校验标注与验证标注是否匹配。可选地,如果待校验标注的内容与验证标注相同,则待校验标注与验证标注匹配。例如,若待校验标注为“性别为男生”,验证标注为“性别为男生”,则待校验标注与验证标注相同,可以判断待校验标注与验证标注匹配。在其他实施方式中,当待校验标注与验证标注表述不同,但意思相同时,也可以认定待校验标注与验证标注匹配。

具体地,交互终端100可以通过调用匹配算法计算验证标注与待校验标注的匹配度。当匹配度大于预设阈值时,待校验标注与验证标注匹配。

在一些实施方式中,当验证问题是将待检验标注作为选项获取用户的判断内容,例如:验证问题为“你觉得这个音频的用户是男生吗”,待校验标注为“男生”,用户回复“是的”或者对或者“没错”等肯定性回复,则用户肯定待校验数据的标注为待校验标注,交互终端100可以确定用户的验证标注也为“男生”,则待检验标注与验证标注相同,可以确定待校验标注与验证标注匹配。

步骤S360、当第一人数达到第一目标人数时,待校验标注校验通过。

其中,第一人数可以表示用户的验证标注与待校验标注相同的人数,即肯定待校验数据采用待校验标注的用户的人数。

在一些实施方式中,可以预先设置第一目标人数,通过设置预设第一目标人数可以在待校验标注与验证标注的匹配人数达到第一预设值时,停止对待校验标注的校验,提高校验的效率。例如,当至少70%的验证标注与待校验标注匹配时,则待校验标注验证通过,假定设置验证人数最多为10人,如果已经有7个人的验证标注与待检验标注匹配,则已至少70%的验证标注与待校验标注匹配,可以确定待校验标注校验通过,不需要再继续对待校验批注进行校验,可以提高校验的效率。

本申请又一实施例提供的数据标注的校验方法,当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对验证问题的回复内容,并根据回复内容验证用户是否通过交互任务,且根据回复内容校验确认用户对待校验数据的验证标注,通过验证标注校验待校验标注,从而将数据标注的校验与交互任务进行结合,通过多人对待校验数据和待校验标注进行校验,减少人的主观性对数据标注的影响,提高数据标注校验的准确性,降低数据标注校验的难度和成本。

请参阅图6,本申请再一实施例提供了一种数据标注的校验方法,可应用于交互终端100,本实施例描述的是交互终端100侧的步骤流程,该方法可以包括步骤S410至步骤S480。

步骤S410、当用户进行交互任务时,展示待校验数据和验证问题。验证问题根据待校验数据和待校验数据的待校验标注获得。

步骤S420、获取用户对验证问题的回复内容。

步骤S430、根据回复内容验证用户是否通过交互任务。

步骤S440、根据回复内容确定用户对待校验数据的验证标注。验证标注表征用户根据待校验数据和验证问题对待校验数据的标注。

步骤S450、当待校验标注与验证标注匹配时,更新第一人数。第一人数表征验证标注与待校验标注匹配的人数。

步骤S460、当第一人数达到预设第一目标人数时,待校验标注校验通过。

其中,步骤S410至步骤S460的具体描述请参阅步骤S310至步骤S360,在此不再进行赘述。

步骤S470、当待校验标注与验证标注不匹配时,更新第二人数。

其中,第二人数可以表示用户的验证标注与待校验标注不同的人数。即否定待校验数据采用待校验标注的用户人数以及不确定待校验数据采用待校验标注的用户人数之和。

在一些实施方式中,如果待校验标注的内容与验证标注不同,则待校验标注与验证标注不匹配。当验证标注为不确定标注内容时,也认定待校验标注与验证标注不匹配。例如,若待校验标注为“性别为男生”,验证标注为“性别不为男生”,则待校验标注与验证标注不同,可以判断待校验标注与验证标注不匹配。又如,若待校验标注为“性别为男生”,验证标注为“不清楚性别”,验证标注为不确定的标注内容,则可以确定待校验标注与验证标注不匹配。

具体地,交互终端100可以通过调用匹配算法计算验证标注与待校验标注的匹配度。当匹配度小于预设阈值时,待校验标注与验证标注不匹配。

在一些实施方式中,当验证问题是将待检验标注作为选项获取用户的判断内容,例如:验证问题为“你觉得这个音频的用户是男生吗”,待校验标注为“男生”,用户回复“不是”或者对或者“错”等否定性回复,则用户否定待校验数据的标注为待校验标注,交互终端100可以确定用户的验证标注为“性别不是男生”,则待检验标注与验证标注不同,可以确定待校验标注与验证标注不匹配。

步骤S480、当第二人数达到第二目标人数时,根据第一人数和第二人数校验待校验标注。

若第一人数一直没有达到第一目标人数,则交互终端100对待校验标注的校验就无法结束。为了提高校验的效率,在本实施例中,交互终端100还可以通过设置第二目标人数,从而设置交互终端100对待校验标注的校验任务设置任务终止条件,以提高校验的效率。

在一些实施方式中,可以预先设置第二目标人数,通过设置第二目标人数可以在待校验标注与验证标注的匹配人数达到第二预设值时,停止对待校验标注的校验,提高校验的效率。例如,当至少30%的验证标注与待校验标注不匹配时,则待校验标注验证不通过,假定设置验证人数最多为10人,如果已经有3个人的验证标注与待检验标注不匹配,则已至少30%的验证标注与待校验标注不匹配,可以确定待校验标注校验不通过,不需要再继续对待校验批注进行校验,可以提高校验的效率。

具体地,请参阅图7,图7示出了本申请再一实施例中步骤S480的流程示意图,在本申请的实施例中,步骤S480可以包括步骤S481至步骤S482。

步骤S481、确定第二人数在第一人数和第二人数中的比例。

其中,第二人数可以表示用户的验证标注与待校验标注不同的人数。即否定待校验数据采用待校验标注的用户人数以及不确定待校验数据采用待校验标注的用户人数之和。交互终端100可以先统计第一人数与第二人数的总和为第三人数,第三人数即为执行与该待校验标注对应的交互任务的用户人数。交互终端100再通过计算第二人数在第三人数中的比例,从而确定第二人数在执行任务的人数中的占比情况。

步骤S482、当比例大于预设比例时,待校验数据的待校验标注校验不通过。

其中,可以通过设置预设比例,当第二人数在执行任务的总人数中的占比达到预设比例时,可以终止对待校验标注的校验流程,确定待校验数据的待校验标注校验不通过。

本申请再一实施例提供的数据标注的校验方法,当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对验证问题的回复内容,并根据回复内容验证用户是否通过交互任务,且根据回复内容校验确认用户对待校验数据的验证标注,通过验证标注校验待校验标注,从而将数据标注的校验与交互任务进行结合,通过多人对待校验数据和待校验标注进行校验,减少人的主观性对数据标注的影响,提高数据标注校验的准确性,降低数据标注校验的难度和成本,同时设置校验终止的条件,提高校验的效率。

请参阅图8,本申请还一实施例提供了一种数据标注的校验方法,可应用于交互终端100,本实施例描述的是侧的步骤流程,该方法可以包括步骤S501-步骤S510。

步骤S501、当用户进行交互任务时,展示待校验数据和验证问题。验证问题根据待校验数据和待校验数据的待校验标注获得。

步骤S502、获取用户对验证问题的回复内容。

步骤S503、根据回复内容验证用户是否通过交互任务。

步骤S504、根据回复内容确定用户对待校验数据的验证标注。验证标注表征用户根据待校验数据和验证问题对待校验数据的标注。

其中,步骤S501至步骤S504的具体描述请参阅步骤S210至步骤S240,在此不再进行赘述。

步骤S505、更新交互任务的执行人数。

在本申请中,每当完成步骤S504,即交互终端100完成根据用户的回复内容确定用户对待校验数据的验证标注时,更新交互任务的执行人数。

步骤S506、当执行人数达到预设执行人数时,将所有验证标注中相互匹配的验证标注分为同一验证标注组。

可以理解的是,交互任务的执行人数越多,交互终端100对待校验数据的待校验标注的校验结果越准确。相应地,交互终端100需要执行校验的次数越多。获得校验结果的时间越长。因此,可以根据实际需要设置预设执行人数,即综合考虑校验效率和校验准确性设置预设执行人数。

在一些实施方式中,当执行人数达到预设执行人数时,即对待校验标注的校验次数满足预设要求时,可以获得预设执行人数次数的验证标注。为了进一步获得执行任务的用户对待校验数据的标注的判断情况,进一步地,还可以对所有验证标注中相互匹配的验证标注归为同一验证标注组。

具体地,交互终端可以通过调用匹配算法判断不同验证标注的匹配度,当匹配度大于预设阈值时,可以确定不同验证标注相互匹配。

在一些实施方式中,根据对多个验证标注的匹配情况,将多个验证标注中相互匹配的验证标注归为同一验证标注组。例如,假设有8个验证标注,验证标注1为“男生”、验证标注2为“男性”、验证标注3为“不确定”、验证标注4为“女生”、验证标注5为“男性”、验证标注6为“不确定”、验证标注7为“男生”、验证标注8为“男性”。其中验证标注1、验证标注2、验证标注5、验证标注7、验证标注8所表征的内容相同或匹配,均为“性别为男性”,将验证标注1、验证标注2、验证标注5、验证标注7、验证标注8归为第一验证标注组。验证标注3、验证标注6所标注的内容相同或匹配,均为“不确定”,将验证标注3、验证标注6归类为第二验证标注组。验证标注4归类为第三验证标注组。

步骤S507、分别确定每一验证标注组包括的验证标注的数量占所有验证标注的数量的比例。

在本申请的实施例中,交互终端首先通过统计每一验证标注组包括的验证标注的数量。例如,在上述实施方式中,第一验证标注组包括的验证标注的数量为5个,第二验证标注组包括的验证标注的数量为2个,第三验证标注组包括的验证标注的数量为1个。然后交互终端再分别确定每一验证标注组包括的验证标注的数量占所有验证标注的数量的比例。例如,在上述实施方式中,所有验证标注的数量为8个,则第一验证标注组包括的验证标注的数量占所有验证标注的数量的比例为八分之五,第二验证标注组包括的验证标注的数量占所有验证标注的数量的比例为四分之一,第三验证标注组包括的验证标注的数量占所有验证标注的数量的比例为八分之一。

步骤S508、将比例最高的验证标注组作为目标验证标注组。

可以理解的是,在本申请的实施例中交互终端100将比例最高的验证标注组作为目标验证标注组。比例最高的验证标注组包括的验证标注为占比最高的用户所同意的待校验数据的标注。

具体地,请参阅图9,图9示出了本申请还一实施例中步骤S508的流程示意图,在本申请的实施例中,步骤S508可以包括步骤S5081至步骤S5082。

步骤S5081、判断比例最高的验证标注组的比例是否高于预设比例。

在一些情况下,多个验证标注中包括多个验证标注组,且每个验证标注组的所占比例接近,但都低于正常值,例如A验证标注组的比例为26%、B验证标注组的比例为25%、C验证标注组的比例为24%、D验证标注组的比例为25%。虽然A验证标注组的比例最高,但其所占比例仅为26%,低于正常值,将其作为目标验证标注进行后续的校验,会影响校验的准确性。为了防止上述情况,作为一种实施方式,还可以设置预设比例,通过预设比例把控验证标注组的质量。

步骤S5082、若是,则将比例最高的验证标注组作为目标验证标注组。

当比例最高的验证标注组的比例高于预设比例时,才进行后续的校验操作。在一些实施方式中,当比例最高的验证标注组的比例低于预设比例时,终止校验流程,从而提高校验的准确性。

步骤S509、根据目标验证标注组包括的验证标注获取推荐验证标注。

可以理解的是,同一验证标注组的验证标注相互匹配,即同一验证标注组的验证标注所表征的含义相同。可选地,可以选取同一验证标注组的验证标注中的任一验证标注作为推荐验证标注。例如将第一验证标注组的验证标注1为“男生”作为推荐验证标注,还可以选择第一验证标注组的其它验证标注作为推荐验证标注,本申请在此不作限定。

可选地,也可以通过设置标准格式,将同一验证标注组的验证标注所表征的相同内容采用标准格式表示,并将采用标准格式表示的标注作为推荐验证标注。例如,第一验证标注组中包括验证标注1为“男生”、验证标注2为“男性”、验证标注5为“男性”、验证标注7为“男生”、验证标注8为“男性”;标准格式为性别为“男”或“女”。第一验证标注组包括的验证标注所表征的内容均为“性别为男性”,代入标准格式获得推荐验证标注为“性别为男”。标准格式可以根据实际需要进行设置,本申请对此不作限制。

步骤S510、当推荐验证标注与待校验标注匹配时,待校验标注验证通过。

其中,若待校验标注与所占比例最高的验证标注匹配时,确认待校验标注验证通过。

在一些实施方式中,交互终端100可以调用匹配算法计算推荐验证标注与待校验标注的匹配度,当匹配度高于预设值时,待校验批注验证通过。

在另一些实施方式中,若推荐验证标注与待校验标注不匹配时,待校验标注验证不通过。进一步地,也可以将推荐验证标注作为待校验数据的标注。

本申请还一实施例提供的数据标注的校验方法,当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对验证问题的回复内容,并根据回复内容验证用户是否通过交互任务,且根据回复内容校验确认用户对待校验数据的验证标注,通过验证标注校验待校验标注,从而将数据标注的校验与交互任务进行结合,通过多人对待校验数据和待校验标注进行校验,减少人的主观性对数据标注的影响,降低数据标注校验的难度和成本,同时设置校验终止的条件,通过多人的校验,进一步提高校验的准确性。

请参阅图10,本申请又另一实施例提供了一种数据标注的校验方法,可应用于交互终端100,本实施例描述的是交互终端100侧的步骤流程,该方法可以包括步骤S610-步骤S680。

步骤S610、获取采集数据。

本申请的实施例的交互终端100可以集合有数据采集模块。数据采集模块可以采集数据。

在一些实施方式中,交互终端100的数据采集模块可以通过麦克风、摄像头、触控屏等部件采集音频、视频、图像、文本等数据。

步骤S620、根据预设标注算法对采集数据进行处理,获得采集数据的初始标注。

在一些实施方式中,交互终端100可以通过调用但不限于性别标注算法、年龄标注算法、地点标注算法等数据标注算法,以对采集的数据进行标注。

步骤S630、获取初始标注的标准值。标准值表征初始标注的准确率。

在一些实施方式中,交互终端100可以通过调用但不限于标注准确度的匹配算法对数据的标注准确度进行计算。

步骤S640、当标准值小于预设阈值时,将采集数据作为待校验数据,将初始标注作为待校验数据的待校验标注。

在本申请的实施例中,准确度低于预设阈值的标注无法正常使用,可以作为待校验标注,并通过交互终端100与用户的交互进行校验。

步骤S650、当用户进行交互任务时,展示待校验数据和验证问题。验证问题根据待校验数据和待校验数据的待校验标注获得。

步骤S660、获取用户对验证问题的回复内容。

步骤S670、根据回复内容验证用户是否通过交互任务。

步骤S680、根据回复内容校验待校验标注。

其中,步骤S650至步骤S680的具体描述请参阅步骤S110至步骤S140,在此不再进行赘述。

本申请又另一实施例提供的数据标注的校验方法,可以主动采集数据,对数据进行标注,并在采集数据中确定待校验标注和待校验数据,同时通过当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对验证问题的回复内容,并根据回复内容验证用户是否通过交互任务,且根据回复内容校验待校验标注,从而将数据标注的校验与交互任务进行结合以实现对数据标注进行校验,提高数据标注校验的准确性,降低数据标注校验的难度和成本。

请参阅图11,其示出了本发明一个实施例提供的数据标注的校验装置,该数据标注的校验装置400包括:验证模块410、回复内容获取模块420、任务验证模块430以及校验模块440。其中。

验证模块410,用于当用户进行交互任务时,展示待校验数据和验证问题。其中,验证问题根据待校验数据和待校验数据的待校验标注获得;

回复内容获取模块420,用于获取用户对验证问题的回复内容。

任务验证模块430,用于根据回复内容验证用户是否通过交互任务。

校验模块440,用于根据回复内容校验待校验标注。

进一步地,该数据标注的校验装置400还包括验证标注确定模块和验证标注校验模块。

验证标注确定模块,用于根据回复内容确定用户对待校验数据的验证标注。验证标注表征用户根据待校验数据和验证问题对待校验数据的标注。

验证标注校验模块,用于根据验证标注校验待校验标注。

进一步地,该数据标注的校验装置400还包括第一人数更新模块、第一待校验标注校验模块。

第一人数更新模块,用于当待校验标注与验证标注匹配时,更新第一人数。第一人数表征验证标注与待校验标注匹配的人数。

第一待校验标注校验模块,用于当第一人数达到预设第一目标人数时,待校验标注校验通过。

进一步地,该数据标注的校验装置400还包括第二人数更新模块、第二待校验标注校验模块。

第二人数更新模块,用于当待校验标注与验证标注不匹配时,更新第二人数。

第二待校验标注校验模块,用于当第二人数达到第二目标人数时,根据第一人数和第二人数校验待校验标注。

进一步地,第二待校验标注校验模块包括比例确定单元和待校验标注校验单元。

比例确定单元,用于确定第二人数在第一人数和第二人数中的比例。

待校验标注校验单元,用于当比例大于预设比例时,待校验数据的待校验标注校验不通过。

进一步地,该数据标注的校验装置400还包括执行人数更新模块、验证标注组确定模块、比例确定模块、目标验证标注组确定模块、推荐验证标注获取模块、待校验标注验证模块。

执行人数更新模块,用于更新交互任务的执行人数。

验证标注组确定模块,用于当执行人数达到预设执行人数时,将所有验证标注中相互匹配的验证标注分为同一验证标注组。

比例确定模块,用于分别确定每一验证标注组包括的验证标注的数量占所有验证标注的数量的比例。

目标验证标注组确定模块,用于将比例最高的验证标注组作为目标验证标注组。

进一步地,目标验证标注组确定模块包括预设比例判断单元和目标验证标注组确定单元。

预设比例判断单元,用于判断比例最高的验证标注组的比例是否高于预设比例。

目标验证标注组确定单元,用于在比例最高的验证标注组的比例高于预设比例时,将比例最高的验证标注组作为目标验证标注组。

推荐验证标注获取模块,用于根据目标验证标注组包括的验证标注获取推荐验证标注。

待校验标注验证模块,用于当推荐验证标注与待校验标注匹配时,待校验标注验证通过。

进一步地,该数据标注的校验装置400还包括采集数据获取模块、初始标注获取模块、标准值获取模块、待校验数据和标注确定模块。

采集数据获取模块,用于获取采集数据。

初始标注获取模块,用于根据预设标注算法对采集数据进行处理,获得采集数据的初始标注。

标准值获取模块,用于获取初始标注的标准值。标准值表征初始标注的准确率。

待校验数据和标注确定模块,用于当标准值小于预设阈值时,将采集数据作为待校验数据,将初始标注作为待校验数据的待校验标注。

请参阅图12,基于上述的数据标注的校验方法,本申请实施例还提供的另一种包括可以执行前述数据标注的校验方法的处理器的电子设备500,电子设备500还包括一个或多个处理器510、存储器520以一个或多个应用程序。其中,该存储器520中存储有可以执行前述实施例中内容的程序,而处理器510可以执行该存储器520中存储的程序。

其中,处理器510可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器利用各种接口和线路连接整个电子设备500内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器520内的数据,执行电子设备500的各种功能和处理数据。可选地,处理器510可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器510可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics ProcessingUnit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器510中,单独通过一块通信芯片进行实现。

存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(待校验数据和验证问题展示、回复内容获取等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如回复内容、待校验标注、待校验数据)等。

请参考图13,其示出了本申请实施例提供的一种计算机可读存储介质600的结构框图。该计算机可读介质600中存储有程序代码610,程序代码610可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码610可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

本发明提供的一种数据标注的校验方法、装置、电子设备及存储介质,当用户进行交互任务时,通过展示待校验数据和验证问题,获取用户对验证问题的回复内容,并根据回复内容验证用户是否通过交互任务,且根据回复内容校验待校验标注,从而将数据标注的校验与交互任务进行结合以实现对数据标注进行校验,提高数据标注校验的准确性,降低数据标注校验的难度和成本。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 数据标注的校验方法、装置、电子设备及存储介质
  • 数据校验方法、装置、电子设备和存储介质
技术分类

06120112792251