导航：首页> 工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热>一种用于批量图像标注的处理系统

一种用于批量图像标注的处理系统

文献发布时间：2024-04-18 19:58:53

技术领域

本发明涉及数据处理领域，特别涉及一种用于批量图像标注的处理系统。

背景技术

在自动驾驶领域需要采集海量图像用于各类模型训练，并需要对采集到的海量图像进行图像标注。目前常规的图像标注工作都是依靠人工完成的，这种常规工作方式的工作效率低、标注时间长、标注成本高。

发明内容

本发明的目的，就是针对现有技术的缺陷，提供一种用于批量图像标注的处理系统，该系统包括：任务调度模块、任务输入模块、人工标注模块、人工审核模块、任务输出模块、多模态目标检测模型、图像特征学习模型和图像分割模型；其中，任务调度模块用于从任务输入模块接收的标注任务中整理出待检图像序列；人工标注模块则根据标注模式与用户互动进行目标类型文本确认并从待检图像序列中选择部分待检图像进行预标注处理；任务调度模块再调用多模态目标检测模型、图像特征学习模型和图像分割模型根据人工标注模块输出的目标类型文本序列和标注框数据集合对待检图像序列进行目标检测、低分检测框过滤和语义分割处理得到对应的检测框分割数据集合；人工审核模块则根据待检图像序列、检测框数据集合和检测框分割数据集合进行人工审核；任务调度模块再将人工审核模块的审核输出组成对应的任务输出数据包并通过任务输出模块对该数据包进行输出。本发明系统在每次处理海量图像标注任务时只需预先根据要标注的目标类型从海量图像中选择极少数的图像进行预标注，随后就能由系统根据预标注的目标类型和标注框对其余的海量图像进行自动标注，并提供人工审核接口对标注结果进行审核。通过本发明系统可以缩短标注工作的工作时长、提高标注工作的工作效率并降低标注工作的标注成本。

为实现上述目的，本发明实施例提供了一种用于批量图像标注的处理系统，所述系统包括：任务调度模块、任务输入模块、人工标注模块、人工审核模块、任务输出模块、多模态目标检测模型、图像特征学习模型和图像分割模型；

所述任务调度模块分别与所述任务输入模块、所述人工标注模块、所述人工审核模块、所述任务输出模块、所述多模态目标检测模型、所述图像特征学习模型和所述图像分割模型连接；所述多模态目标检测模型默认选用Grounding DINO模型；所述图像特征学习模型默认选用DINOv2模型；所述图像分割模型默认选用SAM模型；

所述任务输入模块用于将用户输入的第一标注任务向所述任务调度模块发送；所述第一标注任务包括第一标注模式、第一任务数据类型和第一任务数据；所述第一标注模式包括简单标注模式和复杂标注模式；所述第一任务数据类型包括图像类型和视频类型；所述第一任务数据类型为图像类型时对应的所述第一任务数据为一个图像序列，所述第一任务数据类型为视频类型时对应的所述第一任务数据为一个视频数据；

所述任务调度模块用于从接收到的所述第一标注任务中提取出对应的所述第一标注模式、所述第一任务数据类型和所述第一任务数据；并对所述第一任务数据类型进行识别，若为图像类型则将所述第一任务数据作为对应的第一待检图像序列，若为视频类型则对所述第一任务数据进行视频分帧图像提取处理并将提取出的所有图像按时间先后顺序组成对应的所述第一待检图像序列；并将所述第一标注模式和所述第一待检图像序列向所述人工标注模块发送；

所述人工标注模块用于在接收到所述第一标注模式和所述第一待检图像序列时，根据所述第一标注模式与用户互动进行目标类型文本确认得到对应的第一目标类型文本序列；并根据所述第一标注模式和所述第一目标类型文本序列与用户互动从所述第一待检图像序列中选择部分待检图像进行预标注处理得到对应的第一标注框数据集合；并将所述第一目标类型文本序列和所述第一标注框数据集合向所述任务调度模块回发；

所述任务调度模块还用于在接收到所述第一目标类型文本序列和所述第一标注框数据集合时，调用所述多模态目标检测模型根据所述第一目标类型文本序列对所述第一待检图像序列进行目标检测处理得到对应的第一检测框数据集合；并调用所述图像特征学习模型分别对所述第一标注框数据集合和所述第一检测框数据集合进行对应的标注/检测框图像特征识别处理得到对应的第一标注框特征集合和第一检测框特征集合；并根据所述第一标注框特征集合和所述第一检测框特征集合对所述第一检测框数据集合进行低分检测框过滤处理；并调用所述图像分割模型对过滤后的所述第一检测框数据集合进行检测框图像语义分割处理得到对应的第一检测框分割数据集合；并将所述第一待检图像序列、所述第一检测框数据集合和所述第一检测框分割数据集合向所述人工审核模块发送；

所述人工审核模块用于根据接收到的所述第一待检图像序列、所述第一检测框数据集合和所述第一检测框分割数据集合进行人工审核处理并输出对应的第一审核图像序列、第一审核检测框数据集合和第一审核检测框分割数据集合向所述任务调度模块回发；

所述任务调度模块还用于由接收到的所述第一审核图像序列、所述第一审核检测框数据集合和所述第一审核检测框分割数据集合组成生成对应的第一任务输出数据包；并通过所述任务输出模块将所述第一任务输出数据包向用户输出。

优选的，所述第一待检图像序列包括多个第一待检图像，每个所述第一待检图像对应一个第一图像标识；

所述第一目标类型文本序列包括一个或多个第一目标类型文本；所述第一标注模式为简单标注模式时，所述第一目标类型文本序列由多个所述第一目标类型文本组成，且每个所述第一目标类型文本为一个不带定语的目标类型名词；所述第一标注模式为复杂标注模式时，所述第一目标类型文本序列仅包括一个所述第一目标类型文本，且该唯一的所述第一目标类型文本为一个带有一个或多个定语的目标类型名词短语；

所述第一标注框数据集合包括多个第一标注框数据；所述第一标注框数据包括第一父图像标识、第一标注框图像、第一标注框中心点坐标、第一标注框尺寸、第一标注框朝向和第一标注框类型；所述第一父图像标识与一个所述第一图像标识对应；所述第一标注框类型与一个所述第一目标类型文本对应；

所述第一检测框数据集合包括多个第一检测框数据；所述第一检测框数据包括第二父图像标识、第一检测框标识、第一检测框图像、第一检测框中心点坐标、第一检测框尺寸、第一检测框朝向和第一检测框类型；所述第二父图像标识与一个所述第一图像标识对应；所述第一检测框类型与一个所述第一目标类型文本对应；

所述第一检测框分割数据集合包括多个第一检测框分割数据；所述第一检测框分割数据包括第二检测框标识和第一检测框语义分割图；所述第二检测框标识与一个所述第一检测框标识对应；所述第一检测框语义分割图的像素语义包括前景语义和背景语义，所述前景语义与一个所述第一检测框类型对应。

优选的，所述人工标注模块具体用于在所述根据所述第一标注模式与用户互动进行目标类型文本确认得到对应的第一目标类型文本序列时，对所述第一标注模式进行识别；

若所述第一标注模式为简单标注模式，则向用户提供第一简单目标类型输入页面；并通过所述第一简单目标类型输入页面接收用户输入的多个目标类型名词，并将各个输入的目标类型名词作为对应的所述第一目标类型文本，并由得到的所有所述第一目标类型文本组成对应的所述第一目标类型文本序列；

若所述第一标注模式为复杂标注模式，则向用户提供第一复杂目标类型输入页面；并通过所述第一复杂目标类型输入页面接收用户输入的一个带有一个或多个定语的目标类型名词短语作为对应的所述第一目标类型文本，并由该唯一的所述第一目标类型文本组成对应的所述第一目标类型文本序列。

优选的，所述人工标注模块具体用于在所述根据所述第一标注模式和所述第一目标类型文本序列与用户互动从所述第一待检图像序列中选择部分待检图像进行预标注处理得到对应的第一标注框数据集合时，向用户提供第一预标注页面，并在所述第一预标注页面上对所述第一待检图像序列的所有所述第一待检图像进行排列显示；

并在任一所述第一待检图像被用户选中时，将当前选中的所述第一待检图像作为对应的当前图像；并提供标注框绘制功能以供用户在所述当前图像上进行标注框绘制从而得到对应的一个或多个第一标注框；并将所述当前图像的所述第一图像标识作为各个所述第一标注框的所述第一父图像标识；并将各个所述第一标注框在所述当前图像上的标注框图像提取出来作为对应的所述第一标注框图像；并将各个所述第一标注框在所述当前图像上的标注框中心点坐标、标注框尺寸和标注框朝向作为对应的所述第一标注框中心点坐标、所述第一标注框尺寸和所述第一标注框朝向；

并在任一所述第一标注框被用户选中时，将当前选中的所述第一标注框作为对应的当前标注框；并对所述第一标注模式进行识别；若所述第一标注模式为简单标注模式，则提供标注框类型标记功能以供用户从所述第一目标类型文本序列中任选一个所述第一目标类型文本作为对应的所述第一标注框类型对所述当前标注框进行目标类型标记；若所述第一标注模式为复杂标注模式，则将所述第一目标类型文本序列中唯一的所述第一目标类型文本作为对应的当前目标类型文本，并向用户显示带有确认选项和取消选项的第一提示消息，并通过所述第一提示消息向用户提示是否要将所述当前目标类型文本作为所述当前标注框对应的所述第一标注框类型，并在用户选中了所述第一提示消息的所述确认选项时将所述当前标注框对应的所述第一标注框类型设为对应的所述当前目标类型文本；

并在所述第一预标注页面上预置的预标注提交选项被用户选中时，由各个所述第一标注框对应的所述第一父图像标识、所述第一标注框图像、所述第一标注框中心点坐标、所述第一标注框尺寸、所述第一标注框朝向和所述第一标注框类型组成一个对应的所述第一标注框数据；并由得到的所有所述第一标注框数据组成对应的所述第一标注框数据集合。

优选的，所述任务调度模块具体用于在所述调用所述多模态目标检测模型根据所述第一目标类型文本序列对所述第一待检图像序列进行目标检测处理得到对应的第一检测框数据集合时，对所述第一待检图像序列的所述第一待检图像进行遍历；并在遍历时，将当前遍历的所述第一待检图像作为对应的当前待检图像，并将所述当前待检图像对应的所述第一图像标识作为对应的当前图像标识；并将所述第一目标类型文本序列和所述当前待检图像输入所述多模态目标检测模型，由所述多模态目标检测模型根据所述第一目标类型文本序列中的一个或多个所述第一目标类型文本对所述当前待检图像进行定向目标检测并输出对应的第一检测框-文本对集合；若所述第一检测框-文本对集合不为空，则根据所述当前图像标识、所述当前待检图像和所述第一检测框-文本对集合进行检测框数据组装得到对应的第一检测框数据子集；并在遍历结束时，对得到的所有所述第一检测框数据子集进行合并组成对应的所述第一检测框数据集合；

其中，所述第一检测框-文本对集合包括多个第一检测框-文本对；所述第一检测框-文本对包括第一目标检测框和第一文本；所述第一目标检测框包括第一目标检测框中心点坐标、第一目标检测框尺寸和第一目标检测框朝向；所述第一文本在所述第一目标类型文本序列的所述第一目标类型文本的数量不唯一时，与序列中的一个所述第一目标类型文本对应；所述第一文本在所述第一目标类型文本序列的所述第一目标类型文本的数量唯一时，与序列中唯一的所述第一目标类型文本对应。

进一步的，所述任务调度模块具体用于在所述根据所述当前图像标识、所述当前待检图像和所述第一检测框-文本对集合进行检测框数据组装得到对应的第一检测框数据子集时，对所述第一检测框-文本对集合的所述第一检测框-文本对进行遍历；并在遍历时，将当前遍历的所述第一检测框-文本对作为对应的当前检测框-文本对；并将所述当前图像标识作为对应的所述第二父图像标识；并为所述当前检测框-文本对的所述第一目标检测框分配一个唯一的检测框标识作为对应的所述第一检测框标识；并将所述当前检测框-文本对的所述第一目标检测框在所述当前待检图像上的检测框图像提取出来作为对应的所述第一检测框图像；并将所述当前检测框-文本对的所述第一目标检测框的所述第一目标检测框中心点坐标、所述第一目标检测框尺寸和所述第一目标检测框朝向作为对应的所述第一检测框中心点坐标、所述第一检测框尺寸和所述第一检测框朝向；并将所述当前检测框-文本对的所述第一文本作为对应的所述第一检测框类型；并由得到的所述第二父图像标识、所述第一检测框标识、所述第一检测框图像、所述第一检测框中心点坐标、所述第一检测框尺寸、所述第一检测框朝向和所述第一检测框类型组成一个对应的所述第一检测框数据；并在遍历结束时，由得到的所有所述第一检测框数据组成对应的所述第一检测框数据子集。

优选的，所述任务调度模块具体用于在所述调用所述图像特征学习模型分别对所述第一标注框数据集合和所述第一检测框数据集合进行对应的标注/检测框图像特征识别处理得到对应的第一标注框特征集合和第一检测框特征集合时，将所述第一标注框数据集合的各个所述第一标注框数据的所述第一标注框图像输入所述图像特征学习模型，由所述图像特征学习模型对各个所述第一标注框图像进行图像特征提取处理得到对应的第一标注框特征；并将所述第一检测框数据集合的各个所述第一检测框数据的所述第一检测框图像输入所述图像特征学习模型，由所述图像特征学习模型对各个所述第一检测框图像进行图像特征提取处理得到对应的第一检测框特征；并由得到的所有所述第一标注框特征组成对应的所述第一标注框特征集合，由得到的所有所述第一检测框特征组成对应的所述第一检测框特征集合。

优选的，所述任务调度模块具体用于在所述根据所述第一标注框特征集合和所述第一检测框特征集合对所述第一检测框数据集合进行低分检测框过滤处理时，对所述第一检测框特征集合的第一检测框特征进行遍历；并在遍历时，将当前遍历的所述第一检测框特征作为对应的当前检测框特征，并将所述当前检测框特征对应的所述第一检测框数据的所述第一检测框类型作为对应的当前检测框类型；并将所述第一标注框数据集合中所述第一标注框类型与所述当前检测框类型匹配的各个所述第一标注框数据作为对应的匹配标注框数据；并将所述第一标注框特征集合中与各个所述匹配标注框数据对应的第一标注框特征作为对应的同类标注框特征；并基于匈牙利匹配算法对所述当前检测框特征与各个所述同类标注框特征进行匹配评分得到对应的第一评分，并对得到的所有所述第一评分取平均值生成对应的第一平均分；并在所述第一平均分低于预设的评分阈值时，将所述当前检测框特征对应的所述第一检测框数据从所述第一检测框数据集合中删除。

优选的，所述任务调度模块具体用于在所述调用所述图像分割模型对过滤后的所述第一检测框数据集合进行检测框图像语义分割处理得到对应的第一检测框分割数据集合时，对所述第一检测框数据集合的所述第一检测框数据进行遍历；并在遍历时，将当前遍历的所述第一检测框数据作为对应的当前检测框数据；并将所述当前检测框数据的所述第一检测框图像输入所述图像分割模型，由所述图像分割模型对所述第一检测框图像进行像素级的前后景像素语义分割处理生成对应的所述第一检测框语义分割图；并将所述第一检测框语义分割图上像素语义不为背景语义的各个像素点记为对应的第一前景像素点，并将各个所述第一前景像素点的像素语义设为所述当前检测框数据的所述第一检测框类型；并由所述当前检测框数据的所述第一检测框标识作为对应的所述第二检测框标识；并由得到的所述第二检测框标识和所述第一检测框语义分割图组成一个对应的所述第一检测框分割数据；并在遍历结束时，由得到的所有所述第一检测框分割数据组成对应的所述第一检测框分割数据集合。

优选的，所述人工审核模块具体用于在所述根据接收到的所述第一待检图像序列、所述第一检测框数据集合和所述第一检测框分割数据集合进行人工审核处理并输出对应的第一审核图像序列、第一审核检测框数据集合和第一审核检测框分割数据集合向所述任务调度模块回发时，按检测框标识的对应关系对所述第一检测框数据集合和所述第一检测框分割数据集合进行合并得到对应的第二检测框数据集合；其中，所述第二检测框数据集合包括多个第二检测框数据；所述第二检测框数据包括所述第二父图像标识、所述第一检测框标识、所述第一检测框图像、所述第一检测框中心点坐标、所述第一检测框尺寸、所述第一检测框朝向、所述第一检测框类型和所述第一检测框语义分割图；

并对所述第一待检图像序列的各个所述第一待检图像进行遍历；并在遍历时，将当前遍历的所述第一待检图像作为对应的当前待检图像；并将所述当前待检图像对应的所述第一图像标识作为对应的当前图像标识；并将所述第二检测框数据集合中所述第二父图像标识与所述当前图像标识匹配的所述第二检测框数据记为对应的第一匹配检测框数据；并对所述第一匹配检测框数据的数量是否为零进行识别；若所述第一匹配检测框数据的数量为零，则将所述当前待检图像标记为对应的第一待滤除图像；若所述第一匹配检测框数据的数量不为零，则根据所有所述第一匹配检测框数据在所述当前待检图像上进行对应的检测框绘制、前景语义像素点着色和文本提示框绘制处理得到对应的第一送审图像；并在遍历结束时，向用户提供第一图像审查页面，并在所述第一图像审查页面上对所有所述第一送审图像进行排列显示；

并在任一所述第一送审图像被用户选中时，向用户显示带有确认选项和取消选项的第二提示消息，并通过所述第二提示消息向用户提示是否要将当前选中的所述第一送审图像标记为不合格图像，并在用户选中了所述第二提示消息的所述确认选项时将当前选中的所述第一送审图像标记为对应的所述第一待滤除图像；

并在所述第一图像审查页面上预置的审查结束选项被用户选中时，将所述第一待检图像序列中与各个所述第一待滤除图像对应的所述第一待检图像删除并将删除后的图像序列作为对应的所述第一审核图像序列；并将所述第一检测框数据集合中所述第二父图像标识与各个所述第一待滤除图像对应的所述第一检测框数据作为对应的第一待删除检测框数据；并将所述第一检测框分割数据集合中所述第二检测框标识与各个所述第一待删除检测框数据对应的所述第一检测框分割数据删除并将删除后的数据集合作为对应的所述第一审核检测框分割数据集合；并将所述第一检测框数据集合中的所有所述第一待删除检测框数据删除并将删除后的数据集合作为对应的所述第一审核检测框数据集合；并将得到的所述第一审核图像序列、所述第一审核检测框数据集合和所述第一审核检测框分割数据集合向所述任务调度模块回发。

进一步的，所述人工审核模块具体用于在所述根据所有所述第一匹配检测框数据在所述当前待检图像上进行对应的检测框绘制、前景语义像素点着色和文本提示框绘制处理得到对应的第一送审图像时，对各个所述第一匹配检测框数据进行遍历；并在遍历时，将当前遍历的所述第一匹配检测框数据作为对应的当前匹配检测框数据；并根据所述当前匹配检测框数据的所述第一检测框中心点坐标、所述第一检测框尺寸和所述第一检测框朝向在所述当前待检图像上进行检测框绘制得到对应的第一绘制框；并根据所述当前匹配检测框数据的所述第一检测框语义分割图的对所述第一绘制框内的图像进行前景语义像素点标记，并使用预设的第一颜色对所述第一绘制框的所述前景语义像素点的颜色进行设置；并在所述第一绘制框上的指定位置绘制一个文本提示框作为对应的第一文本框，并将所述第一文本框的文本内容设为所述当前匹配检测框数据的所述第一检测框类型；并在遍历结束时，将添加了绘制信息的所述当前待检图像作为对应的所述第一送审图像。

本发明实施例提供了一种用于批量图像标注的处理系统，该系统包括：任务调度模块、任务输入模块、人工标注模块、人工审核模块、任务输出模块、多模态目标检测模型、图像特征学习模型和图像分割模型；其中，任务调度模块用于从任务输入模块接收的标注任务中整理出待检图像序列；人工标注模块则根据标注模式与用户互动进行目标类型文本确认并从待检图像序列中选择部分待检图像进行预标注处理；任务调度模块再调用多模态目标检测模型、图像特征学习模型和图像分割模型根据人工标注模块输出的目标类型文本序列和标注框数据集合对待检图像序列进行目标检测、低分检测框过滤和语义分割处理得到对应的检测框分割数据集合；人工审核模块则根据待检图像序列、检测框数据集合和检测框分割数据集合进行人工审核；任务调度模块再将人工审核模块的审核输出组成对应的任务输出数据包并通过任务输出模块对该数据包进行输出。本发明系统在每次处理海量图像标注任务时只需预先根据要标注的目标类型从海量图像中选择极少数的图像进行预标注，随后就能由系统根据预标注的目标类型和标注框对其余的海量图像进行自动标注，并提供人工审核接口对标注结果进行审核。通过本发明系统不但缩短了标注工作的工作时长、还提高了标注工作的工作效率并降低了标注工作的标注成本。

附图说明

图1为本发明实施例提供的一种用于批量图像标注的处理系统的模块示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种用于批量图像标注的处理系统的模块示意图，如图1所示，本系统包括：任务调度模块1、任务输入模块2、人工标注模块3、人工审核模块4、任务输出模块5、多模态目标检测模型6、图像特征学习模型7和图像分割模型8。其中，任务调度模块1分别与任务输入模块2、人工标注模块3、人工审核模块4、任务输出模块5、多模态目标检测模型6、图像特征学习模型7和图像分割模型8连接。

任务输入模块2用于将用户输入的第一标注任务向任务调度模块1发送。其中，第一标注任务包括第一标注模式、第一任务数据类型和第一任务数据；第一标注模式包括简单标注模式和复杂标注模式；第一任务数据类型包括图像类型和视频类型；第一任务数据类型为图像类型时对应的第一任务数据为一个图像序列，第一任务数据类型为视频类型时对应的第一任务数据为一个视频数据。

任务调度模块1用于从接收到的第一标注任务中提取出对应的第一标注模式、第一任务数据类型和第一任务数据；并对第一任务数据类型进行识别，若为图像类型则将第一任务数据作为对应的第一待检图像序列，若为视频类型则对第一任务数据进行视频分帧图像提取处理并将提取出的所有图像按时间先后顺序组成对应的第一待检图像序列；并将第一标注模式和第一待检图像序列向人工标注模块3发送。其中，第一待检图像序列包括多个第一待检图像，每个第一待检图像对应一个第一图像标识。

人工标注模块3用于在接收到第一标注模式和第一待检图像序列时，根据第一标注模式与用户互动进行目标类型文本确认得到对应的第一目标类型文本序列；并根据第一标注模式和第一目标类型文本序列与用户互动从第一待检图像序列中选择部分待检图像进行预标注处理得到对应的第一标注框数据集合；并将第一目标类型文本序列和第一标注框数据集合向任务调度模块1回发。

其中，第一目标类型文本序列包括一个或多个第一目标类型文本；第一标注模式为简单标注模式时，第一目标类型文本序列由多个第一目标类型文本组成，且每个第一目标类型文本为一个不带定语的目标类型名词；第一标注模式为复杂标注模式时，第一目标类型文本序列仅包括一个第一目标类型文本，且该唯一的第一目标类型文本为一个带有一个或多个定语的目标类型名词短语。第一标注框数据集合包括多个第一标注框数据；第一标注框数据包括第一父图像标识、第一标注框图像、第一标注框中心点坐标、第一标注框尺寸、第一标注框朝向和第一标注框类型；第一父图像标识与一个第一图像标识对应；第一标注框类型与一个第一目标类型文本对应。

在本发明实施例的一种具体实现方式中，人工标注模块3具体用于在根据第一标注模式与用户互动进行目标类型文本确认得到对应的第一目标类型文本序列时：

步骤A1，对第一标注模式进行识别；

步骤A2，若第一标注模式为简单标注模式，则向用户提供第一简单目标类型输入页面；并通过第一简单目标类型输入页面接收用户输入的多个目标类型名词，并将各个输入的目标类型名词作为对应的第一目标类型文本，并由得到的所有第一目标类型文本组成对应的第一目标类型文本序列；

例如，在第一标注模式为简单标注模式下，第一简单目标类型输入页面收到用户输入的三个目标类型名词：“汽车”、“树木”、“行人”；那么得到的第一目标类型文本序列即为{“汽车”，“树木”，“行人”}；

步骤A3，若第一标注模式为复杂标注模式，则向用户提供第一复杂目标类型输入页面；并通过第一复杂目标类型输入页面接收用户输入的一个带有一个或多个定语的目标类型名词短语作为对应的第一目标类型文本，并由该唯一的第一目标类型文本组成对应的第一目标类型文本序列。

例如，在第一标注模式为复杂标注模式下，第一复杂目标类型输入页面收到用户输入的一个目标类型名词短语：在车道上的行人；那么得到的第一目标类型文本序列即为{“在车道上的行人”}。

在本发明实施例的另一种具体实现方式中，人工标注模块3具体用于在根据第一标注模式和第一目标类型文本序列与用户互动从第一待检图像序列中选择部分待检图像进行预标注处理得到对应的第一标注框数据集合时：

步骤B1，向用户提供第一预标注页面，并在第一预标注页面上对第一待检图像序列的所有第一待检图像进行排列显示；

步骤B2，并在任一第一待检图像被用户选中时，将当前选中的第一待检图像作为对应的当前图像；并提供标注框绘制功能以供用户在当前图像上进行标注框绘制从而得到对应的一个或多个第一标注框；并将当前图像的第一图像标识作为各个第一标注框的第一父图像标识；并将各个第一标注框在当前图像上的标注框图像提取出来作为对应的第一标注框图像；并将各个第一标注框在当前图像上的标注框中心点坐标、标注框尺寸和标注框朝向作为对应的第一标注框中心点坐标、第一标注框尺寸和第一标注框朝向；

步骤B3，并在任一第一标注框被用户选中时，将当前选中的第一标注框作为对应的当前标注框；并对第一标注模式进行识别；若第一标注模式为简单标注模式，则提供标注框类型标记功能以供用户从第一目标类型文本序列中任选一个第一目标类型文本作为对应的第一标注框类型对当前标注框进行目标类型标记；若第一标注模式为复杂标注模式，则将第一目标类型文本序列中唯一的第一目标类型文本作为对应的当前目标类型文本，并向用户显示带有确认选项和取消选项的第一提示消息，并通过第一提示消息向用户提示是否要将当前目标类型文本作为当前标注框对应的第一标注框类型，并在用户选中了第一提示消息的确认选项时将当前标注框对应的第一标注框类型设为对应的当前目标类型文本；

步骤B4，并在第一预标注页面上预置的预标注提交选项被用户选中时，由各个第一标注框对应的第一父图像标识、第一标注框图像、第一标注框中心点坐标、第一标注框尺寸、第一标注框朝向和第一标注框类型组成一个对应的第一标注框数据；并由得到的所有第一标注框数据组成对应的第一标注框数据集合。

任务调度模块1还用于在接收到第一目标类型文本序列和第一标注框数据集合时，调用多模态目标检测模型6根据第一目标类型文本序列对第一待检图像序列进行目标检测处理得到对应的第一检测框数据集合；并调用图像特征学习模型7分别对第一标注框数据集合和第一检测框数据集合进行对应的标注/检测框图像特征识别处理得到对应的第一标注框特征集合和第一检测框特征集合；并根据第一标注框特征集合和第一检测框特征集合对第一检测框数据集合进行低分检测框过滤处理；并调用图像分割模型8对过滤后的第一检测框数据集合进行检测框图像语义分割处理得到对应的第一检测框分割数据集合；并将第一待检图像序列、第一检测框数据集合和第一检测框分割数据集合向人工审核模块4发送。

其中，多模态目标检测模型6默认选用Grounding DINO模型；图像特征学习模型7默认选用DINOv2模型；图像分割模型8默认选用SAM模型。第一检测框数据集合包括多个第一检测框数据；第一检测框数据包括第二父图像标识、第一检测框标识、第一检测框图像、第一检测框中心点坐标、第一检测框尺寸、第一检测框朝向和第一检测框类型；第二父图像标识与一个第一图像标识对应；第一检测框类型与一个第一目标类型文本对应。第一检测框分割数据集合包括多个第一检测框分割数据；第一检测框分割数据包括第二检测框标识和第一检测框语义分割图；第二检测框标识与一个第一检测框标识对应；第一检测框语义分割图的像素语义包括前景语义和背景语义，前景语义与一个第一检测框类型对应。

在本发明实施例的另一种具体实现方式中，任务调度模块1具体用于在调用多模态目标检测模型6根据第一目标类型文本序列对第一待检图像序列进行目标检测处理得到对应的第一检测框数据集合时，对第一待检图像序列的第一待检图像进行遍历；并在遍历时，将当前遍历的第一待检图像作为对应的当前待检图像，并将当前待检图像对应的第一图像标识作为对应的当前图像标识；并将第一目标类型文本序列和当前待检图像输入多模态目标检测模型6，由多模态目标检测模型6根据第一目标类型文本序列中的一个或多个第一目标类型文本对当前待检图像进行定向目标检测并输出对应的第一检测框-文本对集合；若第一检测框-文本对集合不为空，则根据当前图像标识、当前待检图像和第一检测框-文本对集合进行检测框数据组装得到对应的第一检测框数据子集；并在遍历结束时，对得到的所有第一检测框数据子集进行合并组成对应的第一检测框数据集合；

其中，第一检测框-文本对集合包括多个第一检测框-文本对；第一检测框-文本对包括第一目标检测框和第一文本；第一目标检测框包括第一目标检测框中心点坐标、第一目标检测框尺寸和第一目标检测框朝向；第一文本在第一目标类型文本序列的第一目标类型文本的数量不唯一时，与序列中的一个第一目标类型文本对应；第一文本在第一目标类型文本序列的第一目标类型文本的数量唯一时，与序列中唯一的第一目标类型文本对应。

这里，本发明实施例的多模态目标检测模型6默认选用Grounding DINO模型，Grounding DINO模型是一种基于 transformer模型结构实现的多模态目标检测大模型，如论文《Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-SetObject Detection》所示，该大模型由图像特征提取模块、文本特征提取模块、特征增强模块、语言指导查询选择模块和跨模态解码器模块组成，如上述论文所示该大模型对输入的目标类型文本和图像进行双模态（文本、图像）特征提取与融合、并基于融合特征进行目标检测并由输入的目标类型文本和检测出的目标检测框（bounding box，bbox）组合成检测框-文本对输出。

在本发明实施例的另一种具体实现方式中，任务调度模块1具体用于在根据当前图像标识、当前待检图像和第一检测框-文本对集合进行检测框数据组装得到对应的第一检测框数据子集时，对第一检测框-文本对集合的第一检测框-文本对进行遍历；并在遍历时，将当前遍历的第一检测框-文本对作为对应的当前检测框-文本对；并将当前图像标识作为对应的第二父图像标识；并为当前检测框-文本对的第一目标检测框分配一个唯一的检测框标识作为对应的第一检测框标识；并将当前检测框-文本对的第一目标检测框在当前待检图像上的检测框图像提取出来作为对应的第一检测框图像；并将当前检测框-文本对的第一目标检测框的第一目标检测框中心点坐标、第一目标检测框尺寸和第一目标检测框朝向作为对应的第一检测框中心点坐标、第一检测框尺寸和第一检测框朝向；并将当前检测框-文本对的第一文本作为对应的第一检测框类型；并由得到的第二父图像标识、第一检测框标识、第一检测框图像、第一检测框中心点坐标、第一检测框尺寸、第一检测框朝向和第一检测框类型组成一个对应的第一检测框数据；并在遍历结束时，由得到的所有第一检测框数据组成对应的第一检测框数据子集。

在本发明实施例的另一种具体实现方式中，任务调度模块1具体用于在调用图像特征学习模型7分别对第一标注框数据集合和第一检测框数据集合进行对应的标注/检测框图像特征识别处理得到对应的第一标注框特征集合和第一检测框特征集合时，将第一标注框数据集合的各个第一标注框数据的第一标注框图像输入图像特征学习模型7，由图像特征学习模型7对各个第一标注框图像进行图像特征提取处理得到对应的第一标注框特征；并将第一检测框数据集合的各个第一检测框数据的第一检测框图像输入图像特征学习模型7，由图像特征学习模型7对各个第一检测框图像进行图像特征提取处理得到对应的第一检测框特征；并由得到的所有第一标注框特征组成对应的第一标注框特征集合，由得到的所有第一检测框特征组成对应的第一检测框特征集合。

这里，本发明实施例的图像特征学习模型7默认选用DINOv2模型，该DINOv2模型是一种视觉大模型，如论文《DINOv2: Learning Robust Visual Features withoutSupervision》所示，该模型可对输入的任意尺度图像进行图像特征学习（提取）。

在本发明实施例的另一种具体实现方式中，任务调度模块1具体用于在根据第一标注框特征集合和第一检测框特征集合对第一检测框数据集合进行低分检测框过滤处理时，对第一检测框特征集合的第一检测框特征进行遍历；并在遍历时，将当前遍历的第一检测框特征作为对应的当前检测框特征，并将当前检测框特征对应的第一检测框数据的第一检测框类型作为对应的当前检测框类型；并将第一标注框数据集合中第一标注框类型与当前检测框类型匹配的各个第一标注框数据作为对应的匹配标注框数据；并将第一标注框特征集合中与各个匹配标注框数据对应的第一标注框特征作为对应的同类标注框特征；并基于匈牙利匹配算法对当前检测框特征与各个同类标注框特征进行匹配评分得到对应的第一评分，并对得到的所有第一评分取平均值生成对应的第一平均分；并在第一平均分低于预设的评分阈值时，将当前检测框特征对应的第一检测框数据从第一检测框数据集合中删除。

在本发明实施例的另一种具体实现方式中，任务调度模块1具体用于在调用图像分割模型8对过滤后的第一检测框数据集合进行检测框图像语义分割处理得到对应的第一检测框分割数据集合时，对第一检测框数据集合的第一检测框数据进行遍历；并在遍历时，将当前遍历的第一检测框数据作为对应的当前检测框数据；并将当前检测框数据的第一检测框图像输入图像分割模型8，由图像分割模型8对第一检测框图像进行像素级的前后景像素语义分割处理生成对应的第一检测框语义分割图；并将第一检测框语义分割图上像素语义不为背景语义的各个像素点记为对应的第一前景像素点，并将各个第一前景像素点的像素语义设为当前检测框数据的第一检测框类型；并由当前检测框数据的第一检测框标识作为对应的第二检测框标识；并由得到的第二检测框标识和第一检测框语义分割图组成一个对应的第一检测框分割数据；并在遍历结束时，由得到的所有第一检测框分割数据组成对应的第一检测框分割数据集合。

这里，本发明实施例的图像分割模型8默认选用SAM模型，SAM模型的全称是Segment Anything Model，是一种用于图像分割的大模型。

人工审核模块4用于根据接收到的第一待检图像序列、第一检测框数据集合和第一检测框分割数据集合进行人工审核处理并输出对应的第一审核图像序列、第一审核检测框数据集合和第一审核检测框分割数据集合向任务调度模块1回发，具体为：

步骤C1，按检测框标识的对应关系对第一检测框数据集合和第一检测框分割数据集合进行合并得到对应的第二检测框数据集合；

其中，第二检测框数据集合包括多个第二检测框数据；第二检测框数据包括第二父图像标识、第一检测框标识、第一检测框图像、第一检测框中心点坐标、第一检测框尺寸、第一检测框朝向、第一检测框类型和第一检测框语义分割图；

步骤C2，并对第一待检图像序列的各个第一待检图像进行遍历；并在遍历时，将当前遍历的第一待检图像作为对应的当前待检图像；并将当前待检图像对应的第一图像标识作为对应的当前图像标识；并将第二检测框数据集合中第二父图像标识与当前图像标识匹配的第二检测框数据记为对应的第一匹配检测框数据；并对第一匹配检测框数据的数量是否为零进行识别；若第一匹配检测框数据的数量为零，则将当前待检图像标记为对应的第一待滤除图像；若第一匹配检测框数据的数量不为零，则根据所有第一匹配检测框数据在当前待检图像上进行对应的检测框绘制、前景语义像素点着色和文本提示框绘制处理得到对应的第一送审图像；并在遍历结束时，向用户提供第一图像审查页面，并在第一图像审查页面上对所有第一送审图像进行排列显示；

这里在本发明实施例的另一种具体实现方式中，人工审核模块4具体用于在根据所有第一匹配检测框数据在当前待检图像上进行对应的检测框绘制、前景语义像素点着色和文本提示框绘制处理得到对应的第一送审图像时，对各个第一匹配检测框数据进行遍历；并在遍历时，将当前遍历的第一匹配检测框数据作为对应的当前匹配检测框数据；并根据当前匹配检测框数据的第一检测框中心点坐标、第一检测框尺寸和第一检测框朝向在当前待检图像上进行检测框绘制得到对应的第一绘制框；并根据当前匹配检测框数据的第一检测框语义分割图的对第一绘制框内的图像进行前景语义像素点标记，并使用预设的第一颜色对第一绘制框的前景语义像素点的颜色进行设置；并在第一绘制框上的指定位置绘制一个文本提示框作为对应的第一文本框，并将第一文本框的文本内容设为当前匹配检测框数据的第一检测框类型；并在遍历结束时，将添加了绘制信息的当前待检图像作为对应的第一送审图像；

步骤C3，并在任一第一送审图像被用户选中时，向用户显示带有确认选项和取消选项的第二提示消息，并通过第二提示消息向用户提示是否要将当前选中的第一送审图像标记为不合格图像，并在用户选中了第二提示消息的确认选项时将当前选中的第一送审图像标记为对应的第一待滤除图像；

步骤C4，并在第一图像审查页面上预置的审查结束选项被用户选中时，将第一待检图像序列中与各个第一待滤除图像对应的第一待检图像删除并将删除后的图像序列作为对应的第一审核图像序列；并将第一检测框数据集合中第二父图像标识与各个第一待滤除图像对应的第一检测框数据作为对应的第一待删除检测框数据；并将第一检测框分割数据集合中第二检测框标识与各个第一待删除检测框数据对应的第一检测框分割数据删除并将删除后的数据集合作为对应的第一审核检测框分割数据集合；并将第一检测框数据集合中的所有第一待删除检测框数据删除并将删除后的数据集合作为对应的第一审核检测框数据集合；

步骤C5，并将得到的第一审核图像序列、第一审核检测框数据集合和第一审核检测框分割数据集合向任务调度模块1回发。

任务调度模块1还用于由接收到的第一审核图像序列、第一审核检测框数据集合和第一审核检测框分割数据集合组成生成对应的第一任务输出数据包；并通过任务输出模块5将第一任务输出数据包向用户输出。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的系统、模块、单元及算法的步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的系统、模块、单元或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京道仪数慧科技有限公司;

上一篇：用于运行变速器的摩擦锁合的切换元件的方法和控制器
下一篇：一种多功能变压器低压出线防护罩及其使用方法