导航：首页> 计算；推算；计数>图像识别模型测试方法、装置、计算机设备及存储介质

图像识别模型测试方法、装置、计算机设备及存储介质

文献发布时间：2023-06-19 12:19:35

技术领域

本发明涉及性能测试领域，尤其涉及一种图像识别模型测试方法、装置、计算机设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)，是计算机学科的一个分支，通过人造物来模拟人的智能的一种方法及其实现技术的一门学科。人工智能涉及到对大数据和深度学习，而利用大数据和深度学习技术来训练得到解决某实际问题的模型是人工智能应用于解决实际问题的主要模式。而模型性能的优劣则是影响其最终使用效果(解决实际问题)的关键。

目前，模型性能测试工作基本上是依赖具有相关专业技术的技术员通过人工测评实现，不仅测试工作量大且较为复杂、效率低，而且容易因为人工错误而导致出现测试结果误差，从而影响到测试结果的可靠性。

可见，目前的模型测试方法存在测试效率低、可靠性较差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种图像识别模型测试方法、装置、计算机设备及存储介质，以解决目前的模型测试方法存在测试效率低、可靠性较差的问题。

一种图像识别模型测试方法，包括：

获取测试图像样本集，所述测试图像样本集包括多个测试图像样本以及多个真实标注信息，一个测试图像样本对应一个真实标注信息；

将所述多个测试图像样本输入待测试的图像识别模型，获得所述多个测试图像样本的预测识别结果；

分别计算各个所述测试图像样本的预测识别结果与真实标注信息的匹配度，获得多个测试图像样本的匹配度；

根据所述多个测试图像样本的匹配度构建混淆矩阵，根据所述混淆矩阵计算所述待测试的图像识别模型的性能评价结果。

一种图像识别模型测试装置，包括：

第一获取模块，用于获取测试图像样本集，所述测试图像样本集包括多个测试图像样本以及多个真实标注信息，一个测试图像样本对应一个真实标注信息；

第二获取模块，用于将所述多个测试图像样本输入待测试的图像识别模型，获得所述多个测试图像样本的预测识别结果；

第一计算模块，用于分别计算各个所述测试图像样本的预测识别结果与真实标注信息的匹配度，获得多个测试图像样本的匹配度；

第二计算模块，用于根据所述多个测试图像样本的匹配度构建混淆矩阵，根据所述混淆矩阵计算所述待测试的图像识别模型的性能评价结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述图像识别模型测试方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述图像识别模型测试方法。

上述图像识别模型测试方法、装置、计算机设备及存储介质，本发明通过在对训练出来的图像识别模型进行模型性能测试的过程中，可将获取到的测试图像样本集中的多个测试图像样本输入待测试的图像识别模型中，以获得多个测试图像样本的预测识别结果，并通过分别计算各个测试图像样本的预测识别结果与真实标注信息的匹配度来建立混淆矩阵，并根据所建立的混淆矩阵来计算出待测试的图像识别模型的性能评价结果。上述过程可以实现机器自动化测试，测试效率高且可靠性好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的第一实施例中图像识别模型测试方法的流程示意图；

图2是本发明的第二实施例中图像识别模型测试方法的流程示意图；

图3是本发明的第三实施例中图像识别模型测试方法的流程示意图；

图4是本发明的第四实施例中图像识别模型测试方法的流程示意图；

图5是本发明一实施例中图像识别模型测试装置的结构示意图；

图6是本发明一实施例中第二获取模块12的结构示意图；

图7是本发明一实施例中第一计算单元13的结构示意图；

图8是本发明另一实施例中第一计算单元13的结构示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的图像识别模型测试方法，通过在对训练出来的图像识别模型进行模型性能测试的过程中，将带有真实标注信息的多个测试图像样本输入待测试的图像识别模型中进行测试，并获得多个测试图像样本的预测识别结果，并通过分别计算各个测试图像样本的预测识别结果与真实标注信息的匹配度来建立混淆矩阵，并根据所建立的混淆矩阵来计算出待测试的图像识别模型的性能评价结果，整个过程均可由机器操作完成自动测试任务，测试效率高且可靠性好。

在第一实施例中，如图1所示，提供了一种图像识别模型测试方法的实现流程图，为了便于描述，图中仅示出与本实施例相关的部分，该方法包括如下步骤：

步骤S10，获取测试图像样本集，所述测试图像样本集包括多个测试图像样本以及多个真实标注信息，一个测试图像样本对应一个真实标注信息。

其中，测试图像样本集中的测试图像可以是预先存储在计算机的存储器中的图片或者视频数据。在测试时，可以直接从存储器中调取出部分或者全部的图片或者视频数据。

如果调取出来的是视频数据，假设是一段时长为30秒的视频，那么可以先根据预设的截取规则，截取视频中的某个片段的图像作为测试图像样本。这里的截取规则通常是指截取第几秒的视频。比如，截取视频播放到第10秒时的图像，那么作为测试图像样本为该视频播放到第10秒后暂停并截取到的图像。

在本发明实施例中，真实标注信息指的是根据图像识别模型的识别对象或识别目的而设定的描述信息。例如，待测试的图像识别模型是用于识别测试图像样本中所展示的员工是否正确穿戴工作服和铭牌，那么这里的真实标注信息可以是“员工正确穿戴工作服和铭牌”或者“员工没有正确穿戴工作服和铭牌”的文本标注信息或者是语音信息。

可以理解地，测试图像样本还可以是在进行图像识别模型测试时，通过连接网络，从网络上搜集得到的图片或视频数据。经过人工对这些网络搜集得到的图片或视频数据进行标注，可生成相应的真实标注信息。

步骤S20，将所述多个测试图像样本输入待测试的图像识别模型，获得所述多个测试图像样本的预测识别结果。

结合上述例子，待测试的图像识别模型可以是用于识别测试图像样本中所展示的员工是否正确穿戴工作服和铭牌的模型。在运行待测试的图像识别模型对各测试图像样本进行分析测试时，可以将各测试图像样本与预设的员工正确穿戴工作服和铭牌的标准图像进行比对，从而识别出各测试图像样本中的员工是否正确穿戴工作服和铭牌，即得到各测试图像样本中的员工是否正确穿戴工作服和铭牌的预测识别结果。

步骤S30，分别计算各个所述测试图像样本的预测识别结果与真实标注信息的匹配度，获得多个测试图像样本的匹配度。

作为本发明的一个示例性实施例，假设获取的测试图像样本集中有4个测试图像样本A、B、C、D，且正负样本个数各半，其中正样本指的是员工正确穿戴工作服和铭牌的图像样本，负样本为员工没有正确穿戴工作服和铭牌的图像样本，每个测试图像样本对应有一个真实标注信息，分别为a、b、c、d，将这4个测试图像样本输入待测试的图像识别模型，并运行待测试的图像识别模型对这4个测试图像样本进行测试后，输出了与测试图像样本A、B、C、D对应的预测识别结果为a’、b’、c’、d’；接着，分别计算a与a’、b与b’、c与c’、d与d’的匹配度，获得4个测试图像样本的匹配度e、f、g、h。

步骤S40，根据所述多个测试图像样本的匹配度构建混淆矩阵，根据所述混淆矩阵计算所述待测试的图像识别模型的性能评价结果。

结合上述示例性实施例，在实际应用中，可以通过预先设置模型预测结果为员工正确穿戴工作服和铭牌，真实标注信息也是员工正确穿戴工作服和铭牌的匹配度为+100％；模型预测结果为员工没有正确穿戴工作服和铭牌，真实标注信息也是员工没有正确穿戴工作服和铭牌的匹配度为-100％；模型预测结果为员工正确穿戴工作服和铭牌，真实标注信息是员工没有正确穿戴工作服和铭牌的匹配度为+50％；模型预测结果为员工没有正确穿戴工作服和铭牌，真实标注信息也是员工正确穿戴工作服和铭牌的匹配度为-50％。

假设获得的4个测试图像样本的匹配度e、f、g、h分别为+100％、-100％、+50％和-50％，那么这4个测试图像样本中模型预测结果为员工正确穿戴工作服和铭牌，真实标注信息也是员工正确穿戴工作服和铭牌的样本数为1；模型预测结果为员工没有正确穿戴工作服和铭牌，真实标注信息也是员工没有正确穿戴工作服和铭牌的样本数为1；模型预测结果为员工正确穿戴工作服和铭牌，真实标注信息是员工没有正确穿戴工作服和铭牌的样本数为1、模型预测结果为员工没有正确穿戴工作服和铭牌，真实标注信息是员工正确穿戴工作服和铭牌的样本数为1，并根据上述统计结果构建混淆矩阵

通常用于评价机器学习领域里所训练得到的模型的性能好坏的评价指标有准确度、召回率、查准率以及F1值。这些评价指标的计算方法均可通过混淆矩阵的相应固定公式计算得到，为本领域的现有技术，故在此不做具体展开赘述。

本发明通过在对训练出来的图像识别模型进行模型性能测试的过程中，可将获取到的测试图像样本集中的多个测试图像样本输入待测试的图像识别模型中，以获得多个测试图像样本的预测识别结果，并通过分别计算各个测试图像样本的预测识别结果与真实标注信息的匹配度来建立混淆矩阵，并根据所建立的混淆矩阵来计算出该待测试的图像识别模型的性能评价结果。上述过程可以实现机器自动化测试，测试效率高且可靠性好。

在第二实施例中，如图2所示，本实施例与上述第一实施例基本相同，其不同之处在于：将步骤S20替换为步骤S201和步骤S202；将步骤S30替换为步骤S301，为了便于描述，图中仅示出与本实施例相关的部分，详述如下：

步骤S201，将所述多个测试图像样本输入待测试的图像识别模型，提取出各个所述测试图像样本的图像特征信息，所述图像特征信息包括环境特征信息和预测目标对象特征信息。

假设待测试的图像识别模型为用于识别场景图片中的目标对象是否为足球的识别模型。获取的测试图像样本集中的测试图像样本是通过预置在某足球场中的某个地方的摄像装置(比如安装在机器人上的摄像机或者相机等)拍摄到的图像。其中，采集到的图像包含有进入拍摄视野范围中的人物、足球以及足球场草坪。

在进行测试时，首先，可根据预设的颜色特征提取出每个测试图像样本中的图像特征信息，提取出来的图像特征信息包括图像的环境特征信息和预测目标对象特征信息。例如，预设的颜色特征可以是绿色和非绿色，根据该颜色特征可以区分出测试图像样本中的足球草坪和非足球场草坪图像区域。此时，可再进一步从非足球场草坪图像区域中提取出预测目标对象特征信息，即足球的特征信息(比如圆形、黑白相间等)。

步骤S202，根据所述预测目标对象特征信息，识别与所述测试图像样本对应的预测目标对象。

结合上述例子，当从非足球场草坪图像区域中提取来的预测目标特征信息为圆形、黑白相间，那么可以根据预设的对象特征-对象的映射表来进行检索并确定与当前的测试图像样本对应的预测目标对象为足球。其中，预设的对象特征-对象映射表可以设置成如下表1所示的形式。

表1预设的对象特征-对象映射表

步骤S301，分别计算各个所述测试图像样本的预测目标对象和真实目标对象的匹配度，获得多个测试图像样本的匹配度。

在本实施例中，结合上述例子，每个测试图像样本可对应标注该图像实际为“足球”或“非足球”的信息。

在一种可能的实现方式中，根据测试图像样本的预测识别结果构建第一特征值；根据与所述测试图像样本对应的真实标注信息构建第二特征值；根据所述第一特征值和所述第二特征值，构建测试图像样本的匹配度特征向量。

具体的，根据测试图像样本的预测识别结果(足球或者非足球)构建第一特征值(若预测识别结果为足球，则记为1，若预测识别结果为非足球则记为0)。

类似地，根据与所述测试图像样本对应的真实标注信息(足球或非足球)构建第二特征值(若真实标注信息为足球，则记为1，若真实标注信息为非足球，则记为0)。

若某测试图像样本的第一特征值为1，第二特征值为1，则构建测试图像样本的匹配度特征向量为(1,1)；若某测试图像样本的第一特征值为1，第二特征值为0，则构建测试图像样本的匹配度特征向量为(1,0)；某测试图像样本的第一特征值为0，第二特征值为1，则构建测试图像样本的匹配度特征向量为(0,1)；某测试图像样本的第一特征值为0，第二特征值为0，则构建测试图像样本的匹配度特征向量为(0,0)。

在本实施例中，根据所得的各个测试图像样本的匹配度特征向量构建混淆矩阵

在获得各个测试图像样本的匹配度特征向量后，可确定各个测试图像样本的图像匹配类型，所述图像匹配类型包括真实正例(匹配度特征向量为(1,1))、真实负例(匹配度特征向量为(0,0))、错误正例(匹配度特征向量为(1,0))和错误负例(匹配度特征向量为(0,1))，统计各个图像匹配类型的数量，根据图像匹配类型及其数量构建混淆矩阵。

在第三实施例中，如图3所示，本实施例与上述第一实施例基本相同，其不同之处在于：将上述步骤S20替换为步骤S203、步骤S204和步骤S205。

步骤S203，对各个所述测试图像样本分别进行模糊程度识别，获得各个所述测试图像样本的模糊度。

图像质量的好坏是影响图像识别精确度的重要影响因素，而图像质量的好坏通常体现在图像是否清晰，图像清晰则可以减少识别错误率，图像模糊则容易增加图像识别的错误率。为了节省人工挑选清晰图像作为用于测试待测试的图像识别模型的性能，优选在使用待测试的图像识别模型对输入的测试图像样本进行测试之前，先对测试图像样本进行模糊程度识别，以获得各个测试图像样本的模糊度。

在一实施例中，可以调用预置的图像模糊算法对对测试图像样本进行模糊程度识别，获得各个测试图像样本的模糊度。其中，图像模糊算法可以采用现有技术中的高斯模糊算法、或者卷积神经网络CNN等方法，对于算法的具体实现流程可以参考现有技术，在此不做一一赘述。

在另一实施例中，还可以先获取测试图像样本的图像边缘信息，所述图像边缘信息包括边缘宽度，再通过所述边缘宽度大小来确定该测试图像样本的模糊度。

步骤S204，根据所述模糊度，基于具有不同模糊度参数的恢复滤镜对各个所述测试图像样本进行模糊度校正，获得多个经校正后的测试图像样本。

在本实施例中，可预置模糊度分为不模糊、轻度模糊、严重模糊三个程度。可以利用预定的点扩展函数来生成具有不同模糊度参数的恢复滤镜，以用于对不同模糊度的图像进行模糊度校正，获得清晰的图像，即经校正后的测试图像样本。

其中，点扩散函数(point spread function,简称PSF)，是描述光学系统对点源解析能力的函数。因为点源在经过任何光学系统后都会由于衍射而形成一个扩大的像点。点扩展函数是从对应于点源输入的图像的变换输出，通常被用作清晰输入变换成模糊输出。点扩展函数，作为图像模糊模型，包括对应于模糊程度的参数，具体的，对应于不模糊、轻度模糊、严重模糊这三个模糊程度的参数。

步骤S205，将所述多个经校正后的测试图像样本输入待测试的图像识别模型，获得所述多个测试图像样本的预测识别结果。

在本实施例中，步骤S205的具体实现过程可以参照上述第一、第二实施例的相关步骤的实现过程，在此不做赘述。

在第四实施例中，如图4所示，本实施例与上述第一实施例基本相同，其不同之处在于：将步骤S30替换为步骤S302、步骤S303、步骤S304和步骤S305，为了便于描述，图中仅示出与本实施例相关的部分，详述如下：

步骤S302，获取所述测试图像样本的预测识别结果的第一文本信息以及与所述测试图像样本对应的真实标注信息的第二文本信息。

在本发明的一个示例性实施例中，测试图像样本的预测识别结果和真实标注信息均可以是关于图像内容的一段或多段文字、一句或多句话、一个或多个词语的文字描述信息或者是语音信息。

例如，真实标注信息为“在绿草如茵的体育馆足球场举行了一场精彩的足球比赛，比赛双方分别是穿红色队服的野狼队和穿蓝色队服的老鹰队”的一段文本描述信息(即为第一文本信息)。预测识别结果为“绿色草坪红蓝足球”的文本信息(即为第二文本信息)。

可以理解的，当预测识别结果和/或真实标注信息为语音信息时，可以先将该语音信息转换成文字信息。

步骤S303，对所述第一文本信息进行分词操作，统计各个分词的词频，并根据统计结果，确定所述第一文本信息的第一关键词。

从词性来看，词语可分为实词和虚词；实词，有实际意义的词，包括名词、动词、形容词、数词、量词；虚词，没有实在意义的词，包括副词、介词、连词、助词、叹词、拟声词。

在一实施例中，对第一文本信息按照词性进行分词操作，并统计各个分分词的词频，并根据统计结果，将在第一文本信息中重复出现次数达到预设次数的词语确定为第一关键词。

其中，预设次数可以是大于等于2,3,4...，在此不做具体限定。示例性地，“在绿草如茵的体育馆足球场举行了一场精彩的足球比赛，比赛双方分别是穿红色队服的野狼队和穿蓝色队服的老鹰队”中重复出现至少2次的词语为“足球”、“比赛”、“队服”，此时可将这几个词语确定为第一关键词。

在实际应用中，为了更加直观且准确地体现图像识别模型所要实现的功能，可以根据图像识别模型的识别对象对上述划分出来的词语进行筛选，最终确定一个与该模型所要实现的功能最为相关的词语，并且该词语通常为名词。比如，待测试的图像识别模型是用于识别足球图像的，那么可以将第一文本信息中出现的与“足球”相同的词语确定为第一关键词。如果第一文本信息中出现了“蹴鞠”，此时也可以将第一文本信息中是“足球”的近义词的“蹴鞠”确定为第一关键词。如果第一文本信息中出现了“球”，还可以将与“足球”属于同一主题的“球”确定为第一关键词。

步骤S304，对所述第二文本信息进行分词操作，统计各个分词的词频，并根据统计结果，确定所述第二文本信息的第二关键词。

在本实施例中，对于第二文本信息的分词操作，以及第二关键词的确定方式可以参照上述第一文本信息、第一关键词的确定方法。

步骤S305，计算所述第一关键词与所述第二关键词的相似度，根据所述相似度确定所述多个测试图像样本的匹配度。

具体地，在本发明实施例中，上述步骤S305包括：

判断所述第一关键词的词性和所述第二关键词的词性是否相同。

若所述第一关键词的词性和所述第二关键词的词性相同，则判别所述第一关键词与所述第二关键词的词义相似度。

根据所述词义相似度确定所述多个测试图像样本的匹配度。

在本实施例中，首先判断第一关键词的词性和第二关键词的词性是否相同，通常同词性的词语进行比对会比较简单且准确性较高；若第一关键词的词性和第二关键词的词性相同，例如都为名词时，那么可以基于预设的词语A与词语B的关联关系来确定二者的词义相似度。其中关联关系通常指的是词语A与词语B相同，词语A与词语B为近义词，词语A与词语B的主题相同。此处还可以预先设置词语A与词语B的关联关系与相似度的映射表，如下表2所示。

表2词语A与词语B的关联关系与相似度的映射表

结合上述例子，若测试图像样本的第一关键词为足球，第二关键词为足球，那么第一关键词与第二关键词的词义相似度为100％，则测试图像样本的预测识别结果和真实标注信息的匹配度为100％。又例如，若测试图像样本的第一关键词为足球，第二关键词为蹴鞠，那么第一关键词与第二关键词的词义相似度为50％，则测试图像样本的预测识别结果和真实标注信息的匹配度为50％。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种图像识别模型测试装置，该图像识别模型测试装置与上述实施例中图像识别模型测试方法一一对应。如图5所示，该图像识别模型测试装置包括第一获取模块11、第二获取模块12、第一计算模块13和第二计算模块14。各功能模块详细说明如下：

第一获取模块11，用于获取测试图像样本集，所述测试图像样本集包括多个测试图像样本以及多个真实标注信息，一个测试图像样本对应一个真实标注信息；

第二获取模块12，用于将所述多个测试图像样本输入待测试的图像识别模型，获得所述多个测试图像样本的预测识别结果；

第一计算模块13，用于分别计算各个所述测试图像样本的预测识别结果与真实标注信息的匹配度，获得多个测试图像样本的匹配度；

第二计算模块14，用于根据所述多个测试图像样本的匹配度构建混淆矩阵，根据所述混淆矩阵计算所述待测试的图像识别模型的性能评价结果。

在一实施例中，所述真实标注信息包括真实目标对象。

上述第二获取模块12，还用于将所述多个测试图像样本输入待测试的图像识别模型，提取出各个所述测试图像样本的图像特征信息，所述图像特征信息包括环境特征信息和预测目标对象特征信息。

根据所述预测目标对象特征信息，识别与所述测试图像样本对应的预测目标对象。

上述第一计算模块13，还用于分别计算各个所述测试图像样本的预测目标对象和真实目标对象的匹配度，获得多个测试图像样本的匹配度。

在一实施例中，结合图6，上述第二获取模块12包括模糊度识别单元121、模糊度校正单元122和识别单元123，为了便于描述，图中仅示出了与本发明实施例相关的部分，详述如下：

模糊度识别单元121，用于对各个所述测试图像样本分别进行模糊程度识别，获得各个所述测试图像样本的模糊度。

模糊度校正单元122，用于根据所述模糊度，基于具有不同模糊度参数的恢复滤镜对各个所述测试图像样本进行模糊度校正，获得多个经校正后的测试图像样本。

识别单元123，用于将所述多个经校正后的测试图像样本输入待测试的图像识别模型，获得所述多个测试图像样本的预测识别结果。

在一实施例中，如图7所示，上述第一计算单元13包括特征向量构建单元131、匹配度特征向量构建单元132，为了便于描述，图中仅示出了与本发明实施例相关的部分，详述如下：

特征向量构建单元131，用于根据所述测试图像样本的预测识别结果构建第一特征值，根据与所述测试图像样本对应的真实标注信息构建第二特征值。

匹配度特征向量构建单元132，用于根据所述第一特征值和所述第二特征值，构建测试图像样本的匹配度特征向量。

上述第二计算单元14，还用于根据所述多个所述匹配度特征向量构建混淆矩阵。具体地，根据所述多个测试图像样本的匹配度特征向量，确定所述多个测试图像样本的图像匹配类型，所述图像匹配类型包括真实正例、真实负例、错误正例和错误负例，统计各个图像匹配类型的数量，根据图像匹配类型及其数量构建混淆矩阵。

在另一实施例中，如图8所示，上述第一计算单元13包括文本信息获取单元133、第一关键词确定单元134、第二关键词确定单元135、匹配度确定单元136，为了便于描述，图中仅示出了与本发明实施例相关的部分，详述如下：

文本信息获取单元133，用于获取所述测试图像样本的预测识别结果的第一文本信息以及与所述测试图像样本对应的真实标注信息的第二文本信息。

第一关键词确定单元134，用于对所述第一文本信息进行分词操作，统计各个分词的词频，并根据统计结果，确定所述第一文本信息的第一关键词。

第二关键词确定单元135，用于对所述第二文本信息进行分词操作，统计各个分词的词频，并根据统计结果，确定所述第二文本信息的第二关键词；

匹配度确定单元136，用于计算所述第一关键词与所述第二关键词的相似度，根据所述相似度确定所述多个测试图像样本的匹配度。

其中，上述匹配度确定单元136，具体还用于判断所述第一关键词的词性和所述第二关键词的词性是否相同。

若所述第一关键词的词性和所述第二关键词的词性相同，则判别所述第一关键词与所述第二关键词的词义相似度。

根据所述词义相似度确定所述多个测试图像样本的匹配度。

关于图像识别模型测试装置的具体限定可以参见上文中对于图像识别模型测试方法的限定，在此不再赘述。上述图像识别模型测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储图像识别模型测试方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种图像识别模型测试方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

获取测试图像样本集，所述测试图像样本集包括多个测试图像样本以及多个真实标注信息，一个测试图像样本对应一个真实标注信息。

将所述多个测试图像样本输入待测试的图像识别模型，获得所述多个测试图像样本的预测识别结果。

分别计算各个所述测试图像样本的预测识别结果与真实标注信息的匹配度，获得多个测试图像样本的匹配度。

根据所述多个测试图像样本的匹配度构建混淆矩阵，根据所述混淆矩阵计算所述待测试的图像识别模型的性能评价结果。

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

获取测试图像样本集，所述测试图像样本集包括多个测试图像样本以及多个真实标注信息，一个测试图像样本对应一个真实标注信息。

将所述多个测试图像样本输入待测试的图像识别模型，获得所述多个测试图像样本的预测识别结果。

分别计算各个所述测试图像样本的预测识别结果与真实标注信息的匹配度，获得多个测试图像样本的匹配度。

根据所述多个测试图像样本的匹配度构建混淆矩阵，根据所述混淆矩阵计算所述待测试的图像识别模型的性能评价结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王岩晨;
专利申请人：平安科技(深圳)有限公司;