图片识别方法、装置、设备及存储介质

文献发布时间：2023-06-19 13:29:16

技术领域

本申请涉及图像识别技术领域，尤其涉及一种图片识别方法、装置、设备及存储介质。

背景技术

随着互联网技术的快速发展以及普及，对于网络资源的规范提出了相应要求。例如，对于应用程序或者网页内容而言，在其上展示的网络资源需要进行审核才可对外发布，以防一些可能包含有污秽表情包的图片被公布。

当前，存在一些借助于儿童表情包包装形成的污秽图片、色情图片等网络资源在互联网上展示，不仅危害未成年人的身心健康还可能可以逃避网络图片审核，损坏网络管理规范。针对这类网络图片，现有的审核方式包括人工审查、对图片上的文字和图像特征进行匹配完成识别以及基于皮肤色彩特征匹配的方法进行识别。

然而，这些识别方式存在诸多缺陷。例如，人工识别方式不仅效率低下还耗费大量人力资源。对图片上的文字和图像特征进行匹配的识别方式对于不包含文字，或者不包含明显色情、污秽等内容文字的图片识别效果较差，并且，借助于儿童表情包包装成的污秽、色情等网络图片中的文字描述往往较为隐晦，识别较为困难。而基于皮肤色彩特征匹配的识别方法若仅通过图像中的皮肤的百分比进行污秽、色情图片判断，识别率不仅低下，误识别率也较高，不适用于包含有儿童表情包元素的图片识别方案。可见，亟需一种有效的图片识别方法对基于儿童表情包包装的危害网络管理规范的污秽、色情图片进行识别以达到审核目的。

发明内容

本申请提供一种图片识别方法、装置、设备及存储介质，用于提供一种图片识别方法以对基于儿童表情包形成的污秽、色情图片的有效识别。

第一方面，本申请提供一种图片识别方法，包括：

利用预设角色识别模型对待识别图片中的人物角色进行识别，以确定所述待识别图片中的人物角色是否包含预设人物角色；

若是，根据多个目标特征解析模型获取目标特征数据，所述目标特征数据包括所述预设人物角色的表情特征数据、所述预设人物角色的动作特征数据以及所述待识别图片中的文字特征数据；

根据目标决策模型以及所述目标特征数据确定所述待识别图片是否为目标图片，所述目标图片包含预设特征数据，所述预设特征数据用于表征所述目标图片的属性特征。

在一种可能的设计中，所述目标决策模型为利用样本特征数据对预设决策模型训练得到的对应模型，所述样本特征数据与所述目标特征数据具有相同的数据格式。

在一种可能的设计中，所述根据多个目标特征解析模型获取目标特征数据，包括：

将所述待识别图片确定为目标表情解析模型的第一输入数据，获取所述目标表情解析模型的第一输出数据，将所述第一输出数据确定为所述预设人物角色的表情特征数据；

将所述待识别图片确定为目标动作解析模型的第二输入数据，获取所述目标动作解析模型的第二输出数据，将所述第二输出数据确定为所述预设人物角色的动作特征数据；

利用目标文字获取模型获取所述待识别图片中的所述文字特征数据；

其中，所述多个目标特征解析模型包括所述目标表情解析模型、所述目标动作解析模型及所述目标文字获取模型。

在一种可能的设计中，在所述将所述待识别图片确定为目标表情解析模型的第一输入数据之前，还包括：

从预设表情数据库获取复合表情标注数据；

根据所述复合表情标注数据训练预设表情解析模型；

将训练后的预设表情解析模型确定为所述目标表情解析模型。

在一种可能的设计中，在所述将所述待识别图片确定为目标动作解析模型的第二输入数据之前，还包括：

利用第一训练图片集对第一预设动作解析模型进行训练，以将训练后的第一预设动作解析模型确定为第一目标动作解析模型，所述第一训练图片集中的各第一训练图片包含第一预设要素；

利用第二训练图片集对第二预设动作解析模型进行训练，以将训练后的第二预设动作解析模型确定为第二目标动作解析模型，所述第二训练图片集中的各第二训练图片包含第二预设要素；

其中，所述第一预设要素和所述第二预设要素的数量为多个，所述目标动作解析模型包括所述第一目标动作解析模型和所述第二目标动作解析模型。

在一种可能的设计中，所述预设人物角色的表情特征数据以及所述预设人物角色的动作特征数据为one-hot格式。

在一种可能的设计中，所述利用目标文字获取模型获取所述待识别图片中的所述文字特征数据，包括：

利用目标文字识别模型对所述待识别图片进行文字识别，得到文字识别结果；

若所述文字识别结果为包含文字信息，则根据所述文字识别结果以及目标判别器确定第一文字特征数据；

若所述文字识别结果为未包含文字信息，则根据所述文字识别结果生成第二文字特征数据；

其中，所述目标文字获取模型包括所述目标文字识别模型和所述目标判别器，所述文字特征数据包括所述第一文字特征数据或所述第二文字特征数据。

在一种可能的设计中，所述根据所述文字识别结果以及目标判别器确定第一文字特征数据，包括：

根据目标文字判别器识别所述文字信息中是否包含预设文字，若是，则生成第三文字特征数据；

若否，根据目标词义判别器对所述文字信息进行词义识别，若确定所述词义识别的结果包含预设词义，则生成第三文字特征数据；

若确定所述词义识别的结果未包含预设词义，则生成第四文字特征数据；

其中，所述目标判别器包括所述目标文字判别器和所述目标词义判别器，所述第一文字特征数据包括所述第三文字特征数据或所述第四文字特征数据。

第二方面，本申请提供一种图片识别装置，包括：

识别模块，用于利用预设角色识别模型对待识别图片中的人物角色进行识别，以确定所述待识别图片中的人物角色是否包含预设人物角色；

处理模块，用于若确定所述待识别图片中的人物角色包含所述预设人物角色，则根据多个目标特征解析模型获取目标特征数据，所述目标特征数据包括所述预设人物角色的表情特征数据、所述预设人物角色的动作特征数据以及所述待识别图片中的文字特征数据；

决策模块，用于根据目标决策模型以及所述目标特征数据确定所述待识别图片是否为目标图片，所述目标图片包含预设特征数据，所述预设特征数据用于表征所述目标图片的属性特征。

在一种可能的设计中，所述处理模块，包括：

第一处理子模块，用于将所述待识别图片确定为目标表情解析模型的第一输入数据，获取所述目标表情解析模型的第一输出数据，将所述第一输出数据确定为所述预设人物角色的表情特征数据；

第二处理子模块，用于将所述待识别图片确定为目标动作解析模型的第二输入数据，获取所述目标动作解析模型的第二输出数据，将所述第二输出数据确定为所述预设人物角色的动作特征数据；

第三处理子模块，用于利用目标文字获取模型获取所述待识别图片中的所述文字特征数据；

其中，所述多个目标特征解析模型包括所述目标表情解析模型、所述目标动作解析模型及所述目标文字获取模型。

在一种可能的设计中，所述图片识别装置，还包括：第一训练模块；所述第一训练模块，用于：

从预设表情数据库获取复合表情标注数据；

根据所述复合表情标注数据训练预设表情解析模型；

将训练后的预设表情解析模型确定为所述目标表情解析模型。

在一种可能的设计中，所述图片识别装置，还包括：第二训练模块；所述第二训练模块，用于：

其中，所述第一预设要素和所述第二预设要素的数量为多个，所述目标动作解析模型包括所述第一目标动作解析模型和所述第二目标动作解析模型。

在一种可能的设计中，所述预设人物角色的表情特征数据以及所述预设人物角色的动作特征数据为one-hot格式。

在一种可能的设计中，所述第三处理子模块，具体用于：

利用目标文字识别模型对所述待识别图片进行文字识别，得到文字识别结果；

若所述文字识别结果为包含文字信息，则根据所述文字识别结果以及目标判别器确定第一文字特征数据；

若所述文字识别结果为未包含文字信息，则根据所述文字识别结果生成第二文字特征数据；

其中，所述目标文字获取模型包括所述目标文字识别模型和所述目标判别器，所述文字特征数据包括所述第一文字特征数据或所述第二文字特征数据。

在一种可能的设计中，所述第三处理子模块，还具体用于：

根据目标文字判别器识别所述文字信息中是否包含预设文字，若是，则生成第三文字特征数据；

若否，根据目标词义判别器对所述文字信息进行词义识别，若确定所述词义识别的结果包含预设词义，则生成第三文字特征数据；

若确定所述词义识别的结果未包含预设词义，则生成第四文字特征数据；

其中，所述目标判别器包括所述目标文字判别器和所述目标词义判别器，所述第一文字特征数据包括所述第三文字特征数据或所述第四文字特征数据。

第三方面，本申请提供一种电子设备，包括：

处理器；以及，

存储器，用于存储所述处理器的计算机程序；

其中，所述处理器配置为经由执行所述计算机程序来执行第一方面所提供的任意一种可能的图片识别方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所提供的任意一种可能的图片识别方法。

第五方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的图片识别方法。

本申请提供一种图片识别方法、装置、设备及存储介质。首先利用预设角色识别模型对待识别图片中的人物角色进行识别，以确定待识别图片中的人物角色是否包含预设人物角色。若确定待识别图片中的人物角色包含预设人物角色，则根据多个目标特征解析模型获取目标特征数据，目标特征数据包括预设人物角色的表情特征数据、预设人物角色的动作特征数据以及待识别图片中的文字特征数据。最后根据目标决策模型以及目标特征数据确定待识别图片是否为目标图片。以为包含有预设人物角色的待识别图片提供一种多模型的有效识别方法，提升识别效率并减少误识别率，有利于维护网络管理规范。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的一种图片识别方法的流程示意图；

图3为本申请实施例提供的另一种图片识别方法的流程示意图；

图4为本申请实施例提供的再一种图片识别方法的流程示意图；

图5为本申请实施例提供的又一种图片识别方法的流程示意图；

图6为本申请实施例提供的一种图片识别装置的结构示意图；

图7为本申请实施例提供的一种处理模块的结构示意图；

图8为本申请实施例提供的另一种图片识别装置的结构示意图；

图9为本申请提供的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前存在一些借助于儿童表情包包装形成的污秽图片、色情图片等网络资源在互联网上展示，不仅危害未成年人的身心健康还可能可以逃避网络图片审核，损坏网络管理规范。针对这类网络图片，现有的审核方式包括人工审查、对图片上的文字和图像特征进行匹配完成识别以及基于皮肤色彩特征匹配的方法进行识别。然而这些识别方式存在诸多缺陷，例如，人工识别方式不仅效率低下还耗费大量人力资源。对图片上的文字和图像特征进行匹配的识别方式对于不包含文字，或者不包含明显色情、污秽等内容文字的图片识别效果较差，并且，借助于儿童表情包包装成的污秽、色情等网络图片中的文字描述往往较为隐晦，识别较为困难。而基于皮肤色彩特征匹配的识别方法若仅通过图像中的皮肤的百分比进行污秽、色情图片判断，识别率不仅低下，误识别率也较高，不适用于包含有儿童表情包元素的图片识别方案。

针对现有技术中存在的上述问题，亟需一种有效的图片识别方法对基于儿童表情包包装的危害网络管理规范的污秽、色情图片进行识别以达到审核目的。本申请提供一种图片识别方法、装置、设备及存储介质，本申请提供的图片识别方法的发明构思在于：针对包含有预设人物角色的待识别图片，例如包含有儿童的待识别图片，采用多个目标特征解析模型分别获取该待识别图片的目标特征数据，例如获取预设人物角色的表情特征数据、预设人物角色的动作特征数据以及待识别图片中的文字特征数据，最后根据目标决策模型以及目标特征数据确定待识别图片是否为目标图片，以从待识别图片中将包含有预设特征数据的目标图片进行有效识别，提升识别效率并减少误识别率，有利于维护网络管理规范。

以下，对本申请实施例的示例性应用场景进行介绍。

图1为本申请实施例提供的一种应用场景示意图，如图1所示，第一终端设备11可以运行应用程序或者浏览网页等网络资源，第二终端设备12中的处理器被配置为可以执行本申请实施例提供的图片识别方法，以对可以在第一终端设备11中运行的应用程序或网页等网络资源中的包含有预设特征数据的待识别图片进行有效识别，不仅提升识别效率以及减少误识别率，还有利于维护网络管理规范。

其中，第一终端设备11可以为计算机、智能手机、智能手表等可穿戴设备以及任意可以运行浏览图片的相应设备。第二终端设备12可以为计算机、服务器、服务器集群等能够执行本申请实施例提供的图片识别方法的相应设备。本申请实施例对于第一终端设备11和第二终端设备12的类型不作限定，图1中的第一终端设备11以智能手机为例示出，第二终端设备12以计算机为例示出。

可以理解的是，第一终端设备11和第二终端设备12之间可以包括但不仅限于通过网络通信连接，通信连接可以为有线、无线等方式。

需要说明的是，上述应用场景仅仅是示意性的，本申请实施例提供的图片识别方法、装置、设备及存储介质包括但不仅限于上述应用场景。

图2为本申请实施例提供的一种图片识别方法的流程示意图。如图2所示，本申请实施例提供的图片识别方法，包括：

S101：利用预设角色识别模型对待识别图片中的人物角色进行识别，以确定待识别图片中的人物角色是否包含预设人物角色。

在对待识别图片进行识别以确定其是否为目标图片时，首先对待识别图片上的人物角色进行识别。例如，可以利用预设角色识别模型对待识别图片中的人物角色进行识别，以确定出待识别图片中的人物角色是否包含有预设人物角色，其中，预设人物角色可以为儿童。具体地，在实际工况中，对于预设人物角色为儿童角色的具体识别条件可以根据实际工况设置，比如设置满足儿童角色的一些特征条件，以当利用预设角色识别模型进行人物角色时，确定出满足所设置的特征条件的人物角色，从而确定出待识别图片是否包含预设人物角色。

另外，预设角色识别模型可以为能够对图片中的人物角色进行有效识别的任意识别模型，例如对于老人、婴儿、成年人等人物角色进行识别的一些识别模型，本实施例对于预设角色识别模型的具体内容不作限定。

S102：若是，根据多个目标特征解析模型获取目标特征数据。

其中，目标特征数据包括预设人物角色的表情特征数据、预设人物角色的动作特征数据以及待识别图片中的文字特征数据。

利用预设角色识别模型对待识别图片中的人物角色进行识别，若确定待识别图片中的人物角色包含预设人物角色，则进一步根据多个目标特征解析模型分别获取该待识别图片的目标特征数据。反之，若确定待识别图片中的人物角色未包含预设人物角色，则结束本实施例的图片识别方法。

其中，所能获取到的目标特征数据包括预设人物角色的表情特征数据、预设人物角色的动作特征数据以及待识别图片中的文字特征数据。用于获取目标特征数据的多个目标特征解析模型包括目标表情解析模型、目标动作解析模型及目标文字获取模型。

例如，利用目标表情解析模型获取目标特征数据中预设人物角色的表情特征数据。换言之，首选将待识别图片确定为目标表情解析模型的第一输入数据，然后获取目标表情解析模型的第一输出数据，再将第一输出数据确定为预设人物角色的表情特征数据。

目标表情解析模型用于获取预设人物角色的表情特征数据。通常，人物角色的表情常见的有以下几类，比如愤怒、高兴、悲伤、惊讶、厌恶、恐惧和中立等。而当预设人物角色为儿童时，由于儿童的表情更为自然、丰富，因而可以采用复合表情描述预设人物角色的表情特征数据。

因而，在一种可能的设计中，在利用目标表情解析模型获取预设人物角色的表情特征数据之前，也即将待识别图片确定为目标表情解析模型的第一输入数据之前，需要利用复合表情标注数据作为训练样本对预设表情解析模型进行训练以得到目标表情解析模型。其中，预设表情解析模型为进行人脸表情识别的任意模型，本实施例对于预设表情解析模型的具体内容不作限定。

图3为本申请实施例提供的另一种图片识别方法的流程示意图。如图3所示，在将待识别图片确定为目标表情解析模型的第一输入数据之前，还包括：

S201：从预设表情数据库获取复合表情标注数据。

S202：根据复合表情标注数据训练预设表情解析模型。

S203：将训练后的预设表情解析模型确定为目标表情解析模型。

从预设表情数据库中获取复合表情标注数据，将获取到的复合表情标注数据作为训练样本，以对预设表情解析模型进行训练，将训练后的预设表情解析模型确定为目标表情解析模型，从而得到用于获取预设人物角色的表情特征数据的目标表情解析模型。其中，预设表情数据库可以为Real-world Affective Faces数据库(RAF-DB)。

可以理解的是，本实施例对于预设表情解析模型的具体训练过程不作限定，可以根据实际工况直到得到满意的训练结果时结束训练过程，本实施例对于满意的训练结果不作限定，可以根据实际工况设置相应的损失函数、预测结果等以确定出满意的训练结果。

另外，由于采用复合表情描述预设人物角色的表情特征数据，因而可以采用one-hot格式对预设人物角色的表情特征数据进行表示。例如，假设愤怒、高兴、悲伤、惊讶、厌恶、恐惧和中立对应的索引分别是0-6，那若预设人物角色的复合表情为[高兴，惊讶]，则其对应的表情特征数据即为[0，1，0，1，0，0，0]这一七维数据。

进一步地，还可以将待识别图片确定为目标动作解析模型的第二输入数据，然后获取目标动作解析模型的第二输出数据，最后将得到的第二输出数据确定为预设人物角色的动作特征数据。换言之，利用目标动作解析模型确定目标特征数据中的预设人物角色的动作特征数据。

可选地，目标动作解析模型包括第一目标动作解析模型和第二目标动作解析模型。其中，第一目标动作解析模型用于获取预设人物角色的动作特征数据中的静态动作数据，例如预设人物角色的服饰特征。第二目标动作解析模型用于获取预设人物角色的动作特征数据中的动态动作数据，例如预设人物角色的动作行为特征。

通常，色情图片、污秽图片等图片中可能会包含有一些性暗示要素或者性暗示动作。性暗示要素体现在预设人物角色的服饰上可以为内衣、护士服、水手服等制服特征。性暗示动作可以为性暗示、性挑逗等动作。鉴于此，则可以在利用第一目标动作解析模型和第二动作解析模型获取预设人物角色的动作特征数据之前，也即在将待识别图片确定为目标动作解析模型的第二输入数据之前，可以通过第一训练图片集中的各第一训练图片和第二训练图片集中的各第二训练图片分别对第一预设动作解析模型和第二预设动作解析模型进行训练，以得到第一目标动作解析模型和第二目标动作解析模型。

其中，第一训练图片集中的各第一训练图片包含有用于表征性暗示要素的第一预设要素，第二训练图片集中的各第二训练图片包含有用于表征性暗示动作的第二预设要素。

例如，将第一训练图片集中的各第一训练图片作为训练样本，对第一预设动作解析模型进行训练，然后将训练后的第一预设动作解析模型确定为第一目标动作解析模型。第一训练图片集中的各第一训练图片包含第一预设要素，比如第一预设要素可以为服饰特征。具体地，对于第一预设要素的具体内容可以根据实际情况设置，对此本实施例不作限定。

又例如，将第二训练图片集中的各第二训练图片作为训练样本，对第二预设动作解析模型进行训练，然后将训练后的第二预设动作解析模型确定为第二目标动作解析模型。第二训练图片集中的各第二训练图片包含第二预设要素，比如第二预设要素可以为动作特征。具体地，对于第二预设要素的具体内容可以根据实际情况设置，对此本实施例不作限定。

需要说明的是，第一预设要素和第二预设要素的数量可以为多个，本实施例对于具体的数量不作限定。第一预设动作解析模型和第二预设动作解析模型分别可以为能够进行特征识别的相应模型，

通过上述描述可知，第一目标动作解析模型和第二目标动作解析模型分别是通过第一预设要素和第二预设要素进行训练所得，因而利用第一目标动作解析模型获取到的预设人物角色的动作特征数据中的静态动作数据，可以为第一预设要素中的一个或多个。相应地，利用第二目标动作解析模型获取到的预设人物角色的动作特征数据中的动态动作数据，可以为第二预设要素中的一个或多个。故而，静态动作数据和动态动作数据，也即预设人物角色的动作特征数据也可以采用采用one-hot格式进行表示。

假设第一预设要素的数量为N个，也可以理解为各第一训练图片包含有N类不同的特征，则静态动作数据为一N维的one-hot格式的相应数据。假设第二预设要素的数量为M个，也可以理解为各第二训练图片包含有M类不同的特征，则动态动作数据为一M维one-hot格式的相应数据。M和N的取值为大于0的整数。

在利用目标表情解析模型和目标动作解析模型分别获取到预设人物角色的表情特征数据和预设人物角色的动作特征数据后，进一步地，还利用目标文字获取模型获取待识别图片中的文字特征数据。可以理解的是，文字特征数据用于表征待识别图片上的文字信息。目标文字获取模型是指可以识别文字信息的相应模型，本实施例对于该模型的具体内容不作限定。

在利用多个目标特征解析模型获取到目标特征数据之后，则基于目标特征数据确定待识别图片是否为目标图片。

S103：根据目标决策模型以及目标特征数据确定待识别图片是否为目标图片。

其中，目标图片包含预设特征数据，预设特征数据用于表征目标图片的属性特征。

将目标特征数据作为目标决策模型的输入数据，利用目标决策模型确定待识别图片是否为目标图片。其中，目标图片是指包含有可以表征其属性特征的预设特征数据的相应图片，例如目标图片为本申请实施例所要识别的儿童表情包装成的色情、污秽图片，该类图片的属性特征即为色情、污秽等不利于网络管理规范等特征。预设特征数据为自定义的可以被确认为该类图片的相应特征。具体地，预设特征数据可以基于目标特征数据中的各数据的特征进行自定义。

另外，目标决策模型可以为进行决策判断的相应模型，例如支持向量机(SupportVector Machine，SVM)算法、神经网络类的分类模型以及机器学习模型等，对于目标决策模型的类型等具体内容本实施例不作限定。

可选地，在利用目标决策模型对目标特征数据进行判断以确定待识别图片是否为目标图片之前，还需要对预设决策模型进行训练以得到能够进行目标图片识别的目标决策模型。即目标决策模型为利用样本特征数据对预设决策模型进行训练后得到的对应模型。

可以理解的是，样本特征数据与目标特征数据具有相同的数据格式。例如，目标特征数据的数据格式为7+N+M+2维，则训练样本特征数据的数据格式也同为7+N+M+2维，其中假设文字特征数据为二维数据。并且，样本特征数据需包含有预设特征数据，才能对预设决策模型进行训练，使得训练得到的目标决策模型能够对目标图片进行有效识别。

可以理解的是，当识别出待识别图片为目标图片后，则可以按照网络管理规范等相应实施方案对识别出的待识别图片进行删除、屏蔽等相应处理，对此，本实施例不作限定。

本申请实施例提供的图片识别方法，首先利用预设角色识别模型对待识别图片中的人物角色进行识别，确定出待识别图片中的人物角色是否包含预设人物角色。若待识别图片中的人物角色包含预设人物角色，则根据多个目标特征解析模型获取目标特征数据，目标特征数据包括预设人物角色的表情特征数据、预设人物角色的动作特征数据以及待识别图片中的文字特征数据。最后根据目标决策模型以及目标特征数据确定待识别图片是否为目标图片。以为包含有预设人物角色的待识别图片提供一种多模型多维度的有效识别方法，提升识别效率以及正确度，减少误识别率，有利于维护网络管理规范。

在上述实施例的基础上，在一种可能的设计中，利用目标文字获取模型获取待识别图片中的文字特征数据可能的实现方式如图4所示。图4为本申请实施例提供的再一种图片识别方法的流程示意图。如图4所示，本实施例包括：

S301：利用目标文字识别模型对待识别图片进行文字识别，得到文字识别结果。

利用目标文字识别模型对待识别图片可能包含的文字信息进行识别，得到文字识别结果。其中，文字识别结果分为两种情况，一种是待识别图片上包含有文字信息，另一种是待识别图片上未包含有文字信息。即若识别结果为前者则进一步执行步骤S302，若识别结果为后者则进一步执行步骤S303。

需要说明的是，利用目标文字识别模型进行待识别图片上的文字信息识别时，对于该文字信息具体的文字内容不作限定。目标文字识别模型可以为任意进行文字信息识别的相应识别软件，例如光学字符识别软件(Optical Character Recognition，OCR)，对于目标文字识别模型的具体选用本实施不作限定。

S302：若文字识别结果为包含文字信息，则根据文字识别结果以及目标判别器确定第一文字特征数据。

当目标文字识别模型识别出待识别图片上包含有文字信息，则进一步需根据文字识别结果和目标判别器对识别到的文字信息进行判断，以确定出对应的第一文字特征数据。

S303：若文字识别结果为未包含文字信息，则根据文字识别结果生成第二文字特征数据。

当目标文字识别模型识别出待识别图片上未包含有文字信息，即文字识别结果为未包含文字信息，则直接根据文字识别结果生成第二文字特征数据。假设第二文字特征数据采用二维数据表示，则文字识别结果未包含文字信息时，生成的第二文字特征数据可以表示为[0，0]。

通过上述描述可知，用于获取文字特征数据的目标文字获取模型包括上述的目标文字识别模型以及目标判别器。文字特征数据包括第一文字特征数据或第二文字特征数据。

在一种可能的设计中，本步骤S302中根据文字识别结果以及目标判别器确定第一文字特征数据可能的实现方式如图5所示。图5为本申请实施例提供的又一种图片识别方法的流程示意图。如图5所示，本实施例包括：

S401：根据目标文字判别器识别文字信息中是否包含预设文字。

S402：若是，则生成第三文字特征数据。

S403：若否，根据目标词义判别器对文字信息进行词义识别。

S404：若确定词义识别的结果包含预设词义，则生成第三文字特征数据。

S405：若确定词义识别的结果未包含预设词义，则生成第四文字特征数据。

利用目标文字判别器对文字信息中是否包含有预设文字进行识别，若识别到文字信息中包含有预设文字，则直接生成第三文字特征数据，例如生成[0，1]以表示文字信息中包含有预设文字。其中，预设文字是指预先设定的用于表征预设特征数据的文字，例如明显的色情、污秽词语。

当根据目标文字判别器进行识别，识别出文字信息中未包含有预设文字，则进一步利用目标词义判别器对文字信息进行词义识别，当词义识别的结果中包含有预设词义，则本步骤S404与步骤S402一致，生成第三文字特征数据，例如采用[0，1]表示文字信息的词义识别结果中包含预设词义。可以理解的是，预设词义是指与预设文字具有相同词义。本实施例对于预设词义的具体内容不作限定。

反之，若目标词义判别器对文字信息进行词义识别，确定出词义识别的结果中未包含预设词义则执行步骤S405。目标词义判别器进行词义识别，得到的词义识别结果中若未包含预设词义，则直接生成第四文字特征数据，例如区别于第三文字特征数据，采用[1，0]表示。

通过上述实施例描述可知，目标判别器包括目标文字判别器和目标词义判别器，第一文字特征数据包括第三文字特征数据或第四文字特征数据。其中，目标文字判别器和目标词义判别器可以为任意的分别能够进行文字内容识别和文字词义识别的相应识别模型，本实施例对于目标文字判别器和目标词义判别器具体的形式不作限定。

本申请实施例提供的图片识别方法，在根据多个目标特征解析模型获取目标特征数据时，利用目标文字获取模型获取待识别图片中的文字特征数据。首先识别文字信息，再识别文字信息中是否包含有预设文字以及对文字信息进行词义识别，以对待识别图片上以文字形式包装的污秽、色情等情况进行有效识别。进一步提升目标图片的识别正确率，减少误识别率，有利于维护网络管理规范。

以首先可以利用目标文字识别模型对待识别文字进行文字识别，得到文字识别结果。当文字识别结果为包含文字信息，则进一步根据文字识别结果以及目标判别器确定第一文字特征数据。而当文字识别结果为未包含文字信息，则直接根据文字识别结果生成第二文字特征数据。在根据文字识别结果

图6为本申请实施例提供的一种图片识别装置的结构示意图。如图6所示，本实施例提供的图片识别装置600，包括：

识别模块601，用于利用预设角色识别模型对待识别图片中的人物角色进行识别，以确定待识别图片中的人物角色是否包含预设人物角色。

处理模块602，用于若确定待识别图片中的人物角色包含预设人物角色，则根据多个目标特征解析模型获取目标特征数据。

其中，目标特征数据包括预设人物角色的表情特征数据、预设人物角色的动作特征数据以及待识别图片中的文字特征数据。

决策模块603，用于根据目标决策模型以及目标特征数据确定待识别图片是否为目标图片。

其中，目标图片包含预设特征数据，预设特征数据用于表征目标图片的属性特征。

在一种可能的设计中，目标决策模型为利用样本特征数据对预设决策模型训练得到的对应模型，样本特征数据与目标特征数据具有相同的数据格式。

在图6的基础上，图7为本申请实施例提供的一种处理模块的结构示意图。如图7所示，本实施例提供的处理模块602，包括：

第一处理子模块6021，用于将待识别图片确定为目标表情解析模型的第一输入数据，获取目标表情解析模型的第一输出数据，将第一输出数据确定为预设人物角色的表情特征数据。

第二处理子模块6022，用于将待识别图片确定为目标动作解析模型的第二输入数据，获取目标动作解析模型的第二输出数据，将第二输出数据确定为预设人物角色的动作特征数据。

第三处理子模块6023，用于利用目标文字获取模型获取待识别图片中的文字特征数据。

其中，多个目标特征解析模型包括目标表情解析模型、目标动作解析模型及目标文字获取模型。

在图6的基础上，图8为本申请实施例提供的另一种图片识别装置的结构示意图。如图8所示，本实施例提供的图片识别装置600，还包括：第一训练模块604，该第一训练模块604，用于：

从预设表情数据库获取复合表情标注数据；

根据复合表情标注数据训练预设表情解析模型；

将训练后的预设表情解析模型确定为目标表情解析模型。

在一种可能的设计中，图片识别装置600，还包括：第二训练模块，该第二训练模块，用于：

利用第一训练图片集对第一预设动作解析模型进行训练，以将训练后的第一预设动作解析模型确定为第一目标动作解析模型，第一训练图片集中的各第一训练图片包含第一预设要素；

利用第二训练图片集对第二预设动作解析模型进行训练，以将训练后的第二预设动作解析模型确定为第二目标动作解析模型，第二训练图片集中的各第二训练图片包含第二预设要素；

其中，第一预设要素和第二预设要素的数量为多个，目标动作解析模型包括第一目标动作解析模型和第二目标动作解析模型。

在一种可能的设计中，预设人物角色的表情特征数据以及预设人物角色的动作特征数据为one-hot格式。

在一种可能的设计中，第三处理子模块6023，具体用于：

利用目标文字识别模型对待识别图片进行文字识别，得到文字识别结果；

若文字识别结果为包含文字信息，则根据文字识别结果以及目标判别器确定第一文字特征数据；

若文字识别结果为未包含文字信息，则根据文字识别结果生成第二文字特征数据。

其中，目标文字获取模型包括目标文字识别模型和目标判别器，文字特征数据包括第一文字特征数据或第二文字特征数据。

在一种可能的设计中，第三处理子模块6023，还具体用于：

根据目标文字判别器识别文字信息中是否包含预设文字，若是，则生成第三文字特征数据；

若否，根据目标词义判别器对文字信息进行词义识别，若确定词义识别的结果包含预设词义，则生成第三文字特征数据；

若确定词义识别的结果未包含预设词义，则生成第四文字特征数据。

其中，目标判别器包括目标文字判别器和目标词义判别器，第一文字特征数据包括第三文字特征数据或第四文字特征数据。

值得说明的，上述图6至图8以及可选的实施例提供的图片识别装置，可用于执行上述任一实施例提供的图片识别方法的各步骤，具体实现方式和技术效果类似，这里不再赘述。

本申请所提供的上述各装置实施例仅仅是示意性的，其中的模块划分仅仅是一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个模块可以结合或者可以集成到另一个系统。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。

图9为本申请提供的一种电子设备的结构示意图。如图9所示，该电子设备700可以包括：至少一个处理器701和存储器702。图9示出的是以一个处理器为例的电子设备。

存储器702，用于存放处理器701的计算机程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器702可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器701配置为用于执行存储器702存储的计算机程序，以实现以上各方法实施例中图片识别方法的各步骤。

其中，处理器701可能是一个中央处理器(central processing unit，简称为CPU)，或者是特定集成电路(application specific integrated circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选地，存储器702既可以是独立的，也可以跟处理器701集成在一起。当存储器702是独立于处理器701之外的器件时，电子设备700，还可以包括：

总线703，用于连接处理器701以及存储器702。总线可以是工业标准体系结构(industry standard architecture，简称为ISA)总线、外部设备互连(peripheralcomponent，PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器702和处理器701集成在一块芯片上实现，则存储器702和处理器701可以通过内部接口完成通信。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有计算机程序，当电子设备的至少一个处理器执行该计算机程序时，电子设备执行上述的各种实施方式提供的图片识别方法的各个步骤。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的图片识别方法的各个步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：桑海岩;邓慧;廉士国;
专利申请人：中国联合网络通信集团有限公司;联通大数据有限公司;

上一篇：一种用于辅助陶瓷基复合材料与金属的钎焊的方法
下一篇：控释材料及其制备方法、处理水体中卤代有机物污染的方法