导航：首页> 其他类不包含的食品或食料；及其处理>一种图像语种识别方法及其相关设备

一种图像语种识别方法及其相关设备

文献发布时间：2023-06-19 13:46:35

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像语种识别方法及其相关设备。

背景技术

在一些应用场景下，需要判断一个携带有字符信息的图像数据属于哪一个语种。例如，若一个图像数据携带有大量的汉字，则该图像数据所属语种为中文；若一个图像数据携带有大量的英文单词时，则该图像数据所属语种为英语；……。

然而，如何识别一个图像数据所属语种是一项亟待解决的技术问题。

发明内容

为了解决上述技术问题，本申请提供了一种图像语种识别方法及其相关设备，能够准确地识别出一个图像数据所属语种。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种图像语种识别方法，所述方法包括：

在获取到待处理图像之后，根据所述待处理图像的文本检测结果，从所述待处理图像中提取N个待使用文本图像；其中，N为正整数；

确定所述第n个待使用文本图像的语种提取特征和所述第n个待使用文本图像的视觉提取特征；其中，n为正整数，n≤N；

根据所述第n个待使用文本图像的语种提取特征和所述第n个待使用文本图像的视觉提取特征，确定所述第n个待使用文本图像的图像提取特征；其中，n为正整数，n≤N；

根据所述N个待使用文本图像的图像提取特征，确定所述待处理图像的语种识别结果。

在一种可能的实施方式中，所述视觉提取特征包括字符密度特征、颜色分布特征、和图像位置特征中的至少一个。

在一种可能的实施方式中，所述第n个待使用文本图像的字符密度特征的确定过程，包括：

将所述第n个待使用文本图像输入预先构建的密度特征提取模型，得到所述密度特征提取模型输出的所述第n个待使用文本图像的字符密度特征；

所述第n个待使用文本图像的颜色分布特征的确定过程，包括：

将所述第n个待使用文本图像输入预先构建的颜色特征提取模型，得到所述颜色特征提取模型输出的所述第n个待使用文本图像的颜色分布特征；

所述第n个待使用文本图像的图像位置特征的确定过程，包括：

将所述第n个待使用文本图像的位置描述信息输入预先构建的位置特征提取模型，得到所述位置特征提取模型输出的所述第n个待使用文本图像的图像位置特征。

在一种可能的实施方式中，所述第n个待使用文本图像的语种提取特征的确定过程，包括：

将所述第n个待使用文本图像输入预先构建的语种特征提取模型，得到所述语种特征提取模型输出的所述第n个待使用文本图像的语种提取特征。

在一种可能的实施方式中，所述视觉提取特征包括字符密度特征、颜色分布特征、和图像位置特征；

所述根据所述第n个待使用文本图像的语种提取特征和所述第n个待使用文本图像的视觉提取特征，确定所述第n个待使用文本图像的图像提取特征，包括：

将所述第n个待使用文本图像的语种提取特征、所述第n个待使用文本图像的字符密度特征、所述第n个待使用文本图像的颜色分布特征、以及所述第n个待使用文本图像的图像位置特征进行拼接，得到所述第n个待使用文本图像的图像提取特征。

在一种可能的实施方式中，所述根据所述N个待使用文本图像的图像提取特征，确定所述待处理图像的语种识别结果，包括：

将所述N个待使用文本图像的图像提取特征进行拼接，得到所述待处理图像的语种表征数据；

将所述语种表征数据输入预先构建的图像语种识别模型，得到所述图像语种识别模型输出的所述待处理图像的语种识别结果。

在一种可能的实施方式中，所述图像语种识别模型的构建过程，包括：

获取待使用样本图像和所述待使用样本图像的实际语种；

根据所述待使用样本图像的文本检测结果，确定至少一个样本文本图像和所述至少一个样本文本图像的位置描述信息；

将所述至少一个样本文本图像和所述至少一个样本文本图像的位置描述信息输入待训练模型，得到所述待训练模型输出的所述待使用样本图像的语种识别结果；

根据所述待使用样本图像的语种识别结果和所述待使用样本图像的实际语种，更新所述待训练模型，并继续执行所述将所述至少一个样本文本图像和所述至少一个样本文本图像的位置描述信息输入待训练模型的步骤，直至在达到预设停止条件之后，根据所述待训练模型，确定所述图像语种识别模型。

在一种可能的实施方式中，所述待训练模型包括语种特征提取网络、密度特征提取网络、颜色特征提取网络、位置特征提取网络、特征拼接网络、和图像语种识别网络；其中，所述图像语种识别网络的输入数据包括所述特征拼接网络的输出数据；所述特征拼接网络的输入数据包括所述语种特征提取网络的输出数据、所述密度特征提取网络的输出数据、所述颜色特征提取网络的输出数据、以及所述位置特征提取网络的输出数据；

所述根据所述待训练模型，确定所述图像语种识别模型，包括：

将所述待训练模型中图像语种识别网络，确定为所述图像语种识别模型。

在一种可能的实施方式中，在所述将所述至少一个样本文本图像和所述至少一个样本文本图像的位置描述信息输入待训练模型之前，所述图像语种识别模型的构建过程还包括：

利用第一文本图像和所述第一文本图像的实际语种特征，训练第一模型；

利用第二文本图像和所述第二文本图像的实际密度特征，训练第二模型；

利用第三文本图像和所述第三文本图像的实际颜色特征，训练第三模型；

利用第四文本图像的位置描述信息和所述第四文本图像的实际位置特征，训练第四模型；

利用训练好的所述第一模型、训练好的所述第二模型、训练好的所述第三模型、以及训练好的所述第四模型，分别对所述待训练模型中所述语种特征提取网络、所述密度特征提取网络、所述颜色特征提取网络、以及所述位置特征提取网络进行初始化处理。

本申请实施例还提供了一种图像语种识别装置，包括：

图像提取单元，用于在获取到待处理图像之后，根据所述待处理图像的文本检测结果，从所述待处理图像中提取N个待使用文本图像；其中，N为正整数；

特征确定单元，用于确定所述第n个待使用文本图像的语种提取特征和所述第n个待使用文本图像的视觉提取特征；其中，n为正整数，n≤N；

特征处理单元，用于根据所述第n个待使用文本图像的语种提取特征和所述第n个待使用文本图像的视觉提取特征，确定所述第n个待使用文本图像的图像提取特征；其中，n为正整数，n≤N；

语种识别单元，用于根据所述N个待使用文本图像的图像提取特征，确定所述待处理图像的语种识别结果。

本申请实施例还提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行本申请实施例提供的图像语种识别方法的任一实施方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行本申请实施例提供的图像语种识别方法的任一实施方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的图像语种识别方法的任一实施方式。

与现有技术相比，本申请实施例至少具有以下优点：

本申请实施例提供的技术方案中，在获取到待处理图像之后，先根据该待处理图像的文本检测结果，从该待处理图像中提取N个待使用文本图像；再确定该第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征；其中，n为正整数，n≤N，N为正整数；然后，根据该第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征，确定该第n个待使用文本图像的图像提取特征；其中，n为正整数，n≤N，N为正整数；最后，根据N个待使用文本图像的图像提取特征，确定该待处理图像的语种识别结果，以使该语种识别结果能够准确地表示出该待处理图像所属语种，如此能够实现准确地识别出一个图像数据所属语种。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种图像数据的示意图；

图2为本申请实施例提供的一种图像语种识别方法的流程图；

图3为本申请实施例提供的一种文本区域的示意图；

图4为本申请实施例提供的一种语种特征提取模型的结构示意图；

图5为本申请实施例提供的一种密度特征提取模型的结构示意图；

图6为本申请实施例提供的一种颜色特征提取模型的结构示意图；

图7为本申请实施例提供的一种图像语种识别模型的结构示意图；

图8为本申请实施例提供的一种图像语种识别装置的结构示意图。

具体实施方式

发明人在针对上述“图像数据所属语种”的研究中发现，对于一个图像数据(如图1所示的图像数据)来说，可以根据该图像数据所携带的大量字符信息所属语种，确定该图像数据所属语种。为了便于理解，下面结合示例进行说明。

作为示例，虽然图1所示的图像数据同时携带有属于越南语的字符信息、以及属于英语的字符信息，但是因属于越南语的字符信息的数量远远大于属于英语的字符信息的数量，故可以确定该图像数据所属语种为越南语。

基于上述发现，为了解决背景技术部分的技术问题，本申请实施例提供了一种图像语种识别方法，该方法包括：在获取到待处理图像之后，先根据该待处理图像的文本检测结果，从该待处理图像中提取N个待使用文本图像；再确定该第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征；其中，n为正整数，n≤N，N为正整数；然后，根据该第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征，确定该第n个待使用文本图像的图像提取特征；其中，n为正整数，n≤N，N为正整数；最后，根据N个待使用文本图像的图像提取特征，确定该待处理图像的语种识别结果，以使该语种识别结果能够准确地表示出该待处理图像所属语种，如此能够实现准确地识别出一个图像数据所属语种。

另外，本申请实施例不限定图像语种识别方法的执行主体，例如，本申请实施例提供的图像语种识别方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图2，该图为本申请实施例提供的一种图像语种识别方法的流程图。

本申请实施例提供的图像语种识别方法，包括S1-S5：

S1：在获取到待处理图像之后，根据该待处理图像的文本检测结果，从该待处理图像中提取N个待使用文本图像。其中，N为正整数。

其中，“待处理图像”是指需要进行图像语种识别处理的图像数据(例如，图1所示的图像数据)；而且该“待处理图像”包括至少一个语种下的字符信息。

“待处理图像的文本检测结果”用于表示该待处理图像中至少一个文本区域在该待处理图像中所处位置。例如，如图3所示，当待处理图像为图1所示的图像数据时，则该待处理图像的文本检测结果可以包括第一文本区域的位置描述数据、第二文本区域的位置描述数据、……、以及第五文本区域的位置描述数据。其中，“第一文本区域的位置描述数据”用于表示该第一文本区域在图1所示的图像数据中所处位置；“第二文本区域的位置描述数据”用于表示该第二文本区域在图1所示的图像数据中所处位置；……(以此类推)；“第五文本区域的位置描述数据”用于表示该第五文本区域在图1所示的图像数据中所处位置。

需要说明的是，本申请实施示例不限定上述“位置描述数据”的表示方式，例如，可以利用一个文本区域的四个顶点坐标进行表示。

另外，本申请实施例不限定上述“待处理图像的文本检测结果”的确定过程，例如，其具体可以为：将待处理图像输入预先构建的文本检测模型，得到该文本检测模型输出的该待处理图像的文本检测结果。

“文本检测模型”用于针对该文本检测模型的输入数据进行文本位置检测处理；而且本申请实施例不限定“文本检测模型”，可以利用任一种机器学习模型(例如，基于卷积神经网络的深度学习模型等)进行实施。

上述“文本检测模型”可以根据第一样本图像和该第一样本图像的实际文本位置进行构建。其中，“第一样本图像的实际文本位置”用于表示该第一样本图像中所有文本区域在该第一样本图像中实际所处位置；而且本申请实施例不限定“第一样本图像的实际文本位置”的获取方式，例如，可以通过人工标注的方法进行实施。

第n个待使用文本图像用于表示待处理图像中第n个文本区域所携带的图像信息；而且本申请实施例不限定该“第n个待使用文本图像”的确定过程，例如，当上述“待处理图像的文本检测结果”包括第n个文本区域的位置描述数据时，可以按照该第n个文本区域的位置描述数据，对该待处理图像进行图像截取处理，得到该第n个待使用文本图像，以使该第n个待使用文本图像包括该第n个文本区域。其中，n为正整数，n≤N。

基于上述S1的相关内容可知，在获取到待处理图像之后，可以先针对该待处理图像进行文本检测处理，得到该待处理图像的文本检测结果，以使该文本检测结果能够表示出该待处理图像中至少一个文本区域在该待处理图像中所处位置；再根据该文本检测结果，从该待处理图像中提取至少一个待使用文本图像，以使各个待使用文本图像分别包括各个文本区域，从而使得各个待使用文本图像分别能够表示出各个文本区域所携带的图像信息。

S2：确定第n个待使用文本图像的语种提取特征。其中，n为正整数，n≤N。

其中，“第n个待使用文本图像的语种提取特征”用于表示待处理图像中第n个文本区域所携带的语种信息。

另外，本申请实施例不限定S2的实施方式，例如，其具体可以包括：将第n个待使用文本图像输入预先构建的语种特征提取模型，得到该语种特征提取模型输出的该第n个待使用文本图像的语种提取特征。

上述“语种特征提取模型”用于针对该语种特征提取模型的输入数据进行语种特征提取处理；而且本申请实施例不限定该“语种特征提取模型”，例如，可以采用任一种机器学习模型(例如，基于自注意力学习的神经网络的深度学习模型等)进行实施。

另外，上述“语种特征提取模型”可以根据第一文本图像和该第一文本图像的实际语种特征进行构建。其中，“第一文本图像的实际语种特征”用于表示该第一文本图像实际携带的语种信息；而且本申请实施例不限定该“第一文本图像的实际语种特征”的获取方式，例如，可以通过人工标注的方法进行实施。

需要说明的是，本申请实施例不限定上述“语种特征提取模型”的构建过程，例如，可以采用现有的或者未来出现的任一种机器学习模型构建方法进行实施。又如，可以采用

此外，为了提高语种特征的提取效果，本申请实施例还提供了“语种特征提取模型”的一种可能的实施方式，其具体可以包括：图像特征提取层、位置编码层、第一特征融合层、第一特征编码层和第一线性处理层。其中，第一线性处理层的输入数据包括第一特征编码层的输出数据；第一特征编码层的输入数据包括第一特征融合层的输出数据；第一特征融合层的输入数据包括图像特征提取层的输出数据和位置编码层的输出数据。

上述“图像特征提取层”用于针对一个文本图像数据(例如，第n个待使用文本图像)进行图像特征提取处理；而且本申请实施例不限定该“图像特征提取层”的实施方式，例如，其具体可以采用图4所示的卷积神经网络(Convolutional Neural Networks,CNN)进行实施。

上述“位置编码层”用于针对一个文本图像数据进行位置编码处理；而且本申请实施例不限定该“位置编码层”的实施方式，例如，其可以采用任一种位置编码处理方法(例如，transformer模型中Positional Encoding模块)进行实施。

上述“第一特征融合层”用于针对该第一特征融合层的输入数据进行特征融合处理(例如，图4所示的加和处理)；而且本申请实施例不限定该“第一特征融合层”的实施方式，例如，其可以采用任一种特征融合处理方法(例如，transformer模型所涉及的特征融合处理方法)进行实施。

上述“第一特征编码层”用于针对该第一特征编码层的输入数据进行编码处理；而且本申请实施例不限定该“第一特征编码层”，例如，其可以采用图4所示的L

上述“第一线性处理层”用于针对该第一线性处理层的输入数据进行线性处理；而且本申请实施例不限定该“第一线性处理层”的实施方式，例如，可以任一种线性处理方法(例如，transformer模型中linear模块)进行实施。

需要说明的是，对于图4所示的语种特征提取模型来说，“CNN”用于表示上述“图像特征提取层”；“Positional Encoding”用于表示上述“位置编码层”；“+”用于表示上述“第一特征融合层”；“Multi-head attention”是指多头自注意力网络；“ADD&norm”是指特征加和处理和特征归一化处理；“Feed forward”是指前馈神经网络；“L

基于上述S2的相关内容可知，在获取到第n个待使用文本图像之后，可以针对该第n个待使用文本图像进行语种特征提取处理，得到该第n个待使用文本图像的语种提取特征，以使该语种提取特征能够表示出待处理图像中第n个文本区域所携带的语种信息。其中，n为正整数，n≤N。

S3：确定第n个待使用文本图像的视觉提取特征。其中，n为正整数，n≤N。

其中，“第n个待使用文本图像的视觉提取特征”用于表示待处理图像中第n个文本区域所携带的图像特征信息(例如，字符密度、颜色分布、在该待处理图像中位置分布等)。

另外，本申请实施例不限定上述“第n个待使用文本图像的视觉提取特征”，例如，其具体可以包括该第n个待使用文本图像的字符密度特征、该第n个待使用文本图像的颜色分布特征、和该第n个待使用文本图像的图像位置特征中的至少一个。

“第n个待使用文本图像的字符密度特征”用于表示该第n个待使用文本图像中字符分布密度；而且本申请实施例不限定该“第n个待使用文本图像的字符密度特征”的确定过程，例如，其具体可以包括：将该第n个待使用文本图像输入预先构建的密度特征提取模型，得到该密度特征提取模型输出的该第n个待使用文本图像的字符密度特征。

上述“密度特征提取模型”用于针对该密度特征提取模型的输入数据进行字符密度特征提取处理；而且本申请实施例不限定该“密度特征提取模型”，例如，可以采用任一种机器学习模型(例如，基于自注意力学习的神经网络的深度学习模型等)进行实施。

另外，上述“密度特征提取模型”可以根据第二文本图像和该第二文本图像的实际密度特征进行构建。其中，“第二文本图像的实际密度特征”用于表示该第二文本图像中实际字符分布密度；而且本申请实施例不限定该“第二文本图像的实际密度特征”的获取方式，例如，可以通过人工标注的方法进行实施。

需要说明的是，本申请实施例不限定上述“密度特征提取模型”的构建过程，例如，可以采用现有的或者未来出现的任一种机器学习模型构建方法进行实施。又如，可以采用

此外，为了提高字符密度特征的提取效果，本申请实施例还提供了“密度特征提取模型”的一种可能的实施方式，其具体可以包括：图像特征提取层和L

需要说明的是，“图像特征提取层”的相关内容请参见上文“图像特征提取层”的相关内容。另外，本申请实施例不限定上述“第二编码网络”，可以采用现有的或者未来出现的任一种编码网络(例如，transformer模型中Encoder模块、conformer模型中Encoder模块等)进行实施。

上述“第n个待使用文本图像的颜色分布特征”用于表示该第n个待使用文本图像中颜色分布状态(尤其是，字符颜色与背景颜色之间的差异性)；而且本申请实施例不限定该“第n个待使用文本图像的颜色分布特征”的确定过程，例如，其具体可以包括：将该第n个待使用文本图像输入预先构建的颜色特征提取模型，得到该颜色特征提取模型输出的该第n个待使用文本图像的颜色分布特征。

上述“颜色特征提取模型”用于针对该颜色特征提取模型的输入数据进行颜色分布特征提取处理；而且本申请实施例不限定该“颜色特征提取模型”，例如，可以采用任一种机器学习模型(例如，基于卷积神经网络的深度学习模型等)进行实施。

另外，上述“颜色特征提取模型”可以根据第三文本图像和该第三文本图像的实际颜色特征进行构建。其中，“第三文本图像的实际颜色特征”用于表示该第三文本图像中实际颜色分布状态；而且本申请实施例不限定该“第三文本图像的实际颜色特征”的获取方式，例如，可以通过人工标注的方法进行实施。

需要说明的是，本申请实施例不限定上述“颜色特征提取模型”的构建过程，例如，可以采用现有的或者未来出现的任一种机器学习模型构建方法进行实施。又如，可以采用

此外，为了提高颜色分布特征的提取效果，本申请实施例还提供了“颜色特征提取模型”的一种可能的实施方式，其具体可以包括：图像特征提取层和L

需要说明的是，“图像特征提取层”的相关内容请参见上文“图像特征提取层”的相关内容；“第二编码网络”的相关内容请参见上文“第二编码网络”的相关内容。

上述“第n个待使用文本图像的图像位置特征”是指该第n个待使用文本图像中字符信息在上述“待处理图像”中所呈现的位置分布状态；而且本申请实施例不限定该“第n个待使用文本图像的图像位置特征”的确定过程，例如，其具体可以包括：将该第n个待使用文本图像的位置描述信息输入预先构建的位置特征提取模型，得到该位置特征提取模型输出的该第n个待使用文本图像的图像位置特征。

其中，“第n个待使用文本图像的位置描述信息”用于描述该第n个待使用文本图像中字符信息在上述“待处理图像”中所处位置；而且本申请实施例不限定“第n个待使用文本图像的位置描述信息”的确定过程，例如，当上述“第n个待使用文本图像”用于表示待处理图像中第n个文本区域所携带的图像信息时，则可以将该待处理图像中第n个文本区域的位置描述信息，确定为该第n个待使用文本图像的位置描述信息。

上述“位置特征提取模型”用于针对该位置特征提取模型的输入数据进行图像位置特征提取处理；而且本申请实施例不限定该“位置特征提取模型”，例如，可以采用任一种机器学习模型(例如，基于全连接层的机器学习模型等)进行实施。又如，该“位置特征提取模型”可以包括2个全连接层。

另外，上述“位置特征提取模型”可以根据第四文本图像的位置描述信息和该第四文本图像的实际位置特征进行构建。

其中，“第四文本图像的位置描述信息”用于表示该第四文本图像中字符信息在待处理样本图像中所处位置；而且该第四文本图像是通过对该待处理样本图像进行图像截取处理得到的。

“第四文本图像的实际位置特征”用于表示该第四文本图像中字符信息在在待处理样本图像中所呈现的实际位置分布状态；而且本申请实施例不限定该“第四文本图像的实际位置特征”的获取方式，例如，可以通过人工标注的方法进行实施。

需要说明的是，本申请实施例不限定上述“位置特征提取模型”的构建过程，例如，可以采用现有的或者未来出现的任一种机器学习模型构建方法进行实施。又如，可以采用

基于上述S3的相关内容可知，在获取到第n个待使用文本图像之后，可以针对该第n个待使用文本图像进行预设视觉特征提取处理(例如，字符密度特征提取处理、颜色分布特征提取处理、以及图像位置特征提取处理等)，得到该第n个待使用文本图像的视觉提取特征，以使该视觉提取特征能够表示出待处理图像所携带的图像特征信息(例如，字符密度、颜色分布、在该待处理图像中位置分布等)。其中，n为正整数，n≤N。

S4：根据第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征，确定该第n个待使用文本图像的图像提取特征。其中，n为正整数，n≤N。

其中，“第n个待使用文本图像的图像提取特征”用于表示该第n个待使用文本图像所携带的图像信息(例如，字符语种、字符密度、颜色分布、在该待处理图像中位置分布等信息)，以使该“第n个待使用文本图像的图像提取特征”能够准确地表示出待处理图像中第n个文本区域所携带的图像信息。

另外，本申请实施例不限定S4的实施方式，例如，当上述“视觉提取特征”包括字符密度特征、颜色分布特征、和图像位置特征时，S4具体可以包括：将第n个待使用文本图像的语种提取特征、该第n个待使用文本图像的字符密度特征、该第n个待使用文本图像的颜色分布特征、以及该第n个待使用文本图像的图像位置特征进行拼接，得到该第n个待使用文本图像的图像提取特征。

需要说明的是，本申请实施例不限定上述“拼接”的实施方式，例如，当第n个待使用文本图像的语种提取特征、该第n个待使用文本图像的字符密度特征、该第n个待使用文本图像的颜色分布特征、以及该第n个待使用文本图像的图像位置特征均为1×512的特征向量时，则该第n个待使用文本图像的图像提取特征可以是4×512的特征向量。

基于上述S4的相关内容可知，在获取到第n个待使用文本图像的语种提取特征、以及该第n个待使用文本图像的视觉提取特征之后，可以参考上述两项提取特征，确定该第n个待使用文本图像的图像提取特征，以使该图像提取特征能够准确地表示出待处理图像中第n个文本区域所携带的图像信息(例如，字符语种、字符密度、颜色分布、在该待处理图像中位置分布等信息)。

S5：根据N个待使用文本图像的图像提取特征，确定待处理图像的语种识别结果。

其中，“待处理图像的语种识别结果”用于表示该待处理图像所属语种，以使该“待处理图像的语种识别结果”能够准确地表示出该待处理图像中大部分字符信息所属语种(例如，图1所示的越南语)。

另外，本申请实施例不限定S5的实施方式，例如，其具体可以包括S51-S52：

S51：将N个待使用文本图像的图像提取特征进行拼接，得到待处理图像的语种表征数据。

其中，“待处理图像的语种表征数据”用于表示该待处理图像中至少一个语种的分布特点(例如，分布范围、分布位置等)。

另外，本申请实施例不限定S51中“拼接”的实施方式，例如，当第n个待使用文本图像的图像提取特征是4×512的特征向量时，该待处理图像的语种表征数据可以是N×4×512的特征向量。

需要说明的是，上述“1×512”、“4×512”、“N×4×512”均是指一个特征向量的数据维度。

S52：将待处理图像的语种表征数据输入预先构建的图像语种识别模型，得到该图像语种识别模型输出的该待处理图像的语种识别结果。

其中，“图像语种识别模型”用于针对该图像语种识别模型的输入数据进行语种识别处理；而且本申请实施例不限定该“图像语种识别模型”，例如，可以采用任一种机器学习模型(例如，基于自注意力学习的神经网络的深度学习模型等)进行实施。

另外，为了提高图像语种的识别效果，本申请实施例还提供了“图像语种识别模型”的一种可能的实施方式，其具体可以包括：L

上述“第二线性处理层”用于针对该第二线性处理层的输入数据进行线性处理；而且本申请实施例不限定该“第二线性处理层”的实施方式，例如，可以任一种线性处理方法(例如，transformer模型中linear模块)进行实施。

上述“识别层”用于针对该识别层的输入数据进行语种分类处理；而且本申请实施例不限定该“识别层”的实施方式，例如，可以采用任一种分类方法(例如，transformer模型中softmax模块)进行实施。

需要说明的是，“第二编码网络”的相关内容请参见上文“第二编码网络”的相关内容。

此外，本申请实施例不限定上述“图像语种识别模型”的构建过程，例如，该“图像语种识别模型”可以根据待使用样本图像的语种表征数据和该待使用样本图像的实际语种进行构建。其中，“待使用样本图像的语种表征数据”的确定过程类似于上述“待处理图像的语种表征数据”的确定过程。“待使用样本图像的实际语种”用于表示该待使用样本图像实际所属语种。又如，其可以采用

基于上述S51至S52的相关内容可知，在获取到第1个待使用文本图像的图像提取特征、第2个待使用文本图像的图像提取特征、……、以及第N个待使用文本图像的图像提取特征之后，可以先将该N个待使用文本图像的图像提取特征进行拼接，得到待处理图像的语种表征数据；再针对该语种表征数据进行语种识别处理，得到该待处理图像的语种识别结果，以使该语种识别结果能够表示出该待处理图像中大部分字符信息所属语种(例如，图1所示的越南语)。

基于上述S1至S5的相关内容可知，对于本申请实施例提供的图像语种识别方法来说，在获取到待处理图像之后，先根据该待处理图像的文本检测结果，从该待处理图像中提取N个待使用文本图像；再确定该第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征；其中，n为正整数，n≤N，N为正整数；然后，根据该第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征，确定该第n个待使用文本图像的图像提取特征；其中，n为正整数，n≤N，N为正整数；最后，根据N个待使用文本图像的图像提取特征，确定该待处理图像的语种识别结果，以使该语种识别结果能够准确地表示出该待处理图像所属语种，如此能够实现准确地识别出一个图像数据所属语种。

为了提高图像语种的识别效果，本申请实施例还提供了一种模型构建方法，其具体可以包括步骤11-步骤16：

步骤11：获取待使用样本图像和该待使用样本图像的实际语种。

其中，“待使用样本图像”是指模型构建过程所需使用的图像数据；而且该“待使用样本图像”可以包括至少一个语种下的字符信息。

“待使用样本图像的实际语种”用于表示该待使用样本图像实际所属语种；而且本申请实施例不限定该“待使用样本图像的实际语种”的获取方式，例如，可以通过人工标注的方式进行获取。

步骤12：根据待使用样本图像的文本检测结果，确定至少一个样本文本图像和该至少一个样本文本图像的位置描述信息。

其中，“待使用样本图像的文本检测结果”用于表示该待使用样本图像中至少一个文本区域在该待使用样本图像中所处位置；而且该“待使用样本图像的文本检测结果”的确定过程类似于上文“待处理图像的文本检测结果”的确定过程。

另外，上述“样本文本图像”的确定过程类似于上文“待使用文本图像”的确定过程；而且“样本文本图像的位置描述信息”的确定过程类似于上文“待使用文本图像的位置描述信息”的确定过程。

步骤13：将至少一个样本文本图像和该至少一个样本文本图像的位置描述信息输入待训练模型，得到该待训练模型输出的待使用样本图像的语种识别结果。

其中，“待训练模型”用于针对该待训练模型的输入数据进行图像语种识别处理。

另外，本申请实施例不限定该“待训练模型”，例如，其具体可以包括：语种特征提取网络、密度特征提取网络、颜色特征提取网络、位置特征提取网络、特征拼接网络、和图像语种识别网络。其中，图像语种识别网络的输入数据包括特征拼接网络的输出数据；特征拼接网络的输入数据包括语种特征提取网络的输出数据、密度特征提取网络的输出数据、颜色特征提取网络的输出数据、以及位置特征提取网络的输出数据。

上述“语种特征提取网络”用于针对文本图像数据(例如，各个样本文本图像)进行语种特征提取处理；而且本申请实施例不限定该“语种特征提取网络”的网络结构，例如，其可以采用上文“语种特征提取模型”的模型结构进行实施。

上述“密度特征提取网络”用于针对文本图像数据(例如，各个样本文本图像)进行字符密度特征提取处理；而且本申请实施例不限定该“密度特征提取网络”的网络结构，例如，其可以采用上文“密度特征提取模型”的模型结构进行实施。

上述“颜色特征提取网络”用于针对文本图像数据(例如，各个样本文本图像)进行颜色分布特征提取处理；而且本申请实施例不限定该“颜色特征提取网络”的网络结构，例如，其可以采用上文“颜色特征提取模型”的模型结构进行实施。

上述“位置特征提取网络”用于针对文本图像数据(例如，各个样本文本图像)的位置描述信息进行图像位置特征提取处理；而且本申请实施例不限定该“位置特征提取网络”的网络结构，例如，其可以采用上文“位置特征提取模型”的模型结构进行实施。

上述“特征拼接网络”用于将该特征拼接网络的输入数据进行拼接处理；而且本申请实施例不限定该“特征拼接网络”的工作原理，为了便于理解，下面结合示例进行说明。

作为示例，当上述“至少一个样本文本图像”包括K个样本文本图像时，该“特征拼接网络”的工作原理具体可以包括：先将第k个样本文本图像的语种提取特征、该第k个样本文本图像的字符密度特征、该第k个样本文本图像的颜色分布特征、以及该第k个样本文本图像的图像位置特征进行拼接，得到该第k个样本文本图像的图像提取特征；k为正整数，k≤K，K为正整数；再将第1个样本文本图像的图像提取特征至第K个样本文本图像的图像提取特征进行拼接，得到待使用样本图像的语种表征数据(也就是，上述“特征拼接网络”的输出结果)。

上述“图像语种识别网络”用于针对该图像语种识别网络的输入数据进行语种识别处理；而且本申请实施例不限定该“图像语种识别网络”的网络结构，例如，其可以采用上文“图像语种识别模型”的模型结构进行实施。

基于上述步骤13的相关内容可知，在获取到至少一个样本文本图像和该至少一个样本文本图像的位置描述信息之后，可以将该至少一个样本文本图像及其位置描述信息输入待训练模型，以使该待训练模型参考该至少一个样本文本图像及其位置描述信息进行图像语种识别处理，得到并输出待使用样本图像的语种识别结果。

步骤14：判断是否达到预设停止条件，若是，则执行步骤16；若否，则执行步骤15。

其中，“预设停止条件”可以预先设定；而且本申请实施例不限定该“预设停止条件”，例如，其具体可以为待训练模型的损失值低于第一阈值；也可以为该待训练模型的损失值的变化率低于第二阈值(也就是，该待训练模型的图像语种识别性能达到收敛)，还可以为该待训练模型的更新次数达到第三阈值。

上述“待训练模型的损失值”用于表示该待训练模型的图像语种识别性能；而且本申请实施例不限定“待训练模型的损失值”的确定过程，可以采用现有的或者未来出现的任一种模型损失值确定方法进行实施。

步骤15：根据待使用样本图像的语种识别结果和该待使用样本图像的实际语种，更新待训练模型，并返回继续执行步骤13。

本申请实施例中，在确定当前轮的待训练模型没有达到预设停止条件之后，可以确定该待训练模型的图像语种识别性能仍然比较差，故可以先依据待使用样本图像的语种识别结果与该待使用样本图像的实际语种之间的差异性，更新该待训练模型，以使更新后的待训练模型能够具有更好的图像语种识别性能；再基于更新后的待训练模型继续执行步骤13及其后续步骤，以实现针对该待训练模型的新一轮训练过程。

需要说明的是，本申请实施例不限定待训练模型的更新过程，可以采用现有的或者未来出现的任一种模型更新方法进行实施。

步骤16：根据待训练模型，确定图像语种识别模型。

本申请实施例中，在确定当前轮的待训练模型已达到预设停止条件之后，可以确定该待训练模型具有较好的图像语种识别性能，故可以根据该待训练模型，确定图像语种识别模型(例如，可以直接将待训练模型中图像语种识别网络确定为图像语种识别模型)。

另外，在一些应用场景下，也可以利用训练好的待训练模型，确定其他模型(例如，语种特征提取模型、密度特征提取模型、颜色特征提取模型、以及位置特征提取模型等)。基于此可知，步骤16具体可以包括：将待训练模型中语种特征提取网络确定为语种特征提取模型；将待训练模型中密度特征提取网络确定为密度特征提取模型；将待训练模型中颜色特征提取网络确定为颜色特征提取模型；将待训练模型中位置特征提取网络确定为位置特征提取模型；将待训练模型中图像语种识别网络确定为图像语种识别模型。

基于上述步骤11至步骤16的相关内容可知，在一些情况下，可以借助一个模型的训练过程来构建语种特征提取模型、密度特征提取模型、颜色特征提取模型、位置特征提取模型、以及图像语种识别模型，以使基于这五个模型进行实施的图像语种识别方法具有更好的图像语种识别效果。

另外，为了进一步提高模型构建效果，本申请实施例还提供了模型构建方法的另一种可能的实施方式，在该实施方式中，该模型构建方法除了包括上述步骤11-步骤16以外，可以还包括步骤17-步骤21：

步骤17：利用第一文本图像和该第一文本图像的实际语种特征，训练第一模型，以使训练好的第一模型具有较好的语种特征提取效果。

步骤18：利用第二文本图像和该第二文本图像的实际密度特征，训练第二模型，以使训练好的第二模型具有较好的字符密度特征提取效果。

步骤19：利用第三文本图像和该第三文本图像的实际颜色特征，训练第三模型，以使训练好的第三模型具有较好的颜色分布特征提取效果。

步骤20：利用第四文本图像的位置描述信息和该第四文本图像的实际位置特征，训练第四模型，以使训练好的第四模型具有较好的图像位置特征提取效果。

步骤21：利用训练好的第一模型、训练好的第二模型、训练好的第三模型、以及训练好的第四模型，分别对待训练模型中语种特征提取网络、密度特征提取网络、颜色特征提取网络、以及位置特征提取网络进行初始化处理。

需要说明的是，本申请实施例不限定步骤21的具体实施方式，例如，其具体可以包括：将训练好的第一模型确定为待训练模型中语种特征提取网络的初始化处理结果；将训练好的第二模型确定为待训练模型中密度特征提取网络的初始化处理结果；将训练好的第三模型确定为待训练模型中颜色特征提取网络的初始化处理结果；将训练好的第四模型确定为待训练模型中位置特征提取网络的初始化处理结果。

基于上述步骤17至步骤21的相关内容可知，在一些情况下，可以先针对第一模型至第五模型分别进行训练；再利用训练好的第一模型至第五模型，对待训练模型中语种特征提取网络、密度特征提取网络、颜色特征提取网络、以及位置特征提取网络进行初始化处理，得到初始化后的待训练模型；然后，利用上述步骤11-步骤15，对该初始化后的待训练模型进行训练处理，得到训练好的待训练模型；最后，从训练好的待训练模型中确定出语种特征提取模型、密度特征提取模型、颜色特征提取模型、位置特征提取模型、以及图像语种识别模型。

基于上述方法实施例提供的图像语种识别方法，本申请实施例还提供了一种图像语种识别装置，下面结合附图进行解释和说明。

装置实施例提供的图像语种识别装置的技术详情，请参照上述方法实施例。

参见图8，该图为本申请实施例提供的一种图像语种识别装置的结构示意图。

本申请实施例提供的图像语种识别装置800，包括：

图像提取单元801，用于在获取到待处理图像之后，根据所述待处理图像的文本检测结果，从所述待处理图像中提取N个待使用文本图像；其中，N为正整数；

特征确定单元802，用于确定所述第n个待使用文本图像的语种提取特征和所述第n个待使用文本图像的视觉提取特征；其中，n为正整数，n≤N；

特征处理单元803，用于根据所述第n个待使用文本图像的语种提取特征和所述第n个待使用文本图像的视觉提取特征，确定所述第n个待使用文本图像的图像提取特征；其中，n为正整数，n≤N；

语种识别单元804，用于根据所述N个待使用文本图像的图像提取特征，确定所述待处理图像的语种识别结果。

在一种可能的实施方式中，所述视觉提取特征包括字符密度特征、颜色分布特征、和图像位置特征中的至少一个。

在一种可能的实施方式中，所述特征确定单元802，包括：

第一确定子单元，用于将所述第n个待使用文本图像输入预先构建的密度特征提取模型，得到所述密度特征提取模型输出的所述第n个待使用文本图像的字符密度特征；

第二确定子单元，用于将所述第n个待使用文本图像输入预先构建的颜色特征提取模型，得到所述颜色特征提取模型输出的所述第n个待使用文本图像的颜色分布特征；

第三确定子单元，用于将所述第n个待使用文本图像的位置描述信息输入预先构建的位置特征提取模型，得到所述位置特征提取模型输出的所述第n个待使用文本图像的图像位置特征。

在一种可能的实施方式中，所述特征确定单元802，包括：

第四确定子单元，用于将所述第n个待使用文本图像输入预先构建的语种特征提取模型，得到所述语种特征提取模型输出的所述第n个待使用文本图像的语种提取特征。

在一种可能的实施方式中，所述视觉提取特征包括字符密度特征、颜色分布特征、和图像位置特征；

所述特征处理单元803，具体用于：将所述第n个待使用文本图像的语种提取特征、所述第n个待使用文本图像的字符密度特征、所述第n个待使用文本图像的颜色分布特征、以及所述第n个待使用文本图像的图像位置特征进行拼接，得到所述第n个待使用文本图像的图像提取特征。

在一种可能的实施方式中，所述语种识别单元804，具体用于：将所述N个待使用文本图像的图像提取特征进行拼接，得到所述待处理图像的语种表征数据；将所述语种表征数据输入预先构建的图像语种识别模型，得到所述图像语种识别模型输出的所述待处理图像的语种识别结果。

在一种可能的实施方式中，所述图像语种识别装置800，还包括：

模型训练单元，用于获取待使用样本图像和所述待使用样本图像的实际语种；根据所述待使用样本图像的文本检测结果，确定至少一个样本文本图像和所述至少一个样本文本图像的位置描述信息；将所述至少一个样本文本图像和所述至少一个样本文本图像的位置描述信息输入待训练模型，得到所述待训练模型输出的所述待使用样本图像的语种识别结果；根据所述待使用样本图像的语种识别结果和所述待使用样本图像的实际语种，更新所述待训练模型，并继续执行所述将所述至少一个样本文本图像和所述至少一个样本文本图像的位置描述信息输入待训练模型的步骤，直至在达到预设停止条件之后，根据所述待训练模型，确定所述图像语种识别模型。

所述图像语种识别模型的确定过程，包括：将所述待训练模型中图像语种识别网络，确定为所述图像语种识别模型。

在一种可能的实施方式中，所述图像语种识别装置800，还包括：

模型初始化单元，用于利用第一文本图像和所述第一文本图像的实际语种特征，训练第一模型；利用第二文本图像和所述第二文本图像的实际密度特征，训练第二模型；利用第三文本图像和所述第三文本图像的实际颜色特征，训练第三模型；利用第四文本图像的位置描述信息和所述第四文本图像的实际位置特征，训练第四模型；利用训练好的所述第一模型、训练好的所述第二模型、训练好的所述第三模型、以及训练好的所述第四模型，分别对所述待训练模型中所述语种特征提取网络、所述密度特征提取网络、所述颜色特征提取网络、以及所述位置特征提取网络进行初始化处理。

基于上述图像语种识别装置200的相关内容可知，对于图像语种识别装置200来说，在获取到待处理图像之后，先根据该待处理图像的文本检测结果，从该待处理图像中提取N个待使用文本图像；再确定该第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征；其中，n为正整数，n≤N，N为正整数；然后，根据该第n个待使用文本图像的语种提取特征和该第n个待使用文本图像的视觉提取特征，确定该第n个待使用文本图像的图像提取特征；其中，n为正整数，n≤N，N为正整数；最后，根据N个待使用文本图像的图像提取特征，确定该待处理图像的语种识别结果，以使该语种识别结果能够准确地表示出该待处理图像所属语种，如此能够实现准确地识别出一个图像数据所属语种。

进一步地，本申请实施例还提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行本申请实施例提供的图像语种识别方法的任一实施方式。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行本申请实施例提供的图像语种识别方法的任一实施方式。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的图像语种识别方法的任一实施方式。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：毛晓飞;黄灿;王长虎;
专利申请人：北京有竹居网络技术有限公司;

上一篇：降低水产品中挥发性盐基氮含量的方法和水产品加工物
下一篇：一种基于激光技术的人腿检测方法