一种图像自组织聚类可视化方法及装置、存储介质

文献发布时间：2023-06-19 10:58:46

技术领域

本申请实施例涉及图像可视化技术领域，尤其涉及一种图像自组织聚类可视化方法及装置、存储介质。

背景技术

随着计算机和移动终端的普及和互联网的飞速发展，信息的传递变得更加快速，而信息量的剧增使得交流媒介已经渐渐由文本转为图片或者视频，同样的浏览时长，图片或者视频包含的信息量很更大，且更容易记忆，相较于传统的图像处理，深度学习凭借强大的数据的高速识别能力和较高的识别准确率，在国内外都引起了广泛的关注。

来自不同行业的设计师，例如界面设计师、动漫设计师等设计师，会储备大量的素材图像。而在素材库中图像越来越多的时候，如何在本地快速概览素材图像库中不同类别的分布信息，以及素材图像风格显得尤为重要，通过素材图像聚类可视化可以使用户很好的对自己本地素材进行管理。

现有技术中的图像可视化研究大多集中在使用图像的低级视觉特征，如纹理和颜色直方图来创建可视化，而没有考虑图像中更重要的语义信息。而在素材图像管理中涉及到的图像类别比较多，使用传统的图像可视化方案已经很难满足要求。

发明内容

有鉴于此，本申请实施例提供一种图像自组织聚类可视化方法及装置、存储介质。

根据本申请的第一方面，提供一种图像自组织聚类可视化方法，包括：

利用基于深度学习的语义信息提取器对素材图像进行特征提取，得到素材特征向量；

将提取完成的所述素材特征向量输入自组织聚类视觉布局生成器中，获取所述素材特征向量在所述自组织聚类视觉布局生成器中的激活位置；

根据所述激活位置，在所述聚类视觉布局生成器的输出层的二维布局平面上，视觉显示所述素材图像的聚类结果。

作为一种实现方式，所述语义信息提取器采用基于卷积神经网络的图像特征为所述素材图像生成素材特征向量。

作为一种实现方式，所述自组织聚类视觉布局生成器采用自组织特征映射神经网络SOM模型进行所述素材特征向量的聚类和位置可视化。

作为一种实现方式，所述利用语义信息提取器对素材图像进行特征提取，包括：

使用AlexNet卷积神经网络模型，将网络的嵌入空间向量作为所述素材特征向量；

加载ImageNet预训练参数或者针对用户常见的素材图像类别进行训练，使所述语义信息提取器提取到的素材特征向量代表所述素材图像。

作为一种实现方式，所述自组织聚类视觉布局生成器根据如下方式训练：

采用自组织映射神经网络SOM模型，包括输入层和竞争层；输入层神经元数为n，竞争层由m个神经元组成的二维平面阵列；具体过程如下：

对输入层各权向量初始化随机为很小的参数；

随机取一个素材特征向量作为输入样本X；

遍历竞争层中每一个节点，根据欧氏距离分别计算X与节点之间的相似度；选取欧氏距离最小的节点作为获胜节点；

根据邻域半径确定所述获胜节点的优胜邻域将包含的节点；并计算各自更新的幅度；

根据所述更新幅度更新所述优胜邻域内节点的权重系数；

逐轮进行迭代优化，直到满足设定的迭代次数；

根据所述获胜节点位置确定所述素材特征向量在所述自组织聚类视觉布局生成器中的激活位置。

作为一种实现方式，所述根据所述激活位置，在所述自组织聚类视觉布局生成器的输出层的二维布局平面上，视觉显示所述素材图像的聚类结果，包括：

将所述素材图像分别找到在所述自组织聚类视觉布局生成器中的获胜节点作为激活位置；

将所述激活位置显示在对应的布局节点中，完成所述素材图像聚类可视化。

根据本申请的第二方面，提供一种图像自组织聚类可视化装置，包括：

语义信息提取器单元，用于对素材图像进行特征提取，得到素材特征向量；

聚类视觉布局生成器单元，用于根据提取完成的所述素材特征向量获取所述素材特征向量的激活位置；

视觉显示单元，用于根据所述激活位置，在所述聚类视觉布局生成器单元的输出层的二维布局平面上，视觉显示所述素材图像的聚类结果。

作为一种实现方式，所述语义信息提取器单元，采用基于卷积神经网络的图像特征为所述素材图像生成素材特征向量。

作为一种实现方式，所述语义信息提取器单元，具体用于：

使用AlexNet卷积神经网络模型，将网络的嵌入空间向量作为所述素材特征向量；

加载ImageNet预训练参数或者针对用户常见的素材图像类别进行训练，使所述语义信息提取器提取到的素材特征向量代表所述素材图像。

作为一种实现方式，所述聚类视觉布局生成器单元，采用自组织特征映射神经网络SOM模型进行所述素材特征向量的聚类和位置可视化。

作为一种实现方式，所述聚类视觉布局生成器单元，根据如下方式训练：

采用自组织特征映射神经网络SOM模型，包括输入层和竞争层；输入层神经元数为n，竞争层由m个神经元组成的二维平面阵列；具体过程如下：

对输入层各权向量初始化随机为很小的参数；

随机取一个素材特征向量作为输入样本X；

遍历竞争层中每一个节点，根据欧氏距离分别计算X与节点之间的相似度；选取欧氏距离最小的节点作为获胜节点；

根据邻域半径确定所述获胜节点的优胜邻域将包含的节点；并计算各自更新的幅度；

根据所述更新幅度更新所述优胜邻域内节点的权重系数；

逐轮进行迭代优化，直到满足设定的迭代次数；

根据所述获胜节点位置确定所述素材特征向量在所述聚类视觉布局生成器中的激活位置。

作为一种实现方式，所述视觉显示单元，具体用于：

将所述素材图像分别找到在所述聚类视觉布局生成器单元中的获胜节点作为激活位置；将所述激活位置显示在对应的布局节点中，完成所述素材图像聚类可视化。

根据本申请的第三方面，提供一种存储介质，其上存储有可执行程序，所述可执行程序被处理器执行时实现所述的图像自组织聚类可视化方法的步骤。

本申请实施例提供的图像自组织聚类可视化方法及装置、存储介质，通过利用语义信息提取器对素材图像进行特征提取，得到素材特征向量；将提取完成的所述素材特征向量输入自组织聚类视觉布局生成器中，获取所述素材特征向量在所述自组织聚类视觉布局生成器中的激活位置；根据所述激活位置，在所述自组织聚类视觉布局生成器的输出层的二维布局平面上，视觉显示所述素材图像的聚类结果。本申请实施例语义信息提取采用基于卷积神经网络(CNN)的图像特征技术，为图像生成特征。自组织聚类视觉布局生成器采用SOM自组织神经网络完成聚类和位置可视化。可以使用户快速对本地素材库图像完成聚类可视化，方法有效可靠。能够针对大量的素材图像库完成聚类可视化显示，使用户对本地素材类别进行概览。不需要用户使用分类显示，即可显示所有类别代表图片。

附图说明

图1为本申请实施例提供的图像自组织聚类可视化方法流程示意图；

图2为本申请实施例提供的语义信息提取流程图；

图3为本申请实施例提供的自组织聚类视觉布局生成器的工作流程图；

图4为本申请实施例提供的SOM聚类视觉布局流程图；

图5为本申请实施例提供的图像自组织聚类可视化方法的一种具体示例流程图；

图6为本申请实施例提供的图像自组织聚类可视化装置的组成结构示意图；

图7为本申请实施例提供的一种自组织图像聚类可视化示例示意图；

图8为本申请实施例提供的另一种自组织图像聚类可视化示例示意图。

具体实施方式

以下结合示例，详细阐明本申请实施例的技术方案的实质。

本申请各个实施例提出了一种基于语义感知的图像聚类视觉分析系统。该系统主要由两个部分组成:语义信息提取器和聚类视觉布局生成器。语义信息提取采用基于卷积神经网络(CNN)的图像特征技术，为图像生成特征。聚类视觉布局生成器采用SOM自组织神经网络完成聚类和位置可视化。可以使用户快速对本地素材库图像完成聚类可视化，方法有效可靠。

图1为本申请实施例提供的图像自组织聚类可视化方法流程示意图，如图1所示，本申请实施例的图像自组织聚类可视化方法包括以下处理步骤：

步骤101，利用语义信息提取器对素材图像进行特征提取，得到素材特征向量。

本申请实施例中，语义信息提取器采用基于卷积神经网络的图像特征为所述素材图像生成素材特征向量。

图像的语义分为视觉层、对象层和概念层。视觉层即通常所理解的底层，即颜色、纹理和形状等等，这些特征都被称为底层特征语义；对象层即中间层，通常包含了属性特征等，就是某一对象在某一时刻的状态；概念层是高层，是图像表达出的最接近人类理解的东西。

如图2所示，为语义信息提取流程图，其中，在语义信息提取过程中，网络模型是AlexNet卷积神经网络模型。在该模型中选取网络的嵌入空间向量作为素材图像的特征向量。为了提高素材图像特征向量的准确性，在训练中，我们可以加载ImageNet预训练参数或者针对用户常见的素材图像类别进行训练，使整个语义信息提取器，提取到的素材图像特征能很好的代表该素材图像。

AlexNet神经网络拥有6000w个参数和65w的神经元，由5层卷积池化层组成，后面接3层全连接层，输出层有1000个神经元。模型由5个卷积层和3个全连接层组成，其中最后一个全连接层是softmax层，在ImageNet-1k数据集上训练，故输出1000个分类，使用分类交叉熵作为损失函数。

模型分为两部分，因为该模型在两个GPU上训练，其中按照图像数据的通道切分为两部分，两部分在特定的层通信。卷积层的第二、第四、第五层直接和同一个GPU的前一层相连，第三层则与两个GPU上的第二层相连。全连接层都和上一层的所有神经元相连。

卷积层的第一层使用96个卷积核，size＝(11,11)，stride＝4。第二卷积层使用256个卷积核，size＝(5,5)。第三卷积层使用3x3的384个卷积核，第四卷积层使用3x3的384个卷积核，第五卷积层使用3x3的256个卷积核。全连接有两层有4096个神经元局部响应归一化应用在第一和第二卷积层之后，所有层的激活函数是ReLU，Dropout应用在全连接层。

从卷积层提取完毕以后，每一张素材图像的信息转为256维的向量，也即素材特征向量。

ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象。在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别。一个典型的类别包含数百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得。

步骤102，将提取完成的所述素材特征向量输入自组织聚类视觉布局生成器中，获取所述素材特征向量在所述自组织聚类视觉布局生成器中的激活位置。

本申请实施例中，自组织聚类视觉布局生成器采用自组织映射神经网络SOM模型进行所述素材特征向量的聚类和位置可视化。

如图3所示，为自组织聚类视觉布局生成器的工作流程图，其中，在自组织聚类视觉布局流程中，采用的网络模型是SOM(Self-organizing Map)。

SOM网络结构如图3所示,它由输入层和竞争层(输出层)组成。输入层神经元数为n，竞争层由m个神经元组成的一维或者二维平面阵列，网络是全连接的，即每个输入结点都同所有的输出结点相连接。主要用于解决模式识别类的问题。SOM网络属于无监督学习算法，与K-means算法相似。所不同的是，SOM网络不需要预先提供聚类数量，类别的数据由网络自动识别出来。它的基本思想是：将距离小的个体集合划分为同一类别，而将距离大的个体集合划分为不同的类别。

如图4所示，为SOM聚类视觉布局流程图，其中，SOM算法的主要过程如下：

(1)初始化。对输入层各权向量初始化随机为很小的参数。

(2)随机取一个输入样本X。

(3)遍历竞争层中每一个节点：计算X与节点之间的相似度(通常使用欧式距离)选取距离最小的节点作为获胜节点(winner node)。

(4)根据邻域半径确定优胜邻域将包含的节点；并计算它们各自更新的幅度(基本思想是：越靠近优胜节点，更新幅度越大；越远离优胜节点，更新幅度越小)。

(5)更新优胜邻域内节点的权重系数。

(6)完成一轮迭代(迭代次数+1)，返回步骤(2)，直到满足设定的迭代次数。所述获胜节点位置确定所述素材特征向量在所述自组织聚类视觉布局生成器中的激活位置。

步骤103，根据所述激活位置，在所述自组织聚类视觉布局生成器的输出层的二维布局平面上，视觉显示所述素材图像的聚类结果。

本申请实施例中，将所述素材图像分别找到在所述自组织聚类视觉布局生成器中的获胜节点作为激活位置；将所述激活位置显示在对应的布局节点中，完成所述素材图像聚类可视化。

在完成以上SOM聚类视觉布局后，将素材图像库中的图像文件找到在SOM聚类视觉布局中的获胜节点，显示在对应的布局节点中，完成整个素材图像聚类可视化。

本申请实施例以素材图像为例进行说明，需要说明的是，其他图像材料一样可以使用本申请实施例的技术手段进行聚类可视化。

下面结合具体示例，对本申请实施例作进一步详细说明。

如图5所示，为本申请实施例提供的图像自组织聚类可视化流程图，其中，首先用户在加载本地素材的时，把对应的素材图像在语义信息提取器(卷积网)中，完成特征提取，并将特征提取完毕的素材特征向量保存在本地文件中。然后，将提取完成的素材特征信息输入自组织聚类视觉布局生成器中，进行多次训练，在训练过程中，调整输出层的权重参数，使相似的图像尽量拥有相同的获胜神经元或者获胜神经元位置接近。在输出层的二维布局平面上，每一个区域代表不同的神经元获胜点，相似的素材图像，神经元的获胜节点距离也比较靠近，因此在二维平面上可以看到相似的图像分布在二维平面的区域比较接近，不相似的素材图像或者素材图像特征差别比较大的在二维平面上距离比较远。到此，完成整个流程。

图6为本申请实施例提供的图像自组织聚类可视化装置的组成结构示意图，如图6所示，本申请实施例的图像聚类可视化装置包括：

语义信息提取器单元61，用于对素材图像进行特征提取，得到素材特征向量；

聚类视觉布局生成器单元62，用于根据提取完成的所述素材特征向量获取所述素材特征向量的激活位置；

视觉显示单元63，用于根据所述激活位置，在所述聚类视觉布局生成器单元62的输出层的二维布局平面上，视觉显示所述素材图像的聚类结果。

所述语义信息提取器单元61，采用基于卷积神经网络的图像特征为所述素材图像生成素材特征向量。

所述语义信息提取器单元61，具体用于：

使用AlexNet卷积神经网络模型，将网络的嵌入空间向量作为所述素材特征向量；

加载ImageNet预训练参数或者针对用户常见的素材图像类别进行训练，使所述语义信息提取器提取到的素材特征向量代表所述素材图像。

所述聚类视觉布局生成器单元62，采用自组织映射神经网络SOM模型进行所述素材特征向量的聚类和位置可视化。

所述聚类视觉布局生成器单元62，根据如下方式训练：

采用自组织映射神经网络SOM模型，包括输入层和竞争层；输入层神经元数为n，竞争层由m个神经元组成的二维平面阵列；具体过程如下：

对输入层各权向量初始化随机为很小的参数；

随机取一个素材特征向量作为输入样本X；

遍历竞争层中每一个节点，根据欧氏距离分别计算X与节点之间的相似度；选取欧氏距离最小的节点作为获胜节点；

根据邻域半径确定所述获胜节点的优胜邻域将包含的节点；并计算各自更新的幅度；

根据所述更新幅度更新所述优胜邻域内节点的权重系数；

逐轮进行迭代优化，直到满足设定的迭代次数；

根据所述获胜节点位置确定所述素材特征向量在所述聚类视觉布局生成器中的激活位置。

所述视觉显示单元63，具体用于：

在示例性实施例中，本申请实施例的图像聚类可视化装置的上述各处理单元可以被一个或多个中央处理器(CPU，Central Processing Unit)、图形处理器(GPU，GraphicsProcessing Unit)、基带处理器(BP，Base Processor)、应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现。

在本公开实施例中，图6示出的图像聚类可视化装置中各个处理单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请提供了两种具体的聚类可视化示例方案，具体参见图7和图8，其中，由图7中可以看到属于飞机，蝴蝶，海豚，大象这四类的图像通过聚类分析以后，可视化展示在图像的不同区域，相同类别的距离比较近，不同类别的距离比较远。由图8中可以看到属于摩托车，公鸡，向日葵，海星这四类的图像通过聚类分析以后，可视化展示在图像的不同区域，相同类别的距离比较近，不同类别的距离比较远。

本申请实施例还记载了一种存储介质，存储介质上存储有可执行程序，所述可执行程序被处理器执行时实现所述实施例的图像自组织聚类可视化方法的步骤。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：叶根廷;张百灵;崔嵬;
专利申请人：苏州长嘴鱼软件有限公司;