导航：首页> 计算；推算；计数>文本生成图像预处理方法、装置和计算机设备和存储介质

文本生成图像预处理方法、装置和计算机设备和存储介质

文献发布时间：2024-04-18 19:58:30

技术领域

本申请涉及文本转换图像技术领域，特别是涉及一种文本生成图像预处理方法、装置、计算机设备和存储介质。

背景技术

文本生成图像是多模态领域中非常重要的一个任务，一般应用于数据可视化、创意生成、游戏、电商等领域。传统相关业务需要专门的画师、设计师进行绘图、设计工作。利用文本生成图像技术，可以快速的对于文本描述生成相关度较高的图像，大幅节省人力。

文本生成图像需要根据给定的文本生成尽可能符合文字含义的图像。它利用自然语言处理技术和计算机视觉技术，通过将文本中的语义信息提取出来，并利用扩散模型/自回归等生成模型生成图像。其中，文本处理的核心是实体识别和关系抽取，即采用文本生成图像模型识别文本中的实体(如人名、地名、组织等)，并提取它们之间的关系。而图形绘制则是文本生成图像模型将这些实体和关系转换为图形元素(如节点、边等)并放置到合适的位置上，从而生成一幅图像。

文本生成图像模型的准确率取决于其投入使用前的训练，而模型训练中所采用的样本数据集对于训练效果起着决定性的作用。文本生成图像模型训练使用的数据为图文对数据，即每条数据为一条文本数据+一张对应的图像数据。文本生成图像模型训练需要海量的图文对数据，目前文本生成图像模型训练所采用的图文对数据收集量小、数据质量较差，导致文本生成图像模型的转换质量不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决文本生成图像过程中文本生成图像模型训练时训练数据质量差问题的文本生成图像方法、装置、计算机设备和存储介质。

一方面，提供一种文本生成图像预处理方法，所述方法包括：

构建待处理图文对数据集，所述待处理图文对数据集包括对应关联的图像数据和文本数据；

基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集；

基于文本编码器转换所述文本数据获得文本特征数据，并基于图像编码器转换所述图像数据获得图像特征数据；

基于预先训练的CLIP模型计算每一对所述文本特征数据与所述图像特征数据的匹配值，包括：

基于公式

筛除所述中间图文对数据集中所述匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

在其中一个实施例中，所述构建图文对数据集包括：

下载目标网站开源图文对数据以生成第一图文对数据集；

获取预先存储的目标标注图文对数据集以获得第二图文对数据集；

基于图片描述生成模型与预先从网页获取的图像生成文本描述以构建第三图文对数据集；

爬取网络图文对数据集以获得第四图文对数据集；

所述待处理图文对数据集至少包括所述第一图文对数据集、所述第二图文对数据集、所述第三图文对数据集与所述第四图文对数据集。

在其中一个实施例中，所述爬取网络图文对数据集以获得第四图文对数据集包括：

基于Common Craw开源数据和目标时间节点、目标网络类型爬取图文获得第四图文对数据集以使所述待处理图文对数据集中的各类数据集达成目标比例。

在其中一个实施例中，所述基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集包括：

基于第一预设规则筛除所述待处理图文对数据集中的图像数据并删除对应的文本数据；

基于第二预设规则筛除所述待处理图文对数据集中的文本数据并删除对应的图像数据。

在其中一个实施例中，所述基于第一预设规则筛除所述待处理图文对数据集中的图像数据并删除对应的文本数据包括：

判断所述待处理图文对数据集中的每条图像数据是否满足分辨率大于第一预设阈值、长宽比小于第二预设阈值、正常完成下载且不含水印；

若否，则删除所述图像数据及对应的文本数据；

基于图像分类模型识别并删除所述待处理图文对数据集中包含有敏感内容的图像数据及对应的文本数据。

在其中一个实施例中，所述基于第二预设规则筛除所述待处理图文对数据集中的文本数据并删除对应的图像数据包括：

判断所述待处理图文对数据集中的每条文本数据是否满足长度在预设范围值内、含有预设敏感词字段、含有目标预设语言字段以及含有乱码字段；

若是，则删除所述文本数据并删除对应的图像数据。

在其中一个实施例中，所述文本编码器包括RoBERTa模型，所述图像编码器包括ResNet50模型；

所述预先训练的CLIP模型的预先训练方法包括：

基于预设训练集中的文本特征数据与图像特征数据构建矩阵；

按行和按列分别基于公式

基于所述交叉熵损失函数计算出模型损失；

训练预设CLIP模型至所述预设CLIP模型的模型损失在预设范围内。

另一方面，提供了一种文本生成图像预处理装置，所述装置包括：

构建模块，用于构建待处理图文对数据集，所述待处理图文对数据集包括对应关联的图像数据和文本数据；

清洗模块，用于基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集；

计算模块，用于基于预设多模型模型计算所述中间图文对数据集中每一对图像数据和文本数据的匹配值；

筛选模块，用于筛除所述中间图文对数据集中所述匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

再一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

构建待处理图文对数据集，所述待处理图文对数据集包括对应关联的图像数据和文本数据；

基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集；

基于预设多模型模型计算所述中间图文对数据集中每一对图像数据和文本数据的匹配值；

筛除所述中间图文对数据集中所述匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

构建待处理图文对数据集，所述待处理图文对数据集包括对应关联的图像数据和文本数据；

基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集；

基于预设多模型模型计算所述中间图文对数据集中每一对图像数据和文本数据的匹配值；

筛除所述中间图文对数据集中所述匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

上述文本生成图像预处理方法、装置、计算机设备和存储介质，方法包括：构建待处理图文对数据集，所述待处理图文对数据集包括对应关联的图像数据和文本数据；基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集；基于文本编码器转换所述文本数据获得文本特征数据，并基于图像编码器转换所述图像数据获得图像特征数据；基于预先训练的CLIP模型计算每一对所述文本特征数据与所述图像特征数据的匹配值，包括：基于公式similarity＝cos(θ)＝(A·B)/‖A‖‖B‖计算每一对所述文本特征数据与所述图像特征数据的匹配值，其中：A为文本特征向量，B为图像特征向量；；筛除所述中间图文对数据集中所述匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集；先基于预设规则分别针对待处理图文数据集中的图像数据和文本数据进行清洗，再基于CLIP模型计算每一对图像数据和文本数据的匹配值从而筛除文本和图像对应程度不高的图文对数据，有效提高用于训练文本生成图像模型的训练数据的质量，从而提高文本生成图像的准确度。

附图说明

图1为一个实施例中文本生成图像预处理方法的流程示意图；

图2为一个实施例中构建待处理图文对数据集步骤的流程示意图；

图3为一个实施例中基于预设规则清洗待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集步骤的流程示意图；

图4为一个实施例中基于预设多模型模型计算中间图文对数据集中每一对图像数据和文本数据的匹配值步骤的流程示意图；

图5为一个实施例中文本生成图像预处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如背景技术中所述，文本生成图像模型的训练需要海量的图文对数据，一般来讲，文本生成图像模型的模型参数量超过10亿参数，想要训练这种大规模参数的生成模型，需要的图文对数据的数量一般需要达到数亿对高质量的图文对数据。大规模、高质量的图文数据集获取难度是较大的。虽然目前业界出现了一些开源的图文对数据，其主要来自于网络爬取。图像中可能会出现含有敏感信息或者图像尺寸不适用的情况；文本中也可能存在含有敏感内容，或者长度不适合参与训练的文本。但目前图文对数据清洗比较粗糙，导致数据质量较差，并且图像和文本的匹配度参差不齐，导致最终训练出的文本生成图像模型的生成性能不佳。

在一个实施例中，如图1所示，提供了一种文本生成图像预处理方法，包括以下步骤：

S110、构建待处理图文对数据集，待处理图文对数据集包括对应关联的图像数据和文本数据。

待处理图文对数据集中包括若干对图文对数据，一条图像数据与对应关联的一条文本数据组成一对图文对数据。

S120、基于预设规则清洗待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集。

具体的，根据预设规则分别针对图像和文本对待处理图文对数据集进行初次清洗，筛除不符合预设规则的图像数据及文本数据，由于图文对数据中图像数据与文本数据一一对应，因此还将与被筛除的图像数据对应的文本数据、与被筛除的文本数据对应的图像数据均进行删除。

S130、基于文本编码器转换文本数据获得文本特征数据，并基于图像编码器转换图像数据获得图像特征数据。

S140、基于预先训练的CLIP模型计算每一对文本特征数据与图像特征数据的匹配值，包括：

基于公式similarity＝cos(θ)＝(A·B)/‖A‖‖B‖计算每一对所述文本数据与所述图像特征数据的匹配值，其中：A为文本特征向量，B为图像特征向量。

S150、筛除中间图文对数据集中匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

上述文本生成图像预处理方法中，先基于预设规则分别针对待处理图文数据集中的图像数据和文本数据进行清洗，再采用预先训练的CLIP模型计算每一对图像数据和文本数据的匹配值从而筛除文本和图像对应程度不高的图文对数据，有效提高用于训练文本生成图像模型的训练数据的质量，从而提高文本生成图像的准确度。

在一个实施例中，提供一种文本生成图像预处理方法，参照图2所示，所述构建待处理图文对数据集包括：

S210、下载目标网站开源图文对数据以生成第一图文对数据集。

具体的，从互联网上下载一些机构开源的大体量图文对数据集，如Laion5B，Laion400M，Wukong等，这些图文对数据集的体量达到了几亿-几十亿图文对的规模。但这些数据集仅提供图像的网站链接，可能出现部分图片失效无法正常下载的问题。另外图片对应的文本标注来自于网站内容的，可能出现对应性不佳的问题。

S220、获取预先存储的目标标注图文对数据集以获得第二图文对数据集。

具体的，业界有一些专门用于图像生成或者图像描述的图文对数据集，这些图文对数据集提供的图文对数据由专业人员进行标注，数据质量高，但是数量较少。

S230、基于图片描述生成模型与预先从网页获取的图像生成文本描述以构建第三图文对数据集。

具体的，网络上图文对数据相对较少，且网页上的文本描述不一定与图像匹配。本申请从网页上获取图像，再使用业界性能优异的图片描述生成模型对图像生成描述文本，从而构建对应性较好的图文对数据。对于一些特殊行业，如设计、游戏、电商，其本身积累了大量了图文对或者图像数据，希望能够生成与业务相关的图像，这需要在数据收集阶段，有针对性的将积累的数据构建为图文对形式，图像相对较好获得，对应的文本可以先用图像描述描述自动生成文本描述，再由熟悉行业业务的人员手动对文本描述进行调整，以更加符合相关业务对于文本的定义。

S240、爬取网络图文对数据集以获得第四图文对数据集。

具体的，本步骤包括：基于Common Craw开源数据和目标时间节点、目标网络类型爬取图文获得第四图文对数据集以使所述待处理图文对数据集中的各类数据集达成目标比例。

自行在网络上进行图文对爬取，可以基于Common Craw这类开源的数据爬取组织提供的文件，自行选择感兴趣的时间节点、网站类型，进行相关图文对数据集的爬取工作，以有针对性地对数据集中各类数据集的比例进行完善。

待处理图文对数据集中包括若干对图文对数据，一条图像数据与对应关联的一条文本数据组成一对图文对数据。所述待处理图文对数据集至少包括所述第一图文对数据集、所述第二图文对数据集、所述第三图文对数据集与所述第四图文对数据集。

从多个来源采集图文对数据，满足文本生成图像模型训练对于图文对数据的海量需求，并且针对性地对数据集中各类数据集的比例进行完善，满足不同文本生成图像模型训练对于训练集中图像的具体要求。

在一个实施例中，参照图3所示，所述基于预设规则清洗待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集包括：

S310、基于第一预设规则筛除所述待处理图文对数据集中的图像数据并删除对应的文本数据。

在一种实施方式中，本步骤包括：

S311、判断所述待处理图文对数据集中的每条图像数据是否满足分辨率大于第一预设阈值、长宽比小于第二预设阈值、正常完成下载且不含水印；若否，则进入S312。

示例性的，逐一判断所述待处理图文对数据集中的每条图像数据是否满足以下所有条件：分辨率大于256*256分辨率，长宽比(长度/宽度或者宽度/长度)小于2，正常完成下载且不含水印，若有其中一个条件不符合，则进入S2212。

S312、删除所述图像数据及对应的文本数据。

示例性的，图像数据不能全部满足以下所有条件：分辨率大于256*256分辨率，长宽比(长度/宽度或者宽度/长度)小于2，正常完成下载且不含水印，则删除该条图像数据，由于图文对是一条图像数据与一条文本数据对应关联同时出现，因此还需删除该条图像数据对应的文本数据。

S313、基于图像分类模型识别并删除所述待处理图文对数据集中包含有敏感内容的图像数据及对应的文本数据。

具体的，根据文本生成图像模型训练需求选择如Laion网站开源图像分类模型，或者是预先训练好的图像分类模型，识别出所述待处理图文对数据集中包含有敏感内容的图像数据并删除，同时删除该条图像数据对应的文本数据。不仅能够去除传统清洗方法中所清洗的不完整图像和尺寸、清晰度不达标图像，还能对内容不符合要求的图像进行清洗，有效提高清洗质量。

图像敏感内容分类清洗基于一个图像分类模型Resnet50网络，我们在网络上收集了一些开源的敏感内容图像，将其标签标注为对应类别，正常图像的类别标注为正常，共四个类别，分别为不同的敏感内容标签类别，每个类别训练数据为5000张左右。损失函数为多fenl交叉熵损失函数：

其中，y表示真实标签向量，p表示模型的预测概率向量，j表示类别的索引，y

S320、基于第二预设规则筛除所述待处理图文对数据集中的文本数据并删除对应的图像数据。

在一种实施方式中，本步骤包括：

S321、判断所述待处理图文对数据集中的每条文本数据是否满足长度在预设范围值内、含有预设敏感词字段、含有目标预设语言字段以及含有乱码字段；若是，则进入S322。

S322、删除所述文本数据并删除对应的图像数据。

示例性的，删除S321判断识别出的过长的即长度大于第一预设长度的文本，删除过短的即长度小于第二预设长度的文本，删除含有敏感词字段的文本，删除不希望引入的语言的文本，删除含有无法识别语言的乱码文本，并删除该文本数据对应关联的图像数据。

分别针对图像质量和文本质量两个角度对待处理图文对数据集进行初次清洗，筛除不符合预设规则的图像数据及文本数据，从而有效筛除质量不佳的图像和文本数据，提高用于文本生成图像模型训练的图文对数据训练集的质量。

在一个实施例中，基于预先训练的CLIP模型计算每一对文本特征数据与图像特征数据的匹配值，包括：

基于公式simnilarity＝cos(θ)＝(A·B)/‖A‖‖B‖计算每一对所述文本特征数据与所述图像特征数据的匹配值即余弦相似度，其中：A为文本特征向量，B为图像特征向量。

图像特征数据采用ResNet50模型对图像提取获得，文本特征数据采用中文RoBERTa模型对文本提取获得。

参照图4所示，所述预先训练的CLIP模型的预先训练方法包括：

S410、基于预设训练集中的文本特征数据与图像特征数据构建矩阵；

S420、按行和按列分别基于公式计算交叉熵损失函数，公式为：

S430、基于交叉熵损失函数计算出模型损失。

具体的，对按行和按列分别计算出的两个交叉熵损失函数求和作为最终的模型损失函数。

S440、训练预设CLIP模型至预设CLIP模型的模型损失在预设范围内。

经过上述阶段分别针对图像质量和文本质量对待处理图文对数据集进行初次清洗后得到的图像对数据，内部可能仍存在文本与图像对应性较差的数据。引入多模型模型，如CLIP，计算一对图文对数据分别经过文本编码器与图像编码器后得到的特征的相似度来描述一对图文对的对应关系。

S240、筛除中间图文对数据集中匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

最终清洗后获得的目标预处理图文对数据集中的数据集体量约为清洗前的待处理图文对数据集的数据集体量的30％。

应该理解的是，虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供一种文本生成图像预处理装置，参照图5所示，所述装置包括：

构建模块510，用于构建待处理图文对数据集，所述待处理图文对数据集包括对应关联的图像数据和文本数据；

清洗模块520，用于基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集；

计算模块530，用于基于预设多模型模型计算所述中间图文对数据集中每一对图像数据和文本数据的匹配值；

筛选模块540，用于筛除所述中间图文对数据集中所述匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

在一个实施例中，所述构建模块510包括：

下载单元511，用于下载目标网站开源图文对数据以生成第一图文对数据集；

获取单元512，用于获取预先存储的目标标注图文对数据集以获得第二图文对数据集；

构建单元513，用于基于图片描述生成模型与预先从网页获取的图像生成文本描述以构建第三图文对数据集；

爬取单元514，用于爬取网络图文对数据集以获得第四图文对数据集。

在一个实施例中，所述爬取单元514基于Common Craw开源数据和目标时间节点、目标网络类型爬取图文获得第四图文对数据集以使所述待处理图文对数据集中的各类数据集达成目标比例。

在一个实施例中，所述清洗模块520包括：

第一筛除单元521，用于基于第一预设规则筛除所述待处理图文对数据集中的图像数据并删除对应的文本数据；

第二筛除单元522，用于基于第二预设规则筛除所述待处理图文对数据集中的文本数据并删除对应的图像数据。

在一个实施例中，所述第一筛除单元521包括：

第一判断子单元5211，用于判断所述待处理图文对数据集中的每条图像数据是否满足分辨率大于第一预设阈值、长宽比小于第二预设阈值、正常完成下载且不含水印；

第一删除子单元5212，用于所述判断子单元5211的判断结果为否后，删除所述图像数据及对应的文本数据；

在一个实施例中，所述第二筛除单元522包括：

第二判断子单元5221，用于判断所述待处理图文对数据集中的每条文本数据是否满足长度在预设范围值内、含有预设敏感词字段、含有目标预设语言字段以及含有乱码字段；

第二删除子单元5222，用于所述第二判断子单元5221的判断结果为是后，删除所述文本数据并删除对应的图像数据。

在一个实施例中，所述计算模块430包括：

基于文本编码器转换所述文本数据获得文本特征数据，并基于图像编码器转换所述图像数据获得图像特征数据；

基于CLIP模型计算一对所述文本特征数据与所述图像特征数据的匹配值。

关于文本生成图像预处理装置的具体限定可以参见上文中对于文本生成图像预处理方法的限定，在此不再赘述。上述文本生成图像预处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示，其示例性的展示出了计算机设备的架构，具体可以包括处理器610，视频显示适配器611，磁盘驱动器612，输入/输出接口613，网络接口614，以及存储器620。上述处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614，与存储器620之间可以通过通信总线630进行通信连接。

其中，处理器610可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器620可以采用只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、静态存储设备，动态存储设备等形式实现。存储器620可以存储用于控制计算机设备600运行的操作系统621，用于控制计算机设备600的低级别操作的基本输入输出系统(BIOS)622。另外，还可以存储网页浏览器623，数据存储管理624，以及图标字体处理系统625等等。上述图标字体处理系统625就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器620中，并由处理器610来调用执行。

输入/输出接口613用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口614用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

通信总线630包括一通路，在设备的各个组件(例如处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614，与存储器620)之间传输信息。

另外，该计算机设备600还可以从虚拟资源对象领取条件信息数据库641中获得具体领取条件的信息，以用于进行条件判断，等等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

构建待处理图文对数据集，所述待处理图文对数据集包括对应关联的图像数据和文本数据；

基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集；

基于预设多模型模型计算所述中间图文对数据集中每一对图像数据和文本数据的匹配值；

筛除所述中间图文对数据集中所述匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

下载目标网站开源图文对数据以生成第一图文对数据集；

获取预先存储的目标标注图文对数据集以获得第二图文对数据集；

基于图片描述生成模型与预先从网页获取的图像生成文本描述以构建第三图文对数据集；

爬取网络图文对数据集以获得第四图文对数据集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

基于Common Craw开源数据和目标时间节点、目标网络类型爬取图文获得第四图文对数据集以使所述待处理图文对数据集中的各类数据集达成目标比例。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

基于第一预设规则筛除所述待处理图文对数据集中的图像数据并删除对应的文本数据；

基于第二预设规则筛除所述待处理图文对数据集中的文本数据并删除对应的图像数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

判断所述待处理图文对数据集中的每条图像数据是否满足分辨率大于第一预设阈值、长宽比小于第二预设阈值、正常完成下载且不含水印；

若否，则删除所述图像数据及对应的文本数据；

基于图像分类模型识别并删除所述待处理图文对数据集中包含有敏感内容的图像数据及对应的文本数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

判断所述待处理图文对数据集中的每条文本数据是否满足长度在预设范围值内、含有预设敏感词字段、含有目标预设语言字段以及含有乱码字段；

若是，则删除所述文本数据并删除对应的图像数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

基于文本编码器转换所述文本数据获得文本特征数据，并基于图像编码器转换所述图像数据获得图像特征数据；

基于CLIP模型计算一对所述文本特征数据与所述图像特征数据的匹配值。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

构建待处理图文对数据集，所述待处理图文对数据集包括对应关联的图像数据和文本数据；

基于预设规则清洗所述待处理图文对数据集中的图像数据和文本数据获得中间图文对数据集；

基于预设多模型模型计算所述中间图文对数据集中每一对图像数据和文本数据的匹配值；

筛除所述中间图文对数据集中所述匹配值小于预设阈值的图像数据和文本数据获得用于文本生成图像模型训练的目标预处理图文对数据集。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

下载目标网站开源图文对数据以生成第一图文对数据集；

获取预先存储的目标标注图文对数据集以获得第二图文对数据集；

基于图片描述生成模型与预先从网页获取的图像生成文本描述以构建第三图文对数据集；

爬取网络图文对数据集以获得第四图文对数据集。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

基于Common Craw开源数据和目标时间节点、目标网络类型爬取图文获得第四图文对数据集以使所述待处理图文对数据集中的各类数据集达成目标比例。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

基于第一预设规则筛除所述待处理图文对数据集中的图像数据并删除对应的文本数据；

基于第二预设规则筛除所述待处理图文对数据集中的文本数据并删除对应的图像数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

判断所述待处理图文对数据集中的每条图像数据是否满足分辨率大于第一预设阈值、长宽比小于第二预设阈值、正常完成下载且不含水印；

若否，则删除所述图像数据及对应的文本数据；

基于图像分类模型识别并删除所述待处理图文对数据集中包含有敏感内容的图像数据及对应的文本数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

判断所述待处理图文对数据集中的每条文本数据是否满足长度在预设范围值内、含有预设敏感词字段、含有目标预设语言字段以及含有乱码字段；

若是，则删除所述文本数据并删除对应的图像数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

基于文本编码器转换所述文本数据获得文本特征数据，并基于图像编码器转换所述图像数据获得图像特征数据；

基于CLIP模型计算一对所述文本特征数据与所述图像特征数据的匹配值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：苏州浪潮智能科技有限公司;

上一篇：组装按压装置
下一篇：一种低能耗的非金属预制舱式围护结构优化方法及系统