掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法、装置、设备、存储介质及程序产品

文献发布时间:2024-04-18 19:58:30


一种数据处理方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。

背景技术

随着移动互联网和社交网络的大规模普及,越来越多的业务对象可以针对某一应用客户端进行评论、点赞等互动操作,以生产出各种各样的互动文本数据,因此需要对互动文本数据的文本质量进行识别,传统文本质量识别方法需要人工参与,即识别对象直接依据业务经验,识别互动文本数据的文本质量,这容易导致不同的识别对象对同一互动文本数据进行识别时,得到不同的识别结果,从而降低了文本质量的识别准确度。此外,在互动文本数据的数量较多时,这意味着需要花费大量的时间成本以及人力成本,进而导致文本质量的识别效率降低。

发明内容

本申请实施例提供一种数据处理方法、装置、设备、存储介质及程序产品,能够快速且准确地识别文本质量。

本申请实施例一方面提供了一种数据处理方法,包括:

获取目标文本检测数据,对目标文本检测数据进行字符图片转换,得到目标文本检测数据对应的目标视觉图片信息;

对目标视觉图片信息进行视觉特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征;

对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征,对目标文本特征以及目标图片隐藏特征进行语义融合处理,得到目标文本检测数据对应的质量概率参数;质量概率参数用于表征目标文本检测数据的文本质量。

本申请实施例一方面提供了另一种数据处理方法,包括:

获取包括初始视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型,获取用于对初始视觉特征提取网络层进行训练的样本图片信息;样本图片信息包括X个携带样本标签的样本图片对;一个样本标签用于指示一个样本图片对中的两个样本图片的实际图片相似度;X为正整数;

将X个样本图片对输入至初始文本质量识别模型,通过初始视觉特征提取网络层,得到每个样本图片对中的两个样本图片分别对应的预测图片隐藏特征;

基于每个样本图片对中的两个样本图片分别对应的预测图片隐藏特征,得到每个样本图片对的预测图片相似度;

基于每个样本图片对的实际图片相似度、每个样本图片对的预测图片相似度以及与初始视觉特征提取网络层相关联的模型收敛条件,对初始视觉特征提取网络层进行训练,得到目标视觉特征提取网络层;

将包括目标视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型确定为目标文本质量识别模型;目标文本质量识别模型用于预测目标文本检测数据的质量概率参数。

本申请实施例一方面提供了一种数据处理装置,包括:

目标数据获取模块,用于获取目标文本检测数据,对目标文本检测数据进行字符图片转换,得到目标文本检测数据对应的目标视觉图片信息;

目标特征提取模块,用于对目标视觉图片信息进行视觉特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征;

目标语义融合模块,用于对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征,对目标文本特征以及目标图片隐藏特征进行语义融合处理,得到目标文本检测数据对应的质量概率参数;质量概率参数用于表征目标文本检测数据的文本质量。

其中,目标数据获取模块包括:

目标数据获取单元,用于获取目标文本检测数据;

候选图片获取单元,用于获取针对目标文本检测数据的候选图片格式集,从候选图片格式集中获取目标图片格式,将目标文本检测数据转换为与目标图片格式相符的目标图片数据;

目标图片获取单元,用于基于目标图片数据,得到目标文本检测数据对应的目标视觉图片信息。

其中,目标图片获取单元包括:

策略获取子单元,用于在获取到目标文本检测数据时,获取针对目标文本检测数据的文本增强策略;文本增强策略包括H个文本增强子策略;H为正整数;

文本增强子单元,用于基于H个文本增强子策略,分别对目标文本检测数据进行文本增强处理,得到N个文本增强数据;N为正整数;

字符图片转换子单元,用于基于目标图片格式,对N个文本增强数据分别进行字符图片转换,得到N个图片增强数据;

目标图片确定子单元,用于将N个图片增强数据以及目标图片数据确定为目标文本检测数据对应的目标视觉图片信息。

其中,目标特征提取模块,包括:

图片增强单元,用于基于图片变换规则对目标视觉图片信息进行图片增强处理,得到视觉图片增强信息;

目标模型获取单元,用于获取针对目标文本检测数据的目标文本质量识别模型;目标文本质量识别模型包括目标视觉特征提取网络层;

特征提取单元,用于将视觉图片增强信息输入至目标文本质量识别模型,通过目标视觉特征提取网络层对视觉图片增强信息进行图片特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征。

其中,目标语义融合模块,包括:

文本向量化单元,用于对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征;

跨模态融合单元,用于将目标文本特征以及目标图片隐藏特征输入至目标文本质量识别模型中的跨模态语义融合网络层;跨模态语义融合网络层包括M个语义融合子网络层以及全连接子网络层;M个语义融合子网络层包括第一语义融合子网络层以及第二语义融合子网络层;M为正整数;

第一语义融合单元,用于通过第一语义融合子网络层,对目标文本特征以及目标图片隐藏特征进行第一语义融合处理,得到用于输入至第二语义融合子层的第一融合特征;

第二语义融合单元,用于通过第二语义融合子网络层,对目标文本特征以及第一融合特征进行第二语义融合处理,得到第二融合特征;

参数输出单元,用于将第二融合特征输入至全连接子网络层,由全连接子网络层输出目标文本检测数据对应的质量概率参数。

其中,文本向量化单元,包括:

分词获取子单元,用于对目标文本检测数据进行分词处理,得到R个分词;R为正整数;

分词编码子单元,用于对R个分词中的每个分词进行分词编码处理,得到每个分词分别对应的分词特征,将R个分词特征确定为目标文本检测数据对应的目标字符特征;

位置编码子单元,用于基于每个分词在目标文本检测数据中的位置信息,对每个分词分别进行位置编码处理,得到每个分词分别对应的位置特征,将R个位置特征确定为目标文本检测数据对应的目标位置特征;

目标特征确定子单元,用于将目标字符特征以及目标位置特征确定为目标文本检测数据对应的目标文本特征。

其中,目标文本检测数据的数量为T个,T为正整数;T个目标文本检测数据中的每个目标文本检测数据均为针对同一业务数据的互动文本数据;

数据处理装置,还包括:

阈值获取模块,用于在获取到每个目标文本检测数据分别对应的质量概率参数时,获取用于对T个目标文本检测数据进行过滤处理的质量概率阈值;

数据过滤模块,用于若T个目标文本检测数据中存在质量概率参数小于或者等于质量概率阈值的待过滤文本数据,则基于待过滤文本数据,对T个目标文本检测数据进行过滤处理,将过滤处理后的目标文本检测数据确定为待排序文本;

顺序调整模块,用于获取待排序文本的互动参数,基于待排序文本的质量概率参数以及互动参数,对待排序文本的文本展示顺序进行调整。

本申请实施例一方面提供了一种数据处理装置,包括:

初始模型获取模块,用于获取包括初始视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型,获取用于对初始视觉特征提取网络层进行训练的样本图片信息;样本图片信息包括X个携带样本标签的样本图片对;一个样本标签用于指示一个样本图片对中的两个样本图片的实际图片相似度;X为正整数;

样本特征提取模块,用于将X个样本图片对输入至初始文本质量识别模型,通过初始视觉特征提取网络层,得到每个样本图片对中的两个样本图片分别对应的预测图片隐藏特征;

样本相似度预测模块,用于基于每个样本图片对中的两个样本图片分别对应的预测图片隐藏特征,得到每个样本图片对的预测图片相似度;

训练模块,用于基于每个样本图片对的实际图片相似度、每个样本图片对的预测图片相似度以及与初始视觉特征提取网络层相关联的模型收敛条件,对初始视觉特征提取网络层进行训练,得到目标视觉特征提取网络层;

目标模型确定模块,用于将包括目标视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型确定为目标文本质量识别模型;目标文本质量识别模型用于预测目标文本检测数据的质量概率参数。

本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;

上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。

本申请实施例中,具有文本质量识别功能的计算机设备在获取到目标文本检测数据时,可以对目标文本检测数据进行字符图片转换,得到目标文本检测数据对应的目标视觉图片信息,以便于通过目标视觉图片信息更加准确地表征目标文本检测数据的语义信息。即该计算机设备可以先对目标视觉图片信息进行视觉特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征,再通过对目标文本检测数据对应的目标文本特征以及上述目标图片隐藏特征进行语义融合处理,从而得到目标文本检测数据对应的质量概率参数;质量概率参数用于表征目标文本检测数据的文本质量。由此可见,本申请实施例在识别目标文本检测数据的文本质量时无需人工参与,且摆脱了传统字符嵌入思路的文本质量筛选的束缚,即无需对目标文本检测数据中的每个字符进行字符编码处理,而是需要将目标文本检测数据转换成目标视觉图片信息,进一步地对视觉图片信息进行特征提取处理(即包括视觉特征提取处理以及与目标文本特征进行语义融合处理),从而快速且准确的识别该目标文本检测数据的文本质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图;

图2是本申请实施例提供的一种用于文本质量识别的场景示意图;

图3是本申请实施例提供的一种数据处理方法的流程示意图;

图4是本申请实施例提供的一种数据处理方法的流程示意图;

图5是本申请实施例提供的一种用于训练视觉特征网络层的结构示意图;

图6是本申请实施例提供的一种用于确定初始视觉特征提取网络层的损失参数的结构示意图;

图7是本申请实施例提供的一种关于语义融合子网络层的数据结构图;

图8是本申请实施例提供的一种文本质量保障方法的系统流程图;

图9a是本申请实施例提供的一种数据处理装置的结构示意图;

图9b是本申请实施例提供的一种数据处理装置的结构示意图;

图10是本申请实施例提供的一种计算机设备的结构示意图;

图11是本申请实施例提供的一种数据处理系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

其中,本申请实施例提供了一种用于进行文本质量识别的方法,该方法涉及人工智能领域。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其中,机器学习(ML,Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络(例如,目标文本质量识别模型,即已经训练完成的用于识别文本质量的神经网络模型)、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

请参见图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统可以包括服务器10F以及终端集群,终端集群可以包括一个或者多个终端设备,本申请不对终端设备的数量进行限制。如图1所示,具体可以包括:终端设备100a、终端设备100b、终端设备100c、…、终端设备100n,如图1所示,终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与上述服务器10F进行网络连接,以便于每个终端设备可以通过该网络连接与服务器10F进行数据交互。其中,这里的网络连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其他方式,本申请在此不做限制。

其中,该终端集群中的每个终端设备均可以包括:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等具有文本质量识别功能的智能终端。应当理解,如图1所示的终端集群中的每个终端设备均可以安装有目标应用(即应用客户端),当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的服务器10F之间进行数据交互。其中,该应用客户端可以包括社交客户端、多媒体客户端(例如,视频客户端)、娱乐客户端(例如,游戏客户端)、教育客户端、直播客户端等具有业务数据处理功能的应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端,在此不做限定。其中,终端集群之间可以存在通信连接,例如终端设备100a与终端设备100b之间存在通信连接,终端设备100a与终端设备100c之间存在通信连接。

如图1所示,本申请实施例中的服务器10F可以为该应用客户端对应的服务器,该服务器10F可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。

为便于理解,本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备。例如,本申请实施例可以将图1所示的终端设备100a作为目标终端设备,该目标终端设备中可以集成有目标应用(即应用客户端)。此时,该目标终端设备可以通过该应用客户端对应的业务数据平台与服务器10F之间实现数据交互。其中,这里的目标应用可以运行有已经训练完成的目标文本质量识别模型,该目标文本质量识别模型是一种用于对目标文本检测数据进行文本质量识别的神经网络模型,以得到用于表征目标文本检测数据的文本质量的质量概率参数。

应当理解,本申请实施例中具有文本质量识别功能的计算机设备(例如,图1所示的服务器10F或终端集群中的任意一个终端设备,例如,终端设备100a)所获取的目标文本检测数据可以为当前需要识别文本质量的文本数据(比如,目标对象所输入的文本数据),比如,该目标文本检测数据可以为该目标对象(即用户)在访问某一应用客户端(例如,多媒体客户端)时,针对该多媒体客户端中的视频数据进行互动的文本数据。又比如,该文本数据还可以为目标对象在访问另一应用客户端(例如,阅览客户端)时,针对该阅览客户端所展示的业务数据(例如,电子读物或音频数据)进行互动的文本数据,再比如,该文本数据还可以为下载与上传并重的目标对象的原创内容(User Generated Content,UGC),当然该目标文本检测数据还可以为针对其他数据形式所互动的文本数据,这里将不对该目标文本检测数据进行一一举例。可以理解的是,在本申请的具体实施方式中,涉及到目标文本检测数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理均遵守相关国家和地区的相关法律法规和标准。

为便于后续理解和说明,请一并参见图2,图2是本申请实施例提供的一种用于文本质量识别的场景示意图。如图2所示,本申请实施例中的计算机设备可以运行有目标文本质量识别模型(例如,图2所示的文本质量识别模型20W),该计算机设备可以为上述图1所对应实施例中的服务器10F,也可以为上述终端集群中的任意一个终端设备,例如,终端设备100a,这里将不对其进行限定。

其中,这里的文本质量识别模型20W可以包括视觉特征提取网络层210L(即目标视觉特征提取网络层)和跨模态语义融合网络层220L,其中,视觉特征提取网络层210L用于对目标视觉图片信息进行图片特征提取处理,跨模态语义融合网络层220L用于进行跨模态语义融合处理,该跨模态语义融合层220L可以包括T个语义融合子网络层以及全连接子网络层,T为正整数;为便于阐述,本申请实施例中的语义融合子网络层的数量可以以2个为例,具体可以包括语义融合子网络2201L

应当理解,计算机设备在获取到图2所示的文本检测数据200S(即目标文本检测数据),可以对文本检测数据200S进行字符图片转换,以得到该文本检测数据200S对应的目标视觉图片信息。计算机设备可以将目标视觉图片信息输入至视觉特征提取网络层210L,进而通过视觉特征提取网络层210L,对目标视觉图片信息进行视觉特征提取处理,以得到目标视觉图片信息对应的图片隐藏特征2X

进一步地,为了更加准确的表征文本检测数据200S的语义信息,计算机设备需要对文本检测数据200S进行文本向量化处理,得到文本检测数据200S对应的文本特征2X

比如,若质量概率参数(例如,0.4)小于或者等于该计算机设备预先设置的质量概率阈值(例如,0.5),则该计算机设备可以认为该文本检测数据200S为低质量文本数据,若质量概率参数(例如,0.8)为大于或者等于质量概率阈值(例如,0.5),则该计算机设备可以认为该文本检测数据200S为高质量文本数据。其中,这里的质量概率阈值可以根据实际情况进行动态调整,这里将不对其进行限定。

由此可见,本申请实施例中的计算机设备可以事先将文本检测数据200S转换为能够准确表征语义信息的目标视觉图片信息,进而通过将目标视觉图片信息输入至图2所示的文本质量识别模型20W,以得到能够表征文本质量的质量概率参数,这将有效提高了文本质量的识别效率以及识别准确度。

进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,该方法可以由计算机设备执行,该计算机设备可以为上述图1所示的终端集群中的任意一个终端设备,例如,终端设备100a,也可以为上述图1所示的服务器10F,在此不做限定。为便于理解,本申请实施例以该方法由服务器执行为例进行说明,该数据处理方法至少可以包括以下步骤S101-步骤S103:

步骤S101,获取目标文本检测数据,对目标文本检测数据进行字符图片转换,得到目标文本检测数据对应的目标视觉图片信息。

具体的,具有文本质量识别功能的计算机设备可以获取目标文本检测数据,进而可以获取针对目标文本检测数据的候选图片格式集,其中,该候选图片格式集可以包括多个候选图片格式。然后,该计算机设备可以从候选图片格式集中获取一个候选图片格式作为目标图片格式,进而可以将目标文本检测数据转换为与目标图片格式相符的目标图片数据。此时,该计算机设备可以基于目标图片数据,得到目标文本检测数据对应的目标视觉图片信息。

其中,候选图片格式集的多个候选图片格式可以包括位图格式(BitMaP,BMP)、个人电脑交换格式(Personal Computer eXchange,PCX)、标签图像文件格式(TagImageFileFormat,TIF)、图形交换格式(Graphics Interchange Format,GIF)以及便携式网络图形格式(Portable Network Graphics,PNG)等。该计算机设备可以根据业务需求,在这多个候选图片格式中选取一个候选图片(例如,PNG)作为目标图片格式,进而可以将目标文本检测数据转换为与目标图片格式相符的目标图片数据。进一步地,该计算机设备可以基于目标图片数据,得到目标文本检测数据对应的目标视觉图片信息。其中,目标视觉图片信息可以是针对图片像素、分辨率、大小、颜色、位深、色调、饱和度、亮度、色彩通道、图像的层次组成等维度的信息。

比如,该计算机设备可以直接将目标图片数据的图片信息作为目标视觉图片信息。可选的,为了提高文本质量识别的精准性,该计算机设备所确定的目标视觉图片信息不仅可以包括目标图片数据,还可以包括对目标文本检测数据进行文本增强处理后所转换的图片增强数据。

其中,可以理解的是,该计算机设备在获取到目标文本检测数据时,还可以获取针对目标文本检测数据的文本增强策略,进而可以通过文本增强策略中的H个文本增强子策略,分别对目标文本检测数据进行文本增强处理,得到N个文本增强数据。其中,H和N均为正整数。比如,这H个文本增强子策略可以包括第一文本增强子策略(例如,文本字体变换子策略),第二文本增强子策略(例如,同义词和近义词替换子策略),第三文本增强子策略(例如,反向翻译子策略)和第四文本增强子策略(例如,使用生成网络子策略)等。

其中,文本字体变换子策略可以表现为在一个词、一个句子或一段文字中,大量使用字形与原文部分相似的别字的行为。文本字体变换可以应用通假、转借、象形以及会意等修辞手法。通过文本字体变换,可以得到新的网络语言形式,它主要由繁体汉字、生僻字、异体字、外语、杂乱的符号和方言等组成,还夹杂着简体汉字、汉语拼音、字母等。例如,若目标文本检测数据为文本检测数据1(例如,“谢谢侬”),该计算机设备通过文本字体变换子策略可以将其转换为文本增强数据1(例如,“谢谢你”)。

其中,同义词与近义词替换子策略可以通过随机的方式选择一些选定词的同义词来替换这些选定词,比如:例如,若目标文本检测数据为文本检测数据2(例如,“这个水晶杯子特别漂亮”),该计算机设备通过文本字体变换子策略可以将其转换为文本增强数据2(例如,“这个透明杯子特别好看”)。

其中,反向翻译子策略是在机器翻译中一种常用的增强数据的方法,通过机器将一个句子翻译为另一种语言,再把另一种语言翻译为原先的语言,得到一个意思相近但表达方式可能不同的句子。这种方法不仅有同义词替换、词语增删的能力,还具有对句子结构语序调整的效果,并能保持与原句子意思相近,是一种非常有效的数据增强方式。

其中,使用生成网络子策略可以包括使用生成对抗网络(GenerativeAdversarial Network,GAN)或者变分自编码器(Variational Auto-Encoders,VAE)这些生成式网络来生成一些数据。通过对GAN模型的训练,可以更有效的生成高质量数据。

可以理解的是,该计算机设备可以通过同一文本增强子策略得到不同的文本增强数据,比如,在该计算机设备获取的目标文本检测数据为“这里的风景真美啊”,且确定的文本字体变换子策略为同义词与近义词替换子策略,该计算机设备可以进行文本增强处理后的文本增强数据可以包括文本增强数据3(例如,“这里的风景真漂亮啊”)、文本增强数据4(例如,“这里的风景真迷人啊”)。

在获取到N个图片增强数据时,该计算机设备可以基于与目标文本检测数据相同的目标图片格式,对N个文本增强数据分别进行字符图片转换,从而可以得到N个图片增强数据。此时,该计算机设备可以将这N个图片增强数据对应的图片信息以及目标图片数据对应的图片信息,一并确定为目标文本检测数据对应的目标视觉图片信息。

步骤S102,对目标视觉图片信息进行视觉特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征。

具体的,为了更精准的获取目标图片隐藏特征,计算机设备可以获取图片变换规则。其中,图片变换规则可以包括多个变化规则,这里将不对变化规则的数量进行限定。进一步地,该计算机设备可以基于图片变换规则,对目标视觉图片信息进行图片增强处理,得到视觉图片增强信息。然后,为了提高文本质量识别的效率和准确度,该计算机设备可以获取针对目标文本检测数据的目标文本质量识别模型(例如,图2所示的文本质量识别模型20W)。其中,目标文本质量识别模型包括目标视觉特征提取网络层(例如,图2所示的视觉特征提取网络层210L)。进一步地,该计算机设备可以将视觉图片增强信息输入至目标文本质量识别模型,通过目标视觉特征提取网络层对视觉图片增强信息进行图片特征提取处理,以得到目标视觉图片信息对应的目标图片隐藏特征。

其中,视觉特征提取处理可以是针对目标视觉图片信息在像素、分辨率、大小、颜色、位深、色调、饱和度、亮度、色彩通道以及图像的层次方面进行特征提取。其中,图片变换规则可以包括裁剪并调整大小(crop and-resize)、彩色失真(color distort)、颜色分格(color gitter)以及高斯模糊(gaussian blur)等多个变化规则。

步骤S103,对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征,对目标文本特征以及目标图片隐藏特征进行语义融合处理,得到目标文本检测数据对应的质量概率参数;质量概率参数用于表征目标文本检测数据的文本质量。

具体的,该计算机设备可以事先对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征,进而可以将目标文本特征以及目标图片隐藏特征,一并输入至目标文本质量识别模型中的跨模态语义融合网络层(例如,图2所示的跨模态语义融合网络层220L)。其中,跨模态语义融合网络层包括M个语义融合子网络层以及全连接子网络层;M为正整数;M个语义融合子网络层包括第一语义融合子网络层以及第二语义融合子网络层;通过第一语义融合子网络层,对目标文本特征以及目标图片隐藏特征进行第一语义融合处理,得到用于输入至第二语义融合子层的第一融合特征;通过第二语义融合子网络层,对目标文本特征以及第一融合特征进行第二语义融合处理,得到第二融合特征;将第二融合特征输入至全连接子网络层,由全连接子网络层输出目标文本检测数据对应的质量概率参数。

其中,该计算机在对目标文本检测数据进行文本向量化处理时,可以先对目标文本检测数据进行分词处理,得到R个分词;R为正整数;然后,对R个分词中的每个分词进行分词编码处理,得到每个分词分别对应的分词特征,将R个分词特征确定为目标文本检测数据对应的目标字符特征;与此同时,该计算机设备还可以基于每个分词在目标文本检测数据中的位置信息,对每个分词分别进行位置编码处理,得到每个分词分别对应的位置特征,进而将R个位置特征确定为目标文本检测数据对应的目标位置特征。进一步地,该计算机设备可以将目标字符特征以及目标位置特征确定为目标文本检测数据对应的目标文本特征。

其中,在目标文本检测数据的数量为T个,且T个目标文本检测数据中的每个目标文本检测数据均为针对同一业务数据的互动文本数据时,该计算机设备可以按照上述针对一个目标文本检测数据进行文本质量识别的方式,依次得到每个目标文本检测数据分别对应的质量概率参数;T为正整数。此时,该计算机设备可以获取用于对T个目标文本检测数据进行过滤处理的质量概率阈值。比如,若T个目标文本检测数据中不存在质量概率参数小于或者等于质量概率阈值的文本检测数据,则该计算机设备可以将这T个目标文本检测数据均作为待排序文本。可选的,若T个目标文本检测数据中存在质量概率参数小于或者等于质量概率阈值的文本检测数据(即待过滤文本数据),则该计算机设备可以基于待过滤文本数据,对T个目标文本检测数据进行过滤处理,进而可以将过滤处理后的目标文本检测数据确定为待排序文本,在默认情况下,该计算机设备可以直接对待排序文本的质量概率参数进行排序处理,按照排序结果调整待排序文本的文本展示顺序。

可选的,该计算机设备还可以获取待排序文本的互动参数,基于待排序文本的质量概率参数以及互动参数,对待排序文本的文本展示顺序进行调整。比如,这里的互动参数可以包括互动时间戳以及互动热度参数。其中,互动时间戳可以是目标文本检测数据的发布时间,互动热度参数可以是在一个应用客户端中,除了目标对象之外的其他应用客户端的访问对象针对目标文本检测数据的喜爱度(例如点赞数,转发数以及收藏数等)。计算机设备可以基于文本检测数据各自的互动时间戳、互动热度参数以及质量概率参数,分别为其配置权重参数,进而可以按照分配的权重分别对待排序文本的文本质量参数进行调整,以得到质量调整参数,进而通过对质量调整参数进行排序处理,按照排序处理后的排序结果,调整待排序文本的文本展示顺序。

比如,该计算机设备获取到的目标文本检测数据的数量可以以3个为例,具体可以包括文本检测数据1、文本检测数据2、文本检测数据3。其中,文本检测数据1的概率质量参数可以为0.4,文本检测数据2的概率质量参数可以为0.8,文本检测数据3的概率质量参数可以为0.9。此时,根据概率质量参数的阈值(例如,0.7),对文本检测数据进行过滤处理,计算机设备可以过滤掉文本检测数据1,剩下的待排序文本可以包括文本检测数据2与文本检测数据3。然后,该计算机设备可以获取这两个文本检测数据的互动参数,若文本检测数据3相较于文本检测数据2来说,点赞数、评论数、转发数、收藏数都更高或者文本检测数据3的互动时间戳早于文本检测数据2的互动时间戳,则该计算机设备根据文本检测数据2的互动参数所配置的权重参数(即第一权重参数)可以为0.3,根据文本检测数据3的互动参数所配置的权重参数(即第二权重参数)可以为0.8。文本检测数据进一步地,该计算机设备可以通过各自的权重参数,分别确定文本检测数据2最终的概率质量参数(即质量调整参数2,例如,0.24)以及文本检测数据3最终的概率质量参数(即质量调整参数3,例如,0.72)。此时,该计算机设备可以基于两个质量调整参数,对文本检测数据2和文本检测数据3进行排序处理,即文本检测数据3相较于文本检测数据2优先展示,这意味着文本检测数据3的排序优先级高于文本检测数据2的排序优先级文本检测数据。

本申请实施例中,通过字符图片转换,摆脱了常用的字符嵌入的思路,通过视觉特征提取处理,可以得到目标视觉图片信息的目标图片隐藏特征。采用本申请,可以有效提升目标对象的整体互动质量,增加目标对象良好的互动氛围,通过过滤排序处理,可以提高意义深远的优质互动文本的曝光几率与展示几率,提高目标对象的对应用客户端的粘性,可以更加精准的分析文本语义之间的关系,提高对文本质量保障的匹配性和泛化性。

进一步地,请参见图4,图4是本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由具备文本质量识别功能的终端设备(例如,上述图1所示的终端设备集群中的任意一个终端设备,例如,终端设备100a)执行,也可以由具备文本质量识别功能的服务器(例如,上述图1所示的服务器10F)执行,还可以由具备模型应用功能的终端设备和具备模型训练功能的服务器交互执行。在此不做限定。该方法至少可以包括以下步骤S201-步骤S208:

步骤S201,获取目标文本检测数据,对目标文本检测数据进行字符图片转换,得到目标文本检测数据对应的目标视觉图片信息。

步骤S202,对目标视觉图片信息进行视觉特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征。

步骤S203,对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征,对目标文本特征以及目标图片隐藏特征进行语义融合处理,得到目标文本检测数据对应的质量概率参数;质量概率参数用于表征目标文本检测数据的文本质量。

其中,本申请实施例中的数据处理方法可以包括模型训练过程以及模型应用过程。可以理解的是,该步骤S201-步骤S203阐述了模型应用过程,该模型应用过程的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S103的描述,这里将不再继续进行赘述。

其中,该模型训练过程具体可以参见下述步骤S204-步骤S208的描述。

步骤S204,获取包括初始视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型,获取用于对初始视觉特征提取网络层进行训练的样本图片信息;样本图片信息包括X个携带样本标签的样本图片对;一个样本标签用于指示一个样本图片对中的两个样本图片的实际图片相似度;X为正整数。

其中,样本图片对可以包括正样本对和负样本对,其中,正样本对可以包括一个原始图片数据和一个经过图片变换规则方式对其进行图片增强后的增强图片数据。负样本对可以包括两个互不相同的原始图片数据,或者一个原始图片数据与另一原始图片数据的增强图片数据。

其中,这里的原始图片数据可以为该计算机设备通过以下多种方式进行获取。一种获取方式下,该计算机设备可以获取在阅览客户端(如咨询浏览应用)中,信息流分发的视频内容的抽帧图和图文内容封面图(若阅览客户端中的评论内容支持目标对象发布图片数据,则图片数据可以作为阅览客户端中的内容来源)。

一种获取方式下,该计算机设备可以直接获取大型可视化数据库(Imagenet)中公开图片数据里的分类图片数据,这些分类图片数据已经含有分类详细信息作为标签。

一种获取方式下,该计算机设备可以通过爬取公共图片数据的方式,获取原始图片数据。进一步来说,该计算机设备可以通过信息流分发的内容,统计信息流分发内容的内容标签,将出现次数最多的内容标签对应的实体词作为关键词,进而进行数据收集。进一步地,该计算机设备还可以通过搜索应用和垂类网站收集图片数据、图片描述的领域数据以及各种标签符号图标。

步骤S205,将X个样本图片对输入至初始文本质量识别模型,通过初始视觉特征提取网络层,得到每个样本图片对中的两个样本图片分别对应的预测图片隐藏特征。

本步骤的具体过程可以参见上述图3所对应实施例中的步骤S102的具体描述,这里不再进行赘述。

步骤S206,基于每个样本图片对中的两个样本图片分别对应的预测图片隐藏特征,得到每个样本图片对的预测图片相似度。

其中,这里的预测图片相似度可以基于样本图片对中的图片距离(例如,两个预测图片隐藏特征之间的欧式距离)所确定的。其中,该计算技术设备确定样本图片对中的图片距离的方式具体可以参见公式(1):

d=||a

其中,a

步骤S207,基于每个样本图片对的实际图片相似度、每个样本图片对的预测图片相似度以及与初始视觉特征提取网络层相关联的模型收敛条件,对初始视觉特征提取网络层进行训练,得到目标视觉特征提取网络层。

具体的,该计算技术设备可以获取与初始视觉特征提取网络层相关联的模型收敛条件。其中,这里的模型收敛条件可以包括预先设定的损失阈值(例如,0.1)。该计算机设备可以基于实际图片相似度、每个样本图片对的预测图片相似度,确定初始视觉特征提取网络层的损失参数。若损失参数未达到损失阈值,则对初始视觉特征提取网络层的模型参数进行调整,对调整后的初始视觉提取网络层进行训练,直到调整后的初始视觉提取网络层达到损失阈值时,则将调整后的初始视觉提取网络层作为目标视觉特征提取网络层。可选的,损失参数达到损失阈值,则计算机设备可以直接将初始视觉提取网络层作为目标视觉特征提取网络层。其中,该计算技术设备确定初始视觉特征提取网络层的损失参数的方式具体可以参见公式(2):

/>

其中,d可以用于表示样本图片的预测图片隐藏特征a

请参见图5,图5是本申请实施例提供的一种用于训练视觉特征网络层的结构示意图。如图5所示,该计算机设备可以通过图片变换规则方式获取原始图片数据集,具体获取步骤的方式可以参见步骤S204中关于原始图片数据的获取方式,这里不在进行赘述。比如,该原始图片数据集可以包括图5所示的图片数据5S

如图5所示,视觉特征提取网络层51L(例如,图2中视觉特征提取网络层210L)可以包括网络层500L

由此可知,视觉特征提取网络层51L可以抽取不同层次的视觉特征,使其更适合分割检测等任务。而且,视觉特征提取网络层51L可以针对视觉实体变化大的情况,提升在不同场景下视觉特征网络层的性能。进一步地,视觉特征提取网络层51L可以减少网络层的模型大小,利于部署,更利于网络层的模型加速,更符合实际业务的需要。

应当理解,计算机设备可以对样本图片信息进行图片增强处理,将样本增强图片信息输入视觉特征提取网络层51L,通过网络层500L

然后,该计算机设备可以基于上述公式(1)和公式(2),确定该视觉特征提取网络层51L的损失参数,进而基于损失参数以及模型收敛条件,对视觉特征提取网络层51L进行训练,在训练完成时,得到上述图5所示的52L(即目标视觉特征提取网络层)。其中,这里的训练可以为采用对比学习的图片自监督预训练过程,从而提升视觉特征提取网络层51L的适应性与泛化性,对于识别低质量文本数据具有很好的鲁棒性。

为便于理解,进一步地,请参见图6,图6是本申请实施例提供的一种用于确定初始视觉特征提取网络层的损失参数的结构示意图。其中,如图6所示,原始图片数据6S是计算机设备获取的一个原始图片数据,图片增强数据6S

计算机设备可以对根据与初始视觉特征提取网络层(例如,上述图5的视觉特征提取网络层51L)相关联的编码器(encoder),对原始图片数据6S进行图片特征提取,得到预测图片隐藏特征6Q,还可以根据动量编码器(momentumencoder)编码,分别对图片增强数据6S

进一步地,该计算机设备可以根据上述步骤S207中的公式(2),确定初始视觉特征提取网络层的损失参数,后续可以基于初始视觉特征提取网络层的损失参数,对初始视觉特征提取网络层进行训练,以便于得到目标视觉特征提取网络层(例如,图5中的视觉特征提取网络层52L)。当训练过程包括注意力机制时,计算机设备可以将样本图片信息可以作为注意力机制中的查询(query),将样本图片增强数据集中的每个图片增强数据可以作为注意力机制中的地址(key)。然后,再进行后续的预测图片相似度获取,与初始视觉特征提取网络层的损失参数获取,这里将不在对其获取的详细过程进行赘述。

步骤S208,将包括目标视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型确定为目标文本质量识别模型;目标文本质量识别模型用于预测目标文本检测数据的质量概率参数。

具体的,计算机设备可以将训练好的目标视觉特征提取网络层(例如,图5中的视觉特征提取网络层52L)与跨模态语义融合网络层共同构成的文本质量识别模型确定为目标文本质量识别模型(例如,图2中的文本质量识别模型20W)。其中,跨模态语义融合网络层包括M个语义融合子网络层以及全连接子网络层,M为正整数。

本申请实施例中,引入了包括初始视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型,通过对初始文本质量识别模型的训练,可以得到目标文本质量识别模型,摆脱了经典字符嵌入的思路,提升了对于负面文本的鲁棒性,可以更加精准的分析文本语义之间的关系,提高对文本质量保障的匹配性和泛化性。

进一步地,请参见图7,图7是本申请实施例提供的一种关于语义融合子网络层的结构示意图。其中,图7所示的语义融合子网络层700L(例如,Transformer结构,即变换器结构)可以为跨模态语义融合网络层中M个语义融合子网络层中的任意一个语义融合子网络层,M为正整数,若语义融合子网络层700L为M个语义融合子网络层中的第一层,则该计算机设备在获取到文本检测数据700S(即目标文本检测数据)时,需要对文本检测数据700S进行文本向量化处理,以得到用于输入至语义融合子网络层700L的目标文本特征,以通过语义融合子网络层700L对目标文本特征以及一并输入的目标图片隐藏进行融合处理,从而得到输出特征(即上述第一融合特征)。其中,这里的目标文本特征可以包括图7所示的目标位置特征和目标字符特征。

其中,语义融合子网络层700L各网络层之间的连接关系可以如图7所示,即这些网络层可以包括网络层7L

这里的语义融合子网络层700L属于采用模型蒸馏方式进行训练的神经网络,其中,模型蒸馏方式是指将预训练好的教师模型(Teacher Model)的知识通过蒸馏的方式迁移到学生模型(Student Model)。知识蒸馏(即知识通过蒸馏的方式迁移)就是把一个大模型或者多个模型整体(Ensemble)学到的知识迁移到另一个轻量级的单模型上,最主要的目的是为了方便模型的线上部署。一个优秀的神经网络模型最重要的功能是通过训练数据获得一定的泛化能力,不仅仅是拟合训练数据,还需要在新的数据集上能有一定的泛化识别能力。而知识蒸馏的目的是让学生模型去学习老师模型的这种泛化识别能力。为了提升本申请实施例中的语义融合子网络层700L的泛化识别能力,降低模型的大小以及提升模型的部署后的性能,本申请实施例可以采用自蒸馏(Self-Distillation)方式进行训练,即自己蒸馏到自己,教师模型就是学生模型的集成版本,称为自集成(Self-Ensemble)。由于用户UGC文本内容的量级是非常大的,对对应模型的性能是有一定要求,因此,采用自蒸馏训练方式能够实时进行数据处理,从而在工程落地和实施上有很重要的意义。

为便于理解,请参见图8,图8是本申请实施例提供的一种文本质量保障方法的系统流程图。如图8所示,该系统流程图可以包括内容生产端和内容消费端、上下行内容接口服务器、第一数据库(即内容数据库)、调度中心服务器、第二数据库(即UGC文本数据库与样本库)以及图片预训练模型。其中,原创内容(即UGC)是指下载与上传并重的目标对象(即用户)使用公开网络的新方式的内容。与之相对应的内容可以是专业生产内容(ProfessionalGenerated Content,PGC),PGC常用来泛指内容个性化与视觉多元化等方面的内容,PGC也可以称为专家生产内容(Professionally-produced Content,PCC)。而为了将PGC内容联合起来,也兴起了一种新兴机构,即多频道网络(Multi-Channel Network,MCN)机构,MCN机构的存在可以保障PGC内容在公开网络上的持续输出。PGC内容的消息来源(webfeed,Feeds)一般为网站,网站可以将消息来源汇流于一处,实现聚合(aggregation),而用于聚合的软件称为聚合器(aggregator),对于最终的使用对象(即用户)而言,聚合器是专门用来订阅网站的软件。其中,消息来源可以包括公开网络上的网源地址,新闻订阅,文章的摘要,作家的供稿以及其他资讯等。

就内容生产端和内容消费端来说,PUC、UGC或MCN都是内容生产者,通过移动端或者后端接口,如应用程序接口(Application Programming Interface,API)系统,提供本地或者拍摄的图文内容,视频或者图片内容,这些都是分发内容的主要内容来源。进一步地,内容生产端和内容消费端通过与上下行内容接口服务之间的通讯,先获取上传服务器接口地址,然后再上传本地文件,在拍摄过程当中计算机设备可以选择与本地图文内容搭配的音乐,滤镜模板和图片与文本的美化功能等等。内容消费端的业务对象,通过和上下行内容接口服务器通讯,获取访问图文或者视频文件的索引信息,然后下载对应的流媒体文件并且通过本地播放器来播放观看或者直接通过索引信息消费图文内容。内容消费端同时将上传和下载过程当中用户播放的行为数据,卡顿,加载时间,播放点击等上报给文本内容上下行接口服务器。内容消费端的消费内容的互动信息,包括对内容的评论,例如,UGC短文本(如果是经过审核的图片评论方式,也可以保存在样本库当中),点赞,转发,收藏等互动信息通过UGC内容上下行接口服务上报,结果写入第二数据库当中。

就上下行内容接口服务器来说,上下行内容接口服务器可以与内容生产端直接通讯。而从上下行内容接口服务器前端提交的内容,通常是标题,发布者,摘要,封面图,发布时间,或者是拍摄的图文等,进而将其直接存入第一数据库。上下行内容接口服务器还可以将图文内容的元信息,比如图文文件大小,封面图链接,码率,文件格式,标题,发布时间,作者等信息写入第一数据库。上下行内容接口服务器也可以将上传的文件提交给调度中心服务器,进行后续的内容处理和流转,也可以和内容消费端通讯,提供分发内容的索引信息。

就第一数据库当来说,第一数据库包括内容的核心数据库,其中,所有生产者发布内容的元信息都保存在这个第一数据库当中。进一步地,第一数据库包括图文内容本身的元信息,比如,图文内容的作者,标题,大小,发布时间,分类,标签等等。对于视频文件来说,元信息包括大小,封面图链接,码率,文件格式,标题,发布时间,作者,还包括人工审核过程中对内容的分类(包括一级别分类,二级别分类,三级别分类和标签信息)。更进一步地,上下行内容接口服务器在收到视频文件的时候可以对内容进行标准的转码操作,转码完成后异步返回元信息,主要是的文件大小,码率,规格,截取封面图这些信息都会保存在内容第一数据库当中。在人工审核过程当中,计算机设备可以读取第一数据库当中的信息,同时人工审核的结果和状态也会回传进入第一数据库,来更新第一数据库当中内容的元信息。可以理解的是,调度中心服务器对内容处理主要包括机器处理和人工审核处理,这里机器处理核心就是调用排重服务包括完全重复和相似的内容,排重的结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理。排重服务可以由排序过滤服务进行实现,若两个数据在排序过滤服务中获取到的数据参数的相似度小于重复相似度阈值,则将两个数据确定为重复数据,进而实现排重服务(即可以用排序过滤服务替代)。

就调度中心服务器来说,调度中心服务器负责内容流转的整个调度过程,通过上下行内容接口服务器接收进入第一数据库的内容,然后从第一数据库中获取的元信息。调度中心服务器可以调度人工审核系统和机器处理系统,控制调度的顺序和优先级。对于内容而言,计算机设备可以先和排重服务进行通讯,排重服务可以判定不同码率,不同清晰度,不同尺寸,部分黑屏,有无滤镜,有无标签,以及是否在相似内容当中插入部分广告内容。调度人工审核系统需要对图文内容进行人工审核,过滤掉重复的内容。最后调度中心服务器可以启用内容出口分发服务,并将通过人工审核系统的内容进行分发处理,通常是通过推荐引擎、搜索引擎或运营等方式直接进行页面展示,提供给终内容消费端的内容消费者。

就人工审核系统来说,人工审核系统需要读取第一数据库中图文内容本身的原始信息,包括业务复杂的基于互联网上的数据库而进行开发的系统,通过人工来针对图文内容是否涉及低质量的特性,进行一轮初步过滤。在初步审核的基础之上,对内容进行二次审核,主要是对内容进行分类和标签的标注或者确认,由于视频内容本身完全通过机器学习,比如深度学习,还不完全成熟,所以需要通过在机器处理的机器上进行二次的人工审核处理,通过人机协作,提升本身标注的准确性和效率。人工审核系统可以接收原创内容巡检服务的调度,完成巡检内容的人工复核和质量检验,将质量检验结果属于低质量的内容作为负样本写入第二数据库当中。

就排序过滤服务来说,排序过滤服务可以调用文字视觉特征模型及服务。可以直接和UGC文本内容与上下行接口服务进行通讯,将用户实时生成的UGC内容进行处理,一部分结果写入第二数据库,一部分结果直接返回内容消费端进行展示,针对低质量的内容,可以降权重处理,也可以过滤处理。

就UGC文本内容与上下行接口服务来说,UGC文本内容与上下行接口服务可以和内容消费端直接通讯,接收上报上来的内容评论UGC短文本,点赞,转发,收藏等互动信息,并且写入第二数据库。调用排序过滤服务进行UGC内容的排序过滤和质量风险低质量内容识别标记。

就第二数据库来说,第二数据库可以通过UGC文本内容与上下行接口服务获取包括内容生产端和内容消费端上报上来的UGC短文本,点赞,转发,收藏等互动信息。第二数据库还可以与原创内容巡检服务通讯,保存巡检确认的低质量文本样本,为大规模的图片自监督预训练模型提供一部分原始预训练的数据。

就文字视觉模型与服务来说,文字视觉模型与服务可以以大规模图片预训练模型为基础,使用少量标记的高质量样本进行微调来构建文字视觉特征模型(即目标文本质量识别模型,例如,图2中的文本质量识别模型20W)。还可以将对应的文字视觉特征模型服务化,同时与排序过滤服务通讯完成UGC内容的质量风险识别标记。

就原创内容巡检服务来说,原创内容巡检服务会从第二数据库中抽检线上的UGC低质量数据送审到人工审核系统,符合的结果样本保存在第二数据库当中。

就图片预训练模型来说,图片预训练模型可以按照多种渠道收集大量的预训练数据,这里不再对渠道进行限定。对预训练数据进行对应的变换和处理,将进行特征提取的预训练模型作为基础模型。以此基础模型为基础,使用少量标记的高质量样本进行微调来构建文字视觉特征模型,并且对文字视觉特征模型进行蒸馏处理,减少文字视觉特征模型大小,同时可以有效减少需要的样本数量。

总的来看,编号1-编号8可以为一个执行路径,编号11-编号12可以为一个执行路径、编号21-编号22可以为一个执行路径、编号31-编号34可以为一个执行路径、编号41-编号43可以为一个执行路径,这5个执行路径可以同步交叉执行,以构成本申请实施例中进行文本质量识别的流程。可以理解的是,编号21-编号22的执行路径以及编号31-编号34的执行路径可以对应步骤S201-步骤S205的描述。

如图8所示,在编号1-编号8的执行路径中,内容生产端可以将发布内容上传至上下行内容接口服务器。上下行内容接口计算机设备可以在内容数据库中写入元信息(例如,目标对象输入的目标文本检测数据)。上下行内容接口服务器可以将接收到的内容数据写入到调度中心服务器。进一步的,调度中心服务器可以通过人工审核系统进行同步处理,调度中心服务器也可以在内容数据库中更新元信息,调度中心服务器还可以通过内容分发出口服务启动内容分发。内容分发出口服务该可以将内容(例如,已经调文本展示顺序的文本数据)分发至内容消费端,以使其他对象进行阅览。其中,这里的人工审核系统还可以通过编号5的执行路径,从第一数据库(即内容数据库)中读取原始内容。应当理解,在内容生产端通过编号1的执行路径,将目标内容上传至上下行内容接口服务器后,目标内容可以通过上下行内容接口服务器进入服务端,这里的服务端可以为部署在多组计算机设备上、专门为应用客户端(即终端程序)提供远程网络服务的计算机设备程序,本申请实施例可以将这里的多组计算机设备统称为计算机设备。

如图8所示,在编号11-编号12的执行路径中,计算机设备可以调用原创内容巡检服务从第二数据库中读取业务数据(例如,样本图片信息或目标文本检测数据),以便于对其进行人工审核。

如图8所述,在编号21的执行路径中,具有模型训练功能的计算机设备(例如,上述服务器10F)可以在调用图片预训练模型(即初始文本质量识别模型)时,需要从公开网络中获取样本图片信息,以对初始文本质量识别模型进行训练,从而在训练完成时,得到目标文本质量识别模型。此外,计算机设备可以在编号22的执行路径中,从公开网络中获取业务领域预训练数据(即样本图片信息)以及原创文本信息(即目标文本检测数据),进而可以将样本图片信息和目标文本检测数据存储至图8所示的第二数据库(即包括原创文本内容数据库和样本库的数据库)。其中,图8所示的原创内容巡检服务可以用于从第二数据库中读取或写入业务数据。

如图8所示,在编号31-编号34的执行路径中,原创文本内容上下行接口计算机设备可以调用排序过滤服务进行过滤处理。排序过滤服务可以调用文本视觉特征模型进行特征识别,其中,文本视觉特征模型可以基于图片预训练明显进行模型预训练,文本视觉特征模型可以通过文本数据库与样本库获取目标样本。

如图8所示,在编号41-编号42的执行路径中,上下行内容接口计算机设备可以通过内容消费端获取内容索引信息,原创文本内容上下行接口计算机设备可以通过内容消费端写入和拉取文本信息,原创文本内容上下行接口计算机设备还可以在原创文本内容数据库和样本库中写入文本内容。

本申请实施例中,引入了包括目标视觉特征提取网络层以及跨模态语义融合网络层的目标文本质量识别模型,通过对目标文本质量识别模型的应用,能够更加准确且快速表征目标文本检测数据的语义信息,大幅度提升了目标文本质量识别模型的模型识别效果。此外,本申请实施例在识别目标文本检测数据的文本质量时,还可以通过对目标文本检测数据进行文本增强处理,使得提取的特征能够表征更加丰富的字形信息,从而提高了文本质量识别的准确度。再者说,本申请通过模型的预训练,不再需要大量高质量的监督样本,不仅降低了标注成本,而且摆脱了经典字符嵌入的思路,提升了对于负面文本的鲁棒性,可以更加精准的分析文本语义之间的关系,提高对文本质量保障的匹配性和泛化性。

进一步地,请参见图9a,图9a是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9a所示,该数据处理装置1可以包括:目标数据获取模块11、目标特征提取模块12、目标语义融合模块13、阈值获取模块14、数据过滤模块15以及顺序调整模块16。

目标数据获取模块11,用于获取目标文本检测数据,对目标文本检测数据进行字符图片转换,得到目标文本检测数据对应的目标视觉图片信息;

目标特征提取模块12,用于对目标视觉图片信息进行视觉特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征;

目标语义融合模块13,用于对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征,对目标文本特征以及目标图片隐藏特征进行语义融合处理,得到目标文本检测数据对应的质量概率参数;质量概率参数用于表征目标文本检测数据的文本质量。

其中,目标数据获取模块11、目标特征提取模块12以及目标语义融合模块13的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S103,这里不再进行赘述。

再请参见图9a,其中,目标数据获取模块11包括:

目标数据获取单元111,用于获取目标文本检测数据;

候选图片获取单元112,用于获取针对目标文本检测数据的候选图片格式集,从候选图片格式集中获取目标图片格式,将目标文本检测数据转换为与目标图片格式相符的目标图片数据;

目标图片获取单元113,用于基于目标图片数据,得到目标文本检测数据对应的目标视觉图片信息。

其中,目标数据获取单元111、候选图片获取单元112以及目标图片获取单元113的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。

再请参见图9a,其中,目标图片获取单元113包括:

策略获取子单元1131,用于在获取到目标文本检测数据时,获取针对目标文本检测数据的文本增强策略;文本增强策略包括H个文本增强子策略;H为正整数;

文本增强子单元1132,用于基于H个文本增强子策略,分别对目标文本检测数据进行文本增强处理,得到N个文本增强数据;N为正整数;

字符图片转换子单元1133,用于基于目标图片格式,对N个文本增强数据分别进行字符图片转换,得到N个图片增强数据;

目标图片确定子单元1134,用于将N个图片增强数据以及目标图片数据分别对应的图片信息,确定为目标文本检测数据对应的目标视觉图片信息。

其中,策略获取子单元1131、文本增强子单元1132、字符图片转换子单元1133以及目标图片确定子单元1134的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。

再请参见图9a,其中,目标特征提取模块12,包括:

图片增强单元121,用于基于图片变换规则对目标视觉图片信息进行图片增强处理,得到视觉图片增强信息;

目标模型获取单元122,用于获取针对目标文本检测数据的目标文本质量识别模型;目标文本质量识别模型包括目标视觉特征提取网络层;

特征提取单元123,用于将视觉图片增强信息输入至目标文本质量识别模型,通过目标视觉特征提取网络层对视觉图片增强信息进行图片特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征。

其中,图片增强单元121、目标模型获取单元122以及特征提取单元123的具体功能实现方式可以参见上述图3对应实施例中的步骤S102,这里不再进行赘述。

再请参见图9a,其中,目标语义融合模块13,包括:

文本向量化单元131,用于对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征;

跨模态融合单元132,用于将目标文本特征以及目标图片隐藏特征输入至目标文本质量识别模型中的跨模态语义融合网络层;跨模态语义融合网络层包括M个语义融合子网络层以及全连接子网络层;M个语义融合子网络层包括第一语义融合子网络层以及第二语义融合子网络层;M为正整数;

第一语义融合单元133,用于通过第一语义融合子网络层,对目标文本特征以及目标图片隐藏特征进行第一语义融合处理,得到用于输入至第二语义融合子层的第一融合特征;

第二语义融合单元134,用于通过第二语义融合子网络层,对目标文本特征以及第一融合特征进行第二语义融合处理,得到第二融合特征;

参数输出单元135,用于将第二融合特征输入至全连接子网络层,由全连接子网络层输出目标文本检测数据对应的质量概率参数。

其中,文本向量化单元131、跨模态融合单元132、第一语义融合单元133、第二语义融合单元134以及参数输出单元135的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。

再请参见图9a,其中,文本向量化单元131,包括:

分词获取子单元1311,用于对目标文本检测数据进行分词处理,得到R个分词;R为正整数;

分词编码子单元1312,用于对R个分词中的每个分词进行分词编码处理,得到每个分词分别对应的分词特征,将R个分词特征确定为目标文本检测数据对应的目标字符特征;

位置编码子单元1313,用于基于每个分词在目标文本检测数据中的位置信息,对每个分词分别进行位置编码处理,得到每个分词分别对应的位置特征,将R个位置特征确定为目标文本检测数据对应的目标位置特征;

目标特征确定子单元1314,用于将目标字符特征以及目标位置特征确定为目标文本检测数据对应的目标文本特征。

其中,分词获取子单元1311、分词编码子单元1312、位置编码子单元1313以及目标特征确定子单元1314的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。

再请参见图9a,其中,目标文本检测数据的数量为T个,T为正整数;T个目标文本检测数据中的每个目标文本检测数据均为针对同一业务数据的互动文本数据;

数据处理装置1,还包括:

阈值获取模块14,用于在获取到每个目标文本检测数据分别对应的质量概率参数时,获取用于对T个目标文本检测数据进行过滤处理的质量概率阈值;

数据过滤模块15,用于若T个目标文本检测数据中存在质量概率参数小于或者等于质量概率阈值的待过滤文本数据,则基于待过滤文本数据,对T个目标文本检测数据进行过滤处理,将过滤处理后的目标文本检测数据确定为待排序文本;

顺序调整模块16,用于获取待排序文本的互动参数,基于待排序文本的质量概率参数以及互动参数,对待排序文本的文本展示顺序进行调整。

其中,阈值获取模块14、数据过滤模块15以及顺序调整模块16的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

进一步地,请参见图9b,图9b是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9b所示,该数据处理装置2可以包括:初始模型获取模块21、样本特征提取模块22、样本相似度预测模块23、训练模块24以及目标模型确定模块25。

初始模型获取模块21,用于获取包括初始视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型,获取用于对初始视觉特征提取网络层进行训练的样本图片信息;样本图片信息包括X个携带样本标签的样本图片对;一个样本标签用于指示一个样本图片对中的两个样本图片的实际图片相似度;X为正整数;

样本特征提取模块22,用于将X个样本图片对输入至初始文本质量识别模型,通过初始视觉特征提取网络层,得到每个样本图片对中的两个样本图片分别对应的预测图片隐藏特征;

样本相似度预测模块23,用于基于每个样本图片对中的两个样本图片分别对应的预测图片隐藏特征,得到每个样本图片对的预测图片相似度;

训练模块24,用于基于每个样本图片对的实际图片相似度、每个样本图片对的预测图片相似度以及与初始视觉特征提取网络层相关联的模型收敛条件,对初始视觉特征提取网络层进行训练,得到目标视觉特征提取网络层;

目标模型确定模块25,用于将包括目标视觉特征提取网络层以及跨模态语义融合网络层的初始文本质量识别模型确定为目标文本质量识别模型;目标文本质量识别模型用于预测目标文本检测数据的质量概率参数。

其中,初始模型获取模块21、样本特征提取模块22、样本相似度预测模块23、训练模块24以及目标模型确定模块25的具体功能实现方式可以参见上述图6对应实施例中的步骤S201-步骤S205,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:

获取目标文本检测数据,对目标文本检测数据进行字符图片转换,得到目标文本检测数据对应的目标视觉图片信息;对目标视觉图片信息进行视觉特征提取处理,得到目标视觉图片信息对应的目标图片隐藏特征;对目标文本检测数据进行文本向量化处理,得到目标文本检测数据对应的目标文本特征,对目标文本特征以及目标图片隐藏特征进行语义融合处理,得到目标文本检测数据对应的质量概率参数;质量概率参数用于表征目标文本检测数据的文本质量。

应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2、图3、图4、图5、图6、图7以及图8所对应实施例中对数据处理方法的描述,也可执行前文图9a所对应实施例中对数据处理装置1的描述,也可执行前文图9b所对应实施例中对数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2、图3、图4、图5、图6、图7以及图8中各个步骤所提供的数据处理方法,具体可参见上述图2、图3、图4、图5、图6、图7以及图8各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图2、图3、图4、图5、图6、图7以及图8所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

进一步的,请参见图11,图11是本申请实施例提供的一种数据处理系统的结构示意图。该数据处理系统3可以包含数据处理装置11a和数据处理装置11b。其中,数据处理装置11a可以为上述图9a所对应实施例中的数据处理装置1,因此,这里将不再进行赘述。其中,数据处理装置11b可以为上述图9b所对应实施例中的数据处理装置2,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的数据处理系统实施例中未披露的技术细节,请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

相关技术
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 图像处理方法和装置、电子设备、存储介质、程序产品
  • 一种数据处理方法及装置、一种计算设备及存储介质
  • 一种数据处理方法、数据处理装置、计算机设备及可读存储介质
  • 产品数据的处理方法、装置、设备、存储介质及程序产品
  • 一种数据处理方法、装置、设备、存储介质及程序产品
技术分类

06120116499955