掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 19:07:35


数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域,特别涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展,优质文章的发掘任务逐渐成为一项研究热点。目前,在进行挖掘优质文章时,通常从文本角度判断文章的内容质量(而不考虑图片对内容质量的贡献),或者,将文本和图片各自的嵌入(embedding)特征进行拼接(concat),基于拼接得到的特征来判定是否属于优质文章。

在上述过程中,不管是从文本角度来判断内容质量,还是使用文本与图片拼接后的特征来判断内容质量,对优质文章的挖掘准确率都有待提高。因此,亟需一种提高对优质文章挖掘准确率的方法。

发明内容

本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质,能够提高对文章类别的识别准确率,进而提高对优质文章的挖掘准确率。该技术方案如下:

一方面,提供了一种数据处理方法,该方法包括:

获取目标文章的文本特征和图片特征,所述文本特征用于表征所述目标文章中的文本数据,所述图片特征用于表征所述目标文章中的图片数据;

对所述文本特征,基于所述图片特征中与所述文本特征关联的部分特征,获取第一交互特征,所述第一交互特征用于表征融合了图片特征的文本特征;

对所述图片特征,基于所述文本特征中与所述图片特征关联的部分特征,获取第二交互特征,所述第二交互特征用于表征融合了文本特征的图片特征;

将所述第一交互特征与所述第二交互特征融合,得到跨模态交互特征;

基于所述跨模态交互特征,确定所述目标文章所属的文章类别。

一方面,提供了一种数据处理装置,该装置包括:

第一获取模块,用于获取目标文章的文本特征和图片特征,所述文本特征用于表征所述目标文章中的文本数据,所述图片特征用于表征所述目标文章中的图片数据;

第二获取模块,用于对所述文本特征,基于所述图片特征中与所述文本特征关联的部分特征,获取第一交互特征,所述第一交互特征用于表征融合了图片特征的文本特征;

第三获取模块,用于对所述图片特征,基于所述文本特征中与所述图片特征关联的部分特征,获取第二交互特征,所述第二交互特征用于表征融合了文本特征的图片特征;

融合模块,用于将所述第一交互特征与所述第二交互特征融合,得到跨模态交互特征;

确定模块,用于基于所述跨模态交互特征,确定所述目标文章所属的文章类别。

在一种可能实施方式中,所述第一获取模块包括:

第一提取融合单元,用于提取所述文本数据的文本语义特征,将所述文本语义特征与文本位置特征进行融合,得到所述文本特征;

第二提取融合单元,用于提取所述图片数据的图片深度特征,将所述图片深度特征与图片位置特征进行融合,得到所述图片特征。

在一种可能实施方式中,所述文本数据包括标题数据和正文数据;所述文本特征包括标题特征和正文特征;

所述第一提取融合单元用于:

提取所述标题数据的标题语义特征和所述正文数据的正文语义特征;

将所述标题语义特征与标题位置特征进行融合,得到所述标题特征;

将所述正文语义特征与正文位置特征进行融合,得到所述正文特征。

在一种可能实施方式中,所述第一交互特征包括标题交互特征和正文交互特征,所述第二获取模块包括:

第一获取单元,用于对所述标题特征,基于所述正文特征和所述图片特征中分别与所述标题特征关联的部分特征,获取所述标题交互特征,所述标题交互特征用于表征融合了正文特征和图片特征之后的标题特征;

第二获取单元,用于对所述正文特征,基于所述标题特征和所述图片特征中分别与所述正文特征关联的部分特征,获取所述正文交互特征,所述正文交互特征用于表征融合了标题特征和图片特征之后的正文特征。

在一种可能实施方式中,所述第一获取单元用于:

基于所述正文特征中与所述标题特征关联的部分特征,获取第一标题交互特征;

基于所述图片特征中与所述标题特征关联的部分特征,获取第二标题交互特征;

将所述第一标题交互特征和所述第二标题交互特征进行拼接,得到第三标题交互特征;

对所述第三标题交互特征进行编码和解码,得到所述标题交互特征。

在一种可能实施方式中,所述第二获取单元用于:

基于所述标题特征中与所述正文特征关联的部分特征,获取第一正文交互特征;

基于所述图片特征中与所述正文特征关联的部分特征,获取第二正文交互特征;

将所述第一正文交互特征和所述第二正文交互特征进行拼接,得到第三正文交互特征;

对所述第三正文交互特征进行编码和解码,得到所述正文交互特征。

在一种可能实施方式中,所述第三获取模块包括:

第三获取单元,用于对所述图片特征,基于所述标题特征和所述正文特征中分别与所述图片特征关联的部分特征,获取所述第二交互特征。

在一种可能实施方式中,所述第三获取单元用于:

基于所述标题特征中与所述图片特征关联的部分特征,获取第一图片交互特征;

基于所述正文特征中与所述图片特征关联的部分特征,获取第二图片交互特征;

将所述第一图片交互特征和所述第二图片交互特征进行拼接,得到第三图片交互特征;

对所述第三图片交互特征进行编码和解码,得到所述第二交互特征。

在一种可能实施方式中,所述文本位置特征和所述图片位置特征均为所述文本数据与所述图片数据之间的相对位置特征,所述相对位置特征用于表征所述文本数据与所述图片数据之间的先后顺序和距离远近。

在一种可能实施方式中,所述相对位置特征的获取方式包括:

基于所述文本数据中的多个文本和所述图片数据中的多个图片,确定所述多个文本和所述多个图片各自在所述目标文章中的位置信息;

基于所述位置信息,构建相对位置编码矩阵,所述相对位置编码矩阵中的任一元素用于表征所述元素所属列对应的文本和所述元素所属行对应的图片之间的相对位置信息;

基于所述相对位置编码矩阵,确定所述多个文本中的任一文本与所述多个图片中的任一图片之间的相对位置特征。

在一种可能实施方式中,所述确定模块用于:

对所述跨模态交互特征进行全连接处理,得到全连接特征;

对所述全连接特征进行指数归一化,得到所述目标文章属于多个类别的多个预测概率;

选择符合目标条件的预测概率所对应的类别为所述目标文章所属的文章类别。

一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的数据处理方法。

一方面,提供了一种存储介质,该存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现如上述任一种可能实现方式的数据处理方法。

一方面,提供一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得计算机设备能够执行上述任一种可能实施方式的数据处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过针对目标文章的文本数据和图片数据,分别提取文本特征和图片特征,并利用两者之间的跨模态交互特征,来预测该目标文章所属的文章类别,同时考虑了文本模态和图片模态各自对于文章类别的贡献程度,而并非仅从文本角度来进行判断,此外所提取到的跨模态交互特征并非是文本特征和图片特征的简单拼接,能够反映出更加丰富和深层次的模态间交互信息,大大提高了对文章类别的识别准确率,进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理方法的实施环境示意图;

图2是本申请实施例提供的一种数据处理方法的流程图;

图3是本申请实施例提供的一种数据处理方法的流程图;

图4是本申请实施例提供的一种提取位置信息的原理性示意图;

图5是本申请实施例提供的一种跨模交互模型的原理性示意图;

图6是本申请实施例提供的一种结合相对位置编码的多模态融合网络的原理性示意图;

图7是本申请实施例提供的一种数据处理方法的流程图;

图8是本申请实施例提供的一种多模态融合网络的原理性示意图;

图9是本申请实施例提供的一种数据处理装置的结构示意图;

图10是本申请实施例提供的一种计算机设备的结构示意图;

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个第一位置是指两个或两个以上的第一位置。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术,尤其涉及多模态机器学习(Multi-Modal Machine Learning,MMML)技术,以下,对多模态机器学习的术语进行解释说明:

模态(Modality):每一种信息的来源或者形式,都能够被称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等,以上的每一种都能够称为一种模态。同时,模态也可以有非常广泛的定义,比如把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。在本申请实施例中,对于一篇文章,可选地,划分为文本和图片两个模态,或者,划分为标题、正文和图片三个模态。

多模态机器学习:简称为多模态学习,旨在通过机器学习的方法实现处理和理解多源模态信息的能力。其中,单模态是指一种单一的模态,而多模态是指两个或者两个以上的模态以各种形式进行组合。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。整体来讲,多模态学习划分为以下几个研究方向:多模态表示学习、模态转化、对齐、多模态融合、协同学习等。单模态的表示学习负责将信息表示为计算机能够处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表示学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。

多模态融合(Multimodal Fusion):是多模态学习的一个研究方向,多模态融合负责联合多个模态的信息,进行目标预测(分类或者回归),属于MMML最早的研究方向之一,也是目前应用最广的方向,多模态融合还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)等。在本申请实施例中,涉及对于一篇文章中的文本模态和图片模态的两模态融合,由于文本模态能够被划分为标题模态和正文模态,因此还涉及到标题模态、正文模态和图片模态的三模态融合。

图文优质:从文章内容本身的角度出发,构造内容质量与阅读体验兼顾的优质文章,能够帮助推荐侧更好的理解与应用内容中心出库的文章(即图文内容)。可选地,在综合评价文章的内容质量时,从图文多模态融合、文章排版体验、账号原子特征等维度分别建模,最终完成优质文章的识别。

相对位置编码(Relative Position Embedding,RPE):是指Transformer(变换器)模型中的一种位置编码方式。Transformer模型的位置编码有两种方式:绝对位置编码和相对位置编码。绝对位置编码是目前普遍使用的位置编码方式,即直接对不同位置的字符随机初始化一个位置向量(Position Embedding),加到输入字符向量(Word Embedding)序列上输入模型,作为参数进行训练。在使用绝对位置编码时,不同位置的字符对应的位置向量固然不同,但是关于不同位置上字符的相对含义,是不能够通过绝对位置编码显式获得的,比如:位置1和位置2的距离比位置3和位置10的距离更近,位置1和位置2与位置3和位置4都只相差1,在使用绝对位置编码时只能隐式地学到位置之间的相对关系,而在本申请实施例中通过引入相对位置编码,能够增强位置之间的相对关系特征表示。

图1是本申请实施例提供的一种数据处理方法的实施环境示意图。参见图1,在该实施环境中包括:终端110和服务器120,终端110和服务器120均为计算机设备的一种示例。

终端110用于浏览各类包含图文内容的文章,例如,该文章包括但不限于:网页资讯、公众号推文、博客、微博等,本申请实施例不对文章的类型进行具体限定。终端110上安装和运行有支持浏览文章的应用程序,例如,该应用程序为浏览器应用、社交应用、图文资讯应用、新闻查看应用等,本申请实施例不对该应用程序的类型进行具体限定。示意性地,用户在终端110上启动应用程序,并通过该应用程序能够浏览服务器120推送的优质文章。可选地,终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。

终端110以及服务器120能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

服务器120用于识别并推送优质文章,即服务器120用于向终端110上安装的该应用程序提供后台服务。示意性地,服务器120收集平台内创作者发布的文章,提取文章中的标题、正文和图片,并根据对应的标题特征、正文特征和图片特征,判断对应的文章是否为优质文章,并在推荐阶段中将识别出的优质文章加大推荐权重,使得优质文章更有可能被推送至用户所在的终端110。

可选地,服务器120包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。例如,服务器120承担主要计算工作,终端110承担次要计算工作;或者,服务器120承担次要计算工作,终端110承担主要计算工作;或者,终端110和服务器120两者之间采用分布式计算架构进行协同计算。

在一些实施例中,服务器是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

本领域技术人员可以知晓,上述终端110的数量可以更多或更少。比如上述终端110可以仅为一个,或者上述终端110为几十个或几百个,或者更多数量。本申请实施例对终端110的数量和设备类型不加以限定。

图2是本申请实施例提供的一种数据处理方法的流程图。参见图2,该实施例应用于计算机设备,以计算机设备为服务器为例进行说明,该实施例包括下述步骤:

201、服务器获取目标文章的文本特征和图片特征,该文本特征用于表征该目标文章中的文本数据,该图片特征用于表征该目标文章中的图片数据。

其中,目标文章是指待判断文章类别的任一文章,该目标文章的类型包括但不限于:网页资讯、公众号推文、博客、微博等,本申请实施例不对目标文章的类型进行具体限定。

服务器是计算机设备的一种示例性说明,包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。本申请实施例,仅以计算机设备为服务器为例说明,即在服务器侧完成针对目标文章的类型识别,例如,识别目标文章是否为优质文章。在一些实施例中,针对目标文章的类型识别的步骤也能够部署在终端侧,例如,由终端独立识别目标文章是否为优质文章。

在一些实施例中,服务器获取目标文章,可选地,该目标文章为文章数据库中存储的文章,或者,该目标文章为终端最新向服务器上传的文章,或者,该目标文章是从分布式文件系统中下载的文章,本申请实施例不对目标文章的来源进行具体限定。

在识别优质文章的场景下,如果两篇文章的文本内容相似或文本质量相近,但两篇文章的图片质量不同,那么两篇文章的图片质量会对最终是否为优质文章的判定结果造成影响,因此除了文本模态之外,图片模态即视觉模态也会影响到识别优质文章,因此在本申请实施例中除了文本模态之外,还引入了图片模态,以综合利用多模态的数据来精准识别优质文章。

在一些实施例中,在获取到目标文章之后,由于文本和图片具有不同的特征,其特征提取方式也不尽相同,因此,服务器分别提取目标文章中的文本数据和图片数据。上述过程可视为针对目标文章中的多模态数据的提取过程,可选地,仅划分为文本和图片两个模态,能够降低多模态融合的计算复杂度。

在一些实施例中,如果仅划分为文本和图片两个模态,那么服务器分别提取文本数据的文本语义特征和图片数据的图片深度特征,将文本语义特征与文本位置特征融合得到文本特征,将图片深度特征与图片位置特征融合得到图片特征。

在上述过程中,通过分别提取文本特征和图片特征,能够针对文本和图片这两种不同模态的数据,采用不同的方式有针对性地进行特征提取,并且由于文本特征和图片特征中各自融合了位置的相关信息,使得当相同文本或者图片出现在目标文章中的不同位置时表现出不同的特征,从而提高了文本特征和图片特征各自的表达能力。

在一些实施例中,由于通常文本中的标题和正文也具有不同的特征,因此服务器可以在提取文本数据时,将标题数据和正文数据分开进行提取,以引入更多更丰富的特征信息,即划分为标题、正文和图片三个模态,以提高整体文章类别的识别准确率。

在一些实施例中,如果划分为标题、正文和图片三个模态,那么服务器分别提取标题数据的标题语义特征、正文数据的正文语义特征和图片数据的图片深度特征,接着,将标题语义特征与标题位置特征融合得到标题特征,将正文语义特征与正文位置特征融合得到正文特征,将图片深度特征与图片位置特征融合得到图片特征。

在上述过程中,通过分别提取标题特征、正文特征和图片特征,能够针对标题、正文、图片这三种不同模态的数据,采用不同的方式有针对性地进行特征提取,并还在标题特征、正文特征和图片特征中各自融合了位置的相关信息,使得当相同标题、正文或者图片出现在目标文章中的不同位置时表现出不同的特征,从而提高了标题特征、正文特征和图片特征各自的表达能力。

在一些实施例中,上述文本位置特征、图片位置特征、标题位置特征、正文位置特征等位置特征,均是指采用绝对位置编码方式得到的绝对位置特征,能够简化多模态融合的训练流程。

在一些实施例中,上述文本位置特征、图片位置特征、标题位置特征、正文位置特征等位置特征,均是指采用相对位置编码方式得到的相对位置特征,该相对位置特征用于表征对应的文本数据、图片数据、标题数据或正文数据之间的先后顺序和距离远近。在下个实施例中,将对相对位置特征的相对位置编码方式进行详述,这里不做赘述。

202、对该文本特征,服务器基于该图片特征中与该文本特征关联的部分特征,获取第一交互特征,该第一交互特征用于表征融合了图片特征的文本特征。

在一些实施例中,针对文本和图片两模态融合的情况,服务器以文本模态为主模态,接收图片模态的辅助信息,例如,获取图片特征中与该文本特征关联的部分特征,并在此基础上获取到该第一交互特征。

在一些实施例中,针对标题、正文和图片三模态融合的情况,此时的第一交互特征包括标题交互特征和正文交互特征。可选地,服务器以标题模态为主模态,分别接收正文模态和图片模态各自的辅助信息,例如,分别获取正文特征和图片特征中与标题特征关联的部分特征,并在此基础上获取到标题交互特征;此外,以正文模态为主模态,分别接收标题模态和图片模态各自的辅助信息,例如,分别获取标题特征和图片特征中与正文特征关联的部分特征,并在此基础上获取到正文交互特征。

203、对该图片特征,服务器基于该文本特征中与该图片特征关联的部分特征,获取第二交互特征,该第二交互特征用于表征融合了文本特征的图片特征。

在一些实施例中,针对文本和图片两模态融合的情况,服务器以图片模态为主模态,接收文本模态的辅助信息,例如,获取文本特征中与该图片特征关联的部分特征,并在此基础上获取到该第二交互特征。

在一些实施例中,针对标题、正文和图片三模态融合的情况,服务器以图片模态为主模态,分别接收标题模态和正文模态各自的辅助信息,例如,分别获取标题特征和正文特征中与图片特征关联的部分特征,并在此基础上获取到第二交互特征。

204、服务器将该第一交互特征与该第二交互特征融合,得到跨模态交互特征。

在一些实施例中,上述步骤204获取到的该跨模态交互特征,是指将多模态数据各自的特征在参考了其他模态数据的特征进行综合所得的信息,使得跨模态交互特征能够强化文本数据与图片数据之间的关联关系,其中,针对多模态中的每个模态,都会作为主模态接收其他模态的辅助,得到一个跨模态特征,将每个模态对应的跨模态特征融合得到最终的跨模态交互特征。

针对文本和图片两模态融合的情况,服务器直接将第一交互特征和第二交互特征融合得到最终的跨模态交互特征。

在上述过程中,对目标文章来说,文本模态和图片模态的表现方式不一样,因此文本特征和图片特征之间可能会存在交叉(即信息冗余)或者互补(即比单模态特征蕴含更多信息)的现象,概括来说多模态数据的显著特点是冗余性和互补性,甚至模态间还可能存在多种不同的信息交互,因此通过分别以文本模态为主模态提取第一交互特征、以图片模态为主模态提取第二交互特征,能够合理处理目标文章中的多模态数据,得到更加丰富的交互特征。

针对标题、正文和图片三模态融合的情况,服务器将标题交互特征、正文交互特征和第二交互特征融合得到最终的跨模态交互特征。

在上述过程中,对目标文章来说,划分了标题、正文和图片共三种模态,并且两两组合进行有向的跨模态注意力交互,每个模态都会作为主模态,接收另外两个模态的辅助信息,最终融合得到跨模态交互特征,且由于比两模态融合引入了更多的模态交互信息,能够大幅提升优质文章的识别准确率。

205、服务器基于该跨模态交互特征,确定该目标文章所属的文章类别。

在一些实施例中,服务器对该跨模态交互特征进行全连接处理,得到全连接特征;对该全连接特征进行指数归一化,得到该目标文章属于多个类别的多个预测概率;选择符合目标条件的预测概率所对应的类别为该目标文章所属的文章类别。

可选地,服务器将该跨模态交互特征输入到一个全连接层或者全连接网络中,输出该全连接特征,接着利用指数归一化Softmax函数对该全连接特征进行映射,得到目标文章属于每个类别的预测概率。进一步地,从所有的预测概率中,选择符合目标条件的预测概率,将符合目标条件的预测概率所对应的类别确定为该目标文章所属的文章类别。

在一些实施例中,该目标条件为预测概率最大,那么服务器从该多个预测概率中确定最大预测概率,将该最大预测概率所对应的类别确定为该目标文章所属的文章类别。或者,服务器按照从大到小的顺序对该多个预测概率进行排序,选择排序位于第一位的预测概率所对应的类别为该目标文章所属的文章类别。

在一些实施例中,该目标条件为预测概率大于概率阈值,那么服务器从该多个预测概率中,确定大于概率阈值的各个预测概率,从大于该概率阈值的各个预测概率所对应的各个类别中随机选择一个类别作为该目标文章所属的文章类别。其中,该预测概率为任一大于或等于0且小于或等于1的数值。

在一些实施例中,该目标条件为预测概率topK(K≥1)随机选择,那么服务器按照从大到小的顺序对该多个预测概率进行排序,选择排序位于前K位的K个预测概率,并从该K个预测概率所对应的K个类别中随机选择一个类别作为该目标文章所属的文章类别。其中,K为大于或等于1的整数。

在上述过程中,基于多模态融合方式结合相对位置编码,能够识别出目标文章所属的文章类别,可选地,文章类别是按照目标文章是否为优质文章所划分的,例如划分为:优质文章、非优质文章等;可选地,文章类别是按照目标文章的主要内容所属的领域所划分的,例如划分为:财经类、娱乐类、新闻类、科普类等,本申请实施例不对文章类别的划分方式进行具体限定。

在一个示例性场景中,文章类别是按照目标文章是否为优质文章所划分的,那么能够适用于识别优质文章即识别优质图文内容的场景中,例如,文章类别划分为:优质文章和非优质文章,或者,文章类别划分为:优质文章、普通文章和低质文章等等,本申请实施例不对文章类别的划分方式进行具体限定。在优质文章识别场景下,同一篇目标文章内的相邻图文(即位置相近的文本和图片)之间的跨模交互信息是至关重要的,而由于目标文章内通常文本是以字符序列或者语句序列的方式表示,而图片也能够按照先后顺序排列为图片序列,因此文本模态和图片模态能够达到序列级交互,从而通过构建序列级的多模态融合网络,能够在文本和图片各自的特征非对齐的情况下,充分利用模态间的序列级交互信息,提取到多模态之间的交互特征,并投入到文章类别的预测过程中,以提升文章类别的识别准确率。

在一个示例性场景中,文章类别是按照目标文章的主要内容所属的领域所划分的,那么能够适用于按照用户画像进行精准推送的场景中,例如,文章类别划分为:财经类、娱乐类、新闻类、科普类等,在这一应用场景下,可选地,服务器基于目标文章的跨模态交互特征与目标用户的用户特征之间的相似度,来确定是否向目标用户推荐目标文章,从而能够向目标用户推荐符合用户长期偏好的目标文章,或者,服务器基于目标文章的跨模态交互特征与目标用户的历史阅读平均特征之间的相似度,来确定是否向目标用户推荐目标文章,其中,该历史阅读平均特征是指目标用户最近一周内(或一个月、两个月等指定时间段内)阅读的历史文章的跨模态交互特征的平均特征,从而能够向目标用户推荐符合用户近期偏好的目标文章。

上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。

本申请实施例提供的方法,通过针对目标文章的文本数据和图片数据,分别提取文本特征和图片特征,并利用两者之间的跨模态交互特征,来预测该目标文章所属的文章类别,同时考虑了文本模态和图片模态各自对于文章类别的贡献程度,而并非仅从文本角度来进行判断,此外所提取到的跨模态交互特征并非是文本特征和图片特征的简单拼接,能够反映出更加丰富和深层次的模态间交互信息,大大提高了对文章类别的识别准确率,进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

图3是本申请实施例提供的一种数据处理方法的流程图。参见图3,该实施例应用于计算机设备,以计算机设备为服务器为例进行说明,针对目标文章仅划分文本和图片两个模态的情况,在本申请实施例中将详细介绍如何基于两模态融合方式识别目标文章的文章类别,该实施例包括下述步骤:

301、服务器获取目标文章中的文本数据和图片数据。

其中,目标文章是指待判断文章类别的任一文章,该目标文章的类型包括但不限于:网页资讯、公众号推文、博客、微博等,本申请实施例不对目标文章的类型进行具体限定。

在一些实施例中,服务器获取目标文章,可选地,该目标文章为文章数据库中存储的文章,或者,该目标文章为终端最新向服务器上传的文章,或者,该目标文章是从分布式文件系统中下载的文章,本申请实施例不对目标文章的来源进行具体限定。

在一些实施例中,由于文本和图片具有不同的特征,其特征提取方式也不尽相同,因此,服务器分别提取目标文章中的文本数据和图片数据。上述过程可视为针对目标文章中的多模态数据的提取过程,可选地,仅划分为文本和图片两个模态,能够降低多模态融合的计算复杂度。

在一些实施例中,由于通常文本中的标题和正文也具有不同的特征,因此服务器可以在提取文本数据时,将标题数据和正文数据分开进行提取,以引入更多更丰富的特征信息,即划分为标题、正文和图片三个模态,以提高整体文章类别的识别准确率。

302、服务器提取该文本数据的文本语义特征,将该文本语义特征与文本位置特征进行融合,得到该文本数据的文本特征。

在一些实施例中,服务器基于文本编码模型来提取该文本语义特征,该文本编码模型用于提取文本数据的文本语义特征,也即是说,服务器将该文本数据输入到文本编码模型中,通过该文本编码模型对该文本数据进行编码,以提取得到该文本语义特征。可选地,该文本编码模型的模型结构包括但不限于下述任一项或者至少两项的组合:BERT(Bidirectional Encoder Representation From Transformers,采用双向编码表示的翻译模型)、Transformers(变换器,一种经典的翻译模型)、ELMo(Embeddings From LanguageModels,采用嵌入处理的语言模型)、NNLM(Neural Network Language Model,神经网络语言模型)等,本申请实施例不对该文本编码模型的模型结构进行具体限定。例如,该文本编码模型为BERT模型,以降低特征提取过程的计算复杂度,又例如,该文本编码模型由BERT模型与Transformers模型的编码器(Encoder)级联而成。

示意性地,以该文本编码模型由BERT模型与Transformers模型的编码器级联而成为例说明,假设该文本数据包括至少一个语句,服务器对每个语句进行分词处理,得到每个语句中包含的至少一个字符,将各个语句的各个字符按照在目标文章中出现的先后顺序可排列形成一个字符序列,其中,在该字符序列中以每个语句的句尾添加[SEP]作为语句分割符,并在该字符序列的首位增加[CLS]作为分类符,其中,语句分割符用于在相邻的语句之间进行断句,分类符用于表征整个字符序列的全局化语义信息。

将该字符序列输入到BERT模型中,BERT模型包括一个嵌入(Embedding)层和至少一个双向编码层,每个双向编码层用于对输入信号进行正向编码和反向编码,每个双向编码层的输出作为下一个双向编码层的输入,即各个双向编码层之间串联连接。在每个双向编码层中包括两部分,一部分是注意力网络,另一部分是前向全连接层,注意力网络中每一个隐层都是由上一层的隐层进行加权平均所得,使得每一个隐层都能和上一层的所有隐层直接关联,利用输入的长序列信息(也即该字符序列)能够得到一个用于表征全局化信息的隐层向量,而前向全连接层则用于对注意力网络获取的全局化信息进行进一步加工,以增强整个BERT模型的学习能力。

可选地,先将该字符序列输入到BERT模型的嵌入层中,通过该嵌入层对该字符序列中各个字符进行嵌入处理,换言之,将各个字符映射到嵌入空间,得到各个字符的嵌入向量,即得到了一个嵌入向量序列。接着,再将该嵌入向量序列输入到该至少一个双向编码层中,通过该至少一个双向编码层对该嵌入向量序列中各个嵌入向量进行双向编码(包括正向编码和反向编码),输出各个字符的语义向量,即得到了一个语义向量序列。其中,该字符序列中的每个字符对应于该嵌入向量序列中的一个嵌入向量,该嵌入向量序列中的每个嵌入向量对应于该语义向量序列中的一个语义向量。

在上述过程中,通过双向编码层对该嵌入向量序列分别进行了正向编码和反向编码,通过正向编码使得每个字符对应的语义向量能够融合该字符之前出现的历史字符的相关信息,而通过反向编码使得每个字符对应的语义向量能够融合该字符之后出现的未来字符的相关信息,两个方向的编码操作能够大大提升各个字符的语义向量的表达能力。

以第一个双向编码层为例进行说明,在该双向编码层中包括注意力网络和前向全连接层。将该嵌入向量序列输入到第一个双向编码层的注意力网络中,通过注意力网络对该嵌入向量序列进行加权,以提取该嵌入向量序列的注意力特征序列,将该注意力特征序列输入到第一个双向编码层的前向全连接层中,通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码),输出一个隐向量序列,将该隐向量序列输入到第二个双向编码层中,依此类推,后续的双向编码层的处理逻辑均与第一个双向编码层类似,这里不做赘述。由于在双向编码层中引入注意力机制,能够在每次进行语义编码时,使得各个字符聚焦于与自身关联较大(关系更密切)的字符,使得最终获取的各个字符的语义向量具有更高的准确性。

接着,将BERT模型中最后一个双向编码层所输出的语义向量序列输入到Transformers模型的编码器中,其中,Transformers模型中包括多个级联的编码器,例如,包括N(N≥1)个级联的编码器,如N=6或者其他数量,本申请实施例对此不进行具体限定。每个编码器内部又包括一个多头注意力(Multi-Head Attention)层和一个前馈神经网络(Feed Forward Neural Network)层,多头注意力层用于从多个表达子空间中综合提取字符序列内各字符之间的关联关系,前馈神经网络层用于对多头注意力层输出的特征向量进行全连接,在多头注意力层和前馈神经网络层之后均设置有残差结构,也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。通过Transformers模型的多个编码器对输入的该语义向量序列进行编码,由最后一个编码器输出该文本数据的文本语义特征。

在上述过程中,通过由BERT模型与Transformers模型的编码器级联而成的文本编码模型,能够提取出具有更强表达能力的文本语义特征,可选地,也可以仅利用BERT模型来提取该文本语义特征,或者仅利用Transformers模型的编码器来提取该文本语义特征,以降低提取该文本语义特征时的计算复杂度,本申请实施例对此不进行具体限定。

在一些实施例中,服务器在利用该文本编码模型提取到文本语义特征之后,可获取该文本数据的文本位置特征,该文本位置特征用于表征各个字符在文本数据中的位置先后顺序。可选地,对该字符序列中各个字符的位置信息进行编码,得到该文本数据的文本位置特征。接着,将该文本语义特征和文本位置特征进行拼接(Concat),得到该文本数据的文本特征。

在一些实施例中,服务器在对各个字符的位置信息进行编码时,能够采用绝对位置编码方式或者相对位置编码方式,本申请实施例对位置信息的编码方式不进行具体限定。示意性地,在下述步骤303中将以使用相对位置编码方式为例进行说明,这里不做赘述。

在一些实施例中,如果该文本语义特征与文本位置特征的维度不同,那么文本语义特征和文本位置特征将无法直接拼接,此时使用一个1维卷积层对该文本语义特征进行维度变换(即升维或者降维),使得维度变换后的文本语义特征与文本位置特征维度相同,从而将维度变换后的文本语义特征与文本位置特征进行拼接,得到该文本数据的文本特征。其中,该1维卷积层是指卷积核尺寸为1×1的卷积层。

在一些实施例中,除了以拼接方式进行融合之外,也可利用按元素相加、按元素相乘、双线性汇合等方式来融合该文本语义特征和文本位置特征,本申请实施例不对融合方式进行具体限定。

303、服务器提取该图片数据的图片深度特征,将该图片深度特征与图片位置特征进行融合,得到该图片数据的图片特征。

在一些实施例中,服务器基于图片深度模型来提取该图片深度特征,该图片深度模型用于提取图片数据的图片深度特征,也即是说,服务器将该图片数据输入到图片深度模型中,通过该图片深度模型对该图片数据进行卷积,以提取得到该图片深度特征。可选地,该图片深度模型包括但不限于:卷积神经网络(Convolutional Neural Networks,CNN)、深度残差网络(ResNet)、MobileNet(一种轻量级神经网络)等,本申请实施例不对该图片深度模型的模型结构进行具体限定。

示意性地,该图片深度模型为MobileNet模型,MobileNet模型是指将VGG(VisualGeometry Group,视觉几何组)模型中的标准卷积层换成深度可分离卷积(DepthwiseSeparable Convolution)层,其中,深度可分离卷积是一种可分解卷积操作,能够分解为:深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution),其中,深度卷积和标准卷积不同,标准卷积的卷积核是用在输入特征图的所有通道上,而深度卷积是针对每个输入通道采用不同的卷积核,即一个卷积核对应一个输入通道,而逐点卷积就是1维卷积,即采用卷积核的尺寸为1x1的标准卷积。通过使用深度可分离卷积,能够大大减少图片深度模型的计算量和参数量。

在一些实施例中,MobileNet模型包括一个3x3的标准卷积层、堆积的多个深度可分离卷积层、一个均值池化层和一个全连接层,其中,在标准卷积层后可进行下采样再输入到下一层中,同理,在部分深度可分离卷积层后可进行下采样再输入到下一层中,该均值池化层用于将最后一个深度可分离卷积层输出的特征图进行均值池化,该全连接层用于对均值池化层输出的特征图进行全连接。示意性地,MobileNet模型总共包含有28层,其中深度可分离卷积层有13层。

在一些实施例中,由于目标文章中通常包含多个图片,因此该多个图片可构成一个图片序列,服务器将该图片序列输入到MobileNet模型中,通过标准卷积层对该图片序列进行标准卷积操作,得到第一特征图,将该第一特征图输入到级联的多个深度可分离卷积层中,每个深度可分离卷积层对上一层输出的特征图进行深度可分离卷积操作,最后一个深度可分离卷积层输出第二特征图,将该第二特征图输入到均值池化层中,通过该均值池化层对第二特征图进行均值池化,得到第三特征图,将该第三特征图输入到全连接层中,通过该全连接层对该第三特征图进行全连接,得到该图片深度特征。

在一些实施例中,服务器在利用该图片深度模型提取到图片深度特征之后,可获取该图片数据的图片位置特征,该图片位置特征用于表征各个图片在图片数据中的位置先后顺序。可选地,对该图片序列中各个图片的位置信息进行编码,得到该图片数据的图片位置特征。接着,将该图片深度特征和图片位置特征进行拼接(Concat),得到该图片数据的图片特征。

在一些实施例中,服务器在对各个图片的位置信息进行编码时,能够采用绝对位置编码方式或者相对位置编码方式,本申请实施例对位置信息的编码方式不进行具体限定。

示意性地,以使用相对位置编码方式为例进行说明,在这种情况下,该文本位置特征和该图片位置特征均为该文本数据与该图片数据之间的相对位置特征,该相对位置特征用于表征该文本数据与该图片数据之间的先后顺序和距离远近。

在一些实施例中,该相对位置特征的获取方式包括:基于该文本数据中的多个文本和该图片数据中的多个图片,确定该多个文本和该多个图片各自在该目标文章中的位置信息;基于该位置信息,构建相对位置编码矩阵,该相对位置编码矩阵中的任一元素用于表征该元素所属列对应的文本和该元素所属行对应的图片之间的相对位置信息;基于该相对位置编码矩阵,确定该多个文本中的任一文本与该多个图片中的任一图片之间的相对位置特征。

图4是本申请实施例提供的一种提取位置信息的原理性示意图,如400所示,假设目标文章中包括5段文本和4张图片,其中,5段文本所构成的文本序列的位置编号为{1,3,5,7,8},4张图片所构成的图片序列的位置编号为{0,2,4,6},那么针对目标文章提取到的绝对位置关系可以表示为:pos-0(img)、pos-1(text)、pos-2(img)、pos-3(text)、pos-4(img)、pos-5(text)、pos-6(img)、pos-7(text)、pos-8(text)。示意性地,基于上述绝对位置关系,以文本序列代表矩阵列,以图片序列代表矩阵行,构建出如下表1所示的相对位置编码矩阵:

表1

其中,相对位置编码矩阵中的每个元素用于表征该元素所属列对应的文本和该元素所属行对应的图片之间的相对位置信息。例如,相对位置编码矩阵中第2行第3列的元素“3”代表了第3列所对应的文本“5”与第2行所对应的图片“2”之间的相对位置信息:3=5-2。

在构建出相对位置编码矩阵之后,通过该相对位置编码矩阵,能够确定出每个文本与每个图片之间的相对位置信息,对该相对位置信息进行编码即可得到对应的相对位置特征。

在上述过程中,通过使用相对位置特征,能够在文本特征和图片特征均引入显式地相对位置信息,从而能够提升文本特征和图片特征各自的表达能力。

在一些实施例中,使用传统的绝对位置编码方式所得到的文本位置特征和图片位置特征均属于绝对位置特征,能够隐式的学习到不同文本段落和不同文章插图在位置上的相关性,充分考虑文本序列和图片序列的模态内部位置关系。

在一些实施例中,如果该图片深度特征与图片位置特征的维度不同,那么图片深度特征和图片位置特征将无法直接拼接,此时使用一个1维卷积层对该图片深度特征进行维度变换(即升维或者降维),使得维度变换后的图片深度特征与图片位置特征维度相同,从而将维度变换后的图片深度特征与图片位置特征进行拼接,得到该图片数据的图片特征。其中,该1维卷积层是指卷积核尺寸为1×1的卷积层。

在一些实施例中,除了以拼接方式进行融合之外,也可利用按元素相加、按元素相乘、双线性汇合等方式来融合该图片深度特征和图片位置特征,本申请实施例不对融合方式进行具体限定。

在上述步骤302-303中,提供了在文本与图片两模态融合的情况下,服务器获取该目标文章的文本特征和图片特征的可能实施方式,其中,该文本特征用于表征该目标文章中的文本数据,该图片特征用于表征该目标文章中的图片数据。在下一个实施例中将介绍标题、正文和图片三模态融合的情况下,服务器如何获取标题数据的标题特征、正文数据的正文特征和图片数据的图片特征,这里不做赘述。

304、对该文本特征,服务器基于该图片特征中与该文本特征关联的部分特征,获取第一交互特征,该第一交互特征用于表征融合了图片特征的文本特征。

在一些实施例中,以文本模态为主模态,接收图片模态的辅助信息,也即是说,服务器获取图片特征中与文本特征关联的部分特征,并利用跨模交互模型,对该文本特征和该部分特征进行处理,得到该第一交互特征。可选地,该跨模交互模型包括但不限于:Transformers模型或者Transformers模型的变种。

图5是本申请实施例提供的一种跨模交互模型的原理性示意图,如500所示,以跨模交互模型为Cross-modal(跨模)Transformers模型为例进行说明,跨模Transformers模型包括D+1(D≥0)个跨模交互层,假设α模态为主模态(例如文本模态),β模态为辅模态(例如图片模态),那么从β模态到α模态(β→α)的交互特征的提取过程如下:

向跨模Transformers模型的第0层输入α模态在t=0时刻下的特征

第i层的输入信号包括:从β模态到α模态在t=i-1时刻下的交互特征

在上述过程中,跨模Transformers模型能够接收主模态和辅模态各自的序列特征作为输入信号,经过多头注意力层和位置全连接前馈网络层这两级的处理,最终输出融合了辅模态信息的主模态表征(即第一交互特征),该多头注意力层可视为对自注意力(Self-Attention)层的改造,将输入特征的K和V改为辅模态β的特征序列K

在上述过程中,直接由跨模Transformers模型输出第一交互特征,能够降低获取第一交互特征时的计算复杂度。在一些实施例中,将跨模Transformers模型输出的特征作为中间交互特征,将该中间交互特征输入一个基础的Transformers模型中进行先编码再解码,最终由基础的Transformers模型输出该第一交互特征。

可选地,服务器将该中间交互特征输入Transformers模型,Transformers模型包括N个级联的编码器和N个级联的解码器,调用该N个级联的编码器对该中间交互特征进行编码,将编码得到的特征输入到N个级联的解码器中进行解码,得到该第一交互特征。其中,N为大于或等于1的整数,例如N=6或者其他数值。

在一些实施例中,N个级联的编码器中每个编码器内部又包括一个多头注意力层和一个前馈神经网络层,多头注意力层用于从多个表达子空间中综合提取各时刻下的特征向量之间的关联关系,前馈神经网络层用于对多头注意力层输出的特征向量进行全连接,在多头注意力层和前馈神经网络层之后均设置有残差结构,也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。通过N个级联的编码器对输入的向量进行编码,将最后一个编码器输出的特征输入到N个级联的解码器中。

N个级联的解码器中每个解码器内部又包括一个掩码多头注意力层、一个融合多头注意力层和一个前馈神经网络层,掩码多头注意力层与多头注意力层类似,但仅关注当前时刻之前的翻译结果,因此需要对当前时刻之后的翻译结果进行mask(遮挡)处理,而融合多头注意力层也与多头注意力层也类似,但融合多头注意力层除了以本解码器的掩码多头注意力层的输出为输入之外,还以对应序号的编码器的前馈神经网络层的输出(指经过残差连接及归一化的结果)作为输入,这一设计是用于关注编码器的编码信息,换一种说法,解码器通过查看编码器的输出和对其自身输出的自注意力,来预测下一个时刻的交互特征,解码器的前馈神经网络层与编码器的前馈神经网络层类似,这里不做赘述,同理解码器的掩码多头注意力层、融合多头注意力层、前馈神经网络层之后也均设置有残差结构,也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。其中,级联的编码器的数量与级联的解码器的数量需要保持一致。通过N个级联的解码器可以对编码得到的特征进行解码,由最后一个解码器输出第一交互特征。

305、对该图片特征,服务器基于该文本特征中与该图片特征关联的部分特征,获取第二交互特征,该第二交互特征用于表征融合了文本特征的图片特征。

在一些实施例中,以图片模态为主模态,接收文本模态的辅助信息,也即是说,服务器获取文本特征中与图片特征关联的部分特征,并利用跨模交互模型,对该图片特征和该部分特征进行处理,得到该第二交互特征。可选地,该跨模交互模型包括但不限于:Transformers模型或者Transformers模型的变种。

上述步骤305与上述步骤304类似,只是将主模态α变更为图片模态,将辅模态β变更为文本模态,这里不做赘述。

在上述过程中,直接由跨模Transformers模型输出第二交互特征,能够降低获取第二交互特征时的计算复杂度。在一些实施例中,将跨模Transformers模型输出的特征作为中间交互特征,将该中间交互特征输入一个基础的Transformers模型中进行先编码再解码,最终由基础的Transformers模型输出该第二交互特征。可选地,服务器将该中间交互特征输入Transformers模型,Transformers模型包括N个级联的编码器和N个级联的解码器,调用该N个级联的编码器对该中间交互特征进行编码,将编码得到的特征输入到N个级联的解码器中进行解码,得到该第一交互特征。其中,N为大于或等于1的整数,例如N=6或者其他数值。基础Transformers模型中每个编码器和解码器的内部处理逻辑已在上述步骤304中介绍过,这里不做赘述。

306、服务器将该第一交互特征与该第二交互特征融合,得到跨模态交互特征。

在一些实施例中,服务器将该第一交互特征和该第二交互特征进行拼接,得到最终的跨模态交互特征,从而降低特征融合时的计算量。

在另一些实施例中,服务器将该第一交互特征和该第二交互特征进行按元素相加、按元素相乘或者双线性汇合,能够使得特征融合得更加充分,本申请实施例不对特征融合方式进行具体限定。

在上述步骤304-306中,示出了在文本与图片两模态融合的情况下,服务器获取两个模态之间的跨模态交互特征的一种可能实施方式,在下个实施例中将针对标题、正文和图片三模态融合的情况,介绍服务器如何获取三个模态之间的跨模态交互特征,这里不做赘述。

307、服务器基于该跨模态交互特征,确定该目标文章所属的文章类别。

上述步骤307与上述步骤205类似,这里不做赘述。

图6是本申请实施例提供的一种结合相对位置编码的多模态融合网络的原理性示意图,如图6所示,多模态融合网络中包括文本编码模型601、图片编码模型602和跨模交互部分603。

示意性地,文本编码模型601是由基础BERT模型微调(Finetune)得到的BERT模型6011和Transformers模型的编码器6012级联而成的,将文本数据的字符序列(简称为文本句子序列)输入BERT模型6011,输出一个语义向量序列,将该语义向量序列再输入到Transformers模型的编码器6012,输出文本数据的文本语义特征,将文本语义特征输入一个1维卷积层(Conv1D)层进行维度变换后,与文本位置特征进行拼接,得到文本数据的文本特征。

示意性地,图片编码模型602为预训练得到的MobileNet模型,将图片数据的图片序列输入图片编码模型602,输出图片数据的图片深度特征,将图片深度特征输入Conv1D层进行维度变换后,与图片位置特征进行拼接,得到该图片数据的图片特征。

示意性地,跨模交互部分603包括2个跨模Transformers模型和2个基础Transformers模型。以文本模态为主模态,利用跨模Transformers模型提取从图片模态→文本模态的中间交互特征,将该中间交互特征输入基础Transformers模型进行先编码再解码,输出第一交互特征。以图片模态为主模态,利用跨模Transformers模型提取从文本模态→图片模态的中间交互特征,将该中间交互特征输入基础Transformers模型进行先编码再解码,输出第二交互特征。

进一步地,将该第一交互特征和该第二交互特征进行拼接,得到最终两模态间的跨模态交互特征,再利用该跨模态交互特征,预测得到目标文章最终所属的文章类别(Classification)。

在一些实施例中,如采用上述步骤303中所介绍的相对位置编码方式,那么就需要将跨模交互部分603中各个Transformers模型的绝对位置特征修改为相对位置特征,例如,分离原始的字符Embedding(嵌入向量)和位置Embedding(位置向量),展开分列式后,将绝对位置编码方式的位置向量转换为相对位置编码方式的位置向量,即实现在任意两模态进行交互计算时将相对位置关系融入到自注意力层中。

在Transformers模型中,自注意力层通常表示为:

其中,Attention(Q,K,V)是指基于Q(Query)矩阵、K(Key)矩阵和V(Value)矩阵计算得到的注意力系数,softmax()是指指数归一化函数,Q是指当前字符的Q矩阵,K是指当前字符的K矩阵,V是指当前字符的V矩阵,K

使用乘法分配律展开,绝对位置编码方式的情况下,模态1中的第i个元素和模态2中的第j个元素之间的注意力系数

其中,E表示文本向量,U指位置向量,W指参数矩阵。

也即是说,

使用相对位置编码方式的位置向量R

其中,E表示文本向量,U指位置向量,W指参数矩阵。

也即是说,

上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。

本申请实施例提供的方法,通过针对目标文章的文本数据和图片数据,分别提取文本特征和图片特征,并利用两者之间的跨模态交互特征,来预测该目标文章所属的文章类别,同时考虑了文本模态和图片模态各自对于文章类别的贡献程度,而并非仅从文本角度来进行判断,此外所提取到的跨模态交互特征并非是文本特征和图片特征的简单拼接,能够反映出更加丰富和深层次的模态间交互信息,大大提高了对文章类别的识别准确率,进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

图7是本申请实施例提供的一种数据处理方法的流程图。参见图7,该实施例应用于计算机设备,以计算机设备为服务器为例进行说明,针对目标文章划分了标题、正文和图片三个模态的情况,在本申请实施例中将详细介绍如何基于三模态融合方式识别目标文章的文章类别,该实施例包括下述步骤:

701、服务器获取目标文章中的标题数据、正文数据和图片数据。

其中,该标题数据和正文数据可统称为文本数据。

上述步骤701与上述步骤301类似,这里不做赘述。可选地,服务器获取到文本数据和图片数据之后,从该文本数据中抽取标题数据和正文数据。

702、服务器提取该标题数据的标题语义特征,将该标题语义特征与标题位置特征进行融合,得到该标题数据的标题特征。

在一些实施例中,服务器基于标题编码模型来提取该标题语义特征,该标题编码模型用于提取标题数据的标题语义特征,也即是说,服务器将该标题数据输入到标题编码模型中,通过该标题编码模型对该标题数据进行编码,以提取得到该标题语义特征。可选地,该标题编码模型的模型结构包括但不限于:BERT模型、Transformers模型、ELMo模型、NNLM模型等,本申请实施例不对该标题编码模型的模型结构进行具体限定。

示意性地,以该标题编码模型为BERT模型为例说明,假设该标题数据包括至少一条标题,服务器对每个标题进行分词处理,得到每个标题中包含的至少一个字符,将各个标题的各个字符按照在目标文章中出现的先后顺序可排列形成一个字符序列,其中,在该字符序列中以每个标题的句尾添加[SEP]作为语句分割符,并在该字符序列的首位增加[CLS]作为分类符,其中,语句分割符用于在相邻的标题之间进行断句,分类符用于表征整个字符序列的全局化语义信息。

将该字符序列输入到BERT模型中,BERT模型包括一个嵌入层和至少一个双向编码层,每个双向编码层用于对输入信号进行正向编码和反向编码,每个双向编码层的输出作为下一个双向编码层的输入,即各个双向编码层之间串联连接。在每个双向编码层中包括两部分,一部分是注意力网络,另一部分是前向全连接层,注意力网络中每一个隐层都是由上一层的隐层进行加权平均所得,使得每一个隐层都能和上一层的所有隐层直接关联,利用输入的长序列信息(也即该字符序列)能够得到一个用于表征全局化信息的隐层向量,而前向全连接层则用于对注意力网络获取的全局化信息进行进一步加工,以增强整个BERT模型的学习能力。

可选地,先将该字符序列输入到BERT模型的嵌入层中,通过该嵌入层对该字符序列中各个字符进行嵌入处理,换言之,将各个字符映射到嵌入空间,得到各个字符的嵌入向量,即得到了一个嵌入向量序列。接着,再将该嵌入向量序列输入到该至少一个双向编码层中,通过该至少一个双向编码层对该嵌入向量序列中各个嵌入向量进行双向编码(包括正向编码和反向编码),输出各个字符的语义向量,即得到了一个语义向量序列,最终,由最后一个双向编码层输出该标题数据的标题语义特征。其中,该字符序列中的每个字符对应于该嵌入向量序列中的一个嵌入向量,该嵌入向量序列中的每个嵌入向量对应于该语义向量序列中的一个语义向量。

在上述过程中,通过双向编码层对该嵌入向量序列分别进行了正向编码和反向编码,通过正向编码使得每个字符对应的语义向量能够融合该字符之前出现的历史字符的相关信息,而通过反向编码使得每个字符对应的语义向量能够融合该字符之后出现的未来字符的相关信息,两个方向的编码操作能够大大提升各个字符的语义向量的表达能力。

以第一个双向编码层为例进行说明,在该双向编码层中包括注意力网络和前向全连接层。将该嵌入向量序列输入到第一个双向编码层的注意力网络中,通过注意力网络对该嵌入向量序列进行加权,以提取该嵌入向量序列的注意力特征序列,将该注意力特征序列输入到第一个双向编码层的前向全连接层中,通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码),输出一个隐向量序列,将该隐向量序列输入到第二个双向编码层中,依此类推,后续的双向编码层的处理逻辑均与第一个双向编码层类似,这里不做赘述,最终,由最后一个双向编码层输出该标题数据的标题语义特征。由于在双向编码层中引入注意力机制,能够在每次进行语义编码时,使得各个字符聚焦于与自身关联较大(关系更密切)的字符,使得最终获取的各个字符的语义向量具有更高的准确性。

在一些实施例中,服务器在利用该标题编码模型提取到标题语义特征之后,可获取该标题数据的标题位置特征,该标题位置特征用于表征各个字符在标题数据中的位置先后顺序。可选地,对该字符序列中各个字符的位置信息进行编码,得到该标题数据的标题位置特征。接着,将该标题语义特征和标题位置特征进行拼接,得到该标题数据的标题特征。

在一些实施例中,服务器在对各个字符的位置信息进行编码时,能够采用绝对位置编码方式或者相对位置编码方式,本申请实施例对位置信息的编码方式不进行具体限定。两种位置编码方式均在上个实施例中已介绍过,这里不做赘述。

在一些实施例中,如果该标题语义特征与标题位置特征的维度不同,那么标题语义特征和标题位置特征将无法直接拼接,此时使用一个1维卷积层对该标题语义特征进行维度变换(即升维或者降维),使得维度变换后的标题语义特征与标题位置特征维度相同,从而将维度变换后的标题语义特征与标题位置特征进行拼接,得到该标题数据的标题特征。其中,该1维卷积层是指卷积核尺寸为1×1的卷积层。

在一些实施例中,除了以拼接方式进行融合之外,也可利用按元素相加、按元素相乘、双线性汇合等方式来融合该标题语义特征和标题位置特征,本申请实施例不对融合方式进行具体限定。

703、服务器提取该正文数据的正文语义特征,将该正文语义特征与正文位置特征进行融合,得到该正文数据的正文特征。

其中,该标题特征和正文特征可统称为文本特征。

在一些实施例中,服务器基于正文编码模型来提取该正文语义特征,该正文编码模型用于提取正文数据的正文语义特征,也即是说,服务器将该正文数据输入到正文编码模型中,通过该正文编码模型对该正文数据进行编码,以提取得到该正文语义特征。可选地,该正文编码模型的模型结构包括但不限于下述任一项或者至少两项的组合:BERT模型、Transformers模型、ELMo模型、NNLM模型等,本申请实施例不对该正文编码模型的模型结构进行具体限定。示意性地,该正文编码模型由BERT模型与Transformers模型的编码器级联而成,此种结构的正文编码模型对正文数据的处理过程与上述步骤302中文本编码模型对文本数据的处理过程类似,这里不做赘述。

在一些实施例中,服务器在利用该正文编码模型提取到正文语义特征之后,可获取该正文数据的正文位置特征,该正文位置特征用于表征各个字符在正文数据中的位置先后顺序。可选地,对该字符序列中各个字符的位置信息进行编码,得到该正文数据的正文位置特征。接着,将该正文语义特征和正文位置特征进行拼接,得到该正文数据的正文特征。

在一些实施例中,服务器在对各个字符的位置信息进行编码时,能够采用绝对位置编码方式或者相对位置编码方式,本申请实施例对位置信息的编码方式不进行具体限定。两种位置编码方式均在上个实施例中已介绍过,这里不做赘述。

在一些实施例中,如果该正文语义特征与正文位置特征的维度不同,那么正文语义特征和正文位置特征将无法直接拼接,此时使用一个1维卷积层对该正文语义特征进行维度变换(即升维或者降维),使得维度变换后的正文语义特征与正文位置特征维度相同,从而将维度变换后的正文语义特征与正文位置特征进行拼接,得到该正文数据的正文特征。其中,该1维卷积层是指卷积核尺寸为1×1的卷积层。

在一些实施例中,除了以拼接方式进行融合之外,也可利用按元素相加、按元素相乘、双线性汇合等方式来融合该正文语义特征和正文位置特征,本申请实施例不对融合方式进行具体限定。

在上述步骤702-703中,提供了在将文本数据划分为标题数据和正文数据的情况下,服务器提取该文本数据的文本语义特征,将该文本语义特征与文本位置特征进行融合,得到该文本数据的文本特征的可能实施方式,通过将文本数据划分为标题数据和正文数据,能够提取出更多、更丰富的特征信息。

704、服务器提取该图片数据的图片深度特征,将该图片深度特征与图片位置特征进行融合,得到该图片数据的图片特征。

上述步骤704与上述步骤303类似,这里不做赘述。

705、对该标题特征,服务器基于该正文特征和该图片特征中分别与该标题特征关联的部分特征,获取标题交互特征,该标题交互特征用于表征融合了正文特征和图片特征之后的标题特征。

在一些实施例中,服务器基于该正文特征中与该标题特征关联的部分特征,获取第一标题交互特征,也即是说,以标题模态为主模态,接收正文模态的辅助信息。可选地,服务器获取正文特征中与标题特征关联的部分特征,并利用跨模交互模型,对该标题特征和该部分特征进行处理,得到该第一标题交互特征。可选地,该跨模交互模型包括但不限于:Transformers模型或者Transformers模型的变种,例如,该跨模交互模型为跨模Transformers模型,只是将主模态α变更为标题模态,将辅模态β变更为正文模态,模型结构和处理逻辑与上述步骤304类似,这里不做赘述。

在一些实施例中,服务器基于该图片特征中与该标题特征关联的部分特征,获取第二标题交互特征,也即是说,以标题模态为主模态,接收图片模态的辅助信息。可选地,服务器获取图片特征中与标题特征关联的部分特征,并利用跨模交互模型,对该标题特征和该部分特征进行处理,得到该第二标题交互特征。可选地,该跨模交互模型包括但不限于:Transformers模型或者Transformers模型的变种,例如,该跨模交互模型为跨模Transformers模型,只是将主模态α变更为标题模态,将辅模态β变更为图片模态,模型结构和处理逻辑与上述步骤304类似,这里不做赘述。

在一些实施例中,服务器将该第一标题交互特征和该第二标题交互特征进行拼接,得到第三标题交互特征,能够降低将该第一标题交互特征和该第二标题交互特征进行融合时的计算复杂度,可选地,也可采取按元素相加、按元素相乘、双线性汇合等融合方式,本申请实施例对此不进行具体限定。

在一些实施例中,服务器对该第三标题交互特征进行编码和解码,得到该标题交互特征。可选地,服务器将该第三标题交互特征输入Transformers模型,Transformers模型包括N个级联的编码器和N个级联的解码器,调用该N个级联的编码器对该第三标题交互特征进行编码,得到中间标题交互特征,将该中间标题交互特征输入到N个级联的解码器中进行解码,得到该标题交互特征。其中,N为大于或等于1的整数,例如N=6或者其他数值。

在一些实施例中,N个级联的编码器中每个编码器内部又包括一个多头注意力层和一个前馈神经网络层,多头注意力层用于从多个表达子空间中综合提取标题数据内各字符之间的关联关系,前馈神经网络层用于对多头注意力层输出的特征向量进行全连接,在多头注意力层和前馈神经网络层之后均设置有残差结构,也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。通过N个级联的编码器对输入的向量进行编码,由最后一个编码器输出该中间标题交互特征。

接着,将该中间标题交互特征输入到N个级联的解码器。N个级联的解码器中每个解码器内部又包括一个掩码多头注意力层、一个融合多头注意力层和一个前馈神经网络层,掩码多头注意力层与多头注意力层类似,但仅关注当前时刻之前的翻译结果,因此需要对当前时刻之后的翻译结果进行mask(遮挡)处理,而融合多头注意力层也与多头注意力层也类似,但融合多头注意力层除了以本解码器的掩码多头注意力层的输出为输入之外,还以对应序号的编码器的前馈神经网络层的输出(指经过残差连接及归一化的结果)作为输入,这一设计是用于关注编码器的编码信息,换一种说法,解码器通过查看编码器的输出和对其自身输出的自注意力,来预测下一个时刻的交互特征,解码器的前馈神经网络层与编码器的前馈神经网络层类似,这里不做赘述,同理解码器的掩码多头注意力层、融合多头注意力层、前馈神经网络层之后也均设置有残差结构,也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。其中,级联的编码器的数量与级联的解码器的数量需要保持一致。通过N个级联的解码器可以对该中间标题交互特征进行解码,由最后一个解码器输出最终的标题交互特征。

706、对该正文特征,服务器基于该标题特征和该图片特征中分别与该正文特征关联的部分特征,获取正文交互特征,该正文交互特征用于表征融合了标题特征和图片特征之后的正文特征。

由于在标题、正文、图片三模态融合情况下,第一交互特征包括标题交互特征和正文交互特征,因此上述步骤705-706示出了如何获取第一交互特征的可能实施方式。

在一些实施例中,服务器基于该标题特征中与该正文特征关联的部分特征,获取第一正文交互特征,也即是说,以正文模态为主模态,接收标题模态的辅助信息。可选地,服务器获取标题特征中与正文特征关联的部分特征,并利用跨模交互模型,对该正文特征和该部分特征进行处理,得到该第一正文交互特征。可选地,该跨模交互模型包括但不限于:Transformers模型或者Transformers模型的变种,例如,该跨模交互模型为跨模Transformers模型,只是将主模态α变更为正文模态,将辅模态β变更为标题模态,模型结构和处理逻辑与上述步骤304类似,这里不做赘述。

在一些实施例中,服务器基于该图片特征中与该正文特征关联的部分特征,获取第二正文交互特征,也即是说,以正文模态为主模态,接收图片模态的辅助信息。可选地,服务器获取图片特征中与正文特征关联的部分特征,并利用跨模交互模型,对该正文特征和该部分特征进行处理,得到该第二正文交互特征。可选地,该跨模交互模型包括但不限于:Transformers模型或者Transformers模型的变种,例如,该跨模交互模型为跨模Transformers模型,只是将主模态α变更为正文模态,将辅模态β变更为图片模态,模型结构和处理逻辑与上述步骤304类似,这里不做赘述。

在一些实施例中,服务器将该第一正文交互特征和该第二正文交互特征进行拼接,得到第三正文交互特征,能够降低将该第一正文交互特征和该第二正文交互特征进行融合时的计算复杂度,可选地,也可采取按元素相加、按元素相乘、双线性汇合等融合方式,本申请实施例对此不进行具体限定。

在一些实施例中,服务器对该第三正文交互特征进行编码和解码,得到该正文交互特征。可选地,服务器将该第三正文交互特征输入Transformers模型,通过Transformers模型中N个级联的编码器对该第三正文交互特征进行编码,得到中间正文交互特征,将该中间正文交互特征输入到N个级联的解码器中进行解码,得到该正文交互特征。其中,N为大于或等于1的整数,例如N=6或者其他数值。Transformers模型的编码器和解码器的内部处理逻辑已在上述步骤705中进行详细说明,这里不做赘述。

707、对该图片特征,服务器基于该标题特征和该正文特征中分别与该图片特征关联的部分特征,获取第二交互特征,该第二交互特征用于表征融合了标题特征和正文特征之后的图片特征。

在一些实施例中,服务器基于该标题特征中与该图片特征关联的部分特征,获取第一图片交互特征,也即是说,以图片模态为主模态,接收标题模态的辅助信息。可选地,服务器获取标题特征中与图片特征关联的部分特征,并利用跨模交互模型,对该图片特征和该部分特征进行处理,得到该第一图片交互特征。可选地,该跨模交互模型包括但不限于:Transformers模型或者Transformers模型的变种,例如,该跨模交互模型为跨模Transformers模型,只是将主模态α变更为图片模态,将辅模态β变更为标题模态,模型结构和处理逻辑与上述步骤304类似,这里不做赘述。

在一些实施例中,服务器基于该正文特征中与该图片特征关联的部分特征,获取第二图片交互特征,也即是说,以图片模态为主模态,接收正文模态的辅助信息。可选地,服务器获取正文特征中与图片特征关联的部分特征,并利用跨模交互模型,对该图片特征和该部分特征进行处理,得到该第二图片交互特征。可选地,该跨模交互模型包括但不限于:Transformers模型或者Transformers模型的变种,例如,该跨模交互模型为跨模Transformers模型,只是将主模态α变更为图片模态,将辅模态β变更为正文模态,模型结构和处理逻辑与上述步骤304类似,这里不做赘述。

在一些实施例中,服务器将该第一图片交互特征和该第二图片交互特征进行拼接,得到第三图片交互特征,能够降低将该第一图片交互特征和该第二图片交互特征进行融合时的计算复杂度,可选地,也可采取按元素相加、按元素相乘、双线性汇合等融合方式,本申请实施例对此不进行具体限定。

在一些实施例中,服务器对该第三图片交互特征进行编码和解码,得到该第二交互特征。可选地,服务器将该第三图片交互特征输入Transformers模型,通过Transformers模型中N个级联的编码器对该第三图片交互特征进行编码,得到中间图片交互特征,将该中间图片交互特征输入到N个级联的解码器中进行解码,得到该第二交互特征。其中,N为大于或等于1的整数,例如N=6或者其他数值。Transformers模型的编码器和解码器的内部处理逻辑已在上述步骤705中进行详细说明,这里不做赘述。

708、服务器将该标题交互特征、该正文交互特征和该第二交互特征融合,得到跨模态交互特征。

在一些实施例中,服务器将该标题交互特征、该正文交互特征和该第二交互特征进行拼接,得到最终三模态间的跨模态交互特征,从而降低特征融合时的计算量。

在另一些实施例中,服务器将该标题交互特征、该正文交互特征和该第二交互特征进行按元素相加、按元素相乘或者双线性汇合,能够使得特征融合得更加充分,本申请实施例不对特征融合方式进行具体限定。

在上述步骤705-708中,提供了服务器获取跨模态交互特征的一种可能实施方式,即通过将文本数据划分成标题数据和正文数据,从而将原本的两模态融合扩展成三模态融合,能够充分利用模态间的序列级交互信息,对标题、正文和图片三种模态,两两组合(共6种组合方式)进行有向的跨模态注意力加权,每个模态都会作为主模态接收另外两个模态的辅助信息,大大提升了最终获取的跨模态交互特征的表达能力,使得最终基于跨模态交互特征进行预测时的准确率也大大提升。

709、服务器基于该跨模态交互特征,确定该目标文章所属的文章类别。

上述步骤709与上述步骤205类似,这里不做赘述。

图8是本申请实施例提供的一种多模态融合网络的原理性示意图,如图8所示,多模态融合网络中包括标题编码模型801、正文编码模型802、图片编码模型803和跨模交互部分804。

示意性地,标题编码模型801为由基础BERT模型微调(Finetune)得到的BERT模型,将标题数据的字符序列(简称为标题序列)输入标题编码模型801,输出标题数据的标题语义特征,将标题语义特征输入一个1维卷积层(Conv1D)进行维度变换后,与标题位置特征进行拼接,得到该标题数据的标题特征。

示意性地,正文编码模型802是由微调得到的BERT模型8021和Transformers模型的编码器8022级联而成的,将正文数据的字符序列(简称为正文句子序列)输入BERT模型8021,输出一个语义向量序列,将该语义向量序列再输入到Transformers模型的编码器8022,输出正文数据的正文语义特征,将正文语义特征输入Conv1D层进行维度变换后,与正文位置特征进行拼接,得到该正文数据的正文特征。

示意性地,图片编码模型803为预训练得到的MobileNet模型,将图片数据的图片序列输入图片编码模型803,输出图片数据的图片深度特征,将图片深度特征输入Conv1D层进行维度变换后,与图片位置特征进行拼接,得到该图片数据的图片特征。

示意性地,跨模交互部分804包括6个跨模Transformers模型和3个基础的Transformers模型。以标题模态为主模态,利用跨模Transformers模型分别提取从正文模态→标题模态的第一标题交互特征,以及从图片模态→标题模态的第二标题交互特征,将该第一标题交互特征和该第二标题交互特征进行拼接,得到第三标题交互特征,将该第三标题交互特征输入Transformers模型进行先编码再解码,输出标题交互特征。此外,以正文模态为主模态,利用跨模Transformers模型分别提取从标题模态→正文模态的第一正文交互特征,以及从图片模态→正文模态的第二正文交互特征,将该第一正文交互特征和该第二正文交互特征进行拼接,得到第三正文交互特征,将该第三正文交互特征输入Transformers模型进行先编码再解码,输出正文交互特征。此外,以图片模态为主模态,利用跨模Transformers模型分别提取从标题模态→图片模态的第一图片交互特征,以及从正文模态→图片模态的第二图片交互特征,将该第一图片交互特征和该第二图片交互特征进行拼接,得到第三图片交互特征,将该第三图片交互特征输入Transformers模型进行先编码再解码,输出第二交互特征。

进一步地,将该标题交互特征、该正文交互特征和该第二交互特征进行拼接,得到最终三模态间的跨模态交互特征,再利用该跨模态交互特征,预测出目标文章最终所属的文章类别(Classification)。需要说明的是,在三模态融合的情况下,也可基于与上述实施例中类似的方式引入相对位置编码方式,这里不做赘述。

相较于传统的多模态融合方式来说,由于各模态的采样率不同,在本质上各个模态的数据之间的非对齐的,且不同模态的元素之间是存在长依赖关系的,传统的多模态融合方式无法改善上述两个问题,因此对文章类别的识别准确率低。而上述多模态融合网络,构建了在图文优质识别这一非对齐情况下的跨模态交互方法,针对三模态的跨模交互部分能够充分利用模态间的序列级交互信息,在6种组合方式各自的跨模交互模型融合了两个模态的信息之后,采用基于自注意力的Transformers模型继续结合上下文(Context)进行建模,最后拼接三组特征(该标题交互特征、该正文交互特征和该第二交互特征)进行预测,通过纵向对比实验发现标题、正文、图片三路组合场景下的模型效果最优,也即任意两模态间的交互信息对模型效果都有明显的增强作用。

上述结合相对位置编码方式的多模态融合网络可应用于识别优质图文场景中,这一场景下相邻图文间的模态交互性是至关重要的,同时通过引入相对位置编码方式,能够增强对文本和图片序列间相对位置关系的学习,从而提升整体模型的识别准确率。此外,在自媒体时代,影响文章质量评定的因素繁多,除了文本质量,图片和文本之间的整体搭配效果也是至关重要的,上述结合相对位置编码方式的多模态融合网络,完成了图文优质识别场景中多模态模块的构建。

在对内容中心的图文内容进行质量判定的测试任务中,模型评测准确率达到95%,而传统有监督的识别优质图文手段,如仅从文本角度进行内容质量判定时,或者将文本Embedding和图片Embedding进行简单拼接后进行内容质量判定时,其考虑维度都非常单一,并且无法学习到相邻文本和图片间的模态交互信息,结果为整体准确率低于95%,因此,本申请实施例提供的方法能够大大提升针对文章类别的识别准确率。

此外,在上述测试任务中,图文优质内容的覆盖率达到17%,通过在浏览器侧对识别出来的图文优质内容进行推荐加权实验,实现了将图文搭配效果好、体验优的优质内容优先推荐给用户,并在业务侧相对历史的应用版本取得了良好的业务效果。示意性地,在内容中心的内容处理链路中,对所有图文内容进行内容质量打分,然后出库并分发给端侧,端侧根据内容质量打分分别进行层次化的推荐加权,例如,对识别出来的优质内容进行推荐加权,对低质内容进行推荐降权等。这一推荐方法可以有效提升用户的阅读体验,是一种基于具体业务场景的推荐算法上的创新。

此外,使用本申请实施例所提供的图文先验优质识别算法进行优质内容加权推荐实验后,在浏览器侧整体的点击PV(Page View,页面访问量)提升0.38%,曝光效率提升0.43%,CTR(Click-Through-Rate,点击率)提升0.394%,用户的停留时长提升0.17%;同时DAU(Daily Active User,日活跃用户量)的次日留存提升0.165%,互动指标数据中人均分享提升1.705%,人均点赞提升4.215%,人均评论提升0.188%。

上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。

本申请实施例提供的方法,通过针对目标文章的文本数据和图片数据,分别提取文本特征和图片特征,并利用两者之间的跨模态交互特征,来预测该目标文章所属的文章类别,同时考虑了文本模态和图片模态各自对于文章类别的贡献程度,而并非仅从文本角度来进行判断,此外所提取到的跨模态交互特征并非是文本特征和图片特征的简单拼接,能够反映出更加丰富和深层次的模态间交互信息,大大提高了对文章类别的识别准确率,进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

图9是本申请实施例提供的一种数据处理装置的结构示意图,请参考图9,该装置包括:

第一获取模块901,用于获取目标文章的文本特征和图片特征,该文本特征用于表征该目标文章中的文本数据,该图片特征用于表征该目标文章中的图片数据;

第二获取模块902,用于对该文本特征,基于该图片特征中与该文本特征关联的部分特征,获取第一交互特征,该第一交互特征用于表征融合了图片特征的文本特征;

第三获取模块903,用于对该图片特征,基于该文本特征中与该图片特征关联的部分特征,获取第二交互特征,该第二交互特征用于表征融合了文本特征的图片特征;

融合模块904,用于将该第一交互特征与该第二交互特征融合,得到跨模态交互特征;

确定模块905,用于基于该跨模态交互特征,确定该目标文章所属的文章类别。

本申请实施例提供的装置,通过针对目标文章的文本数据和图片数据,分别提取文本特征和图片特征,并利用两者之间的跨模态交互特征,来预测该目标文章所属的文章类别,同时考虑了文本模态和图片模态各自对于文章类别的贡献程度,而并非仅从文本角度来进行判断,此外所提取到的跨模态交互特征并非是文本特征和图片特征的简单拼接,能够反映出更加丰富和深层次的模态间交互信息,大大提高了对文章类别的识别准确率,进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

在一种可能实施方式中,基于图9的装置组成,该第一获取模块901包括:

第一提取融合单元,用于提取该文本数据的文本语义特征,将该文本语义特征与文本位置特征进行融合,得到该文本特征;

第二提取融合单元,用于提取该图片数据的图片深度特征,将该图片深度特征与图片位置特征进行融合,得到该图片特征。

在一种可能实施方式中,该文本数据包括标题数据和正文数据;该文本特征包括标题特征和正文特征;

该第一提取融合单元用于:

提取该标题数据的标题语义特征和该正文数据的正文语义特征;

将该标题语义特征与标题位置特征进行融合,得到该标题特征;

将该正文语义特征与正文位置特征进行融合,得到该正文特征。

在一种可能实施方式中,该第一交互特征包括标题交互特征和正文交互特征,基于图9的装置组成,该第二获取模块902包括:

第一获取单元,用于对该标题特征,基于该正文特征和该图片特征中分别与该标题特征关联的部分特征,获取该标题交互特征,该标题交互特征用于表征融合了正文特征和图片特征之后的标题特征;

第二获取单元,用于对该正文特征,基于该标题特征和该图片特征中分别与该正文特征关联的部分特征,获取该正文交互特征,该正文交互特征用于表征融合了标题特征和图片特征之后的正文特征。

在一种可能实施方式中,该第一获取单元用于:

基于该正文特征中与该标题特征关联的部分特征,获取第一标题交互特征;

基于该图片特征中与该标题特征关联的部分特征,获取第二标题交互特征;

将该第一标题交互特征和该第二标题交互特征进行拼接,得到第三标题交互特征;

对该第三标题交互特征进行编码和解码,得到该标题交互特征。

在一种可能实施方式中,该第二获取单元用于:

基于该标题特征中与该正文特征关联的部分特征,获取第一正文交互特征;

基于该图片特征中与该正文特征关联的部分特征,获取第二正文交互特征;

将该第一正文交互特征和该第二正文交互特征进行拼接,得到第三正文交互特征;

对该第三正文交互特征进行编码和解码,得到该正文交互特征。

在一种可能实施方式中,基于图9的装置组成,该第三获取模块903包括:

第三获取单元,用于对该图片特征,基于该标题特征和该正文特征中分别与该图片特征关联的部分特征,获取该第二交互特征。

在一种可能实施方式中,该第三获取单元用于:

基于该标题特征中与该图片特征关联的部分特征,获取第一图片交互特征;

基于该正文特征中与该图片特征关联的部分特征,获取第二图片交互特征;

将该第一图片交互特征和该第二图片交互特征进行拼接,得到第三图片交互特征;

对该第三图片交互特征进行编码和解码,得到该第二交互特征。

在一种可能实施方式中,该文本位置特征和该图片位置特征均为该文本数据与该图片数据之间的相对位置特征,该相对位置特征用于表征该文本数据与该图片数据之间的先后顺序和距离远近。

在一种可能实施方式中,该相对位置特征的获取方式包括:

基于该文本数据中的多个文本和该图片数据中的多个图片,确定该多个文本和该多个图片各自在该目标文章中的位置信息;

基于该位置信息,构建相对位置编码矩阵,该相对位置编码矩阵中的任一元素用于表征该元素所属列对应的文本和该元素所属行对应的图片之间的相对位置信息;

基于该相对位置编码矩阵,确定该多个文本中的任一文本与该多个图片中的任一图片之间的相对位置特征。

在一种可能实施方式中,该确定模块905用于:

对该跨模态交互特征进行全连接处理,得到全连接特征;

对该全连接特征进行指数归一化,得到该目标文章属于多个类别的多个预测概率;

选择符合目标条件的预测概率所对应的类别为该目标文章所属的文章类别。

上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。

需要说明的是:上述实施例提供的数据处理装置在处理数据时,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过程详见数据处理方法实施例,这里不再赘述。

图10是本申请实施例提供的一种计算机设备的结构示意图,请参考图10,以计算机设备为终端1000为例进行说明,此时终端1000能够独立完成对目标文章的文章类别的识别过程。可选地,该终端1000的设备类型包括:智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,终端1000包括有:处理器1001和存储器1002。

可选地,处理器1001包括一个或多个处理核心,比如4核心处理器、8核心处理器等。可选地,处理器1001采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中,处理器1001包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中,存储器1002包括一个或多个计算机可读存储介质,可选地,该计算机可读存储介质是非暂态的。可选地,存储器1002还包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1001所执行以实现本申请中各个实施例提供的数据处理方法。

在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间能够通过总线或信号线相连。各个外围设备能够通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。可选地,射频电路1004通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1004还包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏1005用于显示UI(User Interface,用户界面)。可选地,该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号能够作为控制信号输入至处理器1001进行处理。可选地,显示屏1005还用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005为一个,设置终端1000的前面板;在另一些实施例中,显示屏1005为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在再一些实施例中,显示屏1005是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,可选地,显示屏1005设置成非矩形的不规则图形,也即异形屏。可选地,显示屏1005采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还包括闪光灯。可选地,闪光灯是单色温闪光灯,或者是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,用于不同色温下的光线补偿。

在一些实施例中,音频电路1007包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风为多个,分别设置在终端1000的不同部位。可选地,麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。可选地,扬声器是传统的薄膜扬声器,或者是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅能够将电信号转换为人类可听见的声波,也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。可选地,定位组件1008是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。可选地,电源1009是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池支持有线充电或无线充电。该可充电电池还用于支持快充技术。

在一些实施例中,终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

在一些实施例中,加速度传感器1011检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011用于检测重力加速度在三个坐标轴上的分量。可选地,处理器1001根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还用于游戏或者用户的运动数据的采集。

在一些实施例中,陀螺仪传感器1012检测终端1000的机体方向及转动角度,陀螺仪传感器1012与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据,实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

可选地,压力传感器1013设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时,能够检测用户对终端1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。可选地,指纹传感器1014被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时,指纹传感器1014能够与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001根据光学传感器1015采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。

接近传感器1016,也称距离传感器,通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员能够理解,图10中示出的结构并不构成对终端1000的限定,能够包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

图11是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备1100可因配置或性能不同而产生比较大的差异,该计算机设备1100包括一个或一个以上处理器(Central Processing Units,CPU)1101和一个或一个以上的存储器1102,其中,该存储器1102中存储有至少一条计算机程序,该至少一条计算机程序由该一个或一个以上处理器1101加载并执行以实现上述各个实施例提供的数据处理方法。可选地,该计算机设备1100还具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备1100还包括其他用于实现设备功能的部件,在此不做赘述。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条计算机程序的存储器,上述至少一条计算机程序可由终端中的处理器执行以完成上述各个实施例中的数据处理方法。例如,该计算机可读存储介质包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory,只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序产品或计算机程序,包括一条或多条程序代码,该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码,该一个或多个处理器执行该一条或多条程序代码,使得计算机设备能够执行以完成上述实施例中的数据处理方法。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成,也能够通过程序来指令相关的硬件完成,可选地,该程序存储于一种计算机可读存储介质中,可选地,上述提到的存储介质是只读存储器、磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 数据处理方法、装置、计算机设备及计算机可读存储介质
  • 数据仓库内数据处理方法、装置、计算机设备和存储介质
  • 一种数据处理方法、数据处理装置、计算机设备及可读存储介质
  • 财报数据处理方法、装置、计算机设备和存储介质
  • 测试数据表的处理方法、装置、计算机设备和存储介质
  • 内容数据的处理方法、报告数据的处理方法、计算机设备、存储介质
  • 数据处理方法、装置、计算机设备和计算机可读存储介质
技术分类

06120115802295