掌桥专利:专业的专利平台
掌桥专利
首页

一种信息处理方法、装置、设备和存储介质

文献发布时间:2024-04-18 19:57:31


一种信息处理方法、装置、设备和存储介质

技术领域

本申请涉及人工智能领域,尤其涉及一种信息处理方法、装置、设备和存储介质。

背景技术

为了提高信息传递的效率,结构化文本已经成为常用的信息载体,被广泛应用于数字化和自动化的办公场景中。目前存在大量的实体文档中的信息需要被记录为电子化的结构化文本。例如,需要将大量的实体票据中的信息提取出来,并存储为结构化文本,以支持企业办公智能化。

而文档抽取可以分为信息抽取和文档结构理解两个部分。以语言模型为基础的信息抽取技术已经发展到了较高水平。大规模预训练语言模型能够通过自监督任务在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效地提升模型效果。

然而,现有的预训练语言模型主要针对文本单一模态进行,而忽视了文档本身与文本天然对齐的视觉结构信息,而且均是利用识别好的OCR结果进行信息抽取的,不支持类似表格结构的信息抽取,造成结构信息的抽取混乱。

发明内容

本申请实施例提供了一种信息处理方法、装置、设备和存储介质,用于提高信息抽取效果。

有鉴于此,本申请一方面提供一种信息处理方法,包括:获取待识别图像、该待识别图像的文本识别结果和第一目标结构化信息,该第一目标结构化信息包括初始字符;将该待识别图像、该待识别图像的文本识别结果和该第一目标结构化信息输入信息生成模型得到第一预测字符,该第一预测字符和该初始字符生成第二目标结构化信息,该信息生成模型由文本字符序列、图像图块序列和位置嵌入序列训练得到,该文本字符序列、该图像图块序列和该位置嵌入序列是将训练图像、该训练图像的掩码文本识别结果和该训练图像的掩码结构化信息通过特征嵌入得到,该掩码文本识别结果是对该训练图像的文本识别结果进行随机掩码处理得到,该掩码结构化信息是对该训练图像的真实结构化信息进行随机掩码处理得到;将该待识别图像、该待识别图像的文本识别结果与该第二目标结构化信息输入该信息生成模型得到第二预测字符,该第一预测字符、该第二预测字符和该初始字符生成第三目标结构化信息;重复上述过程直至该信息生成模型得到结束符,输出该待识别图像对应的目标结构化信息。

本申请另一方面提供一种信息处理装置,包括:

获取模块,用于获取待识别图像、该待识别图像的文本识别结果和第一目标结构化信息,该第一目标结构化信息包括初始字符;

处理模块,用于将该待识别图像、该待识别图像的文本识别结果和该第一目标结构化信息输入信息生成模型得到第一预测字符,该第一预测字符和该初始字符生成第二目标结构化信息,该信息生成模型由文本字符序列、图像图块序列和位置嵌入序列训练得到,该文本字符序列、该图像图块序列和该位置嵌入序列是将训练图像、该训练图像的掩码文本识别结果和该训练图像的掩码结构化信息通过特征嵌入得到,该掩码文本识别结果是对该训练图像的文本识别结果进行随机掩码处理得到,该掩码结构化信息是对该训练图像的真实结构化信息进行随机掩码处理得到;将该待识别图像、该待识别图像的文本识别结果与该第二目标结构化信息输入该信息生成模型得到第二预测字符,该第一预测字符、该第二预测字符和该初始字符生成第三目标结构化信息;重复上述过程直至该信息生成模型得到结束符;

输出模块,用于输出该待识别图像对应的目标结构化信息。

在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,还用于获取第一训练图像、该第一训练图像的文本识别结果、该第一训练图像对应的真实结构化信息和初始信息生成模型;

该处理模块,还用于将该第一训练图像的文本识别结果和该真实结构化信息进行随机掩码处理得到掩码文本识别结果和掩码结构化信息;

将该第一训练图像、该掩码文本识别结果和该掩码结构化信息通过特征嵌入得到文本字符序列、图像图块序列和位置嵌入序列;

将该文本字符序列、该图像图块序列和该位置嵌入序列输入初始信息生成模型得到该文本字符序列中各个掩码的预测字符;

根据该预测字符与该文本字符序列中的真实字符计算损失值;

根据该损失值反向调整该初始信息生成模型的参数得到该信息生成模型。

在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于将该第一训练图像通过特征嵌入生成图像图块序列;

将该掩码文本识别结果和该掩码结构化信息通过特征嵌入得到文本字符序列;

识别该掩码文本识别结果和该掩码结构化信息中文本框的坐标位置和该文本框中对应的字符数量;

根据该字符数量将该文本框的坐标位置进行平均切分得的该文本字符序列中各个文本字符对应的二维坐标,该各个文本字符对应的二维坐标作为该位置嵌入序列。

在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于将该文本字符序列和该图像图块序列串行拼接得到第一特征向量;

将该第一特征向量与该位置嵌入序列并行拼接对齐得到目标特征向量;

将该目标特征向量输入该初始信息生成模型得到该掩码文本序列中各个掩码的预测字符。

在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于将该目标特征向量输入该初始信息生成模型的注意力层计算各个字符之间的向量距离,该向量距离用于指示两个字符之间的绝对值距离和方向距离;

根据该向量距离得到该预测字符。

在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于将该目标特征向量输入该初始信息生成模型的注意力层计算各个字符之间的欧式距离和余弦距离;

将该欧式距离和该余弦距离进行归一化处理得到归一化欧式距离和归一化余弦距离;

计算该归一化欧式距离与该归一化余弦距离的平均值得到该向量距离。

在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该初始信息生成模型为根据第二训练图像和该第二训练图像的文本识别结果预训练得到。

在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该待识别图像为体检报告单,该第一目标结构化信息为初始化的结构化信息;

该输入模块,具体用于输出该体检报告单对应的目标结构化信息,该目标结构化信息包括体检用户的姓名标签以及姓名、该体检用户的年龄标签和年龄值、该体检用户的体验项目以及体检项目对应的检测值。

本申请另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;

其中,存储器用于存储程序;

处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;

总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。

本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出,本申请实施例具有以下优点:通过生成式从该待识别图像中生成该目标结构化信息,这样可以在该待识别图像的文本识别结果出现错误时,对其进行纠错,从而提高信息处理效果。

附图说明

图1为本申请实施例中信息处理方法的一个应用系统架构示意图;

图2为本申请实施例中信息生成模型的一个预训练模型的网络结构示意图;

图2a为本申请实施例中信息生成模型的一个训练流程示意图;

图2b为本申请实施例中信息生成模型的一个测试流程示意图;

图3为本申请实施例中信息生成模型的训练方法的一个实施例示意图;

图4a为本申请实施例中文本字符序列的一个拼接示意图;

图4b为本申请实施例中字符对应的二维坐标的一个示例性方案示意图;

图5为本申请实施例中信息处理方法的一个实施例示意图;

图5a为本申请实施例中体检报告单的一个示意图;

图5b为本申请实施例中体检报告单的OCR识别结果示意图;

图5c为本申请实施例中体检报告单的结构化信息示意图;

图6为本申请实施例中信息处理装置的一个实施例示意图;

图7为本申请实施例中信息处理装置的另一个实施例示意图;

图8为本申请实施例中信息处理装置的另一个实施例示意图。

具体实施方式

本申请实施例提供了一种信息处理方法、装置、设备和存储介质,用于提高信息抽取效果。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了提高信息传递的效率,结构化文本已经成为常用的信息载体,被广泛应用于数字化和自动化的办公场景中。目前存在大量的实体文档中的信息需要被记录为电子化的结构化文本。例如,需要将大量的实体票据中的信息提取出来,并存储为结构化文本,以支持企业办公智能化。而文档抽取可以分为信息抽取和文档结构理解两个部分。以语言模型为基础的信息抽取技术已经发展到了较高水平。大规模预训练语言模型能够通过自监督任务在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效地提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,而忽视了文档本身与文本天然对齐的视觉结构信息,而且均是利用识别好的OCR结果进行信息抽取的,不支持类似表格结构的信息抽取,造成结构信息的抽取混乱。

为了解决上述问题,本申请提供如下技术方案:获取待识别图像、该待识别图像的文本识别结果和第一目标结构化信息,该第一目标结构化信息包括初始字符;将该待识别图像、该待识别图像的文本识别结果和该第一目标结构化信息输入信息生成模型得到第一预测字符,该第一预测字符和该初始字符生成第二目标结构化信息,该信息生成模型由文本字符序列、图像图块序列和位置嵌入序列训练得到,该文本字符序列、该图像图块序列和该位置嵌入序列是将训练图像、该训练图像的掩码文本识别结果和该训练图像的掩码结构化信息通过特征嵌入得到,该掩码文本识别结果是对该训练图像的文本识别结果进行随机掩码处理得到,该掩码结构化信息是对该训练图像的真实结构化信息进行随机掩码处理得到;将该待识别图像、该待识别图像的文本识别结果与该第二目标结构化信息输入该信息生成模型得到第二预测字符,该第一预测字符、该第二预测字符和该初始字符生成第三目标结构化信息;重复上述过程直至该信息生成模型得到结束符,输出该待识别图像对应的目标结构化信息。这样通过生成式从该待识别图像中生成该目标结构化信息,这样可以在该待识别图像的文本识别结果出现错误时,对其进行纠错,从而提高信息处理效果。

为了方便理解,下面对本申请中的部分名词进行说明:

文本信息:指文本所携带的信息,包括文本的语义、类别、关键词或实体对等。

文本属性信息:指一般文本的特性类型信息,比如文本信息内容的类别(例如新闻资讯、娱乐资讯等)、文本中关键词的类别(例如体育名词、乐器名词、建筑名词等)、文本的通用特性(例如句子长度、词频)等。

结构化信息:指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。其通常可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。

自然语言处理(Natural Language Processing,NLP):是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。

人工特征:通过人工构造的帮助模型进行训练的特征,例如将模型识别的文本分类信息、通过识别图片中的文字信息以及该图片对应的目标结构信息等作为特征引入模型中。

特征融合策略:将人工特征加入机器学习模型/深度学习模型的策略。

Transformer:由多对编码器和解码器对堆叠而成的模型。在Transformer模型的编码器中采用Embedding层将输入数据编码为固定长度的向量X,再将该固定长度的向量X输入多头注意力(Multi-Head Attention)模块计算注意力权重;该Multi-Head Attention模块包括多个自注意力(Self-Attention)模块,每个该Self-Attention模块输出一个加权后的特征向量。Multi-Head Attention模块由多个Self-Attention模块组成,每个Self-Attention模块会输出一个加权后的特征向量Y:获得特征向量Y后,再将其送入前馈神经网络(Feed Forward Neural Network,FFN)模块进一步编码,该模块由两层全连接层组成,第一层可以使用ReLU激活函数,第二层使用线性激活函数。其中,FFN表示前馈神经网络,该前馈神经网络包括全连接层。

BERT:全称为Bidirectional Encoder Representations fromTransformers,一种利用海量文本的语言模型训练方法,该方法被广泛用于多种自然语言处理任务,如文本分类、文本匹配、机器阅读理解等。

人工神经网络:简称神经网络(Neural Network,NN),在机器学习和认知科学领域,是一种模仿生物神经网络结构和功能的数学模型或计算模型,用于对函数进行估计或近似。

模型参数:是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中,模型参数通常是实数矩阵。

token:词单元(也称为字符),对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。

Softmax:归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。

人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

人工智能云服务,一般也被称作是AI即服务(AIas a Service,AIaaS)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务。

机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

损失函数(loss function):又被称为代价函数(cost function),是一种用于评价神经网络模型的预测值与真实值之间差异程度的函数,损失函数越小,表明神经网络模型的性能越好,模型的训练过程即通过调整模型参数,最小化损失函数的过程。对于不同的神经网络模型,所采用的损失函数也不同,常见的损失函数包括0-1损失函数、绝对值损失函数、对数损失函数、指数损失函数、感知损失函数、交叉熵损失函数等等。

光学字符识别(Optical Character Recognition,OCR):是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。光学字符识别模型(OCR)首先是对图像文档进行整体的倾斜校正,倾斜或者扭曲较大的图片会对文字识别和表格识别造成较大干扰,倾斜矫正采用高效而准确的场景文本检测(Efficient and Accuracy Scene Text,EAST)模型实现;由于在倾斜文档中各个文字的大小不一、位置不一致,而EAST模型除了抽取特征层外,还有一个特殊的特征融合层能够融合不用层次的特征,大小文字,分别利用底层和高层的语义信息。文字检测则是利用训练简单,结果易用,不需要进行太多后续复杂处理的可微分二值化网络(Differentiable Binarization Net,DBNet)模型。文字识别则是利用循环卷积神经网络(Convolutional Recurrent Neural Network,CRNN)模型,CRNN由卷积神经网络(Convolutional Neural Network,CNN)+双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)+基于神经网络的时序类分类(Connectionist Temporal Classification,CTC)结构组成。表格识别则利用Mask R-CNN实现。单个字符的图像特征包含了丰富的文字字体、字号大小、颜色等特征,是一种重要的文本信息。在大多数商业票据或者图像文档中,存在大量的表格,若按照纯文本的方法处理表格信息,将造成大量的信息缺失和混乱。

反向传播:前向传播是指模型的前馈处理过程,反向传播与前向传播相反,指根据模型输出的结果对模型各个层的权重参数进行更新。例如,模型包括输入层、隐藏层和输出层,则前向传播是指按照输入层-隐藏层-输出层的顺序进行处理,反向传播是指按照输出层-隐藏层-输入层的顺序,依次更新各个层的权重参数。

本申请实施例提供的一种信息处理方法、装置、设备及存储介质,能够提高对图像中结构化信息的识别效果。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为各种类型的用户终端,也可以实施为服务器。

电子设备通过运行本申请实施例提供的信息处理方案,能够提高对图像中结构化信息的识别效果。即提高电子设备自身对图像中结构化信息的识别效果,适用于多种应用场景。例如,简历由图片转化为结构化信息、体检报告单由图片转化为结构化信息等等。

参见图1,图1是本申请实施例提供的信息处理方案的一个应用场景下的一个可选的架构示意图,为实现支撑一个信息处理方案,终端设备100(示例性示出了终端设备1001和终端设备1002)通过网络200连接服务器300,服务器300连接数据库400,网络200可以是广域网或者局域网,又或者是二者的组合。其中用于实现信息处理方案的客户端部署于终端设备100上,其中,客户端可以通过浏览器的形式运行于终端设备100上,也可以通过独立的应用程序(application,APP)的形式运行于终端设备100上等,对于客户端的具体展现形式,此处不做限定。本申请涉及的服务器300可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备100可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等,但并不局限于此。终端设备100以及服务器300可以通过有线或无线通信方式通过网络200进行直接或间接地连接,本申请在此不做限制。服务器300和终端设备100的数量也不做限制。本申请提供的方案可以由终端设备100独立完成,也可以由服务器300独立完成,还可以由终端设备100与服务器300配合完成,对此,本申请并不做具体限定。其中,数据库400,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库管理系统(Database Management System,DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、可扩展标记语言(Extensible Markup Language,XML);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如结构化查询语言(Structured Query Language,SQL)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。在本申请中,数据库400可以用于存储训练样本以及待识别图像,当然,训练样本以及待识别图像的存储位置并不限于数据库,例如还可以存储于终端设备100、区块链或者服务器300的分布式文件系统中等。

在一些实施例中,服务器300和该终端设备100均可以执行本申请实施例提供的信息处理方法以及信息处理方法中信息生成模型的训练方法,本实施例中,该信息生成模型可以是基于LayoutLMv2预训练模型设计,该模型是一个自监督语言模型,可以在大规模语料上自监督的学习特征表示。其一个示例性结构可以如图2所示,该LayoutLMv2预训练模型的网络架构是一个多层双向transformer编码器,其可以设计为包括12层transformer,768个隐层参数,12个注意力头,总参数量约110M。该模型的输入是多种嵌入向量的融合(本申请中该多种嵌入向量包括图像图块序列、文本字符序列以及对应的位置嵌入序列)。在执行信息生成模型的训练方法时,其具体流程可以如下:从终端设备100和/或数据库400中获取获取训练样本并建立初始信息生成模型,该样本数据包括第一训练图像、该第一训练图像的文本识别结果、该第一训练图像对应的真实结构化信息;将该第一训练图像的文本识别结果和该真实结构化信息进行随机掩码处理得到掩码文本识别结果和掩码结构化信息;将该第一训练图像、该掩码文本识别结果和该掩码结构化信息通过特征嵌入得到文本字符序列、图像图块序列和位置嵌入序列;将该文本字符序列、该图像图块序列和该位置嵌入序列输入初始信息生成模型得到该文本字符序列中各个掩码的预测字符;根据该预测字符与该文本字符序列中的真实字符计算损失值;根据该损失值反向传播调整该信息生成模型的参数,从而实现对该初始信息生成模型的训练得到该信息生成模型。

可以理解的是,该信息生成模型也可以是基于StrucText等类似方案进行设计,只要可以实现本申请的技术方案即可,具体此处不再赘述。

本实施例中,在根据该损失值训练该初始信息生成模型时,可以采用优化器根据该损失值反向调整该初始信息生成模型的参数。可以理解的是,该优化器可以选择ADAM优化器,ADAM优化器是深度学习最常用的优化器之一,它基于动量计算神经网络的每个参数地自适应学习率,仅需要少量调参,从而加快模型训练效率。

在对信息生成模型训练完毕后,服务器300可以将信息生成模型保存至本地,从而为终端设备100提供远程的信息处理功能。例如,服务器300可以接收终端设备100发送的待识别图像、该待识别图像的文本识别结果和第一目标结构化信息,其中,该第一目标结构信息包括掩码开始符。然后该服务器300通过信息生成模型对待识别图像、该待识别图像的文本识别结果和第一目标结构化信息进行检测处理,得到该待识别图像对应的目标结构化信息。可以理解的是,该终端设备100可以仅向该服务器300发送该待识别图像,然后该服务器300对该待识别图像进行文本识别得到该文本识别结果,并生成该第一目标结构化信息。

本实施例中,该服务器300或者该终端设备100在对该待识别图像进行文本识别时,可以采用OCR识别也可以采用其他可能文本识别方式,具体此处不做限定。

服务器300也可以将训练完毕的信息生成模型发送(部署)至终端设备100,从而在终端设备100本地实现信息处理。例如,终端设备100可以待识别图像、该待识别图像的文本识别结果和第一目标结构化信息,其中,该第一目标结构信息包括掩码开始符,然后通过信息生成模型对待识别图像、该待识别图像的文本识别结果和第一目标结构化信息进行检测处理,得到该待识别图像对应的目标结构化信息。

基于上述描述,下面以服务器为执行主体对本申请中信息生成模型的训练流程以及测试流程进行说明:

如图2a所示的训练流程:

步骤1、服务器获取结构化标注数据。本实施例中,该结构化标注数据包括训练样本图像以及该训练样本图像对应的结构化数据,该结构化数据作为该训练样本图像的样本标注。

步骤2、该服务器对该结构化标注数据进行多模态嵌入特征提取。本实施例中,在嵌入特征提取之前,还可以对该训练样本图像和该结构化数据进行随机掩码处理;然后该服务器对经过随机掩码处理后的训练样本图像进行视觉嵌入特征提取得到图块字符序列;对经过随机掩码处理后的训练样本图像进行文本识别得到文本识别结果,并对该文本识别结果进行文本嵌入特征提取得到文本字符序列;同时对经过随机掩码处理后的结构化数据进行文本识别得到该结构化数据的文本识别结果,然后得到该结构化数据对应的文本字符序列。同时还可以获取该图块字符序列以及文本字符序列中各个字符的二维坐标,从而得到位置序列。可以理解的是该二维坐标用于指示每个字符的位置坐标。

步骤3、该服务器将该多模态特征输入到该信息生成模型中的transformer网络将多模态特征进行融合生成特征向量,然后对该特征向量通过向量距离注意力处理学习得到各个字符之间的相对位置关系。

步骤4、该服务器通过信息生成模型中的遮罩式语言模型根据学习到的各个字符之间的相对位置关系生成预测字符。然后根据预测字符与真实字符通过交叉熵损失函数计算得到损失值,并根据该损失值调整信息生成模型的参数,从而训练得到该信息生成模型。

如图2b所示的测试流程:

步骤1、服务器获取目标图像。

步骤2、服务器将该目标图像通过OCR或者其他文字识别方式进行文本识别,得到该目标图像对应的文本识别结果。

步骤3、该服务器将该目标图像和该目标图像对应的文本识别结果输入经过上述图2a所示的训练流程得到信息生成模型得到预测字符。

步骤4、将步骤3生成的预测字符作为该信息生成模型的输入,重复执行步骤3,直到该信息生成模型输出结束符或者无法生成预测字符时,结束预测过程;根据预测字符生成该目标图像对应的结构化信息。

可以理解的是,在本申请的具体实施方式中,涉及到待识别图像以及训样样本等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

结合上述介绍,下面以服务器为执行主体对本申请中信息生成模型的训练方法进行介绍,请参阅图3,本申请实施例中信息生成模型的训练方法的一个实施例包括:

301、获取第一训练图像、该第一训练图像的文本识别结果、该第一训练图像对应的真实结构化信息和初始信息生成模型。

本实施例中,该服务器获取该初始信息生成模型,并获取该第一训练图像、该第一训练图像对应的文本识别结果以及该第一训练图像对应的真实结构化信息。

可选的,该初始信息生成模型可以已训练好的预训练模型,该预训练模型与该初始信息生成模型具有相同的网络结构,如图2所示。同时该预训练模型具有已训练好的参数作为该初始信息生成模型的初始参数。

本实施例中,该第一训练图像可以通过OCR识别得到该第一训练图像的文本识别结果,而该真实结构化信息为该第一训练图像的标注。

302、将该第一训练图像的文本识别结果和该真实结构化信息进行随机掩码处理得到掩码文本识别结果和掩码结构化信息。

该服务器将训练任务设置为掩码视觉语言模型,在此训练任务中,该服务器需要将该第一训练图像的文本识别结果与该真实结构化信息以预设阈值进行随机掩码处理,即该文本识别结果与该真实结构化信息将有一定百分比的字符被掩码替换。一种示例性方案中,该预设阈值可以设置为百分之十五,则该服务器将会随机选择文本识别结果与该真实结构化信息中15%的字符位置进行随机掩码处理得到该掩码文本识别结果和该掩码结构化信息,对于这15%的字符,可以进一步的设置。比如设置这一部分字符中的80%的字符被替换为掩码,10%的字符被替换为随机的其他字,10%的字符保留原字符。而为了增加模型的学习难度,从而能更好的学习语义信息,该服务器进行掩码处理时,还可以设置为连续n个字符被进行掩码处理。而为了更好的达到训练效果,该n的取值可以设置为1至5之间的任意整数。

303、将该第一训练图像、该掩码文本识别结果和该掩码结构化信息通过特征嵌入得到文本字符序列、图像图块序列和位置嵌入序列。

该服务器将该第一训练图像进行特征嵌入处理得到多模的嵌入向量。具体如下:

该第一训练图像将通过嵌入处理得到图像图块序列。一种示例性方案中,该图像图块序列可以如图2所示,按照预设分割方式将该训练图像分为四块并进行特征嵌入处理得到四个图像图块序列,分别标记为V1、V2、V3、V4。

该第一训练图像的掩码文本识别结果和该掩码结构化信息通过特征嵌入处理得到文本字符序列。具体来说,即该服务器将该掩码文本识别结果按照文本框的顺序进行嵌入处理得到字符序列,同时也对该掩码结构化信息按照文本框的顺序进行嵌入处理得到字符序列,此时该掩码文本识别结果得到的字符序列与该掩码结构化信息得到的字符序列进行串行拼接得到该文本字符序列。一种示例性方案中,该文本字符序列可以如图4a所示,假设该掩码文本识别结果包括的两个文本框,其中文本框1中包括字符(T1、MASK、T3),文本框2包括字符(MASK、T5、T6、T7),该掩码文本识别结果对应的文本字符序列则如下:[CLS][T1][MASK][T3][MASK][T5][T6][T7][SEP]。同理,假设该掩码结构化信息的文本框中包括字符(MASK、MASK、T3、T4),则该掩码结构化信息对应的文本字符序列为[CLS][MASK][MASK][T3][T4][SEP]。两者串行拼接之后,该文本本字符序列为[CLS][T1][MASK][T3][MASK][T5][T6][T7][SEP][MASK][MASK][T3][T4][SEP]。

识别该图像图块序列中各个图块在图像中的坐标位置,作为该图像图块序列中各个图块的二维坐标;然后识别该文本字符序列中每个字符所处的文本框的坐标位置;然后根据每个文本框中的字符数量对该文本框进行平均切分得到各个字符对应的坐标位置,作为该文本字符序列中各个字符的二维坐标。此时,该二维坐标既可以标记字符顺序,也可以标记字符在原图中的位置。一个示例性方案中,该图像图块序列中的图块对应于其在原图中的位置,标记为:BOX

304、将该文本字符序列、该图像图块序列和该位置嵌入序列输入初始信息生成模型得到该文本字符序列中各个掩码的预测字符。

在得到各个嵌入向量之后,该服务器将各个嵌入向量进行拼接生成特征向量。具体来说,该服务器将该将该文本字符序列和该图像图块序列串行拼接得到第一特征向量;将该第一特征向量与该位置嵌入序列并行拼接对齐得到目标特征向量;将该目标特征向量输入该初始信息生成模型得到该掩码文本序列中各个掩码的预测字符。

本实施例中,该信息生成模型中在注意力模块中加入了相对位置偏置项,也称为Multi-modal Encoder with Spatial-Aware Self-Attention Mechanism(空间感知自注意力机制),其用于使网络能更好的学习框与框间的相对位置关系,即增强对布局的感知能力,通常相对位置的实现方式是两个框间的一维距离加二维x轴欧式距离加二维y轴欧式距离。但是欧式距离仅能标记两个框的远近,但不能标记方向。而方向对于结构化场景一般都有明显的规律,如证照中的键值对,键一般出现在值的左侧。即值只会在对应键的右侧上下位置浮动。而对于没有方向标记的相对距离,在左侧距离X处与在右侧距离X处是同样的数值。为了解决该问题,本实施例中提供了向量距离作为该注意力模块中的相对位置偏置项。此时,该服务器将该目标特征向量输入该初始信息生成模型的注意力层计算各个字符之间的欧式距离和余弦距离;然后将将该欧式距离和该余弦距离进行归一化处理得到归一化欧式距离和归一化余弦距离;计算该归一化欧式距离与该归一化余弦距离的平均值得到该向量距离。具体来说,该服务器可以根据公式D

305、根据该预测字符与该文本字符序列中的真实字符计算损失值。

在该服务器通过该初始信息生成模型预测得到掩码对应的预测字符之后,根据该预测字符与该掩码处的真实字符计算损失值。可选的,该服务器可以根据该交叉损失函数来计算该损失值。

306、根据该损失值反向调整该初始信息生成模型的参数得到该信息生成模型。

该服务器根据该损失值反射调整该初始信息生成模型的参数,直至该损失值达到收敛条件,则训练完成得到该信息生成模型。

结合上述介绍,下面以服务器为执行主体,对本申请中信息处理方法进行介绍,请参阅图5,本申请实施例中信息处理方法的一个实施例包括:

501、获取待识别图像、该待识别图像的文本识别结果和第一目标结构化信息,该第一目标结构化信息包括初始字符。

该服务器可以接收终端设备发送的该待识别图像,以及该待识别图像的文本识别结构以及该第一目标结构化信息。为了实现该目标结构化信息的生成式方案,该第一目标结构化信息的初始字符可以设置为掩码或者作为开始字符的标记。具体此处不做限定。

本实施例中,该终端设备可以通过摄像头扫描纸质文件得到PDF文件作为该待识别图像或者通过摄像头拍摄图片得到该待识别图像,具体方式此处不做限定。然后该终端设备在启动该信息处理方案后,该终端设备可以通过OCR获得该待识别图像的文本识别结果,并构建该第一目标结构化信息。这样该服务器可以减少工作量。

可选,该服务器也可以只接收到该待识别图像,然后该服务器通过OCR获得该待识别图像的文本识别结果,并构建该第一目标结构化信息。这样该终端设备可以减少工作量。

502、将该待识别图像、该待识别图像的文本识别结果和该第一目标结构化信息输入信息生成模型得到第一预测字符,该第一预测字符和该初始字符生成第二目标结构化信息。

本实施例中,该服务器将该待识别图像、该待识别图像的文本识别结果和该第一目标结构化信息进行特征嵌入处理得到特征向量;然后将该特征向量输入该信息生成模型得到第一预测字符。此时该第一目标结构化信息将由只包括一个初始字符更新至包括一个初始字符以及该第一预测字符的第二目标结构化信息。

可以理解的是,具体的特征嵌入过程可以参阅图3中的步骤303的说明,此处不再赘述。

503、将该待识别图像、该待识别图像的文本识别结果与该第二目标结构化信息输入该信息生成模型得到第二预测字符,该第一预测字符、该第二预测字符和该初始字符生成第三目标结构化信息。

本实施例中,在该服务器在得到该第二目标结构化信息之后,将该第二目标结构化信息与该待识别图像、该待识别图像的文本识别结果再次通过特征嵌入得到特征向量,并将特征向量再次输入该信息生成模型得到第二预测字符,此时该第二目标结构化信息将由包括一个初始字符和该第一预测字符更新至包括一个初始字符、该第一预测字符和该第二预测字符的第三目标结构化信息。

504、重复上述过程直至该信息生成模型得到结束符,输出该待识别图像对应的目标结构化信息。

本实施例中,重复该步骤501至步骤502,得到多个预测字符直至得到结束符,此时该第一目标结构化信息将更新迭代得到该待识别图像的最终目标结构化信息;服务器将该目标结构化信息输出。

可以理解的是,该服务器可以将该目标结构化信息发送至该终端设备,并通过该终端设备的显示器进行展示。

下面以终端设备为执行主体,以一个具体的应用场景对本申请提供的技术方案进行说明:

步骤1、该终端设备通过摄像头将用户A的体检报告单进行拍摄生成图片文件。其中,该用户A的体检报告单可以如图5a所示,包括用户姓名、用户出生年月日、用户体检项目以及各个项目的检测值。

步骤2、该终端设备启用已安装的OCR识别模型,对该图片文件进行文字识别得到如图5b所示的文本信息。

步骤3、该终端设备启用本申请中的信息生成模型并生成一个初始化的结构化信息,此时该初始化的结构信息仅包括初始字符,可以设置为[MAKS]。第一次输入为该图5a所示的图片文件、图5b所示的文本信息以及该初始化的结构化信息的初始字符,该信息生成模型的第一次输出结果为字符“姓”;第二输入为该图5a所示的图片文件、图5b所示的文本信息、该初始化的结构化信息中的初始字符以及该字符“姓”,该信息生成模型的第二次输出结果为字符“名”;依此类推,直至该信息生成模型输出结束字符,假设设置为“END”,则根据多次的输出结果生成该用户A的体检报告单对应的结构化信息,其具体情况可以如图5c所示。

下面对本申请中的信息处理装置进行详细描述,请参阅图6,图6为本申请实施例中信息处理装置的一个实施例示意图,信息处理装置20包括:

获取模块201,用于获取待识别图像、该待识别图像的文本识别结果和第一目标结构化信息,该第一目标结构化信息包括初始字符;

处理模块202,用于将该待识别图像、该待识别图像的文本识别结果和该第一目标结构化信息输入信息生成模型得到第一预测字符,该第一预测字符和该初始字符生成第二目标结构化信息,该信息生成模型由文本字符序列、图像图块序列和位置嵌入序列训练得到,该文本字符序列、该图像图块序列和该位置嵌入序列是将训练图像、该训练图像的掩码文本识别结果和该训练图像的掩码结构化信息通过特征嵌入得到,该掩码文本识别结果是对该训练图像的文本识别结果进行随机掩码处理得到,该掩码结构化信息是对该训练图像的真实结构化信息进行随机掩码处理得到;将该待识别图像、该待识别图像的文本识别结果与该第二目标结构化信息输入该信息生成模型得到第二预测字符,该第一预测字符、该第二预测字符和该初始字符生成第三目标结构化信息;重复上述过程直至该信息生成模型得到结束符;

输出模块203,用于输出该待识别图像对应的目标结构化信息。

本申请实施例中,提供了一种信息处理装置。采用上述装置,通过生成式从该待识别图像中生成该目标结构化信息,这样可以在该待识别图像的文本识别结果出现错误时,对其进行纠错,从而提高信息处理效果。

可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的信息处理装置20的另一实施例中,

该获取模块201,还用于获取第一训练图像、该第一训练图像的文本识别结果、该第一训练图像对应的真实结构化信息和初始信息生成模型;

该处理模块202,还用于将该第一训练图像的文本识别结果和该真实结构化信息进行随机掩码处理得到掩码文本识别结果和掩码结构化信息;

将该第一训练图像、该掩码文本识别结果和该掩码结构化信息通过特征嵌入得到文本字符序列、图像图块序列和位置嵌入序列;

将该文本字符序列、该图像图块序列和该位置嵌入序列输入初始信息生成模型得到该文本字符序列中各个掩码的预测字符;

根据该预测字符与该文本字符序列中的真实字符计算损失值;

根据该损失值反向调整该初始信息生成模型的参数得到该信息生成模型。

本申请实施例中,提供了一种信息处理装置。采用上述装置,输入模型的训练数据获取图像、文本以及位置的多模特征,这样可以增加特征的语义表达,使得信息生成模型的效果更精确。同时该图像对应的文本识别结果和真实结构信息进行掩码处理,使得该预测结果以字符为单位输出,这样可以在该待识别图像的文本识别结果出现错误时,对其进行纠错,从而提高信息处理效果。

可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的信息处理装置20的另一实施例中,该处理模块202,具体用于将该第一训练图像通过特征嵌入生成图像图块序列;

将该掩码文本识别结果和该掩码结构化信息通过特征嵌入得到文本字符序列;

识别该掩码文本识别结果和该掩码结构化信息中文本框的坐标位置和该文本框中对应的字符数量;

根据该字符数量将该文本框的坐标位置进行平均切分得的该文本字符序列中各个文本字符对应的二维坐标,该各个文本字符对应的二维坐标作为该位置嵌入序列。

本申请实施例中,提供了一种信息处理装置。采用上述装置,该图像以图块级进行特征提取,对文本识别结果和该真实结构化信息以字符级进行特征提取,并获取各个图块和字符的位置特征,这样可以提高特征的语义表达国,使得信息生成模型的效果更精确。同时对于每个字符或者图块增加二维坐标,不再加入一维坐标特征,这样可以使得预测长度限制解除,从而预测任意长度的数据。

可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的信息处理装置20的另一实施例中,

该处理模块202,具体用于将该文本字符序列和该图像图块序列串行拼接得到第一特征向量;

将该第一特征向量与该位置嵌入序列并行拼接对齐得到目标特征向量;

将该目标特征向量输入该初始信息生成模型得到该掩码文本序列中各个掩码的预测字符。

本申请实施例中,提供了一种信息处理装置。采用上述装置,将图块与字符进行串行拼接,将位置与该图块字符进行并行拼接并对齐,这样方便该信息生成模型对于特征模型进行处理,并预测出更好的预测字符,进而搞信息生成模型的信息处理效果。

可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的信息处理装置20的另一实施例中,

该处理模块202,具体用于将该目标特征向量输入该初始信息生成模型的注意力层计算各个字符之间的向量距离,该向量距离用于指示两个字符之间的绝对值距离和方向距离;

根据该向量距离得到该预测字符。

本申请实施例中,提供了一种信息处理装置。采用上述装置,以向量距离代替欧式距离加入预训练模型的注意力偏置项中,提高了模型相对距离的学习,增强了布局感知能力,从而对坐标偏移等困难场景有了更好的效果,从而提高信息处理效果。

可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的信息处理装置20的另一实施例中,该处理模块202,具体用于将该目标特征向量输入该初始信息生成模型的注意力层计算各个字符之间的欧式距离和余弦距离;

将该欧式距离和该余弦距离进行归一化处理得到归一化欧式距离和归一化余弦距离;

计算该归一化欧式距离与该归一化余弦距离的平均值得到该向量距离。

本申请实施例中,提供了一种信息处理装置。采用上述装置,将余弦向量作为方向距离,将欧式距离作为绝对位置距离,从而实现该向量距离综合考虑绝对位置距离和方向距离的功能。从而提高了模型相对距离的学习,增强了布局感知能力,对坐标偏移等困难场景有了更好的效果,进而提高信息处理效果。

可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的信息处理装置20的另一实施例中,该初始信息生成模型为根据第二训练图像和该第二训练图像的文本识别结果预训练得到。

本申请实施例中,提供了一种信息处理装置。采用上述装置,通过对该初始信息生成模型进行预训练,使得该初始信息生成模型可以作为一个通用的模型应用于多种应用场景下,然后再针对不同的应用场景做微调,这样可以加快信息生成模型在应用中的快速收敛,提高信息生成模型的训练效率。

可选地,在上述图6所对应的实施例的基础上,本申请实施例提供的信息处理装置20的另一实施例中,该待识别图像为体检报告单,该第一目标结构化信息为初始化的结构化信息;

该输入模块203,具体用于输出该体检报告单对应的目标结构化信息,该目标结构化信息包括体检用户的姓名标签以及姓名、该体检用户的年龄标签和年龄值、该体检用户的体验项目以及体检项目对应的检测值。

本申请实施例中,提供了一种信息处理装置。采用上述装置,在体检报告单进行数字化过程中,将该体检报告单中的各种文字以生成式的方式生成结构化信息,这样可以方便数据管理。

本申请提供的信息处理装置可用于服务器,请参阅图7,图7是本申请实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows Server

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

本申请提供的信息处理装置可用于终端设备,请参阅图8,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。在本申请实施例中,以终端设备为智能手机为例进行说明:

图8示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图8,智能手机包括:射频(radio frequency,RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity,WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解,图8中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图8对智能手机的各个构成部件进行具体的介绍:

RF电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器480处理;另外,将设计上行的数据发送给基站。通常,RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。

存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元430可包括触控面板431以及其他输入设备432。触控面板431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元440可包括显示面板441,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板441。进一步的,触控面板431可覆盖显示面板441,当触控面板431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图8中,触控面板431与显示面板441是作为两个独立的部件来实现智能手机的输入和输入功能,但是在某些实施例中,可以将触控面板431与显示面板441集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在智能手机移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路460、扬声器461,传声器462可提供用户与智能手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路460接收后转换为音频数据,再将音频数据输出处理器480处理后,经RF电路410以发送给比如另一智能手机,或者将音频数据输出至存储器420以便进一步处理。

WiFi属于短距离无线传输技术,智能手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块470,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监测。可选的,处理器480可包括一个或多个处理单元;可选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。

智能手机还包括给各个部件供电的电源490(比如电池),可选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图8所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

技术分类

06120116458625