掌桥专利:专业的专利平台
掌桥专利
首页

文档图像矫正模型的训练方法、文档图像的矫正方法

文献发布时间:2023-06-19 19:30:30


文档图像矫正模型的训练方法、文档图像的矫正方法

技术领域

本公开涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于文字识别(optical character recognition,OCR)等场景,尤其涉及一种文档图像矫正模型的训练方法、文档图像的矫正方法。

背景技术

文档矫正是通过特定的技术手段将变形(包括扭曲和褶皱等)的文档图像还原成符合书写和阅读习惯的文档图像。

随着人工神经网络的发展,在一些实施例中,可以采用人工神经网络训练得到文档图像矫正模型,以采用文档图像矫正模型对变形的文档图像进行矫正,从而得到矫正后的文档图像。

发明内容

本公开提供了一种用于文档图像矫正模型的有效性和可靠性的文档图像矫正模型的训练方法、文档图像的矫正方法。

根据本公开的第一方面,提供了一种文档图像矫正模型的训练方法,包括:

获取样本文档图像和标注文档图像,其中,所述样本文档图像为变形的文档图像,所述标注文档图像为所述样本文档图像矫正后的文档图像;

根据所述样本文档图像和所述标注文档图像,确定预测映射图,其中,所述预测映射图用于表征,所述样本文档图像与所述标注文档图像之间的位置对应关系;

构建所述预测映射图中的背景部分和文档部分各自对应的损失函数,并根据所述各自对应的损失函数训练得到文档图像矫正模型,其中,所述文档图像矫正模型用于对待矫正的变形文档图像进行矫正。

根据本公开的第二方面,提供了一种文档图像的矫正方法,包括:

获取待矫正的变形文档图像;

将所述待矫正的变形文档图像输入至文档图像矫正模型,输出目标映射图,其中,所述文档图像矫正模型是基于如第一方面所述的方法训练得到的,所述目标映射图用于表征,所述待矫正的变形文档图像、以及矫正后的文档图像之间的位置对应关系;

根据所述目标映射图和所述待矫正的变形文档图像,生成所述矫正后的文档图像。

根据本公开的第三方面,提供了一种文档图像矫正模型的训练装置,包括:

第一获取单元,用于获取样本文档图像和标注文档图像,其中,所述样本文档图像为变形的文档图像,所述标注文档图像为所述样本文档图像矫正后的文档图像;

确定单元,用于根据所述样本文档图像和所述标注文档图像,确定预测映射图,其中,所述预测映射图用于表征,所述样本文档图像与所述标注文档图像之间的位置对应关系;

构建单元,用于构建所述预测映射图中的背景部分和文档部分各自对应的损失函数;

训练单元,用于根据所述各自对应的损失函数训练得到文档图像矫正模型,其中,所述文档图像矫正模型用于对待矫正的变形文档图像进行矫正。

根据本公开的第四方面,提供了一种文档图像的矫正装置,包括:

第二获取单元,用于获取待矫正的变形文档图像;

预测单元,用于将所述待矫正的变形文档图像输入至文档图像矫正模型,输出目标映射图,其中,所述文档图像矫正模型是基于如第一方面所述的方法训练得到的,所述目标映射图用于表征,所述待矫正的变形文档图像、以及矫正后的文档图像之间的位置对应关系;

生成单元,用于根据所述目标映射图和所述待矫正的变形文档图像,生成所述矫正后的文档图像。

根据本公开的第五方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或者第二方面所述的方法。

根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或者第二方面所述的方法。

根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或者第二方面所述的方法。

本公开提供的文档图像矫正模型的训练方法、文档图像的矫正方法,包括:获取样本文档图像和标注文档图像,其中,样本文档图像为变形的文档图像,标注文档图像为样本文档图像矫正后的文档图像,根据样本文档图像和标注文档图像,确定预测映射图,其中,预测映射图用于表征,样本文档图像与标注文档图像之间的位置对应关系,构建预测映射图中的背景部分和文档部分各自对应的损失函数,并根据各自对应的损失函数训练得到文档图像矫正模型,其中,文档图像矫正模型用于对待矫正的变形文档图像进行矫正,通过确定表征样本文档图像与标注文档图像之间的位置对应关系的预测映射图,以对预测映射图中的背景部分和文档部分分别构建各自对应的损失函数,以结合各自对应的损失函数训练得到文档图像矫正模型的技术特征,既考虑了文档部分的损失情况,又考虑了背景部分的损失情况,以使得训练较为完善和全面,从而提高训练的有效性和可靠性,进而当基于训练得到的文档图像矫正模型对待矫正的变形文档图像进行矫正时,提高矫正的准确性,尤其是针对存在部分文档缺失的待矫正的变形文档图像,可以相对高度还原缺失的部分文档,进一步提高矫正的有效性和可靠性。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开实施例的矫正前后比对示意图一;

图2是根据本公开第一实施例的示意图;

图3是根据本公开第二实施例的示意图;

图4是根据本公开第三实施例的示意图;

图5是根据本公开实施例的文档图像矫正模型的训练方法的原理示意图;

图6是根据本公开第四实施例的示意图;

图7是根据本公开实施例的矫正前后比对示意图二;

图8是根据本公开实施例的矫正前后比对示意图三;

图9是根据本公开第五实施例的示意图;

图10是根据本公开第六实施例的示意图;

图11是根据本公开第七实施例的示意图;

图12是根据本公开第八实施例的示意图;

图13是根据本公开第九实施例的示意图;

图14是根据本公开第十实施例的示意图;

图15是用来实现本公开实施例的文档图像矫正模型的训练方法、文档图像的矫正方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

为便于读者对本公开地理解,现对本公开的至少部分术语解释如下:

人工神经网络(Artificial Neural Networks,ANNs),可以称为神经网络(NNs)或称作连接模型(Connection Model),是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。

OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。即,OCR可以理解为对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。

文档图像即图像格式的文档,是指通过某种方式将纸质文档等转化为图像格式的文档,以供用户电子阅读。

文档矫正是通过特定的技术手段将变形(包括扭曲和褶皱等)的文档图像还原成符合书写和阅读习惯的文档图像。

示例性的,如图1所示,以浏览图1的视角为基准,图1左侧的文档图像为变形的文档图像,相应的,通过文档矫正,可以将图1左侧的变形的文档图像,还原成如图1右侧的即矫正后的文档图像,即矫正后的文档图像为符合书写和阅读习惯的文档图像。

为了便于用户的书写和阅读习惯,文档矫正越来越成为OCR产品不可少的预处理手段。

随着人工神经网络的发展,可以采用人工神经网络训练得到文档图像矫正模型,以采用文档图像矫正模型对变形的文档图像(如图1左侧的文档图像)进行矫正,从而得到矫正后的文档图像(如图1右侧的文档图像)。

示例性的,在一些实施例中,可以采用迭代矫正方法训练得到文档图像矫正模型,迭代矫正方法包括如下步骤:

第一步骤:采集数据集,样本数据集中包括样本文档图像,样本文档图像为变形的文档图像。

其中,本实施例对样本文档图像中的数量不做限定,可以基于需求、历史记录、以及试验等方式确定。

例如,针对矫正可靠性相对较高的需求,样本文档图像的数量可以相对较多,反之,针对矫正可靠性相对较低的需求,样本文档图像的数量可以相对较少。

第二步骤:将样本文档图像输入至基础网络模型,输出预测矫正文档图像。

本实施例对基础网络模型类型和框架等不做限定,可以基于需求、历史记录、以及试验等方式确定。

第三步骤:构建预测矫正文档图像与预设标定矫正文档图像之间的损失函数,并通过损失函数进行优化迭代,得到文档图像矫正模型。

在另一些实施例中,可以采用分块矫正法对变形的文档图像进行矫正。

例如,可以将变形的文档图像划分为多个变形的图像块,针对每一变形的图像块,可以预测得到该变形的图像块的矫正后的图像块,并对各矫正后的图像块进行拼接,从而得到矫正后的文档图像。

其中,执行上述示例之前,训练得到文档图像矫正模型,以通过文档图像矫正模型完成分块矫正法对变形的文档图像的矫正,训练文档图像矫正模型的原理可以参见上述示例,此处不再赘述。

然而,采用上述分块矫正法和迭代矫正方法,训练得到的文档图像矫正模型的泛化能力较差,在边缘丢失的变形的文档图像上矫正效果相对较差,且训练得到文档图像矫正模型的步骤繁琐,推理速度相对较慢。

为了避免上述技术问题中的至少一种,本公开提供了经创造性劳动后的技术构思:确定表征样本文档图像与标注文档图像之间的位置对应关系的预测映射图,针对预测映射图中的背景部分和文档部分,构建各自对应的损失函数,如针对背景部分构建第一损失函数,针对文档部分构建第二损失函数,以结合第一损失函数和第二损失函数训练得到文档图像矫正模型。

基于上述技术构思,本公开提供一种文档图像矫正模型的训练方法、文档图像的矫正方法及装置,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景,以达到提高文档图像矫正模型的有效性和可靠性。

图2是根据本公开第一实施例的示意图,如图2所示,本公开实施例的文档图像矫正模型的训练方法包括:

S201:获取样本文档图像和标注文档图像。

其中,样本文档图像为变形的文档图像,标注文档图像为样本文档图像矫正后的文档图像。

示例性的,本实施例的执行主体可以为文档图像矫正模型的训练装置(下文简称训练装置),训练装置可以为服务器,也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片,等等,此处不再一一列举。

若训练装置为服务器,则训练装置可以为独立的服务器,也可以为服务器集群,可以为云端服务器,也可以为本地服务器,本实施例不做限定。

样本文档图像和标注文档图像为相对概念,样本文档图像为变形的文档图像,如图1所示的左侧的文档图像;标注文档图像为矫正后的文档图像,如图1所示的右侧的文档图像。

同理,本实施例对样本文档图像的数量不做限定,由于标准文档图像为对样本文档图像进行矫正后的文档图像,因此,样本文档图像与标注文档图像为一一对应关系,即一个样本文档图像对应一个标注文档图像。

关于获取样本文档图像和标注文档图像可以采用下述示例实现:

一个示例中,训练装置可以与图像采集装置连接,并接收由图像采集装置发送的样本文档图像和标注文档图像。

另一个示例中,训练装置可以提供载入图像的工具,用户可以通过该载入图像的工具将样本文档图像和标注文档图像传输至训练装置。

其中,载入图像的工具可以为用于与外接设备连接的接口,如用于与其他存储设备连接的接口,通过该接口获取外接设备传输的样本文档图像和标注文档图像;载入图像的工具也可以为显示装置,如训练装置可以在显示装置上输入载入图像功能的界面,用户可以通过该界面将样本文档图像和标注文档图像导入至训练装置,训练装置获取导入的样本文档图像和标注文档图像。

S202:根据样本文档图像和标注文档图像,确定预测映射图。

其中,预测映射图用于表征,样本文档图像与标注文档图像之间的位置对应关系。

示例性的,由于样本文档图像为变形的文档图像,标注文档图像为矫正后的文档图像,因此,相对而言,样本文档图像与标注文档图像之间存在位置上的差异。

例如,结合图1可知,样本文档图像可以理解为位置存在偏差的文档图像,标注文档图像可以理解为对存在偏差的文档图像(即样本文档图像)进行了位置纠偏的文档图像。

相应的,样本文档图像与标注文档图像之间存在位置对应关系,而该位置对应关系可以通过预测映射图表征。

本实施例对确定预测映射图的方式不做限定,例如,可以根据样本文档图像的位置信息、以及矫正文档图像的位置信息,确定预测映射图。

S203:构建预测映射图中的背景部分和文档部分各自对应的损失函数,并根据各自对应的损失函数训练得到文档图像矫正模型。

其中,文档图像矫正模型用于对待矫正的变形文档图像进行矫正。

示例性的,文档部分可以理解为前景部分。相应的,在本实施例中,在得到预测映射图之后,可以基于预测映射图中的区域是否有文档,将预测映射图分为两大部分,两大部分分别为前景部分的文档部分,以及背景部分的非文档部分。

针对文档部分和背景部分,训练装置构建文档部分的损失函数(为便于区分,将该损失函数称为第一损失函数),并构建背景部分的损失函数(同理,为便于区分,将该损失函数称为第二损失函数)。

在本实施例中,从文档部分和背景部分(即前景和背景)两个维度对预测映射图进行了拆分,且对两个维度分别构建了各自对应的损失函数,相当于,不仅考虑了文档部分的损失情况,还考虑了背景部分的损失情况,而通过考虑背景部分的损失情况,可以使得训练得到对部分文档缺失的待矫正的变形文档图像的缺失内容进行可靠还原的性能的文档图像矫正模型,即通过结合两部分损失情况训练得到文档图像矫正模型时,可以提高文档图像矫正模型训练的有效性和可靠性,且使得在部分文档丢失的情况下,文档图像矫正模型依然能够实现准确矫正。

基于上述分析可知,本公开提供了一种文档图像矫正模型的训练方法,包括:获取样本文档图像和标注文档图像,其中,样本文档图像为变形的文档图像,标注文档图像为样本文档图像矫正后的文档图像,根据样本文档图像和标注文档图像,确定预测映射图,其中,预测映射图用于表征,样本文档图像与标注文档图像之间的位置对应关系,构建预测映射图中的背景部分和文档部分各自对应的损失函数,并根据各自对应的损失函数训练得到文档图像矫正模型,其中,文档图像矫正模型用于对待矫正的变形文档图像进行矫正,在本实施例中,通过确定表征样本文档图像与标注文档图像之间的位置对应关系的预测映射图,以对预测映射图中的背景部分和文档部分分别构建各自对应的损失函数,以结合各自对应的损失函数训练得到文档图像矫正模型的技术特征,既考虑了文档部分的损失情况,又考虑了背景部分的损失情况,以使得训练较为完善和全面,从而提高训练的有效性和可靠性,进而当基于训练得到的文档图像矫正模型对待矫正的变形文档图像进行矫正时,提高矫正的准确性,尤其是针对存在部分文档缺失的待矫正的变形文档图像,可以相对高度还原缺失的部分文档,进一步提高矫正的有效性和可靠性。

为使读者更加深刻地理解本公开的实现原理,现结合图3对怎样构建文档部分和背景部分各自对应的损失函数,以基于各自对应的损失函数训练得到文档图像矫正模型进行详细阐述。其中,图3是根据本公开第二实施例的示意图,如图3所示,本公开实施例的文档图像矫正模型的训练方法包括:

S301:获取样本文档图像和标注文档图像。

其中,样本文档图像为变形的文档图像,标注文档图像为样本文档图像矫正后的文档图像。

应该理解的是,为了避免繁琐地陈述,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。

示例性的,关于S301的实现原理,可以参见S201的描述,此处不再赘述。

S302:根据样本文档图像和标注文档图像,确定预测映射图。

其中,预测映射图用于表征,样本文档图像与标注文档图像之间的位置对应关系。预测映射图包括预测值。

同理,关于S302的部分实现原理,可以参见S202的实现原理,此处不再赘述。

结合上述分析可知,预测映射图表征的为位置对应关系,因此,可以理解为,预测映射图中包括预测值,且可以通过预测值的方式表征位置对应关系。

示例性的,样本文档图像中包括N(N为大于等于1的正整数)个像素点,标注文档图像中也包括N个像素点,则预测值的数量为N个,即针对样本文档图像和标注文档图像中的表征同一对象的像素点,均有一个预测值,以通过该预测值表征该两个表征同一对象的像素点之间的位置对应关系。

其中,位置对应关系可以为坐标对应关系,如位置对应关系可以理解为:标注文档图像中表征目标对象的像素点的坐标,对应于样本文档图像中的同样表征目标对象的哪一像素点的坐标。

在一些实施例中,预测映射图可以为预测后向图,预测后向图可以用于表征,将样本文档图像中的像素点的预测坐标信息映射至标注文档图像中的像素点的标注坐标信息的坐标映射关系。

相应的,预测值可以理解为预测后向图中的值,以通过预测后向图中的预测值,表征样本文档图像中的像素点映射至标注文档图像中的像素点的坐标映射关系。

S303:根据预测映射图中文档部分的预测值、以及文档部分在标注文档图像的标注真值之间的差异信息,构建文档部分的损失函数。

其中,标注真值和预测值为相对概念,标注真值为预先标注的样本文档图像与标注文档图像之间的位置对应关系,如标注真值为预先标注的样本文本图像中表征目标对象的像素点、以及标注文档图像中表征目标对象的像素点之间的对应关系。

在一些实施例中,构建的文档部分的损失函数可以为回归函数。例如,预测映射图中包括文档部分,针对该文档部分,训练装置可以构建回归函数,以将构建的回归函数作为文档部分的损失函数。

在本实施例中,由于文档部分为样本文档图像的内容部分,是用户浏览样本文档图像时重点关注的部分,因此,通过构建回归函数,以通过回归函数相对真实可靠的表征样本文档图像的文档部分、以及标注文档图像的文档部分之间的差异,从而使得基于回归函数训练得到的文档图像矫正模型具有较高的有效性和可靠性。

在一些实施例中,回归损失函数为均方误差损失函数(mean square errorloss)、平均绝对误差损失函数(mean absolute error loss)、平滑的平均绝对误差损失函数(huber loss/smooth mean absolute error loss)、预测误差的双曲余弦的对数的损失函数(log cosh loss)、分位数损失函数(quantile loss)中的一种。

其中,均方误差损失函数,也可以称为L2损失函数,还可以称为二次损失函数(quadratic loss)。平均绝对误差损失函数,也可以称为L1损失函数。

在本实施例中,可以采用如上述任一损失函数作为回归函数,以提高构建回归函数的多样性和灵活性。

示例性的,以采用L1损失函数作为回归函数为例,可以基于式1构建回归函数L

L

其中,f

S304:确定在标注文档图像中的标注真值中,文档部分对应的归一化标注真值区间,并根据归一化标注真值区间、以及预测映射图中背景部分的预测值,构建背景部分的损失函数。

示例性,归一化真值区间为[1,-1],相应的,背景部分对应的归一化标注真值区间可以理解为除[1,-1]之外的区间。

在本实施例中,通过结合归一化标注真值区间,构建背景部分的损失函数,可以使得损失函数与归一化标注真值区间高度贴合,以使得背景部分的损失函数与背景部分的特征高度关联,从而提高构建的背景部分的损失函数的可靠性和有效性。

在一些实施例中,构建的背景部分的损失函数可以为分类函数。例如,预测映射图中包括背景部分,针对该背景部分,训练装置可以构建分类函数,以将构建的分类函数作为背景部分的损失函数。

结合上述分析可知,背景部分的归一化标注真值区间可能包括两个部分,一个部分为小于1的值,一个部分为大于1的值,因此,通过构建分类函数,以将分类函数作为背景部分的损失函数,以使得构建的背景部分的损失函数与背景部分的特征高度关联,从而提高背景部分的损失函数的有效性和可靠性。

在一些实施例中,分类函数为合页损失函数(hinge loss)、对数损失函数(logloss)、动态缩放的交叉熵损失函数(focal loss)、相对熵损失函数(kl divergence/relative entropy)、以及指数损失函数(exponential loss)中的一种。

其中,合页损失函数,也可以称为折页损失函数,还可以称为铰链损失函数。

同理,在本实施例中,可以采用如上任一损失函数作为分类函数,以提高构建分类函数的多样性和灵活性。

示例性的,以采用合页损失函数作为分类函数为例,可以基于式2构建分类函数L

其中,f

S305:根据文档部分的损失函数、以及背景部分的损失函数,训练得到文档图像矫正模型。

其中,文档图像矫正模型用于对待矫正的变形文档图像进行矫正。

示例性的,在得到回归函数和分类函数之后,可以基于回归函数和分类函数进行优化迭代,从而训练得到文档图像矫正模型。

结合上述分析可知,第二实施例为从构建损失函数的维度,对训练得到文档图像矫正模型的详细阐述。在另一些实施例中,还可以从构建预测映射图的维度对训练得到文档图像矫正模型进行落地实现。

示例性的,现结合图4对怎样确定预测映射图,以基于预测映射图训练得到文档图像矫正模型进行详细阐述。其中,图4是根据本公开第三实施例的示意图,如图4所示,本公开实施例的文档图像矫正模型的训练方法包括:

S401:获取样本文档图像和标注文档图像。

其中,样本文档图像为变形的文档图像,标注文档图像为样本文档图像矫正后的文档图像。

同理,为了避免繁琐地陈述,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。

S402:对样本文档图像进行卷积处理,得到样本文档图像的浅层图像特征。

其中,浅层图像特征中的“浅层”用于与后文中的其他图像特征(如全局注意力图像特征等)进行区分,而不能理解为对浅层图像特征的限定。浅层图像特征可以理解为,对样本文档图像进行卷积处理得到的样本文档图像的颜色、纹理、边缘、以及棱角等特征。

示例性的,如图5所示,可以将样本文档图像输入至基础网络模型,基础网络模型中包括第一卷积层(conv layer),具体可以将样本文档图像输入至基础网络模型的第一卷积层。相应的,第一卷积层对样本文档图像进行卷积处理,输出浅层图像特征。

同理,第一卷积层中的“第一”用于与后文中的其他卷积层进行区分,而不能理解为对第一卷积层的限定。

本实施例对第一卷积层的层数不做限定,例如,第一卷积的层数可以为7层。

其中,本实施例对基础网络模型的类型、框架、以及参数等不做限定。例如,基础网络模型可以为变换(transformer)神经网络模型。相应的,transformer神经网络模型中包括第一卷积层,样本文档图像输入至transformer神经网络模型中的第一卷积层之后,输出浅层图像特征。

由于第一卷积层具有卷积特性,且卷积特性中包括下采样的特性,因此,浅层图像特征的分辨率为下采样后的分辨率,如浅层图像特征的分辨率为样本文档图像的分辨率的1/8。

S403:根据浅层图像特征和标注文档图像,确定预测映射图。

其中,预测映射图用于表征,样本文档图像与标注文档图像之间的位置对应关系。

在本实施例中,浅层图像特征可以表征样本文档图像的图像特征,以当结合浅层图像特征确定预测映射图时,使得预测映射图与样本文档图像的图像特征高度关联,从而提高预测映射图的准确性。

在一些实施例中,S403可以包括如下步骤:

第一步骤:对浅层图像特征进行编码处理,得到全局注意力图像特征。

同理,全局注意力图像特征可以理解为,对浅层图像进行编码处理得到的样本文档图像的图像特征,而不能理解为对全局注意力图像特征的限定。

示例性的,结合上述分析和图5可知,基础网络模型包括编码器(encoder),第一卷积层的输出-浅层图像特征为编码器的输入,编码器对浅层图像特征进行编码处理,输出全局注意力图像特征。

同理,本实施例对编码器的数量不做限定,例如,编码器的数量为6个。

在一些实施例中,结合图5可知,编码器可以包括:自注意力(self-attention)层、全联接(feed forward)层、以及残差结构(add&norm)。本实施例对全联接层的数量、残差结构的数量均不做限定。

例如,全联接层的数量可以为5个,残差结构的数量为2个。为便于区分和理解,将编码器包括的自注意力层称为第一自注意力层,5个全联接层包括第一全联接层、第二全联接层、第三全联接层、第四全联接层、第五全联接层,残差结构包括第一残差结构和第二残差结构。

示例性的,如图5所示,浅层图像特征被分别输入至并联的第一全联接层、第二全联接层、第三全联接层,第一全联接层、第二全联接层、第三全联接层各自对应的输出结果分别作为第一自注意力层的输入,第一自注意力层的输出作为第一残差结构的输入,第一残差结构的输出依次经过2个串联的第四全联接层、第五全联接层,第五全联接层的输出作为第二残差结构的输入,第二残差结构的输出为全局注意力图像特征。

在一些实施例中,全局注意力图像特征还可以用于表征,样本文档图像中各像素点之间的相互关系,如样本文档图像中各像素点在空间位置上的相互关系。其中,位置空间可以理解为坐标。

第二步骤:根据全局注意力图像特征和标注文档图像,确定预测映射图。

在本实施例中,相对浅层图像特征而言,全局注意力图像特征具有全局注意力特征,相对更能准确和可靠的表征样本文档图像的图像特征,因此,通过结合全局注意力图像特征确定预测映射图,可以提高预测映射图的有效性和可靠性。

在一些实施例中,第二步骤可以包括如下子步骤:

第一子步骤:根据预设的初始化学习向量,对全局注意力图像特征进行解码处理,得到预测初始坐标偏移量。

其中,预测初始坐标偏移量为,样本文档图像中的像素点相当于标注文档图像中的坐标点的坐标的偏移量。

示例性的,结合上述分析,预测映射图可以为预测后向图,预测后向图为预测得到的,样本文档图像中的像素点映射至标注文档图像中的像素点的坐标映射关系。

相应的,初始化学习向量(learnable embedding)可以理解为,样本文档图像中的像素点映射至标注文档图像中的像素点的坐标映射关系的初始化值。

示例性的,结合上述分析和图5可知,基础网络模型包括解码器(decoder),编码器的输出-全局注意力图像特征为解码器的输入,且解码器的输入还包括初始化学习向量,解码器根据初始化学习向量对全局注意力图像特征进行解码处理,输出预测初始坐标偏移量。

同理,本实施例对解码器的数量不做限定,例如,解码器的数量也可以为6个。

在一些实施例中,结合图5可知,解码器包括:自注意力层、交叉注意力(cross-attention)层、全联接层、以及残差结构,且残差结构的数量可以为2个。

同理,为了便于区分和理解,将解码器包括的自注意力层称为第二自注意力层,解码器包括的全联接层称为第六全联接层,解码器包括的残差结构称为第三残差结构和第四残差结构。

示例性的,初始化学习向量为第二自注意力层的输入,第二自注意力层的输出作为第三残差结构的输入,第三残差结构的输出、以及全局注意力图像特征分别作为交叉注意力层的输入,交叉注意力层的输出作为第六全联接层的输入,第六全联接层的输出作为第四残差结构的输入,第四残差结构的输出为预测初始坐标偏移量。

第二子步骤:根据预测初始坐标偏移量和标注文档图像,确定预测映射图。

在本实施例中,预测初始坐标偏移量为,样本文档图像中的像素点相当于标注文档图像中的坐标点的坐标的偏移量,通过结合该坐标的偏移量确定预测映射图,可以使得预测映射图与像素点的坐标在矫正前后的区别高度贴合,从而使得预测映射图具有较高的有效性和可靠性。

在一些实施例中,第二子步骤可以包括如下细化步骤:

第一细化步骤:对预测初始坐标偏移量分别进行第一卷积处理和第二卷积处理,得到第一卷积处理对应的预测特征图、以及第二卷积处理对应的预测掩膜图。

其中,预测特征图为预测目标坐标偏移量,即预测特征图的本质还是坐标偏移量,只是相对而言,预测特征图为对预测初始坐标偏移量进行了卷积处理后的坐标偏移量。预测掩膜图为预测特征图对应的权重矩阵。

应该理解的是,第一卷积处理和第二卷积处理只是用于说明,对预测初始坐标偏移量分别进行卷积处理,得到各卷积处理各自对应的卷积结果,而不能理解为对第一卷积处理和第二卷积处理的限定。

也就是说,本实施例对第一卷积处理和第二卷积处理的方式不做限定,可以得到预测特征图和预测掩膜图即可。

示例性的,结合上述分析和图5可知,基础网络模型还包括第二卷积层和第三卷积层,第二卷积层和第三卷积层的输入均为预测初始坐标偏移量(即第四残差结构的输出),第二卷积层的输入为预测特征图,第三卷积层的输出为预测掩膜图。

第二细化步骤:根据预测特征图、预测掩膜图、以及标注文档图像,确定预测映射图。

在本实施例中,预测特征图为预测目标坐标偏移量,即相当于预测初始坐标偏移量,预测目标坐标偏移量的准确性相对更高,预测掩膜图表征权重矩阵,因此,通过结合预测特征图和预测掩膜图确定预测映射图,可以提高预测映射图的可靠性和准确性。

在一些实施例中,第二细化步骤可以包括如下详细步骤:

第一详细步骤:对预测特征图和预测掩膜图进行卷积处理,得到卷积处理结果,并对卷积处理结果进行矩阵变换处理,得到样本文档图像中像素点的预测坐标信息。

同理,预测坐标信息中的“预测”,用于与后文中的其他坐标信息(如标注坐标信息)进行区分,表征的是该坐标信息为中间结果,而不能理解为对预测坐标信息的限定。预测坐标信息可以理解为,对卷积处理结果进行矩阵变换处理而得到的样本文档图像中像素点的坐标信息。

示例性的,结合上述分析和图5可知,基础网络模型还包括第四卷积层和矩阵变换处理(reshape)层。或者,基础网络模型可以包括上采样(upsampler)模块,上采样模块中可以包括第四卷积层和矩阵变换处理(reshape)层。

其中,第四卷积层的输入为预测特征图和预测掩膜图,第四卷积层将预测掩膜图作为第四卷积层的卷积参数(如卷积权重),与预测特征图进行卷积处理,输出卷积处理结果。

矩阵变换处理层的输入为卷积处理结果,输出为预测坐标信息。矩阵变换处理层的实现原理本实施例不做限定,可以参见相关技术中,此处不再赘述。

第二详细步骤:获取像素点在标注文档图像中的标注坐标信息。

第三详细步骤:根据预测坐标信息和标注坐标信息,生成预测后向图。其中,预测映射图包括预测后向图。

示例性的,标注坐标信息可以理解为绝对坐标,如像素点在标注文档图像中的坐标。在像素点的预测坐标信息的基础上加上绝对坐标,得到预测后向图。

相应的,如图5所示,根据预测坐标信息和标注坐标信息,可以输出预测后向图。

结合上述示例可知,浅层图像特征的分辨率为样本文档图像的分辨率的1/8,而第四卷积层基于其卷积特性中的上采样特性,可以使得预测掩膜图为恢复至与样本文档图像的分辨率的图。因此,得到的预测后向图与样本文档图像具有相同分辨率。

应该理解的是,图5所述的基础网络模型的组成部分,只是用于示范性的说明,基础网络模型可能的结构,而不能理解为对基础网络模型的限定。

示例性的,在一些实施例中,基础网络模型可以仅包括如图5中所示的部分结构,在另一些实施例中,基础网络模型在包括如图5所示的组成部分的基础上,还可以包括其他的组成部分,在还一些实施例中,基础网络模型还可以在上述技术原理的基础上,适应性的变形,将其中的部分结构替换为其他结构,等等,此处不再一一列举。

且关于基础网络模型中的组成部分的参数,本实施例不做限定,例如,对基础网络模型中的各卷积层的卷积核数量不做限定,等等,此处不再一一列举。

在本实施例中,依次通过卷积处理、矩阵变换处理,得到预测坐标信息,以结合预测坐标信息和标注坐标信息生成预测后向图,以通过预测后向图可靠地表征预测坐标信息与标注坐标信息之间的坐标映射关系。

S404:构建预测映射图中的背景部分和文档部分各自对应的损失函数,并根据各自对应的损失函数训练得到文档图像矫正模型。

其中,文档图像矫正模型用于对待矫正的变形文档图像进行矫正。

同理,关于S404的实现原理,可以参见S203的描述,也可以参见S303-S304的描述,此处不再赘述。

示例性的,结合上述示例和图5,基于各自对应的损失函数的迭代优化的过程,可以理解为对初始化学习向量不断调整的过程,以通过迭代优化后的初始化学习向量,训练基础网络模型输出与标注文档图像的标注后向图高度相似的预测后向图的能力,从而得到文档图像矫正模型。

例如,若预测映射图为预测后向图,则标注文档图像具有标注后向图,标注后向图为预测后向图对应的真值。

值得说明的是,结合上述分析和图5可知,基础网络模型可以为transformer神经网络模型,且通过结合上述实施例的训练方案,可以实现端到端的文档图像矫正模型的训练,“端到端”可以理解为在训练过程中,无需引入其他的网络模型,避免了繁琐的预处理和后处理,实现了节约训练资源和训练损耗,提高训练的便捷性和可靠性。

应该理解的是,上述第一、第二、第三实施例只是示例性的,从不同的维度对本公开的文档图像矫正模型的训练方法进行示范性地阐述,而不能理解为对实施例的具体实现的限定。例如,可以将上述实施例中的至少部分技术特征进行组合,得到新的实施例;也可以抽取上述实施例中的部分技术特征得到新的实施例;也可以将上述实施例中的至少部分技术特征进行替换,得到新的实施例,等等,此处不再一一列举。

基于上述分析可知,采用上述实施例训练得到的文档图像矫正模型具有较高的可靠性和有效性,尤其当本实施例的文档图像矫正模型应用于存在部分文档缺失的场景中,可以高度还原缺失的部分文档,进一步提高矫正的有效性和可靠性。

为了便于读者理解对文档图像矫正模型的应用原理,现结合图6对文档图像的矫正方法的实现原理进行阐述。其中,图6是根据本公开第四实施例的示意图,如图6所示,本公开实施例的文档图像的矫正方法包括:

S601:获取待矫正的变形文档图像。

示例性的,本实施例的执行主体可以为文档图像的矫正装置(下文简称矫正装置),矫正装置可以为与训练装置相同的装置,也可以为与训练装置不同的装置,本实施例不做限定。

例如,若矫正装置为与训练装置相同的装置,则可以理解为,基于训练装置完成文档图像矫正模型的训练之后,可以基于训练装置应用文档图像矫正模型对待矫正的变形文档图像进行矫正。

若矫正装置为与训练装置不同的装置,则矫正装置与训练装置之间具有通信链路,在训练装置基于如上任一实施例所述的训练方法训练得到文档图像矫正模型之后,基于该通信链路将文档图像矫正模型传输给矫正装置,相应的,矫正装置可以基于文档图像矫正模型对待矫正的变形文档图像进行矫正,得到矫正后的文档图像。

例如,如图7所示,以浏览图7的视角为基准,图7左侧的文档图像为获取到的待矫正的变形文档图像。

又如,如图8所示,以浏览图8的视角为基准,图8左侧的文档图像为获取到的待矫正的变形文档图像。

S602:将待矫正的变形文档图像输入至文档图像矫正模型,输出目标映射图。

其中,文档图像矫正模型是基于如上任一实施例所述的方法训练得到的,目标映射图用于表征,待矫正的变形文档图像、以及矫正后的文档图像之间的位置对应关系。

同理,目标映射图中的“目标”用于与其他映射图进行区分,如用于与预测映射图进行区分,而不能理解为对目标映射图的限定。

结合上述示例和图7可知,可以将如图7左侧的待矫正的变形文档图像输入至文档图像矫正模型。

同理,结合上述示例和图8可知,可以将如图8左侧的待矫正的变形文档图像输入至文档图像矫正模型。

S603:根据目标映射图和待矫正的变形文档图像,生成矫正后的文档图像。

结合上述示例和图7可知,待矫正的变形文档图像为如图7右侧的矫正后的文档图像。

如图7所示,图7左侧的待矫正的变形文档图像的左下角边缘存在缺失,而矫正后的文档图像为如图7右侧的还原了边缘缺失的文档图像。

同理,结合上述示例和图8可知,待矫正的变形文档图像为如图8右侧的矫正后的文档图像。

如图8所示,图8左侧的待矫正的变形文档图像的左下角边缘和右下角边缘均存在缺失,而矫正后的文档图像为如图8右侧的还原了边缘缺失的文档图像。

结合上述分析可知,由于文档图像矫正模型具有较高的可靠性和有效性,且可以有效还原部分文档丢失的内容,即便是在待矫正的变形文档图像的边缘缺失的情况下,依然也能得到准确可靠的矫正后的文档图像,提高了用户的视觉体验。

为使读者更加深刻地理解本公开的实现原理,现结合图9对文档图像的矫正方法的实现原理进行阐述。其中,图9是根据本公开第五实施例的示意图,如图9所示,本公开实施例的文档图像的矫正方法包括:

S901:获取待矫正的变形文档图像。

为了避免繁琐地陈述,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。

示例性的,关于S901的实现原理,可以参见S601的描述,此处不再赘述。

S902:将待矫正的变形文档图像输入至文档图像矫正模型,以基于文档图像矫正模型对待矫正的变形文档图像进行卷积处理,得到目标浅层图像特征。

其中,文档图像矫正模型是基于如上任一实施例所述的方法训练得到的。

同理,目标浅层图像特征中的“目标”用于与训练阶段的浅层图像特征进行区分,而不能理解为对目标浅层图像特征的限定。

示例性的,结合上述分析和图5可知,文档图像矫正模型包括第一卷积层,因此,该步骤可以理解为,将待矫正的变形文档图像输入至第一卷积层,以便第一卷积层对待矫正的变形文档图像进行卷积处理,输入目标浅层图像特征。

S903:基于文档图像矫正模型对目标浅层图像特征进行编码处理,得到目标全局注意力图像特征。

同理,目标全局注意力图像特征的“目标”用于与训练阶段的全局注意力图像特征进行区分,而不能理解为对全局注意力图像特征的限定。

示例性的,结合上述分析和图5可知,文档图像矫正模型包括编码器,因此,该步骤可以理解为,将目标浅层图像特征输入至编码器,以便编码器对目标浅层图像特征进行编码处理,输出目标全局注意力图像特征。

相应的,关于编码器具体确定目标全局注意力图像特征的实现原理,可以参见图5以及上述实施例中针对图5所示的实施例的描述,此处不再赘述。

S904:基于文档图像矫正模型对目标全局注意力图像特征进行解码处理,得到初始坐标偏移量。

其中,初始坐标偏移量用于表征,待矫正的变形文档图像中的像素点相当于矫正后的文档图像中的像素点的坐标的偏移量。

同理,初始坐标偏移量中的“初始”用于与训练阶段的预测初始坐标偏移量进行区分,而不能理解为对初始坐标偏移量的限定。

示例性的,结合上述分析和图5可知,文档图像矫正模型包括解码器,因此,该步骤可以理解为,将目标全局注意力图像特征输入至解码器,以便解码器对目标全局注意力图像特征进行编码处理,输出初始坐标偏移量。

相应的,关于解码器具体确定初始坐标偏移量的实现原理,可以参见图5以及上述实施例中针对图5所示的实施例的描述,此处不再赘述。

例如,在本实施例中,图5中所示的“初始化学习向量”为迭代优化后的初始化学习向量,以对迭代优化后的初始化学习向量、以及目标全局注意力图像特征进行解码处理,得到初始坐标偏移量。

S905:基于文档图像矫正模型对初始坐标偏移量分别进行第一卷积处理和第二卷积处理,得到第一卷积处理对应的目标特征图、以及第二卷积处理对应的目标掩膜图。

其中,目标特征图用于表征目标坐标偏移量,目标掩膜图用于表征,目标特征图对应的权重矩阵。

示例性的,结合上述分析和图5可知,文档图像矫正模型包括第二卷积层和第三卷积层,因此,该步骤可以理解为,将初始坐标偏移量输入至第一卷积层,输出目标特征图,将初始坐标偏移量输入至第二卷积层,输出目标掩膜图。

同理,第二卷积层、第三卷积层、目标特征图、目标掩膜图的描述,可以参见图5以及上述实施例中针对图5所示的实施例的描述,此处不再赘述。

S906:基于文档图像矫正模型对目标特征图和目标掩膜图进行卷积处理,得到目标卷积处理结果,并对目标卷积处理结果进行矩阵变换处理,得到目标预测坐标信息。

示例性的,结合上述分析和图5可知,文档图像矫正模型包括第四卷积层和矩阵变换处理层,因此,该步骤可以理解为,将目标特征图和目标掩膜图输入至第四卷积层,输出目标卷积处理结果,将目标卷积处理结果输入至矩阵变换处理层,输出目标预测坐标信息。

同理,第四卷积层、矩阵变换处理层、目标卷积处理结果、目标预测坐标信息的描述,可以参见图5以及上述实施例中针对图5所示的实施例的描述,此处不再赘述。

S907:基于文档图像矫正模型对目标预测坐标信息、以及待矫正的变形文档图像中的像素点的坐标信息进行加法运算处理,得到目标后向图。

其中,目标映射图包括目标后向图,目标后向图用于表征,待矫正的变形文档图像中的像素点的目标预测坐标信息映射至矫正后的文档图像中的像素点的坐标信息的坐标映射关系。

S908:获取待矫正的变形文档图像中第一像素点的第一颜色值。

同理,第一像素点中的“第一”用于与后文中的其他像素点进行区分,如用于与后文中的第二像素点进行区分,而不能理解为对第一像素点的限定。第一像素点可以理解为待矫正的变形文档图像中的像素点。

第一颜色值中的“第一”用于与后文中的其他颜色值进行区分,如用于与后文中的第二颜色值进行区分,而不能理解为对第一颜色值的限定。第一颜色值可以理解为待矫正的变形文档图像中的像素点的颜色值.

其中,颜色值也称为RGB值,包括:红色(red,R)值、绿色(green,G)值、以及蓝色(blue,B)。

相应的,待矫正的变形文档图像中的像素点的数量为多个,则第一像素点的数量为多个,一个第一像素点对应一个第一RGB值。

S909:根据目标后向图和第一颜色值,构建矫正后的文档图像。

在本实施例中,通过结合第一颜色值确定矫正后的文档图像,可以使得矫正后的文档图像在颜色值维度上与待矫正的变形文档图像具有高度一致性,从而使得矫正后的文档图像具有较高的可靠性和有效性。

在一些实施例中,S909可以包括如下步骤:

第一步骤:根据目标后向图、以及待矫正的变形文档图像中第一像素点的第一位置信息,确定矫正后的文档图像中第二像素点的第二位置信息。

其中,第一像素点与第二像素点为表征相同对象的像素点。

同理,第一位置信息和第二位置信息为相对概念。第一像素点在待矫正的变形文档图像中具有位置信息,为便于区分,将该位置信息称为第一位置信息;第二像素点在矫正后的文档图像中具有位置信息,为便于区分,将该位置信息称为第二位置信息。

由于目标后向图用于表征,待矫正的变形文档图像中的像素点的目标预测坐标信息映射至矫正后的文档图像中的像素点的坐标信息的坐标映射关系,因此,在第一位置信息已知的情况下,可以结合第一位置信息和目标后向图确定第二位置信息,以确定矫正后的文档图像中的像素点的坐标。

第二步骤:根据第一颜色值确定第二像素点的第二颜色值。

其中,矫正后的文档图像中包括第二像素点,第二像素点具有第二位置信息和第二颜色值。

示例性的,可以将第一像素值迁移至第二像素点,以得到第二像素点的第二颜色值。

结合上述分析可知,第二位置信息表征的为坐标维度的内容,第二颜色值表征的为RGB值维度的内容,通过结合两个维度确定矫正后的文档图像,可以使得矫正后的文档具有较高的有效性和可靠性。

同理,第五实施例只是用于示范性地说明,文档图像的矫正方法可能的实施例,而不能理解为对文档图像的矫正方法的限定,例如,在另一些实施例中,可以抽取第五实施例中的部分技术特征得到新的实施例,也可以在第五实施例的基础上增加新的技术特征得到新的实施例,等等,此处不再一一列举。

图10是根据本公开第六实施例的示意图,如图10所示,本公开实施例的文档图像矫正模型的训练装置1000,包括:

第一获取单元1001,用于获取样本文档图像和标注文档图像,其中,所述样本文档图像为变形的文档图像,所述标注文档图像为所述样本文档图像矫正后的文档图像。

确定单元1002,用于根据所述样本文档图像和所述标注文档图像,确定预测映射图,其中,所述预测映射图用于表征,所述样本文档图像与所述标注文档图像之间的位置对应关系。

构建单元1003,用于构建所述预测映射图中的背景部分和文档部分各自对应的损失函数。

训练单元1004,用于根据所述各自对应的损失函数训练得到文档图像矫正模型,其中,所述文档图像矫正模型用于对待矫正的变形文档图像进行矫正。

图11是根据本公开第七实施例的示意图,如图11所示,本公开实施例的文档图像矫正模型的训练装置1100,包括:

第一获取单元1101,用于获取样本文档图像和标注文档图像,其中,所述样本文档图像为变形的文档图像,所述标注文档图像为所述样本文档图像矫正后的文档图像。

确定单元1102,用于根据所述样本文档图像和所述标注文档图像,确定预测映射图,其中,所述预测映射图用于表征,所述样本文档图像与所述标注文档图像之间的位置对应关系。

结合图11可知,在一些实施例中,确定单元1102,包括:

第一卷积子单元11021,用于对所述样本文档图像进行卷积处理,得到所述样本文档图像的浅层图像特征。

确定子单元11022,用于根据所述浅层图像特征和所述标注文档图像,确定所述预测映射图。

在一些实施例中,确定子单元11022,包括:

第一编码模块,用于对所述浅层图像特征进行编码处理,得到全局注意力图像特征;

第一确定模块,用于根据所述全局注意力图像特征和所述标注文档图像,确定所述预测映射图。

在一些实施例中,第一确定模块,包括:

第一解码子模块,用于根据预设的初始化学习向量,对所述全局注意力图像特征进行解码处理,得到预测初始坐标偏移量,其中,所述预测初始坐标偏移量用于表征,所述样本文档图像中的像素点相当于所述标注文档图像中的像素点的坐标的偏移量。

确定子模块,用于根据所述预测初始坐标偏移量和所述标注文档图像,确定所述预测映射图。

在一些实施例中,确定子模块用于,对所述预测初始坐标偏移量分别进行第一卷积处理和第二卷积处理,得到所述第一卷积处理对应的预测特征图、以及所述第二卷积处理对应的预测掩膜图,其中,所述预测特征图用于表征预测目标坐标偏移量,所述预测掩膜图用于表征所述预测特征图对应的权重矩阵,并根据所述预测特征图、所述预测掩膜图、以及所述标注文档图像,确定所述预测映射图。

在一些实施例中,确定子模块用于,对所述预测特征图和所述预测掩膜图进行卷积处理,得到卷积处理结果,并对所述卷积处理结果进行矩阵变换处理,得到所述样本文档图像中像素点的预测坐标信息,获取所述像素点在所述标注文档图像中的标注坐标信息,并根据所述预测坐标信息和所述标注坐标信息,生成预测后向图,其中,所述预测映射图包括所述预测后向图,所述预测后向图用于表征,所述样本文档图像中的像素点的预测坐标信息映射至所述标注文档图像中的像素点的标注坐标信息的坐标映射关系。

构建单元1103,用于构建所述预测映射图中的背景部分和文档部分各自对应的损失函数。

在一些实施例中,预测映射图包括预测值;结合图11可知,构建单元1103,包括:

第一构建子单元11031,用于根据所述预测映射图中所述文档部分的预测值、以及所述文档部分在所述标注文档图像的标注真值之间的差异信息,构建所述文档部分的损失函数。

确定子单元11032,用于确定在所述标注文档图像中的标注真值中,所述文档部分对应的归一化标注真值区间。

第二构建子单元11033,用于根据所述归一化标注真值区间、以及所述预测映射图中所述背景部分的预测值,构建所述背景部分的损失函数。

在一些实施例中,各自对应的损失函数包括:所述背景部分的分类函数、所述文档部分的回归函数。

在一些实施例中,分类函数为合页损失函数、对数损失函数、动态缩放的交叉熵损失函数、相对熵损失函数、以及指数损失函数中的一种;

所述回归损失函数为均方误差损失函数、二次损失函数、平均绝对误差损失函数、平滑的平均绝对误差损失函数、预测误差的双曲余弦的对数的损失函数、分位数损失函数中的一种。

训练单元1104,用于根据所述各自对应的损失函数训练得到文档图像矫正模型,其中,所述文档图像矫正模型用于对待矫正的变形文档图像进行矫正。

图12是根据本公开第八实施例的示意图,如图12所示,本公开实施例的文档图像的矫正装置1200,包括:

第二获取单元1201,用于获取待矫正的变形文档图像。

预测单元1202,用于将所述待矫正的变形文档图像输入至文档图像矫正模型,输出目标映射图,其中,所述文档图像矫正模型是基于如上任一实施例所述的文档矫正模型的训练方法训练得到的,所述目标映射图用于表征,所述待矫正的变形文档图像、以及矫正后的文档图像之间的位置对应关系。

生成单元1203,用于根据所述目标映射图和所述待矫正的变形文档图像,生成所述矫正后的文档图像。

图13是根据本公开第九实施例的示意图,如图13所示,本公开实施例的文档图像的矫正装置1300,包括:

第二获取单元1301,用于获取待矫正的变形文档图像。

预测单元1302,用于将所述待矫正的变形文档图像输入至文档图像矫正模型,输出目标映射图,其中,所述文档图像矫正模型是基于如上任一实施例所述的文档矫正模型的训练方法训练得到的,所述目标映射图用于表征,所述待矫正的变形文档图像、以及矫正后的文档图像之间的位置对应关系。

在一些实施例中,结合图13可知,预测单元1302,包括:

第二卷积子单元13021,用于基于所述文档图像矫正模型对所述待矫正的变形文档图像进行卷积处理,得到目标浅层图像特征。

预测子单元13022,用于基于所述文档图像矫正模型对所述目标浅层图像特征进行预测,得到所述目标映射图。

在一些实施例中,预测子单元13022,包括:

第二编码模块,用于基于所述文档图像矫正模型对所述目标浅层图像特征进行编码处理,得到目标全局注意力图像特征。

预测模块,用于基于所述文档图像矫正模型对所述目标全局注意力图像特征进行预测,得到所述目标映射图。

在一些实施例中,预测模块,包括:

第二解码子模块,用于基于所述文档图像矫正模型对所述目标全局注意力图像特征进行解码处理,得到初始坐标偏移量,其中,所述初始坐标偏移量用于表征,所述待矫正的变形文档图像中的像素点相当于所述矫正后的文档图像中的像素点的坐标的偏移量。

预测子模块,用于基于所述文档图像矫正模型对所述初始坐标偏移量进行预测,得到所述目标映射图。

在一些实施例中,预测子模块用于,基于所述文档图像矫正模型对所述初始坐标偏移量分别进行第一卷积处理和第二卷积处理,得到所述第一卷积处理对应的目标特征图、以及所述第二卷积处理对应的目标掩膜图,其中,所述目标特征图用于表征目标坐标偏移量,所述目标掩膜图用于表征,所述目标特征图对应的权重矩阵,并基于所述文档图像矫正模型对所述目标特征图和所述目标掩膜图进行预测,得到所述目标映射图。

在一些实施例中,预测子模块用于,基于所述文档图像矫正模型对所述目标特征图和所述目标掩膜图进行卷积处理,得到目标卷积处理结果,并对所述目标卷积处理结果进行矩阵变换处理,得到目标预测坐标信息,并基于所述文档图像矫正模型对所述目标预测坐标信息、以及所述待矫正的变形文档图像中的像素点的坐标信息进行加法运算处理,得到目标后向图。

其中,所述目标映射图包括所述目标后向图,所述目标后向图用于表征,所述待矫正的变形文档图像中的像素点的目标预测坐标信息映射至所述矫正后的文档图像中的像素点的坐标信息的坐标映射关系。

生成单元1303,用于根据所述目标映射图和所述待矫正的变形文档图像,生成所述矫正后的文档图像。

在一些实施例中,结合图13可知,生成单元1303,包括:

获取子单元13031,用于获取所述待矫正的变形文档图像中第一像素点的第一颜色值;

第三构建子单元13032,用于根据所述目标映射图和所述第一颜色值,构建所述矫正后的文档图像。

在一些实施例中,第三构建子单元13032,包括:

第二确定模块,用于根据所述目标映射图、以及所述待矫正的变形文档图像中第一像素点的第一位置信息,确定所述矫正后的文档图像中第二像素点的第二位置信息。

第三确定模块,用于根据所述第一颜色值确定所述第二像素点的第二颜色值。

其中,所述矫正后的文档图像中包括所述第二像素点,所述第二像素点具有所述第二位置信息和所述第二颜色值。

图14是根据本公开第十实施例的示意图,如图14所示,本公开中的电子设备1400可以包括:处理器1401和存储器1402。

存储器1402,用于存储程序;存储器1402,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器1402用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器1402中。并且上述的计算机程序、计算机指令、数据等可以被处理器1401调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器1402中。并且上述的计算机程序、计算机指据等可以被处理器1401调用。

处理器1401,用于执行存储器1402存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器1401和存储器1402可以是独立结构,也可以是集成在一起的集成结构。当处理器1401和存储器1402是独立结构时,存储器1402、处理器1401可以通过总线1403耦合连接。

本实施例的电子设备可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示,设备1500包括计算单元1501,其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序,来执行各种适当的动作和处理。在RAM 1503中,还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505,包括:输入单元1506,例如键盘、鼠标等;输出单元1507,例如各种类型的显示器、扬声器等;存储单元1508,例如磁盘、光盘等;以及通信单元1509,例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理,例如文档图像矫正模型的训练方法、文档图像的矫正方法。例如,在一些实施例中,文档图像矫正模型的训练方法、文档图像的矫正方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时,可以执行上文描述的文档图像矫正模型的训练方法、文档图像的矫正方法的一个或多个步骤。备选地,在其他实施例中,计算单元1501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档图像矫正模型的训练方法、文档图像的矫正方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术分类

06120115930431