掌桥专利:专业的专利平台
掌桥专利
首页

一种扫描文件快速转化矢量版式文件的方法及系统

文献发布时间:2024-04-18 19:58:30


一种扫描文件快速转化矢量版式文件的方法及系统

技术领域

本发明涉及数据压缩技术领域,具体涉及一种扫描文件快速转化矢量版式文件的方法及系统。

背景技术

版式文件是指在文档中的所有文本数据按照一定的格式进行组合和排列的文件。例如公开性的红头文件,这些文件通常包含大量的文本和格式化信息,若要将该红头文件进行公布时,展示的为扫描文件,当该文件被放大时则会出现噪点、失真的情况,无法实现纸质文件到电子文件的完整转换。因此,在对版式文件进行存储传输时需要对版式文件进行矢量化处理。

传统的对版式文件进行矢量化处理,在对矢量数据进行存储时,需要存储每一个矢量数据的坐标位置信息来描述矢量数据的位置和形状,导致矢量版式文件数据会变得非常大,而大型矢量文件数据在存储时的数据量过大,占用了大量的存储空间,故需要对矢量文件数据的坐标位置信息进行压缩处理,以节省存储空间,从而减少传输带宽,提升传输效率,但是由于矢量板式文件中文本部分通常包含大量的复杂多边形,因此传统的矢量数据压缩方法无法对矢量板式文件进行良好的压缩。

发明内容

本发明提供一种扫描文件快速转化矢量版式文件的方法及系统,以解决现有的问题:矢量版式文件所占用的数据量过大,不利于矢量数据的存储与传输。

本发明的一种扫描文件快速转化矢量版式文件的方法及系统采用如下技术方案:

本发明一个实施例提供了一种扫描文件快速转化矢量版式文件的方法,该方法包括以下步骤:

获取矢量版式文件二维矩阵以及目标数据点;

根据矢量版式文件二维矩阵获取目标子区域;获取目标子区域中任意目标数据点到另一个目标数据点的位置信息数据;

根据目标子区域中任意目标数据点到另一个目标数据点的位置信息数据,获取每个目标子区域中所有位置信息组,以及每个位置信息组的起始数据点;根据每个目标子区域中所有位置信息组获取位置信息集合;计算位置信息集合的优选程度;

根据位置信息集合的优选程度以及每个位置信息组的起始数据点,获取每个目标子区域的压缩起始点;

根据每个目标子区域的压缩起始点获取矢量版式文件的压缩结果。

优选的,所述获取矢量版式文件二维矩阵以及目标数据点,包括的具体方法为:

通过文件扫描仪,扫描纸质文件,得到扫描文件矩阵,利用光学字符识别技术获取扫描文件中文本的具体位置;将扫描文件矩阵中文本位置处的数据点的数据值置为1,并记为目标数据点;扫描文件矩阵中不是文本位置处的数据点的数据值置为0,并记为空白数据点;得到矢量版式文件二维矩阵。

优选的,所述根据矢量版式文件二维矩阵获取目标子区域,包括的具体方法为:

在矢量版式文件二维矩阵中,若两个目标数据点相邻,则将两个目标数据点归为同一目标子区域,得到若干目标子区域。

优选的,所述获取目标子区域中任意目标数据点到另一个目标数据点的位置信息数据,包括的具体方法为:

将水平向右的方向记为基准方向;获取每个目标子区域中任意目标数据点到另一个目标数据点的射线与基准方向的夹角,作为每个目标子区域中任意目标数据点到另一个目标数据点的方向角度;

再获取每个目标子区域中,任意目标数据点到另一个目标数据点的欧氏距离,得到目标子区域中,任意目标数据点到另一个目标数据点的距离;

将任意目标数据点到另一个目标数据点的方向角度以及距离,记为任意目标数据点到另一个目标数据点的位置信息数据。

优选的,所述获取每个目标子区域中所有位置信息组,以及每个位置信息组的起始数据点,包括的具体方法为:

对于第

获取第二个目标数据点到其他所有目标数据点的位置信息数据,并将第二个目标数据点到其他所有目标数据点的位置信息数据归为一组,记为第

以此类推,直至获取倒数第一个目标数据点到其他所有目标数据点的位置信息数据,并将倒数第一个目标数据点到其他所有目标数据点的位置信息数据归为一组,记为第

得到每个目标子区域中所有位置信息组,以及每个位置信息组的起始数据点。

优选的,所述根据每个目标子区域中所有位置信息组获取位置信息集合;计算位置信息集合的优选程度,包括的具体方法为:

从每个目标子区域中任意选取一个位置信息组,将选取的位置信息组中的位置信息数据归为同一个位置信息集合,并将集合内完全相同的位置信息数据归为同种位置信息数据;对于同一个位置信息集合,统计每种位置信息数据在位置信息集合中出现的频率,以及位置信息集合中位置信息数据的数量,根据位置信息集合中位置信息数据的种类数量、每种位置信息数据在位置信息集合中出现的频率以及位置信息集合中位置信息数据的数量,获取位置信息集合的优选程度。

优选的,所述获取位置信息集合的优选程度,包括的具体方法计算公式为:

式中,

优选的,所述根据位置信息集合的优选程度以及每个位置信息组的起始数据点,获取每个目标子区域的压缩起始点,包括的具体方法为:

选取优选程度最高的位置信息集合作为最佳的位置信息集合;将组成最佳的位置信息集合的所有位置信息组记为压缩数据组;将每个压缩数据组的起始数据点,作为每个压缩数据组对应的目标子区域的压缩起始点。

优选的,所述根据每个目标子区域的压缩起始点获取矢量版式文件的压缩结果,包括的具体方法为:

记录每个目标子区域的压缩起始点位置;对最佳的位置信息集合中的位置信息数据进行霍夫曼编码运算,构建编码树,对每个目标子区域的压缩起始点到其他目标数据点的位置信息数据进行压缩,得到矢量版式文件的压缩结果。

本发明的实施例提供了一种扫描文件快速转化矢量版式文件的系统,该系统包括数据采集模块、数据划分模块、数据分析模块、数据选择模块以及数据压缩模块,其中:

数据采集模块,用于获取矢量版式文件二维矩阵;

数据划分模块,用于根据矢量版式文件二维矩阵获取目标子区域;获取目标子区域中任意目标数据点到另一个目标数据点的位置信息数据;

数据分析模块,用于获取每个目标子区域中所有位置信息组,以及每个位置信息组的起始数据点;根据每个目标子区域中所有位置信息组获取位置信息集合;计算位置信息集合的优选程度;

数据选择模块,用于根据位置信息集合的优选程度以及每个位置信息组的起始数据点,获取每个目标子区域的压缩起始点;

数据压缩模块,用于根据每个目标子区域的压缩起始点获取矢量版式文件的压缩结果。

本发明的技术方案的有益效果是:由于在矢量版式文件中存在大量的角度以及距离,因此在对矢量版式文件进行存储时,所需要的占用大量的空间,以及对矢量版式文件进行传输时的传输效率低下;所以本发明提出了一种扫描文件快速转化矢量版式文件的方法,其目的是通过对矢量版式文件进行压缩,以减小存储矢量版式文件的存储空间,提高传输矢量版式文件的传输效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一种扫描文件快速转化矢量版式文件的方法的步骤流程图;

图2为本发明的一种扫描文件快速转化矢量版式文件的系统的结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种扫描文件快速转化矢量版式文件的方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种扫描文件快速转化矢量版式文件的方法及系统的具体方案。

请参阅图1,其示出了本发明一个实施例提供的一种扫描文件快速转化矢量版式文件的方法的步骤流程图,该方法包括以下步骤:

步骤S001:获取矢量版式文件二维矩阵以及目标数据点。

需要说明的是,将纸质文件转化成电子文件时,经常会因为纸质文件的缩放问题,导致电子文件中出现噪点以及失真的情况发生,导致电子文件的质量不佳,因此现在通常将扫描的纸质文件转化成矢量版式文件,即将扫描文件转化成矢量版式文件,以提高电子文件质量。

需要进一步说明的是,由于在矢量版式文件中存在大量的角度以及距离,因此在对矢量版式文件进行存储时,会占用大量的存储空间,以及对矢量版式文件进行传输时的传输效率低下;所以本实施例提出了一种扫描文件快速转化矢量版式文件的方法,其目的是通过对矢量版式文件进行压缩,以减小存储矢量版式文件的存储空间,提高传输矢量版式文件的传输效率。因此首先需要获取矢量版式文件二维矩阵。

具体的,通过文件扫描仪,扫描纸质文件,得到扫描文件矩阵,利用光学字符识别技术获取扫描文件中文本的具体位置;将扫描文件矩阵中文本位置处的数据点的数据值置为1,并记为目标数据点;扫描文件矩阵中不是文本位置处的数据点的数据值置为0,并记为空白数据点;得到矢量版式文件二维矩阵;由于光学字符识别作为之中公知的现有技术,故在本实施例不再进行赘述。

至此,得到矢量版式文件二维矩阵。

步骤S002:根据矢量版式文件二维矩阵获取目标子区域;获取目标子区域中任意目标数据点到另一个目标数据点的位置信息数据。

需要说明的是,本实施例作为一种扫描文件快速转化矢量版式文件的方法,其目的是通过对矢量版式文件进行压缩,以减小存储矢量版式文件的存储空间,提高传输矢量版式文件的传输效率;由于在矢量版式文件矩阵中仅存在空白数据点与目标数据点,同时在矢量版式文件矩阵中空白数据点的数量远大于目标数据点的数量,因此仅需要对矢量版式文件矩阵中的目标数据点进行压缩,即可实现对矢量版式文件的压缩。所以首先获取矢量版式文件二维矩阵中各个由目标数据点组成的目标子区域。

具体的,在矢量版式文件的矩阵中,若两个目标数据点相邻,则将两个目标数据点归为同一目标子区域,若两个目标数据点不相邻,则不能将两个目标数据点归为同一目标子区域,得到若干目标子区域。

需要进一步说明的是,矢量版式文件二维矩阵中的矢量数据,即为矢量版式文件中每个数据点到其他数据点之间的方向角度以及距离,而本实施例作为一种扫描文件快速转化矢量版式文件的方法,需要获得矢量版式文件二维矩阵中,所有目标子区域内每个目标数据点到其他目标数据点的方向角度以及距离。

具体的,将水平向右的方向记为基准方向;获取每个目标子区域中任意目标数据点到另一个目标数据点的射线与基准方向的夹角,作为每个目标子区域中任意目标数据点到另一个目标数据点的方向角度,获取每个目标子区域中任意目标数据点到另一个目标数据点的射线与基准方向的夹角的具体计算公式为:

式中,

再获取每个目标子区域中,任意目标数据点到另一个目标数据点的欧氏距离,由于勾股定理作为一种公知技术故在本实施例中不再进行赘述,得到目标子区域中,任意目标数据点到另一个目标数据点的距离。

至此,得到目标子区域中,任意目标数据点到另一个目标数据点的方向角度以及距离,并将任意目标数据点到另一个目标数据点的方向角度以及距离,记为任意目标数据点到另一个目标数据点的位置信息数据。

步骤S003:根据目标子区域中任意目标数据点到另一个目标数据点的位置信息数据,获取每个目标子区域中所有位置信息组,以及每个位置信息组的起始数据点;根据每个目标子区域中所有位置信息组获取位置信息集合;计算位置信息集合的优选程度。

需要说明的是,本实施例作为一种扫描文件快速转化矢量版式文件的方法,其目的是通过对矢量版式文件进行压缩,以减小存储矢量版式文件的存储空间,提高传输矢量版式文件的传输效率;同时通过步骤S002得到的每个目标子区域中,任意目标数据点到另一个目标数据点的位置信息数据,而在整个矢量版式文件二维矩阵中位置信息数据存在一定的重复性,而重复性越大则压缩效果越好;故可以根据位置信息数据的重复性,得到不同位置信息数据的优选程度,以提高矢量版式文件的压缩效果。

具体的,对于第

获取第二个目标数据点到其他所有目标数据点的位置信息数据,并将第二个目标数据点到其他所有目标数据点的位置信息数据归为一组,记为第

以此类推,直至获取倒数第一个目标数据点到其他所有目标数据点的位置信息数据,并将倒数第一个目标数据点到其他所有目标数据点的位置信息数据归为一组,记为第

同理,获取每个目标子区域中所有位置信息组,以及每个位置信息组的起始数据点。

然后从每个目标子区域中任意选取一个位置信息组,将选取的位置信息组中的位置信息数据归为同一个位置信息集合,并将集合内完全相同的位置信息数据归为同种位置信息数据;对于同一个位置信息集合,统计每种位置信息数据在位置信息集合中出现的频率,以及位置信息集合中位置信息数据的数量,根据位置信息集合中位置信息数据的种类数量、每种位置信息数据在位置信息集合中出现的频率以及位置信息集合中位置信息数据的数量,获取位置信息集合的优选程度,其具体的计算公式为:

式中,

需要进行说明的是,由于每个目标子区域中的所有位置信息组中所包含的位置信息数据数量相等,所以每个位置信息集合中所包含的位置信息数据数量相等,因此当位置信息集合中位置信息数据的种类越多,则位置信息集合的重复性就越低,即位置信息集合的优选程度就越低。

至此,得到所有位置信息集合的优选程度。

步骤S004:根据位置信息集合的优选程度以及每个位置信息组的起始数据点,获取每个目标子区域的压缩起始点。

需要说明的是,通过步骤S003得到了所有位置信息集合的优选程度,即可根据所有位置信息集合的优选程度,得到最佳的位置信息集合,再根据最佳的位置信息集合获取每个目标子区域的压缩起始点。

具体的,选取优选程度最高的位置信息集合作为最佳的位置信息集合;将组成最佳的位置信息集合的所有位置信息组记为压缩数据组;将每个压缩数据组的起始数据点,作为每个压缩数据组对应的目标子区域的压缩起始点。

至此,得到每个目标子区域的压缩起始点。

步骤S005:根据每个目标子区域的压缩起始点获取矢量版式文件的压缩结果。

需要说明的是,根据步骤S004得到了每个目标子区域的压缩起始点,即可根据每个目标子区域的压缩起始点对每个目标子区域进行压缩,得到矢量版式文件的压缩结果。

具体的,记录每个目标子区域的压缩起始点位置;对最佳的位置信息集合中的位置信息数据进行霍夫曼编码运算,构建编码树,对每个目标子区域的压缩起始点到其他目标数据点的位置信息数据进行压缩,得到矢量版式文件的压缩结果,其中由于霍夫曼编码运算作为一种公知的现有技术,故在本实施例中不再进行赘述。

至此,本实施例完成。

请参阅图2,其示出了本发明一个实施例提供的一种扫描文件快速转化矢量版式文件的系统的结构框图,该系统包括以下模块:

数据采集模块,用于获取矢量版式文件二维矩阵;

数据划分模块,用于根据矢量版式文件二维矩阵获取目标子区域;获取目标子区域中任意目标数据点到另一个目标数据点的位置信息数据;

数据分析模块,用于获取每个目标子区域中所有位置信息组,以及每个位置信息组的起始数据点;根据每个目标子区域中所有位置信息组获取位置信息集合;计算位置信息集合的优选程度;

数据选择模块,用于根据位置信息集合的优选程度以及每个位置信息组的起始数据点,获取每个目标子区域的压缩起始点;

数据压缩模块,用于根据每个目标子区域的压缩起始点获取矢量版式文件的压缩结果本实施例。

本发明的技术方案的有益效果是:由于在矢量版式文件中存在大量的角度以及距离,因此在对矢量版式文件进行存储时,所需要的占用大量的空间,以及对矢量版式文件进行传输时的传输效率低下;所以本发明提出了一种扫描文件快速转化矢量版式文件的方法,其目的是通过对矢量版式文件进行压缩,以减小存储矢量版式文件的存储空间,提高传输矢量版式文件的传输效率。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种文件系统的文件权限管理方法、系统及相关装置
  • 一种基于版式文件对电子文件矢量化的方法
  • 一种版式文件矢量化加密方法
技术分类

06120116504322