掌桥专利:专业的专利平台
掌桥专利
首页

一种基于版式文件处理大文件的方法

文献发布时间:2023-06-19 18:29:06


一种基于版式文件处理大文件的方法

技术领域

本发明涉及计算机技术领域,具体涉及一种基于版式文件处理大文件的方法。

背景技术

版式文件可以将各种格式的文件转换成统一格式,且相对稳定,非常适合作为电子文档的最终发布和传播形式,广泛应用于电子公文、电子图书、电子期刊和电子报纸等领域。

例如中国专利公开号为:CN114359313B,一种基于版式文件处理大文件的方法。该方法包括:获取大文件的每页子文件中的可视化图像,获取每个语义元素的位置索引;对可视化图像中的文本数据进行分词并获取每个词的重要程度;同时获取可视化图像的分割图像;对于分割图像的每个语义元素,获取前景区域中的图像数据与背景区域的第一差异、文本数据与背景区域的第二差异,根据每个词对应的第二差异以及重要程度获取语义元素中的文本优先级,根据第一差异和文本优先级获取每个语义元素的显著度;按照显著度的大小将每页子文件的所有语义元素依次传输至客户端,以使客户端对其进行元素组装。本发明实施例能够使大文件传输流畅的同时首先显示重要部分。

但是此方法在进行工作时,难以针对大文件中关键文件进行加密,从而在传输后,很容易泄密,从而造成损失,且当没有设置等级的加密时,不方便其他工作人员进行观看,且子文件中含有图像信息,但是现有的图像基本通过现场拍摄,或者网页下载,其中不乏含有图像不清楚的文件,从而在用户进行观看时,难以及时了解其中信息。

综上所述,研发一种基于版式文件处理大文件的方法,仍是计算机技术领域中急需解决的关键问题。

发明内容

针对现有技术所存在的上述缺点,本发明在于提供一种基于版式文件处理大文件的方法,通过提高了文件的安全性,对不同使用者进行不同程度的观看使用,且可更清楚接收图像所表示的数据。

为实现上述目的,本发明提供了如下技术方案:

本发明提供了一种基于版式文件处理大文件的方法,包括以下步骤:

(1)获取大文件中子文件的页面信息,对子文件中图文转换为PDF格式;

(2)获取PDF格式的图文信息,对其中图像数据进行图像样本处理,对其中图文数据进行语义划分,提取图文数据中关键词;

(3)由用户端设置泄密词,且设置泄密等级,解析图像数据中信息,配合图文信息进行区域划分,将图文中关键信息进行加密处理,并划分泄密等级;

(4)对子文件中文档包含泄密词的语段进行隐秘处理,并设置不同等级的泄密文档口令;

(5)用户端输入阅读口令,进行阅读文档。

本发明进一步的设置为:在步骤(2)中,图像数据进行图像样本处理,包括以下步骤:

(21)获取图像数据后,将图层属性改为柔光,调整透明度,对亮度进行处理,亮度处理公式为:V=V'*(1+d),式中,V为调整后颜色值,V'为原始色值,d为亮度调整系数,-1≤d≤1;

(22)再对图像进行对比度处理,反应出纹理沟纹深浅和图像清晰程度,对比度的值越大,则图像清晰、纹理沟纹较深,以亮度的中间值为基准,加大较大的颜色值,减小较小的颜色值,中间值的取法:i固定取值127,ii取所有像素点各基色的平均值,计算公式为:V=127+(V'-127)*(1+d),式中,V为调整后颜色值,V'为原始色值,d为对比度调整系数,-1≤d≤1;

(23)再对图像数据进行平滑处理,将噪声即叠加在图像上的正负随机亮度值,均值平滑:取本身及周围9个像素点的颜色平均值。

本发明进一步的设置为:在步骤(2)中,图文数据进行语义划分,提取图文数据中关键词,包括一下步骤:

(24)将图文数据转化为语义复杂网络的形式,将语义复杂网络形式的表示为G=(A,B,C),其中A为网络节点集合,A={a

B表示为边的合集,B={b

本发明进一步的设置为:在步骤(3)中,所述的泄密等级划分为四级,一级权重为1.5,二级权重为0.75,三级权重为0.5,四级权重为0.25,所述的泄密等级的计算公式为:

(31)若W≥1,该文件视为一级泄密;

(32)若0.75≤W<1,则该文件的泄密等级为二级;

(33)若0.5≤W<0.75,则该文件的泄密等级为三级;

(34)若0.25≤W<0.5,则该文件的泄密等级为四级;

(35)若W=0,则表示该文件没有涉密。

本发明进一步的设置为:在步骤(3)中,所述的区域划分将图文中含有泄密词的文档进行加密处理。

本发明进一步的设置为:在步骤(4)中,所述的隐秘处理将含有泄密词的语段图文进行模糊处理。

本发明进一步的设置为:在步骤(4)中,所述的泄密文档口令对含有泄密词的语段图文进行设置加密口令。

本发明进一步的设置为:在步骤(5)中,所述的阅读口令为加密口令的密钥,输入阅读口令后将隐秘后的语段图文进行清晰显示。

有益效果

采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:

1、本发明通过获取图像数据后,将图层属性改为柔光,调整透明度,对亮度进行处理,再对图像进行对比度处理,反应出纹理沟纹深浅和图像清晰程度,再对图像数据进行平滑处理,将噪声即叠加在图像上的正负随机亮度值,取均值平滑,提高图像的清晰度,且可更清楚接收图像所表示的数据。

2、本发明通过由用户端设置泄密词,且设置泄密等级,解析图像数据中信息,配合图文信息进行区域划分,将图文中关键信息进行加密处理,并划分泄密等级,对子文件中文档包含泄密词的语段进行隐秘处理,并设置不同等级的泄密文档口令,用户端输入阅读口令,进行阅读文档,提高了文件的安全性,对不同使用者进行不同程度的观看使用。

附图说明

图1为本发明基于版式文件处理大文件的方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例:

参照图1所示,本发明提供了一种基于版式文件处理大文件的方法,包括以下步骤:

(1)获取大文件中子文件的页面信息,对子文件中图文转换为PDF格式。

(2)获取PDF格式的图文信息,对其中图像数据进行图像样本处理,对其中图文数据进行语义划分,提取图文数据中关键词。

进一步的,其具体包括以下步骤:

在步骤(2)中,图像数据进行图像样本处理,包括以下步骤:

(21)获取图像数据后,将图层属性改为柔光,调整透明度,对亮度进行处理,亮度处理公式为:V=V'*(1+d),式中,V为调整后颜色值,V'为原始色值,d为亮度调整系数,-1≤d≤1;

(22)再对图像进行对比度处理,反应出纹理沟纹深浅和图像清晰程度,对比度的值越大,则图像清晰、纹理沟纹较深,以亮度的中间值为基准,加大较大的颜色值,减小较小的颜色值,中间值的取法:i固定取值127,ii取所有像素点各基色的平均值,计算公式为:V=127+(V'-127)*(1+d),式中,V为调整后颜色值,V'为原始色值,d为对比度调整系数,-1≤d≤1;

(23)再对图像数据进行平滑处理,将噪声即叠加在图像上的正负随机亮度值,均值平滑:取本身及周围9个像素点的颜色平均值。

更进一步的,在步骤(2)中,图文数据进行语义划分,提取图文数据中关键词,包括一下步骤:

(24)将图文数据转化为语义复杂网络的形式,将语义复杂网络形式的表示为G=(A,B,C),其中A为网络节点集合,A={a

B表示为边的合集,B={b

(3)由用户端设置泄密词,且设置泄密等级,解析图像数据中信息,配合图文信息进行区域划分,将图文中关键信息进行加密处理,并划分泄密等级。

更进一步的,在步骤(3)中,的泄密等级划分为四级,一级权重为1.5,二级权重为0.75,三级权重为0.5,四级权重为0.25,的泄密等级的计算公式为:

(31)若W≥1,该文件视为一级泄密;

(32)若0.75≤W<1,则该文件的泄密等级为二级;

(33)若0.5≤W<0.75,则该文件的泄密等级为三级;

(34)若0.25≤W<0.5,则该文件的泄密等级为四级;

(35)若W=0,则表示该文件没有涉密。

更进一步的,在步骤(3)中,的区域划分将图文中含有泄密词的文档进行加密处理。

(4)对子文件中文档包含泄密词的语段进行隐秘处理,并设置不同等级的泄密文档口令。

进一步的,的隐秘处理将含有泄密词的语段图文进行模糊处理。

更进一步的,的泄密文档口令对含有泄密词的语段图文进行设置加密口令。

(5)用户端输入阅读口令,进行阅读文档.

进一步的,的阅读口令为加密口令的密钥,输入阅读口令后将隐秘后的语段图文进行清晰显示。

工作原理:当进行使用时,首先获取大文件中子文件的页面信息,对子文件中图文转换为PDF格式,再将获取PDF格式的图文信息,对其中图像数据进行图像样本处理,将图层属性改为柔光,调整透明度,对亮度进行处理,亮度处理公式为:V=V'*(1+d),式中,V为调整后颜色值,V'为原始色值,d为亮度调整系数,-1≤d≤1,再对图像进行对比度处理,反应出纹理沟纹深浅和图像清晰程度,对比度的值越大,则图像清晰、纹理沟纹较深,以亮度的中间值为基准,加大较大的颜色值,减小较小的颜色值,中间值的取法:i固定取值127,ii取所有像素点各基色的平均值,计算公式为:V=127+(V'-127)*(1+d),式中,V为调整后颜色值,V'为原始色值,d为对比度调整系数,-1≤d≤1,再对图像数据进行平滑处理,将噪声即叠加在图像上的正负随机亮度值,取其均值平滑,均值平滑:取本身及周围9个像素点的颜色平均值,再对其中图文数据进行语义划分,提取图文数据中关键词,将图文数据转化为语义复杂网络的形式,将语义复杂网络形式的表示为G=(A,B,C),其中A为网络节点集合,A={a

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种文件处理方法及终端设备
  • 一种通用的excel文件处理方法
  • 一种基于版式文件处理大文件的方法
  • 一种基于版式文件处理大文件的方法
技术分类

06120115586313