一种将流式文档转换为OFD格式文件的方法、系统、电子设备和存储介质
文献发布时间:2023-06-19 18:34:06
技术领域
本发明涉及一种文档转化方法,尤其是一种将流式文档转换为OFD格式文件的方法、系统、电子设备和存储介质。
背景技术
OFD(Open Fixed-layout Document)是开放版式文档的英文缩写,是由工业和信息化部软件司牵头中国电子技术标准化研究院成立的版式编写组制定的版式文档国家标准。OFD作为版式文档国家标准,属于中国的一种自主格式,方便进行电子文档的存储、读取以及编辑。在电子档案管理领域有着重要的应用价值。OFD版式文档格式采用“容器+文档”的方式描述和存储数据。容器是一个虚拟存储系统,所有数据都存放其中,包括文档、页面、大纲等文档模型和图形、图像、字体等,容器提供访问接口和数据压缩方法,文档模型采用XML,附加的字体、图像、音频、视频等数字资源采用二进制格式,使用ZIP压缩算法进行整体压缩打包。OFD定义了基于XML和ZIP压缩的通用版式文档格式,适用于固定版式电子文件的存储与交换,在满足版式文档核心需求的同时,技术实现更加精简,扩展性和可控性更强
在技术层面上OFD有更多优势:OFD格式采用XML技术描述文档数据,格式开放、体系简单、数据结构化,最终文件体积更加精简;OFD格式拥有完全自主知识产权,不受控于外部厂商,有自主话语权。在标准特性上可进行扩展,满足不同领域的应用需求;OFD标准支持国产密码算法,在文档安全性上有更多的可控保证。基于OFD的格式特点,越来越多的公文、档案、证照、执照、单证凭据开始使用OFD格式作为流转或长期保存的格式。同样,针对企业不同的生产模式,企业内需广泛流传、长期保存的各种版式电子文档,也可以采用OFD格式做成。
OFD格式需要包含显示样式信息,而常见的xml、csv、excel等版式文档格式只包含数据内容,不显示样式。故不能直接转换为OFD格式。因此,本方案提出一种将流式文档转换为OFD格式文件的方法、系统、电子设备和存储介质。该方法能将各类常用版式源文件转换为OFD文档,并且转换效率有显著的提升。
发明内容
本发明的目的是提供一种将流式文档转换为OFD格式文件的方法、系统、电子设备和存储介质。
本发明提供了如下的技术方案:
一方面,本发明提供一种将流式文档转换为OFD格式文件的方法,包括以下步骤:
S1、读取源文件格式的流式文档,解析得到源文件格式的流式文档各项数据;
S2、分类汇总所述源文件格式的流式文档的各项数据生成流式文档内存模型;
S3、将所述流式文档内存模型转换为OFD格式文件内存模型;
S4、从上述模板文档中定位数据,将其删除,并保留槽位,由此生成OFD模板文件;
S5、提取上述待转换文档的数据,写入S4所述的OFD模板文件,生成OFD格式的输出文档。
进一步地,所述源文件格式的流式文档内存模型转换为OFD格式文件内存模型,包括:以文档为单位,依据所述流式文档内存模型的各流式内存对象构建文档树结构;遍历所述文档树结构,并以页为单位,抽取所述流式内存对象中的数据构建版式文档内存模型。
进一步地,所述OFD模板文件包括:
根据OFD格式的版式文档的规范创建空白的XML文件;
将所述版式文档内存模型的各版式内存对象写出到相应的所述XML文件;
将所述XML文件组织到电子文件物理包中,并进行打包压缩,得到所述OFD格式的版式文档。
进一步地,所述文档内存模型转换为OFD文档内存模型,包括:
1)以对象为基本单位,利用源文件解析器对源文件文档内存模型进行解析得到其对应的抽象
2)导入对应的OFD文档的标准规范配置信息,将xml文件压缩生成OFD文档内存模型。
进一步地,步骤S1中,所述源文档各项数据包括段落、图标、图片、表格、页头、页尾、页面、页码和水印。
进一步地,所述源文件格式包括wps、doc、docx、xls、xlsx、ppt、pptx、cad、jpg、tif、gif、png、pdf和html。
另一方面,本发明提供一种转换为OFD格式文件的系统,包括:
输入模块,用于读取源文件格式的流式文档,解析得到源文件格式的流式文档各项数据;
转换模块,用于分类汇总所述源文件格式的流式文档的各项数据生成流式文档内存模型;将所述流式文档内存模型转换为OFD格式文件内存模型;
构建模块,用于从上述模板文档中定位数据,将其删除,并保留槽位,由此生成OFD模板文件;提取上述待转换文档的数据,写入S4所述的OFD模板文件,生成OFD格式的输出文档。
又一方面,本发明提供一种电子设备,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行计算机程序时,实现上述将流式文档转换为OFD格式文件的方法。
又一方面,一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述将流式文档转换为OFD格式文件的方法。
有益效果:本发明提供的将流式文档转换成OFD格式文件的方法可以将常见的源文件的流式文档转换成OFD格式文件,可以实现批量转换,并且按照文件数据分类,大大提高工作效率,方便了后期文件的归类查阅。
附图说明
图1本发明的一种将流式文档转换为OFD格式文件的方法的示意图。
具体实施方案
在一实施例中,本发明提出了一种将流式文档转换为OFD格式文件的方法,包括以下步骤:
S1、读取源文件格式的流式文档,解析得到源文件格式的流式文档各项数据,所述源文件格式的流式文档内存模型转换为OFD格式文件内存模型,包括:以文档为单位,依据所述流式文档内存模型的各流式内存对象构建文档树结构;遍历所述文档树结构,并以页为单位,抽取所述流式内存对象中的数据构建版式文档内存模型。所述源文档各项数据包括段落、图标、图片、表格、页头、页尾、页面、页码和水印。所述源文件格式包括wps、doc、docx、xls、xlsx、ppt、pptx、cad、jpg、tif、gif、png、pdf和html;
S2、分类汇总所述源文件格式的流式文档的各项数据生成流式文档内存模型;
S3、将所述流式文档内存模型转换为OFD格式文件内存模型,所述OFD模板文件,包括:首先,根据OFD格式的版式文档的规范创建空白的XML文件,其次,将所述版式文档内存模型的各版式内存对象写出到相应的所述XML文件,然后将所述XML文件组织到电子文件物理包中,并进行打包压缩,得到所述OFD格式的版式;
S4、从上述模板文档中定位数据,将其删除,并保留槽位,由此生成OFD模板文件,所述文档内存模型转换为OFD文档内存模型,包括:1)以对象为基本单位,利用源文件解析器对源文件文档内存模型进行解析得到其对应的抽象;2)导入对应的OFD文档的标准规范配置信息,将xml文件压缩生成OFD文档内存模型;
S5、提取上述待转换文档的数据,写入S4所述的OFD模板文件,生成OFD格式的输出文档。
在又一实施例中,本发明提出了一种转换为OFD格式文件的系统,包括:
输入模块,用于读取源文件格式的流式文档,解析得到源文件格式的流式文档各项数据;
转换模块,用于分类汇总所述源文件格式的流式文档的各项数据生成流式文档内存模型;将所述流式文档内存模型转换为OFD格式文件内存模型;
构建模块,用于从上述模板文档中定位数据,将其删除,并保留槽位,由此生成OFD模板文件;提取上述待转换文档的数据,写入S4所述的OFD模板文件,生成OFD格式的输出文档。
在另一实施例中,本发明还提出了一种电子设备,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行计算机程序时,实现第一实施例中提出的一种将流式文档转换为OFD格式文件的方法。
在另一实施例中,本发明还提出了一种存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现第一实施例中提出的一种将流式文档转换为OFD格式文件的方法。本发明提供的将流式文档转换成OFD格式文件的方法可以将常见的源文件的流式文档转换成OFD格式文件,可以实现批量转换,并且按照文件数据分类,大大提高工作效率,方便了后期文件的归类查阅。
- 一种在线文档检索方法、装置、存储介质及电子设备
- 一种操作系统的预安装方法、系统、电子设备及存储介质
- 一种分布式系统部署方法、系统、电子设备及存储介质
- 一种数据特征提取方法、系统及电子设备和存储介质
- 一种知识图谱推理方法、电子设备、存储介质及系统
- 一种将流式文档转换为OFD文档的方法和装置
- 一种将流式文档转换为OFD文档的方法和装置