掌桥专利:专业的专利平台
掌桥专利
首页

一种可控制编辑规则的电子文档转换方法

文献发布时间:2023-06-19 11:35:49


一种可控制编辑规则的电子文档转换方法

技术领域

本发明属于计算机电子文档转化技术领域,具体地说,涉及一种可控制编辑规则的电子文档转换方法。

背景技术

一种电子文档如果需要具备另一种电子文档的特性,现在常用的方法就是进行文档转化,把原文档转化为具有需要特性的电子文档,比如将可以编辑的word文档转化为利于查看打印的pdf文件;将无法直接在网页展示的excel文档转化为可在网页直接展示的html文档等等。

但是现有的文档转化方法大多都是内容的直接转化,这样会丢失原电子文档的许多的特性,同时也无法对其转化后的电子文档进行编辑控制,比如word转化为html文档后,由于html中没有页眉、页脚、分节等特性,所以转化后的html会丢失原word文档中的页眉、页脚、分节等信息,word文档可以在文档中任意位置进行编辑,但是转化为html后却无法在页面上进行编写。

为了解决上述问题,现有技术大多采用通过在原文档中设置标记符,然后在转化的时候通过标记符转化为需要的内容。在实际使用中,我们不但需要转化后的文档可以具有原文档的特性,而且也需要转化后的文档能够满足自己的需求,比如可以按照实际使用场景具有一定组织结构层次,在使用的时候可以按照结构进行更加方便的使用,但是当前很多转化并不能满足这类的转化需求。

发明内容

本发明基于现有技术的上述缺陷及需求,提出了一种可控制编辑规则的电子文档转换方法,首先将已有的电子文档进行统一化处理,得到统一化的电子文档;所述已有的电子文档为不可控制编辑规则的电子文档;然后设定大纲级别和转化规则,并对统一化的电子文档按照转化规则进行转化,得到可控制编辑规则的统一化的电子文档。实现了文档转化的结构特性不丢失,且文档转换后的结构层次也不丢失。

本发明具体实现内容如下:

本发明提出了一种可控制编辑规则的电子文档转换方法,首先将已有的电子文档进行统一化处理,得到统一化的电子文档;所述已有的电子文档为不可控制编辑规则的电子文档;然后设定大纲级别和转化规则,并对统一化的电子文档按照转化规则进行转化,得到可控制编辑规则的统一化的电子文档。

为了更好地实现本发明,进一步地,在对已有的电子文档进行统一化处理,得到统一化的电子文档的过程中,需要设置唯一且固定的不同编辑标识符,每种编辑标识符对应一种编辑规则;在不可控制编辑规则的电子文档中需要编辑控制的地方,按照所需的不同的编辑方式,添加对应的编辑标识符。

为了更好地实现本发明,进一步地,在对已有的电子文档进行统一化处理,得到统一化的电子文档的过程中,需要设置唯一且固定的不同特征标识符,每种特征标识符对应一种文档的结构,在不可控制编辑规则的电子文档中需要划分结构的地方添加对应的特征标识符;文档的所述结构包括分节、分页、标题、页眉、页码、横竖页。

为了更好地实现本发明,进一步地,根据实际转化后的可控制编辑规则的统一化的电子文档的层次结构的需求,预先在不可控制编辑规则的电子文档设置相对应的大纲级别。

为了更好地实现本发明,进一步地,在设定大纲级别和转化规则,并对统一化的电子文档按照转化规则进行转化,得到可控制编辑规则的统一化的电子文档的过程中,首先识别编辑标识符,根据不同的编辑标识符转化得到不同的电子文档标签。

为了更好地实现本发明,进一步地,在设定大纲级别和转化规则,并对统一化的电子文档按照转化规则进行转化,得到可控制编辑规则的统一化的电子文档的过程中,还需要根据实际需求,识别特征标识符,根据特征标识符,为需要转化为可控制编辑规则的电子文档添加特征标识符所对应的文档的结构的特性。

为了更好地实现本发明,进一步地,在根据不同的编辑标识符转化得到不同的电子文档标签以及为需要转化为可控制编辑规则的电子文档添加特征标识符所对应的文档的结构的特性后,根据预先设定的大纲级别设置得到完整的可控制编辑规则的电子文档。

为了更好地实现本发明,进一步地,根据预先设定的大纲级别设置得到完整的可控制编辑规则的电子文档的具体步骤为:

首先,识别不可控制编辑规则的电子文档的大纲级别;

其次,记录不可控制编辑规则的电子文档的大纲级别内容;

接着,根据不可控制编辑规则的电子文档的最后一级大纲级别将不可控制编辑规则的电子文档拆分为多个子文档;

然后,将多个拆分出的子文档转化为可控制编辑规则的子文档;

最后,根据记录的大纲级别内容,将可控制编辑规则的子文档组装建立为对应结构层次的完整的可控制编辑规则的电子文档。

本发明与现有技术相比具有以下优点及有益效果:

本发明提出了一种可控制编辑规则的电子文档转换方法,基于本方法实现了将无法控制编辑规则的电子文档转化为具有编辑规则控制的电子文档,且满足转化后的电子文档中只能在特定的区域使用特定的编辑规则进行编辑。同时,基于本方法转化后的电子文档还保留有原本文档的大纲级别以及结构层次等。

附图说明

图1为原电子文档的规范化计算机文件界面截屏示例图;

图2为转换后的电子文档的计算机文件界面截屏示例图;

图3为可控制编辑规则的电子文档进行编辑的计算机文件界面截屏示例图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;也可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1:

本实施例提出了一种可控制编辑规则的电子文档转换方法,首先将已有的电子文档进行统一化处理,得到统一化的电子文档;所述已有的电子文档为不可控制编辑规则的电子文档;然后设定大纲级别和转化规则,并对统一化的电子文档按照转化规则进行转化,得到可控制编辑规则的统一化的电子文档。

在对已有的电子文档进行统一化处理,得到统一化的电子文档的过程中,具体步骤为:

首先需要设置唯一且固定的不同编辑标识符,每种编辑标识符对应一种编辑规则;在不可控制编辑规则的电子文档中需要编辑控制的地方,按照所需的不同的编辑方式,添加对应的编辑标识符。

接着,需要设置唯一且固定的不同特征标识符,每种特征标识符对应一种文档的结构,在不可控制编辑规则的电子文档中需要划分结构的地方添加对应的特征标识符;文档的所述结构包括分节、分页、标题、页眉、页码、横竖页。

最后,根据实际转化后的可控制编辑规则的统一化的电子文档的层次结构的需求,预先在不可控制编辑规则的电子文档设置相对应的大纲级别。

在设定大纲级别和转化规则,并对统一化的电子文档按照转化规则进行转化,得到可控制编辑规则的统一化的电子文档的过程中,具体操作为:

首先,识别编辑标识符,根据不同的编辑标识符转化得到不同的电子文档标签。

其次,还需要根据实际需求,识别特征标识符,根据特征标识符,为需要转化为可控制编辑规则的电子文档添加特征标识符所对应的文档的结构的特性。

最后,根据预先设定的大纲级别设置得到完整的可控制编辑规则的电子文档。

实施例2:

本实施例在上述实施例1的基础上,为了更好地实现本发明,进一步地,根据预先设定的大纲级别设置得到完整的可控制编辑规则的电子文档的具体步骤为:

首先,识别不可控制编辑规则的电子文档的大纲级别;

其次,记录不可控制编辑规则的电子文档的大纲级别内容;

接着,根据不可控制编辑规则的电子文档的最后一级大纲级别将不可控制编辑规则的电子文档拆分为多个子文档;

然后,将多个拆分出的子文档转化为可控制编辑规则的子文档;

最后,根据记录的大纲级别内容,将可控制编辑规则的子文档组装建立为对应结构层次的完整的可控制编辑规则的电子文档。

本实施例的其他部分与上述实施例1相同,故不再赘述。

实施例3:

本实施例在上述实施例1-2任一项的基础上,如图1、图2、图3所示,还提出了具体的将word格式的文件转化为html格式的文件的实施举例如下:

首先,将word电子文档进行规范化处理,得到规范化word电子文档------将规范化的word电子文档按照一定规则转化为可控制编辑规则的html电子文档

将word电子文档进行规范化处理,得到规范化word电子文档。其规范化处理规则:

(1)在不可控制编辑规则的电子文档需要编辑控制的地方,按照编辑方式的不同,添加不同的编辑标识符,每种编辑标识符内容形式不固定,可以是一种特殊符号,也可以是几个字符组成,如附图1规范化文档,将需要输入内容的位置添加一种特殊的编辑标识符,比如添加“____”,表示在此处可以填写文字,同时还可以通过下滑线的长度确定编写内容的长度;将word文档中的表格空白单元格也可以作为一种编输入标识符,表示在此处可以填写文字;将需要编辑者签名的位置添加一种特殊的标识符,比如添加“@手写签名@”,表示这里是签名区域,编辑者可以在这里签名;还有像填写内容为时间这种格式固定的数据,我们可以添加一种特殊的编辑标识符,比如添加“@YMD@”,表示在这里填写的内容格式为“xx年xx月xx日”或者“@YM@”表示填写内容格式“xx年xx月”等。

(2)按照原文档特征添加不同的特征标识符,如word文档的分节、分页、标题、页眉、横竖页等,可以在这些地方添加特征标识符标识原文档特征,每一种结构与特征标识符内容形式不固定。比如在word文档中需要进行分节与分页的地方分别添加分节符与分页符作为原文档的分节与分页特征标识符,转化后新的电子文档可以通过这些分页与分节标识符识别转化后的电子文档分节与分页信息;

(3)根据转化后电子文档需要的结构组织层级,我们为每一层结构添加大纲级别,假设该word文档中内容结构具有2级,那么第一级我们设置其大纲级别为“1级”,第二级设置为大纲级别“2级”,这样转化后的文档我们可以通过这些大纲级别,组装文档的结构层次信息。

接着,将规范化的word电子文档按照一定规则转化为可控制编辑规则的html电子文档,转换规则如下:

(1)电子文档转化时需要去识别规范化电子文档中的编辑标识符,根据不同的编辑标识符转化为不同的电子文档标签,这些电子文档标签可以是电子文档的已有标签,也可以是自定义具有特定功能的标签。如图2和图3所示,(在图2中每一种标签都给了一个默认值用于描述标签),以word转化为html为例,如果使用“___”或者表格空白单元格表示输入编辑标识符,那么如果在转化时识别到文档内容为“___”或者表格空白单元格时将其替换为html中的“