掌桥专利:专业的专利平台
掌桥专利
首页

互联网平台间电子文档进行迁移的方法及系统

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及电子文档存储技术领域,尤其涉及一种互联网平台间电子文档进行迁移的方法及系统。

背景技术

Microsoft Office Word是微软公司的一个文字处理器应用程序,Word给用户提供了用于创建专业而优雅的文档工具,帮助用户节省时间,并得到优雅美观的结果,Microsoft Office Word都是最流行的文字处理程序。Word提供了许多易于使用的文档创建工具,同时也提供了丰富的功能集供创建复杂的文档使用。互联网平台间需要实现对word文档的迁移工作,而Word文档可以形成专题文章结构的电子文档存储于本地服务器中,对大量具有文章结构的word文档存在本地服务器,会导致互联网平台系统端无法自适应对word文档进行分类迁移存储,使得word文档在互联网平台系统端的存储会造成较大混乱,也不方便后续用户对存储的word文档进行相应的处理,现有的互联网平台系统不能很好适用于这种word文档的迁移及存储管理需求。

发明内容

本发明的目的在于克服现有技术的不足,本发明提供了一种互联网平台间电子文档进行迁移的方法及系统,通过解析word文档中的文章内容要素,针对word文章内容可以提取文章内容的关键要素,从而基于存储系统完成对本地服务器上所更新的word文档进行迁移并实现存储过程。

为了解决上述问题,本发明提出了一种互联网平台间电子文档进行迁移的方法,所述方法包括:

监听各个本地存储服务器上是否存在新存储word文档,在判断各个本地存储服务器上有新存储word文档时,管理服务器获取所述新存储word文档;

所述管理服务器解析所述新存储word文档中的文章表达结构,所述文章表达结构采用树形结构表示法;

获取各个迁移服务器上所对应的样本文档,并基于各个迁移服务器上所对应的样本文本形成文章样本集,并将文章样本集中的每一个文档样本转换成所对应的样本结构,所述样本结构采用树形结构表示法;

对所述新存储word文档的文章表达结构和文章样本集所形成的样本结构集进行相似度匹配,判断所述新存储word文档的文章表达结构是否属于样本结构集中的一个成员;

在判断所述新存储word文档的文章表达结构属于样本结构集中的一个成员时,获取所对应的迁移服务器,并将所述新存储word文档到发送到所对应的迁移服务器上;

所述迁移服务器接收所述新存储word文档,并存储所述新存储word文档。

所述监听各个本地存储服务器上否存在新存储word文档包括:

基于预设的时间间隔监听各个本地存储服务器上是否存在新存储word文档。

所述基于预设的时间间隔监听各个本地存储服务器上是否存在新存储word文档包括:

获取存储在本地存储服务器上的各个word文档的内部标识信息,所述内部标识信息包括有存储时间日志;

解析所述内部标识信息中的存储时间日志,并判断所述存储时间日志是否超过上次监听时间,若超过上次监听时间则判断本地存储服务器上存在新存储word文档,所述存储时间日志超过上次监听时间所对应的word文档为新存储word文档。

所述管理服务器解析所述新存储word文档的文章表达结构包括:

基于新存储word文档的文章内容生成一棵空的文章结构树;

将文章标题作为文章结构树的根节点,将文章的子标题和/或段落按照层级关系添加到根节点下作为子节点,并为每个子节点赋值。

对所述新存储word文档的文章表达结构和文章样本集所形成的样本结构集进行相似度匹配包括:

提取样本结构集中的每一个样本成员,并基于每一个样本成员与存存储文档的文章表达结构进行相似度匹配;

逐层计算文章表达结构与样本结构集中每一个成员之间树形结构的相似度,并计算出所述文档表达结构与每一个成员之间的相似度值,形成相似度值集合。

所述判断所述新存储word文档的文章表达结构是否属于样本结构集中的一个成员包括:

提取相似度值集合中最大相似度值;

判断所述最大相似度值是否大于预设阈值,若判断所述最大相似度值大于预设阈值则判断所述新存储word文档的文章表达结构属于样本结构集中的一个成员。

所述获取所对应的迁移服务器,并将所述新存储word文档到发送到所对应的迁移服务器上包括:

获取迁移服务器所对应的加密算法,并基于加密算法对所述新存储word文档进行加密,并将加密后的新存储word文档发送到所对应迁移服务器上。

相应的,本发明还提出了一种互联网平台系统,所述系统包括:

若干个本地存储服务器,用于存储所对应本地端的新存储word文档;

管理服务器,用于监听各个本地存储服务器上是否存在新存储word文档,在判断各个本地存储服务器上有新存储word文档时,获取所述新存储word文档;解析所述新存储word文档的文章表达结构,所述文章表达结构采用树形结构表示法;获取各个迁移服务器上所对应的文档样本,并基于各个迁移服务器上所对应的文档样本形成文章样本集,并将文章样本集中的每一个文档样本转换成所对应的样本结构,所述样本结构采用树形结构表示法;对所述新存储word文档的文章表达结构和文章样本集所形成的样本结构集进行相似度匹配,判断所述新存储word文档的文章表达结构是否属于样本结构集中的一个成员;在判断所述新存储word文档的文章表达结构属于样本结构集中的一个成员时,将所述新存储word文档发送到所对应的迁移服务器上;

若干个迁移服务器,所述若干个迁移服务器中的每一个迁移服务器存储有一个以上的文档样本,并存储于文档样本所对应的新存储word文档。

所述系统还包括若干个API网关,所述若干个API网关中每一个API网关与一个以上的本地存储服务器通信,若干个API网关将若干个本地存储服务器所更新的word文档发送到管理服务器上。

本发明实施例可以基于互联网平台监听不同的本地存储服务器上所更新的word文档,采用树形结构表示法来解析word文档中的文章内容,使得更新的word文档能够快速匹配到相应的迁移服务器,使得其可以按照word文档的文章内容来自适应存储于迁移服务器中。该迁移服务器可以采用分布式存储系统来实现,其可以广泛应用于电子政务、网络办公环境中,也方便了电子政务、网络办公环境对word文档的统一规整管理,减少word文档规整出错。为了保障服务器和存储服务器间对电子表格文档的传输安全性,对word文档进行了加密操作,能够有效的对word文档起到安全传输的作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例中的互联网平台系统结构示意图;

图2是本发明实施例中的互联网平台间电子文档进行迁移的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

具体的,图1示出了本发明实施例中的互联网平台系统的结构示意图,该互联网平台系统用于存储word文档,所述系统包括:若干个本地存储服务器、管理服务器和若干个迁移服务器等。

若干个本地存储服务器,用于存储所对应本地端的新存储word文档。

管理服务器,用于监听各个本地存储服务器上是否存在新存储word文档,在判断各个本地存储服务器上有新存储word文档时,获取所述新存储word文档;解析所述新存储word文档的文章表达结构,所述文章表达结构采用树形结构表示法;获取各个迁移服务器上所对应的文档样本,并基于各个迁移服务器上所对应的文档样本形成文章样本集,并将文章样本集中的每一个文档样本转换成所对应的样本结构,所述样本结构采用树形结构表示法;对所述新存储word文档的文章表达结构和文章样本集所形成的样本结构集进行相似度匹配,判断所述新存储word文档的文章表达结构是否属于样本结构集中的一个成员;在判断所述新存储word文档的文章表达结构属于样本结构集中的一个成员时,将所述新存储word文档发送到所对应的迁移服务器上。

若干个迁移服务器,所述若干个迁移服务器中的每一个迁移服务器存储有一个以上的文档样本,并存储于文档样本所对应的新存储word文档。

具体的,若干个本地存储服务器包括:第一本地存储服务器、第二本地存储服务器、第三本地存储服务器、第四本地存储服务器、第五本地存储服务器、……、第N本地存储服务器,若干个本地存储服务器的每个本地存储服务器可以结合实际应用环境存储本地的word文档,即每个本地存储服务器可以是一个PC电脑,或者是一个小型局域网下的服务器,每个本地存储服务器可以接收本地区域的新存储word文档,并对新存储word文档进行存储,其可以是一个小区域的部门(办公室部门),或者小区域的站点(比如学校设置有若干个办公室部门)。

具体的,这里通过若干个API网关连接着若干个本地存储服务器,若干个API网关将若干个本地存储服务器上的新存储word文档发送到管理服务器上,若干个API网关中每一个API网关与一个以上的第一本地存储服务器通信,这里的若干个API网关包括:第一API网关、第二API网关、……、第N API网关,每个API网关可以连接所处局域网的本地存储服务器,并实现本地存储服务器与管理服务器间的通信。即第一API网关与第一本地存储服务器、第二本地存储服务器、第三本地存储服务器通信,并实现第一本地存储服务器、第二本地存储服务器、第三本地存储服务器与管理服务器间的通信,第二API网关与第四本地存储服务器、第五本地存储服务器通信,并实现第四本地存储服务器、第五本地存储服务器与管理服务器间的通信。

具体的,这里的若干个迁移服务器包括:第一迁移服务器、第二迁移服务器、……、第N迁移服务器,每个迁移服务器上存储有一个以上的文档样本,该文档样本为一个专题文章结构的word文档,比如第一迁移服务器可以是存储基于数学教学下的专题文章结构的word文档,第二迁移服务器可以是存储基于语文教学下的专题文章结构的word文档,第三迁移服务器可以是存储基于英语教学下的专题文章结构的word文档等等,其可以基于不同的应用场景构建不同专题文章结构的word文档。每个迁移服务器可以是对应一个文档服务器,比如是一个数学题材库的存储服务器,或者是一个语文教学题材库的存储服务器等等,其方便对相关文章的规则管理。

需要说明的是,管理服务器还用于新存储word文档进行过滤处理,去除无效新存储word文档。这里新存储word文档进行过滤处理包括:对word文档设立过过滤词组,并将过滤词组存储在过滤库中,所述过滤词组至少包含有文件标识信息、文章标题、文章目录、段落数数量、文章中语言表达类型等;基于过滤库对所获取的新存储word文档进行过滤处理,去除无效新存储word文档。这里通过获取不同本地服务器上的新存储word文档,然后基于过滤规则对新存储word文档进行过滤处理,该过滤处理一方面可以实现对无效新存储word文档的处理,一方面可以减少系统端对新存储word文档的处理数量,使得整个解析过程的效率得到相应提升,也减少其在系统端的存储空间的占有率。

管理服务器将所述新存储word文档到发送到所对应的迁移服务器上是,先获取迁移服务器所对应的加密算法,并基于加密算法对所述新存储word文档进行加密,并将加密后的新存储word文档发送到所对应迁移服务器上。即管理服务器将所述新存储word文档基于加密算法进行加密,即在所述新存储word文档中加入加密头,所述加密头包括文档加密模块、文档解密模块和校验模块;基于加密头中的文档加密模块对新存储word文档进行加密。若干个迁移服务器可以实现对加密的新存储word文档进行解密,即在所述所对应的迁移服务器接收所述加密的新存储word文档后,触发校验模块校验所述所对应的新存储word文档的信息;在所述校验通过后,基于加密头中的文档解密模块对所述新存储word文档进行解密。这里校验模块基于新存储word文档的文章表达结构与迁移服务器间的存储权限进行校验,这里加密头包括加解密秘钥、加解密算法、word文档的所有者、所授权用户或组织信息。通过这种方式保障了管理服务器和迁移服务器间传输新存储word文档的安全性,对新存储word文档进行了加密和解密操作,能够有效的对新存储word文档起到安全防护的作用,防止在文件传输过程中的篡改和破解等所造成的不安全风险。

基于本发明实施例中的互联网平台系统可以监听不同的本地存储服务器上所更新的word文档,采用树形结构表示法来解析word文档中的文章内容,使得更新的word文档能够快速匹配到相应的迁移服务器,使得其可以按照word文档的文章内容来自适应存储于迁移服务器中,使得本地存储服务器上所更新的word文档能基于文章内容能达到快速有效的分类,也方便word文档的管理和查阅。该迁移服务器可以采用分布式存储系统来实现,其可以广泛应用于电子政务、网络办公环境中,也方便了电子政务、网络办公环境对word文档的统一规整管理,减少word文档规整出错。为了保障服务器和存储服务器间对电子表格文档的传输安全性,对word文档进行了加密操作,能够有效的对word文档起到安全传输的作用。

基于图1所示的互联网平台系统所实现的互联网平台间电子文档进行迁移的方法,所述方法包括:监听各个本地存储服务器上是否存在新存储word文档,在判断各个本地存储服务器上有新存储word文档时,管理服务器获取所述新存储word文档;所述管理服务器解析所述新存储word文档的文章表达结构,所述文章表达结构采用树形结构表示法;获取各个迁移服务器上所对应的样本文档,并基于各个迁移服务器上所对应的样本文本形成文章样本集,并将文章样本集中的每一个文档样本转换成所对应的样本结构,所述样本结构采用树形结构表示法;对所述新存储word文档的文章表达结构和文章样本集所形成的样本结构集进行相似度匹配,判断所述新存储word文档的文章表达结构是否属于样本结构集中的一个成员;在判断所述新存储word文档的文章表达结构属于样本结构集中的一个成员时,获取所对应的迁移服务器,并将所述新存储word文档到发送到所对应的迁移服务器上;所述迁移服务器接收所述新存储word文档,并存储所述新存储word文档。

具体,图2示出了本发明实施例中的互联网平台间电子文档进行迁移的方法流程图,其方法包括:

开始;

S201、监听各个本地存储服务器上是否存在新存储word文档,若存在新存储word文档则进入S202,否则进入S209;

S202、在判断各个本地存储服务器上有新存储word文档时,管理服务器获取所述新存储word文档;

需要说明的是,管理服务器在获取到新存储word文档时,还需要对新存储word文档进行过滤处理,去除无效新存储word文档。这里新存储word文档进行过滤处理包括:对word文档设立过过滤词组,并将过滤词组存储在过滤库中,所述过滤词组至少包含有文件标识信息、文章标题、文章目录、段落数数量、文章中语言表达类型等;基于过滤库对所获取的新存储word文档进行过滤处理,去除无效新存储word文档。这里通过获取不同本地服务器上的新存储word文档,然后基于过滤规则对新存储word文档进行过滤处理,该过滤处理一方面可以实现对无效新存储word文档的处理,一方面可以减少系统端对新存储word文档的处理数量,使得整个解析过程的效率得到相应提升,也减少其在系统端的存储空间的占有率。

S203、所述管理服务器解析所述新存储word文档的文章表达结构,所述文章表达结构采用树形结构表示法;

需要说明的是,文章结构树中的数据元素其可以按分支关系组织起来的代表文章的特征模型。

管理服务器解析所述新存储word文档的文章表达结构包括:基于新存储word文档的文章内容生成一棵空的文章结构树;将文章标题作为文章结构树的根节点,将文章的子标题和/或段落按照层级关系添加到根节点下作为子节点,并为每个子节点赋值。这里的幅值代表了该子节点特征的值。

每个子节点的赋值可以由两部分构成,一个是该节点下包括的所有文字占整个文章的比率,另一个是这些文字包含的词语文章主题的相关度,两者的乘积即为这个节点的赋值。

S204、获取各个迁移服务器上所对应的样本文档,并基于各个迁移服务器上所对应的样本文本形成文章样本集,并将文章样本集中的每一个文档样本转换成所对应的样本结构,所述样本结构采用树形结构表示法;

这里首先获取到各个迁移服务器上所对应的样本文档,再构建样本文档的文章结构树,其采用同样的方法构建出文章结构树。

这里获取各个迁移服务器上所对应的样本文档具体包括:管理服务器在收到新存储word文档时,生成广播指令,并将广播指令下发到各个迁移服务器,所述广播指令用于请求各个迁移服务器上所对应的样本文档;管理服务器接收各个存储服务器基于广播指令所反馈的反馈信息,所述反馈信息中存储有各个迁移服务器中所设置的样本文档,通过这种方式实时调取各个迁移服务器上的样本文档,可以随着迁移服务器中的文档动态设置样本文档而进行适配处理。

S205、对所述新存储word文档的文章表达结构和文章样本集所形成的样本结构集进行相似度匹配;

这里对所述新存储word文档的文章表达结构和文章样本集所形成的样本结构集进行相似度匹配包括:提取样本结构集中的每一个样本成员,并基于每一个样本成员与存存储文档的文章表达结构进行相似度匹配;逐层计算文章表达结构与样本结构集中每一个成员之间树形结构的相似度,并计算出所述文档表达结构与每一个成员之间的相似度值,形成相似度值集合。

具体的,这里逐层计算文章表达结构与样本结构集中每一个成员之间树形结构的相似度包括:输入文章表达结构和样本结构集中的一个成员的样本结构,将文章表达结构与一个成员的样本结构逐层对比,每个节点可以看成一组向量,然后计算两个向量的相似度。若出现两颗树的深度不一致,则只对比到深度浅的树的那一层则终止计算。最后,累加每一层的近似度获得一个近似度最终得分,得分越高表面两个树越相近。

S206、判断所述新存储word文档的文章表达结构是否属于样本结构集中的一个成员,若属于样本结构集中的一个成员则进入S207,否则进入S209;

具体实施过程中,提取相似度值集合中最大相似度值;判断所述最大相似度值是否大于预设阈值,若判断所述最大相似度值大于预设阈值则判断所述新存储word文档的文章表达结构属于样本结构集中的一个成员。

这里阈值设置是为了避免仅通过相似度值来进行评断,比如有些文章结构树与样本结构集中的样本结构本身存在很大的实质性差异,与所有成员进行相似度匹配之后,其整体的相似度值都偏低,其最大值都不能满足阈值条件,说明该新存储word文档本身不符合本次迁移,该预设阈值可以结合实际应用场景进行设定,比如相似度值达到90%以上才能满足迁移过程。

S207、在判断所述新存储word文档的文章表达结构属于样本结构集中的一个成员时,获取所对应的迁移服务器,并将所述新存储word文档到发送到所对应的迁移服务器上;

具体的,通过S206中的最大相似度值可以映射出所对应的迁移服务器,即最大相似度值可以先映射出所对应的样本结构,该样本结构属于所对应的迁移服务器,那么久获取到所对应的迁移服务器。

具体的,这里将所述新存储word文档到发送到所对应的迁移服务器上包括:获取迁移服务器所对应的加密算法,并基于加密算法对所述新存储word文档进行加密,并将加密后的新存储word文档发送到所对应迁移服务器上。即管理服务器将所述新存储word文档基于加密算法进行加密,即在所述新存储word文档中加入加密头,所述加密头包括文档加密模块、文档解密模块和校验模块;基于加密头中的文档加密模块对新存储word文档进行加密。若干个迁移服务器可以实现对加密的新存储word文档进行解密,即在所述所对应的迁移服务器接收所述加密的新存储word文档后,触发校验模块校验所述所对应的新存储word文档的信息;在所述校验通过后,基于加密头中的文档解密模块对所述新存储word文档进行解密。这里校验模块基于新存储word文档的文章表达结构与迁移服务器间的存储权限进行校验,这里加密头包括加解密秘钥、加解密算法、word文档的所有者、所授权用户或组织信息。通过这种方式保障了管理服务器和迁移服务器间传输新存储word文档的安全性,对新存储word文档进行了加密和解密操作,能够有效的对新存储word文档起到安全防护的作用,防止在文件传输过程中的篡改和破解等所造成的不安全风险。

S208、所述迁移服务器接收所述新存储word文档,并存储所述新存储word文档;

S209、基于预设的时间间隔触发监听过程。

需要说明的是,这里的管理服务器基于预设的时间间隔监听各个本地存储服务器上是否存在新存储word文档,其通过获取存储在本地存储服务器上的各个word文档的内部标识信息,所述内部标识信息包括有存储时间日志;解析所述内部标识信息中的存储时间日志,并判断所述存储时间日志是否超过上次监听时间,若超过上次监听时间则判断本地存储服务器上存在新存储word文档,所述存储时间日志超过上次监听时间所对应的word文档为新存储word文档。这种时间间隔可以参考小时或者天,设定具体监控时间点。

基于本发明实施例中的方法,可以监听不同的本地存储服务器上所更新的word文档,采用树形结构表示法来解析word文档中的文章内容,使得更新的word文档能够快速匹配到相应的迁移服务器,使得其可以按照word文档的文章内容来自适应存储于迁移服务器中,使得本地存储服务器上所更新的word文档能基于文章内容能达到快速有效的分类,也方便word文档的管理和查阅。该迁移服务器可以采用分布式存储系统来实现,其可以广泛应用于电子政务、网络办公环境中,也方便了电子政务、网络办公环境对word文档的统一规整管理,减少word文档规整出错。为了保障服务器和存储服务器间对电子表格文档的传输安全性,对word文档进行了加密操作,能够有效的对word文档起到安全传输的作用。

本申请实施例还提供了一种计算机存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个实施例所述方法中的一个或多个步骤。上述装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中,基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机产品存储在计算机可读存储介质中。

以上对本发明实施例进行了详细介绍,本文中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 互联网平台间电子文档进行迁移的方法及系统
  • 运用互联网平台进行电子商务的方法和系统
技术分类

06120114720503