掌桥专利:专业的专利平台
掌桥专利
首页

文档处理方法、装置、电子设备以及存储介质

文献发布时间:2023-06-19 19:21:53


文档处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及计算机技术领域,尤其涉及数字水印技术领域、数据安全技术领域。具体涉及文档处理方法、装置、电子设备、存储介质以及程序产品。

背景技术

随着互联网信息技术的发展,在互联网环境下,时有发生对多媒体例如文档的任意拷贝、传阅、修改等行为。在此背景下,数字水印技术作为一种新的多媒体安全保护技术应运而生。数字水印技术在鲁棒性、稳定性和对抗性等方面,成为重要的研究课题。

发明内容

本公开提供了一种文档处理方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面,提供了一种文档处理方法,包括:响应于接收到用于对待处理文档嵌入溯源信息的嵌入请求,从上述嵌入请求中获取上述待处理文档和用户标识信息;基于上述用户标识信息,生成溯源信息;从上述待处理文档中确定水印域,其中,上述水印域位于上述待处理文档中的除上述文本域外的区域;以及按照隐式方式,将上述溯源信息添加至上述水印域中,得到目标文档。

根据本公开的另一方面,提供了一种文档处理装置,包括:第一获取模块,用于响应于接收到用于对待处理文档嵌入溯源信息的嵌入请求,从上述嵌入请求中获取上述待处理文档和用户标识信息;第一生成模块,用于基于上述用户标识信息,生成溯源信息;第一确定模块,用于从上述待处理文档中确定水印域,其中,上述水印域位于上述待处理文档中的除上述文本域外的区域;以及第二生成模块,用于按照隐式方式,将上述溯源信息添加至上述水印域中,得到目标文档。

根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1示意性示出了根据本公开实施例的可以应用文档处理方法及装置的示例性系统架构;

图2示意性示出了根据本公开实施例的文档处理方法的流程图;

图3示意性示出了根据本公开实施例的生成目标文档的示意图;

图4示意性示出了根据本公开实施例的确定用户标识信息的示意图;

图5示意性示出了根据本公开实施例的文档处理装置的框图;以及

图6示意性示出了根据本公开实施例的适于实现文档处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

随着数据安全意识和数字版权意识的逐步增强,企业开始对数据安全提出了更高的要求。在现代化办公环境中,文档作为合同、发票、原创文案、产品手册等重要数据的载体,被积累以及存档。在这种场景下,一旦文档被随意拷贝或者传递,将对企业的数据安全和数字版权等造成威胁。

本公开提供了一种文档处理方法、装置、电子设备、存储介质以及程序产品。

根据本公开的实施例,提供一种文档处理方法,包括:响应于接收到用于对待处理文档嵌入溯源信息的嵌入请求,从嵌入请求中获取待处理文档和用户标识信息;基于用户标识信息,生成溯源信息;从待处理文档中确定水印域,其中,水印域位于待处理文档中的除文本域外的区域;以及按照隐式方式,将溯源信息添加至水印域中,得到目标文档。

本公开提供的文档处理方法,应用数字水印技术,将溯源信息以隐式方式添加至待处理文档中,实现不破坏源数据的同时,文档得到保护。

在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。

在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用文档处理方法及装置的示例性系统架构。

需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示,根据该实施例的系统架构100可以包括终端设备101,中间服务器102,网络103和目标服务器104。网络103用以在终端设备101和目标服务器104、终端设备101和中间服务器102、中间服务器102和目标服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线和/或无线通信链路等等。

用户可以使用终端设备101通过网络102与目标服务器104交互,以接收或发送消息等。例如,向目标服务器104发送用于下载文档的下载请求。终端设备101上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

目标服务器104可以是提供各种服务的服务器,例如对用户利用终端设备101所浏览的内容、发送的用于下载文档的下载请求提供支持的后台管理服务器(仅为示例)。

中间服务器102可以是提供文档处理服务的服务器,例如可以是本公开实施例提供的文档处理方法的执行主体。

用户可以通过终端设备101向目标服务器104发送用于下载文档的下载请求。目标服务器104响应于接收到来自终端设备101的下载请求。基于待处理文档与用户标识信息,生成用于对待处理文档嵌入溯源信息的嵌入请求。将该嵌入请求发送给中间服务器102。中间服务器102响应于接收到来自目标服务器104的用于对待处理文档嵌入溯源信息的嵌入请求,从嵌入请求中获取待处理文档和用户标识信息。基于用户标识信息,生成溯源信息。从待处理文档中确定水印域。按照隐式方式,将溯源信息添加至水印域中,得到目标文档。并将目标文档发送给终端设备101。

应该理解,图1中的终端设备、网络、中间服务器和目标服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络中间服务器和目标服务器。

应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的文档处理方法的流程图。

如图2所示,该方法包括操作S210~S240。

在操作S210,响应于接收到用于对待处理文档嵌入溯源信息的嵌入请求,从嵌入请求中获取待处理文档和用户标识信息。

在操作S220,基于用户标识信息,生成溯源信息。

在操作S230,从待处理文档中确定水印域。水印域位于待处理文档中的除文本域外的区域。

在操作S240,按照隐式方式,将溯源信息添加至水印域中,得到目标文档。

根据本公开的实施例,待处理文档的类型不做限定,例如,可以是文本(Word)文档也可以是表格(Excel)文档。只要是电子版的文档即可。

根据本公开的实施例,用户标识信息可以包括用于表征用户身份的标识信息。例如,用户的身份证信息、用户的账户信息、用户的邮箱信息和用户的电话信息中的一种或多种,只要是能够追溯用户身份的信息即可。

根据本公开的实施例,溯源信息也称水印信息,可以作为一种附加信息被添加至待处理文档中,一起被传输和使用。在待处理文档中添加可以追溯的溯源信息,能够不影响待处理文档中的源数据的同时,还可以在目标文档被肆意盗用、泄露的情况下,能够基于溯源信息对泄露人员及时、有效地溯源,进而降低目标文档被盗用的损失。

根据本公开的实施例,可以直接将用户标识信息作为溯源信息,但是并不局限于此,还可以对用户标识信息进行加密,将加密后的用户标识信息作为溯源信息,只要是能够从溯源信息中获悉用户身份,且不易被发现的方式即可。

根据本公开的实施例,按照隐式方式,将溯源信息添加至水印域中,可以指:利用人眼难以从目标文档中察觉或者识别到溯源信息的方式,将溯源信息添加至水印域中。例如,可以将溯源信息的字体颜色进行变换,使得溯源信息的字体颜色与待处理文档的背景颜色一致,进而实现难以被发现。还例如,设置溯源信息的属性,将溯源信息调整为隐藏属性,以在待处理文档中处于隐藏性质,进而实现难以被发现。

根据本公开的实施例,待处理文档的文本域指含有文本、图像、表格等可编辑内容的区域。水印域指待处理文档中的除文本域外的区域。

根据本公开的实施例,将待处理文档的待添加溯源信息的区域例如水印域与文本域分开,使得生成的目标文档中的溯源信息与文本域中的可编辑内容隔离开,进而有效地解决在目标文档被编辑的过程中,溯源信息容易被篡改或者丢失的问题,由此提高溯源信息的对抗性和存活率。

根据相关示例,可以利用嵌入算法,对溯源信息进行编码,将溯源信息转换为标识符嵌入于待处理文档的字体颜色或者行间距等属性信息中,实现在待处理文档中添加溯源信息的目的。

与将溯源信息加载于字体颜色或者行间距等属性信息中的方法相比,利用本公开实施例提供的文档处理方法,能够利用将溯源信息添加至水印域中的方式,将溯源信息和可编辑内容分开,避免在对目标文档的可编辑内容进行编辑的过程中,发生溯源信息丢失或者被篡改的问题。

根据本公开的实施例,针对如图2所示的操作S230,从待处理文档中确定水印域,可以包括如下操作。

例如,对待处理文档进行解析,得到待嵌入文档。从待嵌入文档中识别用于表征文本域界限的文本标识标签。基于文本标识标签,从待嵌入文档中确定水印域。

根据本公开的实施例,对待处理文档进行解析可以包括对待处理文档进行解压、格式转换等。例如,将以压缩包形式的待处理文档解压,得到待嵌入文档。但是并不局限于此。还可以对待处理文档进行格式转换,例如将文本格式转换为图像格式、将文本格式转换为表格格式等。只要是能够对待处理文档进行解析,得到待嵌入文档的解析方式即可。

根据本公开的实施例,待嵌入文档中可以预先存储有文本标识标签。在待嵌入文档为文本格式的情况下,可以通过关键词匹配方法从待嵌入文档中识别文本标识标签。在待嵌入文档为图像格式的情况下,可以通过文本检测方法从待嵌入文档中识别文本标识标签。

根据本公开的实施例,在待嵌入文档不含文本标识标签的情况下,可以添加一个用于表征文本域界限的文本标识标签,以用于区分文本域和水印域。只要是能够从待处理文档中确定水印域的文本标识标签即可。

根据本公开的实施例,利用本公开实施例提供的方式,在待嵌入文档中确定文本标识标签,可以将文本域和水印域进行划分,形成区域划分标记符,以便追溯过程中识别水印域,进而便于从水印域部分确定溯源信息。

根据本公开的示例性实施例,对待处理文档进行解析,得到待嵌入文档,还可以包括如下操作。

例如,将待处理文档转换为预定格式文档。对预定格式文档进行解析,得到与待处理文档相对应的多个文档。基于文档类型,从多个文档中确定待嵌入文档。

根据本公开的实施例,以文本文档为例,可以基于预定文档结构,将待处理文档转换为预定格式文档。预定格式文档可以包括例如OOXML(Microsoft Office OpenExtensible Markup Language,微软开发的办公软件标准可扩展标记语言)格式的文档。可以直接将待处理文档转换为OOXML格式文档,也可以将待处理文档转换为二进制格式后,将二进制格式的待处理文档转换为OOXML格式文档。

根据本公开的实施例,对该预定格式文档进行解析,得到与待处理文档相对应的多个文档,可以包括:对预定格式文档进行解压,得到与待处理文档相对应的多个文档。OOXML格式文档结合了可扩展标记语言(Extensible Markup Language,XML)技术以及压缩技术。经对预定格式文档进行解压后,可以得到XML格式的多个文档。基于文档类型,可以从多个文档中确定待嵌入文档。

根据本公开的实施例,对该待嵌入文档添加溯源信息,相当于对待处理文档添加溯源信息。

根据本公开的实施例,利用该解析方式得到待嵌入文档,解析过程简单,易操作。此外,还能够保证待处理文档内部数据的一致性,在添加溯源信息的同时,不改变源数据的内容和格式,进而提高溯源信息的对抗性和稳定性。

根据本公开的示例性实施例,待嵌入文档为与待处理文档的内容相关的文档。

根据本公开的实施例,与待处理文档的内容相关的文档可以是例如标识为document.xml(一种可扩展标记语言格式的与内容相关)的文档。

根据相关示例,多个文档中还包括其他类型的文档,例如与待处理文档的格式相关的文档,例如标识为setting.xml(一种可扩展标记语言格式的与配置信息相关的)的文档。可以将与待处理文档的格式相关的文档作为待嵌入文档,将溯源信息添加至待嵌入文档中的方式可以包括:将用户标识信息转换为字符串,将字符串中的每个字符处理为标识符,将标识符添加至例如<w:rsids>属性标签内。<w:rsids>属性标签内可以存放冗余数据。

与将与待处理文档的格式相关的文档,例如setting.xml文档,作为待嵌入文档的文档处理方法相比,利用本公开实施例提供的文档处理方法,能够将文本域和水印域隔离,避免在对目标文档进行格式编辑的过程中,溯源信息被删除或者修改的问题。此外,利用本公开实施例提供的文档处理方法,能够简化溯源信息添加至待嵌入文档中的嵌入过程,避免进行字符串的编码等操作。由此实现在提高溯源信息的稳定性的同时,简化处理过程,提高处理效率。

根据本公开的示例性实施例,从待嵌入文档中识别用于表征文本域界限的文本标识标签可以包括:从待嵌入文档中识别用于表征文本域尾行界限的文本标识标签。

根据本公开的实施例,待嵌入文档中的用于表征文本域尾行界限的文本标识标签可以是例如<w:sectPr>标签,但是并不局限于此,只要是能够表征文本域尾行界限的文本标识标签即可。

根据本公开的实施例,利用用于表征文本域尾行界限的文本标识标签,可以使得溯源信息添加至文本域的尾行后的水印域中,进而可以使得目标文档在各种文档编辑软件中打开时,编辑光标始终定位在文本域内,不会对水印域内的溯源信息进行编辑,从而达到了文本域与水印域隔离的目的。

根据本公开的其他实施例,文本标识标签还可以是例如表征文本域首行界限的文本标识标签。

与文本标识标签用于表征文本域首行界限的文本标识标签相比,利用用于表征文本域尾行界限的文本标识标签,能够避免在对目标文档中的文本域首行进行前进式删除(Backspace)的过程中,将溯源信息误删除的问题。

根据本公开的实施例,针对如图2所示的操作S240,按照隐式方式,将溯源信息添加至水印域中,得到目标文档,可以包括:将溯源信息添加至待嵌入文档的水印域中。利用隐式属性标签为溯源信息设置隐式属性,得到已嵌入文档。对已嵌入文档进行封装,得到目标文档。

根据本公开的实施例,可以将溯源信息直接写入待嵌入文档的水印域中。利用隐式属性标签例如<w:vanish>标签将溯源信息设置为隐式属性,得到已嵌入文档。但是并不局限于此。还可以直接将溯源信息添加至待嵌入文档的水印域中,并对溯源信息进行格式属性的转换,得到已嵌入文档。例如将溯源信息的颜色转换为白色,或者将溯源信息的字体大小调整为肉眼难以可见,以使得用户难以察觉。

根据本公开的实施例,可以对已嵌入文档进行封装,得到目标文档。封装可以指对文档格式进行转换,但是并不局限于此,还可以指将多个文档中除待嵌入文档外的文档和已嵌入文档重新进行压缩,生成目标文档。

根据本公开的实施例,利用隐式方式将溯源信息添加至水印域中,能够避免溯源信息以明文的方式存在于目标文档中,由此不易被攻击者发现而恶意改造,进而提高对抗性。

图3示意性示出了根据本公开实施例的生成目标文档的示意图。

如图3所示,可以对OOXML格式的待处理文档310进行解析,得到多个文档320。从多个文档320中确定与待处理文档310的内容相关的文档例如document.xml格式的文档,作为待嵌入文档330。从待嵌入文档330中确定用于表征文本域尾行界限的文本标识标签331,例如<w:sectPr>标签。在文本标识标签331后的水印域332中添加溯源信息340。该溯源信息340是基于用户标识信息350生成的。对该溯源信息340添加隐藏属性性质的隐藏属性标签333例如<w:vanish>标签,得到目标文档360。

根据本公开的实施例,针对如图2所示的操作S220,基于用户标识信息,生成溯源信息,可以包括:对用户标识信息进行加密,得到加密信息。确定加密信息的长度,得到溯源长度信息。基于溯源标识信息、溯源长度信息和加密信息,生成溯源信息。

根据本公开的实施例,可以利用私钥、非对称加密算法对用户标识信息进行加密,得到加密信息。但是并不局限于此。也可以利用对称加密算法对用户标识信息进行加密,得到加密信息。还可以在非对称加密算法的基础上设计偏移量,以提高解密难度,提高加密信息的安全性。

根据本公开的实施例,确定加密信息的长度,得到溯源长度信息。该溯源长度信息可以利用数字形式展示,但是并不局限于此,还可以转换为其他类型的字符形式展示,例如ASCII码(American Standard Code for Information Interchange,美国标准信息交换代码)。还可以利用数字与ASCII码结合的形式展示。例如,将溯源长度信息转换为ASCII码,在该ASCII码的前面加上数字形式表达的溯源长度信息或者在该ASCII码的前面加上数字形式表达的标识信息,例如数字“0”。

根据本公开的相关示例,可以仅将加密信息作为溯源信息。也可以基于溯源标识信息和加密信息,生成溯源信息。

与将加密信息作为溯源信息的方式相比,利用本公开实施例提供的生成溯源信息的方式,能够利用溯源标识信息,在溯源过程中,便于定位进而提高提取溯源信息的提取速度。与基于溯源标识信息和加密信息,生成溯源信息的方式相比,利用本公开实施例提供的生成提高溯源信息的方式,能够利用溯源标识信息和溯源长度信息提高溯源信息的隐秘性和对抗性的同时,提高提取溯源信息的提取速度。

根据本公开的实施例,基于溯源标识信息、溯源长度信息和加密信息,生成溯源信息,可以包括如下操作。

例如,按照预定规则,对溯源标识信息、溯源长度信息和加密信息进行组合,生成溯源信息。

根据本公开的实施例,按照预定排序规则,对溯源标识信息、溯源长度信息和加密信息进行排序,将排序后的信息作为溯源信息。但是并不局限于此。还可以重复溯源标识信息、溯源长度信息和加密信息其中的一项或多项,再进行排序,将排序后的信息作为溯源信息。

根据本公开的实施例,只要是能够增强对抗性,不利于被破译软件破译的同时,能够准确快速的追溯的生成方式即可。

根据本公开的示例性实施例,可以重复溯源标识信息,例如得到第一溯源标识信息和第二溯源标识信息。按照预定排序规则,对第一溯源标识信息、第二溯源标识信息、溯源长度信息和加密信息进行排序,得到溯源信息。

例如,将“#”作为第一溯源标识信息和第二溯源标识信息。溯源信息可以表式为:″#″+(″0″+溯源长度信息)+″#″+加密信息。

根据本公开的实施例,利用第一溯源标识信息和第二溯源标识信息,能够提高提取加密信息的提取速度的同时,增强对抗性以及提高破译难度。

根据本公开的实施例,在针对如图2所示的操作S240后,文档处理方法还可以包括操作S250,溯源。

例如,从目标文档中确定用户标识信息。

根据本公开的实施例,从目标文档中确定用户标识信息,可以包括:响应于接收到用于从目标文档提取溯源信息的提取请求,从提取请求中获取目标文档。从目标文档中确定水印域。基于水印域从目标文档中确定溯源信息。从溯源信息中确定用户标识信息。

根据本公开的实施例,该提取请求可以是在用于查询目标文档是否被泄露,或者在已知被泄露用于追溯泄露源的情况下生成的。

根据本公开的实施例,可以从目标文档中确定非文本域的区域例如水印域,从水印域中得到溯源信息。因溯源信息是基于用户标识信息生成的。可以从溯源信息中确定用户标识信息,进而完成对目标文档的溯源。

根据本公开的实施例,本公开实施例提供的文档处理方法,溯源信息的添加区域例如水印域与文本域是分开的,在目标文档被流转、二次编辑、传阅的过程中,不会因文本域中的可编辑内容的编辑而导致溯源信息的丢失或者破坏,使得提取溯源信息简单且有效。

根据本公开的实施例,从目标文档中确定水印域,可以包括如下操作。

例如,对目标文档进行解析,得到待提取文档。从待提取文档中确定用于表征文本域界限的文本标识标签。基于文本标识标签,从待提取文档中确定水印域。

根据本公开的实施例,对目标文档进行解析,得到待提取文档,可以包括:将目标文档转换为预定格式目标文档。对预定格式目标文档进行解析,得到与目标文档相对应的多个文档。基于文档类型,从多个文档中确定待提取文档。

根据本公开的实施例,可以将目标文档进行二进制转换,得到二进制格式的目标文档。将二进制格式的目标文档转换为OOXML格式目标文档。对转换为OOXML格式目标文档进行解压,得到多个文档。从多个文档中确定与目标文档的内容相关的文档,作为待提取文档。

根据本公开的实施例,从待提取文档中确定用于表征文本域界限的文本标识标签,可以包括:利用关键字匹配技术,从多个标签中识别用于表征文本域界限的文本标识标签。

根据本公开的示例性实施例,可以从待提取文档中确定用于表征文本域尾行界限的文本标识标签,例如从document.xml待提取文档中确定<w:sectPr>文本标识标签,从而定位到水印域。

根据相关示例,可以基于待提取文档中的隐式属性标签例如<w:vanish>标签直接定位到溯源信息。

与利用隐式属性标签从待提取文档中确定溯源信息的方式相比,利用文本标识标签识别水印域,能够利用文本标识标签<w:sectPr>的唯一性,准确定位到水印域,避免因重复出现隐式属性标签而导致的溯源信息定位不准的问题。

根据本公开的实施例,从溯源信息中确定用户标识信息,可以包括如下操作。

例如,基于溯源标识信息,从溯源信息中确定溯源长度信息。基于溯源标识信息和溯源长度信息,从溯源信息中确定加密信息。对加密信息进行解密,得到用户标识信息。

根据本公开的实施例,可以根据溯源信息的生成过程的逆向操作,从溯源信息中确定用户标识信息。例如,溯源信息中包括溯源标识信息,可以基于溯源标识信息,从水印域中确定溯源信息。基于溯源标识信息,从溯源信息中确定溯源长度信息。例如,将第一溯源标识信息和第二溯源标识信息之间的内容,作为溯源长度信息。基于溯源长度信息,从第二溯源标识信息开始,向后偏移溯源长度信息个字符,截取得到加密信息。

根据本公开的实施例,利用与加密方式相对应的解密方法,对加密信息进行解密,得到用户标识信息。从而根据用户标识信息确定泄露目标文档的人员或者相关人员。

根据本公开的实施例,利用本公开实施例提供的溯源信息的生成方式,在提高抗攻击能力的同时,简化从溯源信息中提取用户标识信息的速度,进而提高溯源效率和有效性。

图4示意性示出了根据本公开实施例的确定用户标识信息的示意图。

如图4所示,对目标文档410进行解析,得到多个文档420。从多个文档420中确定待提取文档430。从待提取文档430中确定文本标识标签431。基于文本标识标签430,从待提取文档430中确定水印域432。基于溯源标识信息,从水印域432中确定溯源信息440。从溯源信息440中确定用户标识信息450。完成溯源过程。

图5示意性示出了根据本公开实施例的文档处理装置的框图。

如图5所示,文档处理装置500,包括:第一获取模块510、第一生成模块520、第一确定模块530以及第二生成模块540。

第一获取模块510,用于响应于接收到用于对待处理文档嵌入溯源信息的嵌入请求,从嵌入请求中获取待处理文档和用户标识信息。

第一生成模块520,用于基于用户标识信息,生成溯源信息。

第一确定模块530,用于从待处理文档中确定水印域,其中,水印域位于待处理文档中的除文本域外的区域。

第二生成模块540,用于按照隐式方式,将溯源信息添加至水印域中,得到目标文档。

根据本公开的实施例,第一确定模块包括:第一解析子模块、识别子模块以及第一确定子模块。

第一解析子模块,用于对待处理文档进行解析,得到待嵌入文档。

识别子模块,用于从待嵌入文档中识别用于表征文本域界限的文本标识标签。

第一确定子模块,用于基于文本标识标签,从待嵌入文档中确定水印域。

根据本公开的实施例,第一解析子模块包括:转换单元、解析单元以及第一确定单元。

转换单元,用于将待处理文档转换为预定格式文档。

解析单元,用于对预定格式文档进行解析,得到与待处理文档相对应的多个文档。

第一确定单元,用于基于文档类型,从多个文档中确定待嵌入文档。

根据本公开的实施例,第二生成模块包括:添加子模块、隐藏子模块以及封装子模块。

添加子模块,用于将溯源信息添加至待嵌入文档的水印域中。

隐藏子模块,用于利用隐式属性标签为溯源信息设置隐式属性,得到已嵌入文档。

封装子模块,用于对已嵌入文档进行封装,得到目标文档。

根据本公开的实施例,第一生成模块包括:加密子模块、第二确定子模块以及第一生成子模块。

加密子模块,用于对用户标识信息进行加密,得到加密信息。

第二确定子模块,用于确定加密信息的长度,得到溯源长度信息。

第一生成子模块,用于基于溯源标识信息、溯源长度信息和加密信息,生成溯源信息。

根据本公开的实施例,第一生成子模块包括:生成单元。

生成单元,用于按照预定规则,对溯源标识信息、溯源长度信息和加密信息进行组合,生成溯源信息。

根据本公开的实施例,文档处理装置还包括:第二获取模块、第二确定模块、第三确定模块以及第四确定模块。

第二获取模块,用于响应于接收到用于从目标文档提取溯源信息的提取请求,从提取请求中获取目标文档。

第二确定模块,用于从目标文档中确定水印域。

第三确定模块,用于基于水印域,从目标文档中确定溯源信息。

第四确定模块,用于从溯源信息中确定用户标识信息。

根据本公开的实施例,第二确定模块包括:第二解析子模块、第三确定子模块以及第四确定子模块。

第二解析子模块,用于对目标文档进行解析,得到待提取文档。

第三确定子模块,用于从待提取文档中确定用于表征文本域界限的文本标识标签。

第四确定子模块,用于基于文本标识标签,从待提取文档中确定水印域。

根据本公开的实施例,第四确定模块包括:第五确定子模块、第六确定子模块以及解密子模块。

第五确定子模块,用于基于溯源标识信息,从溯源信息中确定溯源长度信息。

第六确定子模块,用基于溯源标识信息和溯源长度信息,从溯源信息中确定加密信息。

解密子模块,用于对加密信息进行解密,得到用户标识信息。

根据本公开的实施例,识别子模块包括:识别单元。

识别单元,用于从待嵌入文档中识别用于表征文本域尾行界限的文本标识标签。

根据本公开的实施例,待嵌入文档为与待处理文档的内容相关的文档。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例的方法。

根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例的方法。

根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例的方法。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文档处理方法。例如,在一些实施例中,文档处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的文档处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 目录文档的操作方法、装置、电子设备、可读存储介质
  • 一种在线文档检索方法、装置、存储介质及电子设备
  • 一种医学文档的处理方法、装置、介质及电子设备
  • 日志信息处理方法、装置、电子设备及可读存储介质
  • 数据处理方法、装置、计算机可读存储介质和电子设备
  • 一种文档处理方法、装置、电子设备及可读存储介质
  • 一种文档处理方法、装置、电子设备及计算机存储介质
技术分类

06120115887218