掌桥专利:专业的专利平台
掌桥专利
首页

文档处理方法、装置、设备、存储介质和计算机程序产品

文献发布时间:2023-06-19 10:19:37


文档处理方法、装置、设备、存储介质和计算机程序产品

技术领域

本公开涉及计算机技术领域,尤其涉及文件安全技术领域和人工智能技术领域,特别涉及一种文档处理方法、装置、设备、存储介质和计算机程序产品。

背景技术

随着互联网技术的快速发展,越来越多的用户在工作和生活中,需要通过网络进行文档浏览、文档下载和文档分享。为了满足用户需求,多个互联网服务主体的服务器,通过网络为用户提供对应的文档管理平台,以为用户提供文档上传和文档的浏览、下载和分享服务。

在开放的网络环境中,为了保护文档的版权拥有者的合法权益,每个互联网服务主体的服务器需要对所提供的文档提供安全保护,以提高文档的安全性。

发明内容

提供了一种文档处理方法、装置、设备、存储介质和计算机程序产品。

根据本公开的第一方面,提供了一种文档处理方法,包括:对预定文档的解压缩数据所包含的中央目录记录结尾数据块进行解析,得到预定文档的中央目录记录的信息;通过解析预定文档的中央目录记录的信息,从解压缩数据中获取预定文档的用于设置文档属性的文件目录地址;在用于设置文档属性的文件目录地址下,通过自定义属性文件记录预设水印信息的字符串信息,得到预定文档的暗水印信息;对包含暗水印信息的预定文档的解压缩数据进行压缩处理,得到包含暗水印信息的新的文档。

根据本公开的第二方面,提供了一种文档处理装置,包括:第一解析模块,用于对预定文档的解压缩数据所包含的中央目录记录结尾数据块进行解析,得到预定文档的中央目录记录的信息;第二解析模块,用于通过解析预定文档的中央目录记录的信息,从解压缩数据中获取预定文档的用于设置文档属性的文件目录地址;信息添加模块,用于在用于设置文档属性的文件目录地址下,通过自定义属性文件记录预设水印信息的字符串信息,得到预定文档的暗水印信息;压缩处理模块,用于对包含暗水印信息的预定文档的解压缩数据进行压缩处理,得到包含暗水印信息的新的文档。

根据本公开的第三方面,提供了一种电子设备,其包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一种文档处理方法。

根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例中文档处理方法中任一项所述的文档处理方法。

根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述文档处理方法中任一项所述的方法。

根据本公开的技术,可以在不影响文档使用的前提下,将暗水印嵌入到预定文档中,从而通过对预定文档添加的暗水印信息来确定该预定文档的来源,实现对预定文档的来源鉴定和版权保护,提高文档的安全性。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开实施例的场景示意图;

图2是根据本公开第一实施例的文档处理方法的流程示意图;

图3是根据本公开第二实施例的文档处理方法的流程示意图;

图4是根据本公开第三实施例的文档处理装置的结构示意图;

图5是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

图1是本公开实施例的场景示意图。在图1中所示的场景中,包括:终端11、文档管理平台12、文档管理服务器13和网络14。

其中,终端11可以包括但不限于:个人电脑、智能手机、平板电脑、个人数字助理、服务器等。用户可以通过终端11将预定文档上传到文档管理平台12。

文档管理服务器13可以对上传到文档管理平台12的文档进行本公开实施例的文档处理,在预定文档中增加暗水印信息,以对预定文档提供文档安全保护。

其中,其他文档管理平台可以是本公开实施例中的文档管理平台12之外的文档管理平台。作为示例,文档管理平台12可以是归属于指定互联网服务主体的文库管理平台,其他文档管理平台可以是归属于其他互联网服务主体的文库管理平台;作为示例,文档管理服务器13可以是文库管理平台的服务器。

网络14用以在各种平台和电子设备之间提供通信链路的介质。具体的,网络14可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。

在一些应用场景中,若一些文档是具有独家签约信息的文档,可通过人工发现第三方平台有文库独家签约文档或通过机器进行全网查找独家文档,但是这种方法进适用于独家文档的维权,其他非独家文档无法进行取证说明属于某互联网服务实体的文库管理平台。因此除独家文档外,存在文库文档被其他平台进行抓取而不知情的情况。需要提供一种在开放的网络环境下保护文库文档来源及完整性的新技术。

应该理解,图1中的设备的数目仅仅是示意性的。根据实际应用需要,可以进行灵活调整。例如,文档管理服务器13可以是由一台服务设备构成,也可以是多台服务设备构成的服务器集群。具体可以根据需求灵活配置,此方面内容不做限制。

图2为本公开实施例的文档处理方法的流程示意图。

第一方面,参照图2,本公开实施例提供一种文档处理方法。如图2所示,该方法可以包括如下步骤。

S110,对预定文档的解压缩数据所包含的中央目录记录结尾数据块进行解析,得到预定文档的中央目录记录的信息。

S120,通过解析预定文档的中央目录记录的信息,从解压缩数据中获取预定文档的用于设置文档属性的文件目录地址。

S130,在用于设置文档属性的文件目录地址下,通过自定义属性文件记录预设水印信息的字符串信息,得到预定文档的暗水印信息。

S140,对包含暗水印信息的预定文档的解压缩数据进行压缩处理,得到包含暗水印信息的新的文档。

根据本公开实施例的文档处理方法,通过解析预定文档的解压缩数据的中央目录记录结尾(End of central directory record,EOCD)对应的数据块(如下可以简称为EOCD块),可以得到预定文档的中央目录记录(Central Directory Record,CDR)的信息;在对CDR的解析后,可以获取预定文档中的用于设置文档属性内容的文件目录地址;在用于设置文档属性内容的文件目录地址下,通过自定义属性文件记录预设水印信息的字符串信息。

由于水印信息的字符串信息是添加在用于设置文档属性的文件目录地址下的自定义属性文件中,而不是添加在预定文档的文档内容中,所以该位置下添加的水印信息在预定文档的页面显示区域中是不可见的,对于预定文档来说,该水印信息为暗水印信息,对包含暗水印信息的预定文档的解压缩数据进行压缩处理后,可以得到包含暗水印信息的新的文档。

在本公开实施例的文档处理方法中,对于独家文档和非独家文档,在文档中添加暗水印信息的文档被下载后,用户在浏览时不影响文档使用,可以在不影响文档的商用价值和使用价值的前提下,将暗水印嵌入到预定文档中,从而通过对预定文档添加的暗水印信息来确定该预定文档的来源,实现对预定文档的来源鉴定和版权保护。

在一些实施例中,步骤S110中,对预定文档的解压缩数据所包含的中央目录记录结尾数据块进行解析的步骤,具体可以包括:在接收到首次上传的预定文档的情况下,对中央目录记录结尾数据块进行解析;或者,在预定文档为已上传文档且未包含暗水印信息的情况下,对中央目录记录结尾数据块进行解析。

在该实施例中,文档管理服务器例如文库管理平台的服务器,针对文库中大量的文档,可以在两个环节对文档进行暗水印注入,一个环节是在接收到首次上传的文档的情况下,即针对用户新上传的文档进行暗水印注入;另一个环节是预定文档是已经上传的文档的情况下,即针对存量文档进行批量暗水印注入。在实际应用场景中,可以根据实际情况灵活选取对文档进行暗水印注入的处理环节,实现对文档处理环节的灵活选择。

在本公开实施例中,预定文档为电子文档,电子文档的文档类型可以包括如下类型中的任一种:文本文档(Document,DOC)、演示文档(Power Point,PPT)、电子数据表文档和可携带文档格式(Portable Document Format,PDF)文档。

作为示例,电子文档例如可以包括doc和docx等不同版本的文本文档的文件扩展名;演示文档例如可以包括ppt和pptx等不同版本的演示文档的文件扩展名;电子数据表文档例如可以包括xls和xlsx等不同版本的电子数据表文档的文件扩展名;PDF文档例如可以包括pdf的文件扩展名。

应理解,在实际应用场景中,不同文档类型可以包括多个版本,每个版本可以包括多种扩展名,本公开实施例对该文档类型的版本和扩展名不做具体限定。

在步骤S110,预定文档的解压缩数据,是指预定文档具有压缩文件结构,并记录有压缩的多个文件的内容信息,对预定文件进行解压缩处理,可以得到预定文档的解压缩数据。

在一些实施例中,文档的解压缩数据的EOCD块中记录的信息包括:中央目录(Central Directory)的总记录数量、Central Directory的大小(单位:字节bytes)、Central Directory的开始位置偏移、文件注释长度和文件注释内容。其中,CentralDirectory的总记录数量也可以称为是目录的数量,Central Directory的开始位置偏移也可以称为是CDR的地址。

在一个实施例中,中央目录记录的信息至少包括:中央目录记录的地址和中央目录记录的大小。步骤S120具体可以包括如下步骤。

S11,根据中央目录记录的大小和中央目录记录的地址,确定中央目录记录的起始位置和结束位置。

S12,读取并解析位于中央目录记录的起始位置和结束位置之间的信息,得到多个数据块的信息。

S13,从多个数据块的信息中,获取第一类型文件的信息和第二类型文件的信息,第一类型文件用于记录解压缩数据中所包含文件的名称及类型,第二类型文件用于记录解压缩数据中所包含文件之间的关系。

S14,将用于设置文档属性内容的文件作为第三类型文件,根据第一类型文件中记录的文件名称及类型,以及第二类型文件记录的文件之间的关系,确定第三类型文件的文件目录地址。

作为示例,第一类型文件例如可以是[Content_Types].xml文件,用于描述出现在文件中的每个文件名称和文件类型;第二类型文件例如可以是_rels目录下的rels文件,用于描述文档结构中文件之间的关系,例如文档结构中的起始关系;第三类型文件例如可以是docProps目录下的自定义属性文件,自定义属性文件的文件格式例如可以记为:custom.xml。docProps目录下可以包含各种XML格式的文件,用于描述文件属性和进行应用程序设置。

在该实施例中,可以通过对CDR的解析,可以得到各数据块的信息例如数据块的地址、大小和对应的CDR的地址。通过各数据块的的地址、大小和对应的CDR的地址,可以快速获取预定文档的解压缩数据中的各个文件对应的数据块,而无需对逐个扫描文件,通过提高文件的读取效率。

在一个实施例中,在用于设置文档属性的文件目录地址下已存在自定义属性文件的情况下,可以通过该已存在的自定义属性文件,记录预设水印信息的字符串信息,得到预定文档的暗水印信息。

在一个实施例中,在用于设置文档属性的文件目录地址下未包含自定义属性文件的情况下,方法还包括:S21,在用于设置文档属性的文件目录地址下,创建自定义属性文件;S22,通过创建的自定义属性文件,记录预设水印信息的字符串信息,得到预定文档的暗水印信息。

在一个实施例中,可以将预设水印信息处理成字符串信息,例如二进制字符串、英文字符串或符合统一字符编码标准(Unicode)的字符串等。

在另一实施例中,该预设水印信息的字符串信息可以是经加密的字符串信息。字符串信息的加密方式可以根据实际需要来选择,本公开实施例不做具体限定。

在该实施例中,可以通过文档的解压缩数据中的[Content_Types].xml和_rels/rels文件,对docProps目录进行定位,从而在docProps目录下,通过自定义属性文件custom.xml中注入水印字符串信息,实现根据注入的水印字符串信息对文档进行溯源,实现对预定文档的来源鉴定和版权保护。

在一个实施例中,新的文档中还包括文件加密信息,中央目录记录结尾数据块中还包括注释字段的长度和注释字段的地址。

在该实施例中,步骤S140可以包括如下步骤。

S31,根据注释字段的长度,计算注释字段的大小;S32,根据注释字段的大小和注释字段的地址,确定注释字段的开始位置和结束位置,删除注释字段的开始位置和结束位置之间的注释内容;S33,利用注释字段的开始位置和结束位置之间的存储区域,记录预定文档的文件加密信息;S34,对包含暗水印信息和文件加密信息的预定文档的解压缩数据进行压缩处理,得到包含暗水印信息和文件加密信息的新的文档。

在步骤S31中,注释字段的长度例如为n,表示n个字节,n为大于等于1的整数,在步骤S31,可以将注释字段的长度转化为注释长度的大小(单位例如可以为字节bytes)。

在该实施例中,可以根据EOCD中所包含的述注释字段的长度,确定注释字段所占空间的大小,从而根据注释字段所占空间的大小清除EOCD中的注释字段的内容,并将未添加暗水印信息的预定文档的文件加密信息,保存在EOCD中的该注释字段所在位置,实现对原始文档的安全认证和文件保护。

在本公开实施例中,将还未添加暗水印信息的预定文档作为原始文档,由于添加暗水印信息后,原始文档必然发生变化,基于原始文档的安全认证,可以将原始文档的文件加密信息保存在EOCD中的注释字段所在位置。

在一个实施例中,文件加密信息例如可以是原始文档的信息摘要算法第五版(Message-Digest Algorithm 5,MD5)码。在一些实施例中,也可以是哈希值或数字签名等可以用于确保信息传输完成一致性的信息。

在一些实施例中,预定文档包含多种类型和版本,一部分类型和版本的文档中,EOCD中可以不包含注释内容,另一部分类型和版本的文档中,EOCD中可以包含注释内容。

以办公软件office07版本的文档举例来说,EOCD中可以不包含注释内容的,如果包含了注释内容也不会影响文档的打开。在对文档进行编辑之后,EOCD中的注释内容会自动清除,所以本公开实施例中不会在EOCD中的注释内容的所在位置注入水印信息的字符串信息。

在本公开实施例中,可以将EOCD中的注释内容的所在位置,作为原始文档的文件加密信息的写入位置时,即使对该文档进行编辑,也不会影响到文档中注入的暗水印信息。作为示例,为了存储原始文件的md5值,这里按照EOCD中的注释字段大小,清除EOCD的注释内容,并将原始文件的MD5值保存在这里。从而通过清除EOCD中的注释内容,可以为后续在原始文件中注入文件加密信息例如md5值的处理做准备。

在一些实施例中,该文档处理方法还可以包括:S41,通过预设的机器学习模型,生成预定文档的特征图谱;S42,对预定文档所属文档管理服务器之外的其他文档管理服务器所包含的文档进行监控;S43,在监控到其他文档管理服务器所包含的文档的特征图谱,与预定文档的特征图谱之间的距离小于或等于预设距离阈值的情况下,将与预定文档特征图谱距离相近的文档作为疑似被盗版文档;S44,读取疑似被盗版文档的暗水印信息,并通过比较疑似被盗版文档的暗水印信息与预定文档所包含的暗水印信息,确定疑似被盗版文档是否侵权。

在该实施例中,在得到包含暗水印信息的新的文档之后,可以通过文档管理服务器对嵌入暗水印信息的文档进行监测,监测周期可以根据实际情况进行设定,例如可以进行实时24小时精准监测等,本公开实施例不做具体限定。

在本公开实施例中,对文档的监控可以依靠人工智能(ArtificialIntelligence,AI)的深度学习,将嵌入暗水印信息的文档作为保护对象,生成针对保护对象的特征图谱,从而准确获取网络中与特征图谱距离相近的侵权对象。若发现其他文档管理服务器,例如一旦在竞品文库平台的服务器上获取特征图谱与本文档管理服务器中的文档的特征图谱之间的距离小于或等于预设距离阈值,则可以判定竞品文库平台的服务器上获取的该文档为疑似被盗版文档,并可以对该疑似被盗版文档是否侵权进行核实,以保证本文档管理服务器中的文档不被侵权。

在一个实施例中,S44中读取疑似被盗版文档的暗水印信息的步骤,具体可以包括:S51,对疑似被盗版文档的解压缩数据所包含的中央目录记录结尾数据块进行解析,得到疑似被盗版文档的中央目录记录的信息;S52,通过解析疑似被盗版文档的中央目录记录的信息,从疑似被盗版文档的解压缩数据中获取用于设置文档属性内容的文件目录地址;S53,在疑似被盗版文档的用于设置文档属性的文件目录地址下,从疑似被盗版文档的自定义属性文件中,读取疑似被盗版文档的暗水印信息。

在该实施例中,针对疑似被盗版文档,将会读取疑似被盗版文档的暗水印信息,作为示例,例如具体包括以下几个环节:解析疑似被盗版文档的EOCD:通过对该EOCD的解析,可以获取疑似被盗版文档的CDR的信息,包括疑似被盗版文档中目录的数量、CDR的大小、CDR的地址;解析疑似被盗版文档的CDR:通过对CDR的解析,可以获取各数据块的信息,包括数据块的地址、大小和对应的CDR的地址。针对疑似被盗版文档中的关键数据[Content_Types].xml和rels/rels,对疑似被盗版文档职工的docProps/custom.xml文件进行定位,从而在此环节从custom.xml文件中读取水印字符串信息;若读取到的水印字符串信息与本文档管理服务器中对应的预定文档的该水印字符串信息一致,则可以判定在疑似被盗版文档为盗版文档,确定对原始文档造成侵权,实现对疑似被盗版文档的精准识别和准确追踪。

根据本公开实施例的文档处理方法,能以科学有效的方式对文库中的文档内容进行防盗版保护,解决文库文档被随意盗取,但没有实质证据,无法有效进行维权的问题。通过此发明,可以通过文档中的暗水印信息可以对文档进行有效追踪,并且在维权时,可以提供有力争取作为依据,有效保护文库自己利益。

图3为本公开第二实施例的文档处理方法的流程图。

如图3所示,在该实施例中,文档处理方法可以包括如下步骤。

S310,获取用户新上传的文档或获取历史存量文档。

S320,在文档中增加暗水印信息。

在步骤S320,可以包括S321,针对获取的文档的解压缩数据,删除EOCD中的注释内容,加入原始文档的MD5值;S322,解析EOCD,得到CDR的信息;S323,解析CDR并在定位到的自定义属性文件中注入水印信息的字符串,即注入暗水印信息;S324,对注入暗水印信息和加入原始文档的MD5值的文档的解压缩数据进行压缩处理,得到增加暗水印信息的文档。

S330,对增加暗水印信息的文档进行盗版维权监测。

在该步骤中,可以将监测到的特征图谱距离小于或等于预设距离阈值文档作为疑似被盗版文档。

S340,读取疑似被盗版文档的暗水印信息,以确定疑似被盗版文档是否为盗版文档。

在步骤S340,可以包括S341,解析疑似被盗版文档的EOCD,得到疑似被盗版文档的CDR;S342,解析疑似被盗版文档的CDR并读取疑似被盗版文档中的水印信息的字符串。

应理解,对疑似被盗版文档的EOCD的解析过程,以及对疑似被盗版文档的CDR的解析方法,与本公开实施例中对预定文档的对应的解析方法保持一致,本公开实施例不再赘述。

图4为本公开第三实施例的文档处理装置的结构示意图。

第二方面,参照图4,本公开实施例提供一种文档处理装置400,该装置可以包括如下模块。

第一解析模块410,用于对预定文档的解压缩数据所包含的中央目录记录结尾数据块进行解析,得到预定文档的中央目录记录的信息。

第二解析模块420,用于通过解析预定文档的中央目录记录的信息,从解压缩数据中获取预定文档的用于设置文档属性的文件目录地址。

信息添加模块430,用于在用于设置文档属性的文件目录地址下,通过自定义属性文件记录预设水印信息的字符串信息,得到预定文档的暗水印信息。

压缩处理模块440,用于对包含暗水印信息的预定文档的解压缩数据进行压缩处理,得到包含暗水印信息的新的文档。

在一些实施例中,第一解析模块410,具体可以用于在接收到首次上传的预定文档的情况下,对中央目录记录结尾数据块进行解析;或者,在预定文档为已上传文档且未包含暗水印信息的情况下,对中央目录记录结尾数据块进行解析。

在一些实施例中,中央目录记录的信息至少包括:中央目录记录的地址和中央目录记录的大小;第二解析模块420具体可以用于:

根据中央目录记录的大小和中央目录记录的地址,确定中央目录记录的起始位置和结束位置;读取并解析位于中央目录记录的起始位置和结束位置之间的信息,得到多个数据块的信息;从多个数据块的信息中,获取第一类型文件的信息和第二类型文件的信息,第一类型文件用于记录解压缩数据中所包含文件的名称及类型,第二类型文件用于记录解压缩数据中所包含文件之间的关系;将用于设置文档属性内容的文件作为第三类型文件,根据第一类型文件中记录的文件名称及类型,以及第二类型文件记录的文件之间的关系,确定第三类型文件的文件目录地址。

在一些实施例中,在用于设置文档属性的文件目录地址下未包含自定义属性文件的情况下,文档处理装置400还包括:文件创建模块,用于在用于设置文档属性的文件目录地址下,创建自定义属性文件;信息添加模块430,还用于通过创建的自定义属性文件,记录预设水印信息的字符串信息,得到预定文档的暗水印信息。

在一些实施例中,新的文档中还包括文件加密信息,中央目录记录结尾数据块中还包括注释字段的长度和注释字段的地址;压缩处理模块440还用于:根据注释字段的长度,计算注释字段的大小;根据注释字段的大小和注释字段的地址,确定注释字段的开始位置和结束位置,删除注释字段的开始位置和结束位置之间的注释内容;利用注释字段的开始位置和结束位置之间的存储区域,记录预定文档的文件加密信息;对包含暗水印信息和文件加密信息的预定文档的解压缩数据进行压缩处理,得到包含暗水印信息和文件加密信息的新的文档。

在一些实施例中,文档处理装置400还包括:侵权监控模块,用于通过预设的机器学习模型,生成预定文档的特征图谱;对预定文档所属文档管理服务器之外的其他文档管理服务器所包含的文档进行监控;

在监控到其他文档管理服务器所包含的文档的特征图谱,与预定文档的特征图谱之间的距离小于或等于预设距离阈值的情况下,将与预定文档特征图谱距离相近的文档作为疑似被盗版文档;读取疑似被盗版文档的暗水印信息,并通过比较疑似被盗版文档的暗水印信息与预定文档所包含的暗水印信息,确定疑似被盗版文档是否侵权。

在一些实施例中,侵权监控模块在用于读取疑似被盗版文档的暗水印信息时,具体可以用于:对疑似被盗版文档的解压缩数据所包含的中央目录记录结尾数据块进行解析,得到疑似被盗版文档的中央目录记录的信息;通过解析疑似被盗版文档的中央目录记录的信息,从疑似被盗版文档的解压缩数据中获取用于设置文档属性内容的文件目录地址;在疑似被盗版文档的用于设置文档属性的文件目录地址下,从疑似被盗版文档的自定义属性文件中,读取疑似被盗版文档的暗水印信息。

根据本公开实施例的文档处理装置,可以在不影响文档的商用价值和使用价值的前提下,将暗水印嵌入到预定文档中,从而通过对预定文档添加的暗水印信息来确定该预定文档的来源,实现对预定文档的来源鉴定和版权保护。

需要明确的是,本公开并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如本公开实施例的文档处理方法。例如,在一些实施例中,本公开实施例的文档处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM503并由计算单元501执行时,可以执行上文描述的文档处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开实施例的文档处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述文档处理方法中任一项方法。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、规划、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 文档处理方法、装置、设备、存储介质和计算机程序产品
  • 生成文档记录的方法、装置、电子设备、存储介质及计算机程序产品
技术分类

06120112500573