掌桥专利:专业的专利平台
掌桥专利
首页

文件处理方法、装置、存储介质及电子设备

文献发布时间:2024-04-18 20:02:18


文件处理方法、装置、存储介质及电子设备

技术领域

本发明涉及金融科技领域或其他相关领域,具体而言,涉及一种文件处理方法、装置、存储介质及电子设备。

背景技术

随着大数据的快速发展,需要处理的数据量越来越大,对数据处理准确率及效率的要求也越来越高。相关技术中的文件处理方法,在接收到文件后直接对该文件进行目标处理,忽略了文件上传过程中可能产生的文件损失,存在文件处理结果准确性低且文件处理效率低的问题。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文件处理方法、装置、存储介质及电子设备,以解决相关技术中在进行文件上传过程中容易造成文件损失,进而导致文件处理结果准确性低且文件处理效率低的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种代码处理方法。该方法包括:响应于第一终端发起的文件上传操作,得到N个子文件,其中,所述N个子文件是所述第一终端对目标文件进行第一处理得到的,N为大于1的整数;接收到来自所述第一终端的校验文件,其中,所述校验文件中包括:所述N个子文件分别对应的初始文件尺寸、所述N个子文件分别对应的初始相似度哈希值;基于所述校验文件,确定所述N个子文件对应的文件上传结果;在所述文件上传结果为上传成功的情况下,对所述N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数;对所述M个子文件分别进行目标处理,得到文件处理结果。

可选地,所述基于所述校验文件,确定所述N个子文件对应的文件上传结果,包括:基于所述校验文件,对所述N个子文件分别进行校验处理,得到N个校验结果;基于所述N个校验结果,确定所述文件上传结果。

可选地,所述基于所述校验文件,对所述N个子文件分别进行校验处理,得到N个校验结果,包括:将所述N个子文件分别作为目标子文件,通过如下方式得到所述N个校验结果:获取所述目标子文件的目标文件尺寸,其中,所述目标子文件的目标文件尺寸为接收到所述目标子文件之后检测出的;判断所述目标子文件的目标文件尺寸是否等于所述目标子文件的初始文件尺寸,其中,所述目标子文件的初始文件尺寸为接收到所述目标子文件之前检测出的;若所述目标子文件的目标文件尺寸不等于所述目标子文件的初始文件尺寸,则确定所述目标子文件对应的校验结果为:校验失败。

可选地,所述方法还包括:若所述目标子文件的目标文件尺寸等于所述目标子文件的初始文件尺寸,则确定所述目标子文件的目标相似度哈希值,其中,所述目标子文件的目标相似度哈希值为接收到所述目标子文件之后检测出的;确定所述目标子文件的目标相似度哈希值与所述目标子文件的初始相似度哈希值之间的海明距离,其中,所述海明距离用于指示两个等长字符串之间的差异度,所述目标子文件的初始相似度哈希值为接收到所述目标子文件之前检测出的;判断所述海明距离是否小于或等于预设距离阈值;若所述海明距离小于或等于所述预设距离阈值,则确定所述目标子文件的校验结果为:校验成功;若所述海明距离大于所述预设距离阈值,则确定所述目标子文件的校验结果为:所述校验失败。

可选地,所述确定所述目标子文件的目标相似度哈希值,包括:对所述目标子文件进行分词处理,得到K个词语,其中,K为大于1的整数;确定所述K个词语分别对应的特征向量、所述K个词语分别对应的权重值;基于所述K个词语分别对应的特征向量、所述K个词语分别对应的权重值,确定所述目标子文件的目标相似度哈希值。

可选地,所述基于所述N个校验结果,确定所述文件上传结果,包括:判断所述N个校验结果是否均为校验成功;若所述N个校验结果均为所述校验成功,则确定所述文件上传结果为:上传成功;若所述N个校验结果中,任意一个校验结果为校验失败,则确定所述文件上传结果为:上传失败。

可选地,在所述文件上传结果为所述上传失败的情况下,在所述基于所述校验文件,确定所述N个子文件对应的文件上传结果之后,所述方法还包括:确定所述N个校验结果中,校验结果为所述校验失败的第一子文件对应的文件标识;将所述文件标识发送至所述第一终端,用于所述第一终端对所述第一子文件进行重新上传处理。

为了实现上述目的,根据本申请的另一方面,提供了一种代码处理装置。该装置包括:第一响应模块,用于响应于第一终端发起的文件上传操作,得到N个子文件,其中,所述N个子文件是所述第一终端对目标文件进行第一处理得到的,N为大于1的整数;第一接收模块,用于接收到来自所述第一终端的校验文件,其中,所述校验文件中包括:所述N个子文件分别对应的初始文件尺寸、所述N个子文件分别对应的初始相似度哈希值;第一确定模块,用于基于所述校验文件,确定所述N个子文件对应的文件上传结果;第一处理模块,用于在所述文件上传结果为上传成功的情况下,对所述N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数;第二处理模块,用于对所述M个子文件分别进行目标处理,得到文件处理结果。

为了实现上述目的,根据本申请的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行任意一项所述的文件处理方法。

为了实现上述目的,根据本申请的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现任意一项所述的文件处理方法。

通过本申请,采用以下步骤:响应于第一终端发起的文件上传操作,得到N个子文件,其中,所述N个子文件是所述第一终端对目标文件进行第一处理得到的,N为大于1的整数;接收到来自所述第一终端的校验文件,其中,所述校验文件中包括:所述N个子文件分别对应的初始文件尺寸、所述N个子文件分别对应的初始相似度哈希值;基于所述校验文件,确定所述N个子文件对应的文件上传结果;在所述文件上传结果为上传成功的情况下,对所述N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数;对所述M个子文件分别进行目标处理,得到文件处理结果,达到了在接收到的所有子文件均校验成功的条件下,对多个子文件分别进行进一步拆分后再进行目标处理的目的,从而实现了提升文件处理结果准确性和文件处理效率的技术效果,进而解决了相关技术中在进行文件上传过程中容易造成文件损失,进而导致文件处理结果准确性低且文件处理效率低的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本发明实施例的一种文件处理方法的流程图;

图2是根据本发明实施例的一种可选的文件处理方法的流程图;

图3是根据本发明实施例的一种文件处理装置的示意图;

图4是根据本申请实施例提供的电子设备的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:

相似性哈希(SimHash)算法,是一种用于文本相似度计算的算法。它将文本内容转换为一个固定长度的数字签名,通过比较这些数字签名的差异来判断文本之间的相似度。

根据本发明实施例,提供了一种文件处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的文件处理方法的流程图,如图1所示,该方法包括如下步骤:

步骤S102,响应于第一终端发起的文件上传操作,得到N个子文件,其中,N个子文件是第一终端对目标文件进行第一处理得到的,N为大于1的整数。

可选地,步骤S102至步骤S110的执行主体为第二终端,第二终端可以为主机,第一终端可以为业务系统,目标文件可以为开发平台的文件或主机的文件,第一处理至少包括:译码处理、拆分处理。

可选地,第一终端中的文件处理系统基于预设的译码规则对目标文件中每个字段进行译码处理,其中,译码规则至少包括译码前后的码制,特殊符号处理规则,空格处理规则,其中,译码前后的码制至少包括:文本的字符编码标准ASCII(American Standard Codefor Information Interchange)码、文本的字符编码标准EBCDIC(Extended Binary CodedDecimal Interchange Code)码、字符集的字符编码标准UTF-8(Unicode TransformationFormat-8)码。第一终端基于预设的拆分规则对译码后的目标文件进行拆分处理,得到N个子文件,并将N个子文件上传至第二终端,其中,拆分规则可以为基于文件的地区号,账号,时间戳等字段对文件进行多次的拆分处理,以满足目标文件的上传要求。

可选地,例如,目标文件为ABCDEFG.BIN,校验文件为ABCDEFG.CHK,第一终端可以将目标文件按地区号进行拆分处理,得到N个子文件:

源文件名 按地区号拆分后的文件名

ABCDEFG.BINABCDEFG.00.20230101.BIN

ABCDEFG.CHKABCDEFG.01.20230101.BIN

ABCDEFG.03.20230101.BIN

ABCDEFG.05.20230101.BIN

……

ABCDEFG.31.20230101.BIN

通过以上方式,可以降低上传至第二终端的网络传输压力,增加上传速度,节省上传时间,并且可以使第二终端更高效地对上传后的文件进行处理,有效地提高了文件处理的效率和性能。

步骤S104,接收到来自第一终端的校验文件,其中,校验文件中包括:N个子文件分别对应的初始文件尺寸、N个子文件分别对应的初始相似度哈希值。

可选地,初始文件尺寸为N个子文件上传之前检测出的对应子文件的尺寸。第一终端基于目标文件的文件名称,尺寸等信息生成校验文件,以便第二终端基于校验文件验证上传前后的文件是否发生数据损坏、丢失等情况。通过以上方式,确保了上传后的文件的完整性,增强了文件传输的安全性;避免了逐个文件进行比对的繁琐过程,提高了验证的效率;并且使第二终端可以对上传后的文件进行准确地处理,进而提升文件处理结果的准确性。

步骤S106,基于校验文件,确定N个子文件对应的文件上传结果。

可选地,基于校验文件,得出N个子文件分别对应的校验结果,基于N个子文件分别对应的校验结果,可以准确地确定出N个子文件对应的文件上传结果。通过以上方式,确保了文件上传的准确性和完整性,避免数据丢失或损坏的情况。

在一种可选的实施例中,基于校验文件,确定N个子文件对应的文件上传结果,包括:基于校验文件,对N个子文件分别进行校验处理,得到N个校验结果;基于N个校验结果,确定文件上传结果。

可选地,基于校验文件,对N个子文件分别进行校验处理,得到N个校验结果,其中,校验结果包括:校验成功、校验失败;基于N个校验结果,确定文件上传结果。通过以上方式,可以帮助快速确定文件上传结果,避免上传错误或损坏的文件,提高文件校验效率,使第二终端可以更快速且准确地对上传后的文件进行处理,从而提升文件处理结果的准确性和文件处理的效率。

在一种可选的实施例中,基于校验文件,对N个子文件分别进行校验处理,得到N个校验结果,包括:将N个子文件分别作为目标子文件,通过如下方式得到N个校验结果:获取目标子文件的目标文件尺寸,其中,目标子文件的目标文件尺寸为接收到目标子文件之后检测出的;判断目标子文件的目标文件尺寸是否等于目标子文件的初始文件尺寸,其中,目标子文件的初始文件尺寸为接收到目标子文件之前检测出的;若目标子文件的目标文件尺寸不等于目标子文件的初始文件尺寸,则确定目标子文件对应的校验结果为:校验失败。

可选地,将N个子文件分别作为目标子文件,通过如下方式得到N个校验结果:获取目标子文件的目标文件尺寸;若目标子文件的目标文件尺寸不等于校验文件中目标子文件的初始文件尺寸,则说明目标子文件在上传的过程中出现了数据损坏或丢失等情况,则确定目标子文件对应的校验结果为:校验失败。通过比较目标子文件的目标文件尺寸和初始文件尺寸的方式,可以及时发现数据损坏或丢失的情况并及时采取措施,确保文件上传的可靠性和准确性,并且可以减少后续文件传输和处理的时间和成本,从而提升文件处理结果的准确性和文件处理的效率。

在一种可选的实施例中,该方法还包括:若目标子文件的目标文件尺寸等于目标子文件的初始文件尺寸,则确定目标子文件的目标相似度哈希值,其中,目标子文件的目标相似度哈希值为接收到目标子文件之后检测出的;确定目标子文件的目标相似度哈希值与目标子文件的初始相似度哈希值之间的海明距离,其中,海明距离用于指示两个等长字符串之间的差异度,目标子文件的初始相似度哈希值为接收到目标子文件之前检测出的;判断海明距离是否小于或等于预设距离阈值;若海明距离小于或等于预设距离阈值,则确定目标子文件的校验结果为:校验成功;若海明距离大于预设距离阈值,则确定目标子文件的校验结果为:校验失败。

可选地,若目标子文件的目标文件尺寸等于校验文件中目标子文件的初始文件尺寸,则可以通过以下方式对目标子文件的内容进行校验,以确保目标子文件的完整性:

步骤S1061,利用SimHash算法确定目标子文件的目标相似度哈希值。

步骤S1062,确定目标子文件的目标相似度哈希值与目标子文件的初始相似度哈希值之间的海明距离,其中,海明距离的计算方法是:比较两个字符串对应位置上的字符,不同的字符记为1,相同的字符记为0,然后对这些不同的位置进行计数,得到的结果就是海明距离,例如,字符串[1,1,1,0,0,0]和[1,1,1,1,1,1]之间的海明距离为3。

步骤S1063,判断海明距离是否小于或等于预设距离阈值(例如,预设距离阈值可以为3)。

步骤S1064,在海明距离小于或等于预设距离阈值的情况下,确定目标子文件的校验结果为:校验成功;在海明距离大于预设距离阈值的情况下,确定目标子文件的校验结果为:校验失败。

通过以上方式,可以快速判断上传前后的文件是否一致,而不需要比较整个文件的内容,并且即使文件内容有轻微的变化,也能够准确地判断上传前后的文件是否一致,从而提升了文件校验的效率和准确性,提升了上传后文件的安全性和可靠性。

在一种可选的实施例中,确定目标子文件的目标相似度哈希值,包括:对目标子文件进行分词处理,得到K个词语,其中,K为大于1的整数;确定K个词语分别对应的特征向量、K个词语分别对应的权重值;基于K个词语分别对应的特征向量、K个词语分别对应的权重值,确定目标子文件的目标相似度哈希值。

可选地,可以通过如下方式确定目标子文件的目标相似度哈希值:

步骤S1065,可以利用基于机器学习或词典的方法对目标子文件进行分词处理,得到K个词语,例如,目标子文件中的一段文本为“分行贷记卡持有量”,则分词后得到“分行”、“贷记卡”、“持有量”。

步骤S1066,可以利用基于机器学习的方法将K个词语转换为特征向量(可以为64维),得到K个词语分别对应的特征向量。

步骤S1067,确定K个词语分别对应的权重值,例如,“分行”的权重为1、“贷记卡”的权重为2、“持有量”的权重为3,数字越大,代表特征词在句子中的重要性就越高。

步骤S1068,基于预设哈希函数,确定K个词语分别对应的特征向量分别对应的哈希值。

步骤S1069,对K个词语分别对应的特征向量分别对应的哈希值,利用K个词语分别对应的权重值进行加权求和,得到K个词语分别对应的权重向量。

步骤S10610,对K个词语分别对应的权重向量进行合并处理,得到目标子文件对应的权重向量。

步骤S10611,对目标子文件对应的权重向量进行降维处理,得到目标子文件的目标相似度哈希值。

通过以上方式,可以高效地进行文件内容的比对,即使文件内容发生局部变化,也能够准确地判断文件内容的一致性,并且SimHash算法可以用于处理不同类型的文件,包括文本文件、图片文件、音频文件等,具有一定的通用性和可扩展性。

在一种可选的实施例中,基于N个校验结果,确定文件上传结果,包括:判断N个校验结果是否均为校验成功;若N个校验结果均为校验成功,则确定文件上传结果为:上传成功;若N个校验结果中,任意一个校验结果为校验失败,则确定文件上传结果为:上传失败。

可选地,在N个校验结果均为校验成功的情况下,说明N个子文件均已经完整地上传,因此,确定文件上传结果为:上传成功;在N个校验结果中,任意一个校验结果为校验失败地情况下,说明N个子文件中存在上传过程中发生损坏或丢失的文件,因此,确定文件上传结果为:上传失败。通过以上方式,可以提高文件上传的效率和可靠性,从而准确、高效地对上传后的文件进行处理,提升文件处理结果的准确性和文件处理的效率。

在一种可选的实施例中,在文件上传结果为上传失败的情况下,在基于校验文件,确定N个子文件对应的文件上传结果之后,该方法还包括:确定N个校验结果中,校验结果为校验失败的第一子文件对应的文件标识;将文件标识发送至第一终端,用于第一终端对第一子文件进行重新上传处理。

可选地,确定校验结果为校验失败的第一子文件对应的文件标识,并将文件标识发送至第一终端,第一终端接收到文件标识后,可以对第一子文件进行重新上传处理,第二终端接收到重新上传后的第一子文件后,基于校验文件,对重新上传后的第一子文件进行校验处理,校验成功或失败的校验结果。通过以上方式,可以无需对所有子文件均进行重新上传处理,而只上传校验失败的子文件,从而快速解决校验失败的问题,提高文件传输和处理的效率。

步骤S108,在文件上传结果为上传成功的情况下,对N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数。

可选地,可以根据业务需要,对N个子文件分别进行多次拆分处理,例如,根据N个子文件分别对应的账号、时间戳等进行进一步拆分,例如,如果一个子文件需要给不同的地区使用,则需要按地区号排序,并根据地区号拆分为不同的地区的文件。按地区拆分完之后,如果还需要细分,比如不同的网点,则文件按网点排序,并根据网点号拆分为不同网点的文件。如果按网点拆分完之后,还需要对不同的账号,或者不同的时间段进行细分进行数据分析,则可以根据账号或者时间戳进一步进行拆分,直到满足具体需求,例如,子文件为ABCDEFG.01.20230101.BI文件,将子文件按账号进行进一步拆分处理,得到多个拆分后的子文件:

按地区号拆分后的文件名进一步按账号拆分后的文件名

ABCDEFG.01.20230101.BIN ABCDEFG.01.20000.20230101.BIN

ABCDEFG.01.30000.20230101.BIN

ABCDEFG.01.40000.20230101.BIN

……

通过以上方式,可以对M个子文件进行并行处理,满足了时效性要求高的业务场景,大大提高对文件的处理效率,节约了文件处理的时间,并且拆分后的子文件可以更好地进行数据管理和跟踪,便于追溯处理结果。

步骤S110,对M个子文件分别进行目标处理,得到文件处理结果。

可选地,对M个子文件分别进行目标处理,其中,目标处理可以包括:存储、压缩、加密等,得到文件处理结果以及M个处理后的子文件。在得到M个处理后的子文件后,可以判断M个处理后的子文件是否需要合并,如果需要合并,则对处理后的子文件按照地区号,账号,批次号等规则进行合并处理,以满足各种业务需求。也可以判断M个处理后的子文件是否需要译码处理,如果需要译码处理,可按照一定的译码规则,对M个处理后的子文件分别进行译码,并将译码后的子文件发送至多个的异构系统,以便多个异构系统对子文件进行使用,其中,异构系统可以包括:大型主机系统,分布式平台系统,大数据系统等。通过以上方式,可以有效地节约文件处理时间,提升文件的处理效率。

通过上述步骤S102至步骤S108,可以达到在接收到的所有子文件均校验成功的条件下,对多个子文件分别进行进一步拆分后再进行目标处理的目的,从而实现提升文件处理结果准确性和文件处理效率的技术效果,进而解决相关技术中在进行文件上传过程中容易造成文件损失,进而导致文件处理结果准确性低且文件处理效率低的技术问题。

基于上述实施例和可选实施例,本发明提出一种可选实施方式,图2是根据本发明实施例的一种可选的文件处理方法的流程图,如图2所示,该方法包括:

步骤S1,响应于第一终端发起的文件上传操作,得到N个子文件,其中,N个子文件是第一终端对目标文件进行第一处理得到的,N为大于1的整数。

步骤S2,接收到来自第一终端的校验文件,其中,校验文件中包括:N个子文件分别对应的初始文件尺寸、N个子文件分别对应的初始相似度哈希值。

步骤S3,基于校验文件,将N个子文件分别作为目标子文件,通过如下方式得到N个校验结果:

步骤S31,获取目标子文件的目标文件尺寸,其中,目标子文件的目标文件尺寸为接收到目标子文件之后检测出的。

步骤S32,判断目标子文件的目标文件尺寸是否等于目标子文件的初始文件尺寸,其中,目标子文件的初始文件尺寸为接收到目标子文件之前检测出的,若是则执行步骤S34至步骤S36,若否则执行步骤S33。

步骤S33,确定目标子文件对应的校验结果为:校验失败。

步骤S34,确定目标子文件的目标相似度哈希值,其中,目标子文件的目标相似度哈希值为接收到目标子文件之后检测出的。

步骤S35,确定目标子文件的目标相似度哈希值与目标子文件的初始相似度哈希值之间的海明距离,其中,海明距离用于指示两个等长字符串之间的差异度,目标子文件的初始相似度哈希值为接收到目标子文件之前检测出的。

步骤S36,判断海明距离是否小于或等于预设距离阈值,若是则确定目标子文件的校验结果为:校验成功;若否则确定目标子文件的校验结果为:校验失败。

步骤S4,判断N个校验结果是否均为校验成功,若是则执行步骤S5至步骤S7,若否则执行步骤S8至步骤S10。

步骤S5,确定文件上传结果为:上传成功。

步骤S6,对N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数。

步骤S7,对M个子文件分别进行目标处理,得到文件处理结果。

步骤S8,确定文件上传结果为:上传失败。

步骤S9,确定N个校验结果中,校验结果为校验失败的第一子文件对应的文件标识。

步骤S10,将文件标识发送至第一终端,用于第一终端对第一子文件进行重新上传处理。

通过上述步骤S1至步骤S10,可以达到在接收到的所有子文件均校验成功的条件下,对多个子文件分别进行进一步拆分后再进行目标处理的目的,从而实现提升文件处理结果准确性和文件处理效率的技术效果,进而解决相关技术中在进行文件上传过程中容易造成文件损失,进而导致文件处理结果准确性低且文件处理效率低的技术问题。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种文件处理装置,需要说明的是,本申请实施例的文件处理装置可以用于执行本申请实施例所提供的用于文件处理方法。以下对本申请实施例提供的文件处理装置进行介绍。

图3是根据本发明实施例的一种文件处理装置的结构示意图,如图3所示,上述文件处理装置,包括:第一响应模块302、第一接收模块304、第一确定模块306、第一处理模块308、第二处理模块310,其中:

第一响应模块302,用于响应于第一终端发起的文件上传操作,得到N个子文件,其中,N个子文件是第一终端对目标文件进行第一处理得到的,N为大于1的整数;

第一接收模块304,连接于第一响应模块302,用于接收到来自第一终端的校验文件,其中,校验文件中包括:N个子文件分别对应的初始文件尺寸、N个子文件分别对应的初始相似度哈希值;

第一确定模块306,连接于第一接收模块304,用于基于校验文件,确定N个子文件对应的文件上传结果;

第一处理模块308,连接于第一确定模块306,用于在文件上传结果为上传成功的情况下,对N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数;

第二处理模块310,连接于第一处理模块308,用于对M个子文件分别进行目标处理,得到文件处理结果。

通过设置第一响应模块302,用于响应于第一终端发起的文件上传操作,得到N个子文件,其中,N个子文件是第一终端对目标文件进行第一处理得到的,N为大于1的整数;第一接收模块304,连接于第一响应模块302,用于接收到来自第一终端的校验文件,其中,校验文件中包括:N个子文件分别对应的初始文件尺寸、N个子文件分别对应的初始相似度哈希值;第一确定模块306,连接于第一接收模块304,用于基于校验文件,确定N个子文件对应的文件上传结果;第一处理模块308,连接于第一确定模块306,用于在文件上传结果为上传成功的情况下,对N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数;第二处理模块310,连接于第一处理模块308,用于对M个子文件分别进行目标处理,得到文件处理结果。可以达到在接收到的所有子文件均校验成功的条件下,对多个子文件分别进行进一步拆分后再进行目标处理的目的,从而实现提升文件处理结果准确性和文件处理效率的技术效果,进而解决相关技术中在进行文件上传过程中容易造成文件损失,进而导致文件处理结果准确性低且文件处理效率低的技术问题。

在一种可选的实施例中,上述第一确定模块,包括:第一处理子模块,用于基于校验文件,对N个子文件分别进行校验处理,得到N个校验结果;第一确定子模块,用于基于N个校验结果,确定文件上传结果。

在一种可选的实施例中,上述第一处理子模块,包括:第二确定子模块,用于将N个子文件分别作为目标子文件,通过如下方式得到N个校验结果:第一获取子模块,用于获取目标子文件的目标文件尺寸,其中,目标子文件的目标文件尺寸为接收到目标子文件之后检测出的;第一判断子模块,用于判断目标子文件的目标文件尺寸是否等于目标子文件的初始文件尺寸,其中,目标子文件的初始文件尺寸为接收到目标子文件之前检测出的;第三确定子模块,用于若目标子文件的目标文件尺寸不等于目标子文件的初始文件尺寸,则确定目标子文件对应的校验结果为:校验失败。

在一种可选的实施例中,上述装置还包括:第四确定子模块,用于若目标子文件的目标文件尺寸等于目标子文件的初始文件尺寸,则确定目标子文件的目标相似度哈希值,其中,目标子文件的目标相似度哈希值为接收到目标子文件之后检测出的;第五确定子模块,用于确定目标子文件的目标相似度哈希值与目标子文件的初始相似度哈希值之间的海明距离,其中,海明距离用于指示两个等长字符串之间的差异度,目标子文件的初始相似度哈希值为接收到目标子文件之前检测出的;第二判断子模块,用于判断海明距离是否小于或等于预设距离阈值;第六确定子模块,用于若海明距离小于或等于预设距离阈值,则确定目标子文件的校验结果为:校验成功;第七确定子模块,用于若海明距离大于预设距离阈值,则确定目标子文件的校验结果为:校验失败。

在一种可选的实施例中,上述第四确定子模块,包括:第一分词子模块,用于对目标子文件进行分词处理,得到K个词语,其中,K为大于1的整数;第八确定子模块,用于确定K个词语分别对应的特征向量、K个词语分别对应的权重值;第九确定子模块,用于基于K个词语分别对应的特征向量、K个词语分别对应的权重值,确定目标子文件的目标相似度哈希值。

在一种可选的实施例中,上述第一确定子模块,包括:第三判断子模块,用于判断N个校验结果是否均为校验成功;第十确定子模块,用于若N个校验结果均为校验成功,则确定文件上传结果为:上传成功;第十一确定子模块,用于若N个校验结果中,任意一个校验结果为校验失败,则确定文件上传结果为:上传失败。

在一种可选的实施例中,上述装置还包括:第十二确定子模块,用于确定N个校验结果中,校验结果为校验失败的第一子文件对应的文件标识;第一发送子模块,用于将文件标识发送至第一终端,用于第一终端对第一子文件进行重新上传处理。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是,上述第一响应模块302、第一接收模块304、第一确定模块306、第一处理模块308、第二处理模块310对应于实施例中的步骤S102至步骤S110,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。

需要说明的是,本实施例的可选或优选实施方式可以参见实施例中的相关描述,此处不再赘述。

上述文件处理装置包括处理器和存储器,上述单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来执行文件处理。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请实施例提供了一种非易失性存储介质,其上存储有程序,该程序被处理器执行时实现上述文件处理方法。

本申请实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述文件处理方法。

如图4所示,本申请实施例提供了一种电子设备,该电子设备10包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:响应于第一终端发起的文件上传操作,得到N个子文件,其中,N个子文件是第一终端对目标文件进行第一处理得到的,N为大于1的整数;接收到来自第一终端的校验文件,其中,校验文件中包括:N个子文件分别对应的初始文件尺寸、N个子文件分别对应的初始相似度哈希值;基于校验文件,确定N个子文件对应的文件上传结果;在文件上传结果为上传成功的情况下,对N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数;对M个子文件分别进行目标处理,得到文件处理结果。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:响应于第一终端发起的文件上传操作,得到N个子文件,其中,N个子文件是第一终端对目标文件进行第一处理得到的,N为大于1的整数;接收到来自第一终端的校验文件,其中,校验文件中包括:N个子文件分别对应的初始文件尺寸、N个子文件分别对应的初始相似度哈希值;基于校验文件,确定N个子文件对应的文件上传结果;在文件上传结果为上传成功的情况下,对N个子文件分别进行拆分处理,得到M个子文件,其中,M为大于1的整数;对M个子文件分别进行目标处理,得到文件处理结果。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

技术分类

06120116581619