导航：首页> 其他类不包含的食品或食料；及其处理>基于大数据的文件数据安全传输方法、装置、设备及介质

基于大数据的文件数据安全传输方法、装置、设备及介质

文献发布时间：2023-06-19 18:37:28

技术领域

本申请涉及数据传输的技术领域，尤其是涉及一种基于大数据的文件数据安全传输方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网技术的不断发展，大数据信息的应用也越来越广泛，随着文件数据规模的不断增大，由于数据文件的大小不一，重要程度不一，文件数据传输的难度也越来越高，尤其是涉及到个人、企业、政府或者行政单位的各类携带有重要信息的文件，很容易在传输的过程中遭到拦截，从而极有可能将数据文件内容泄露，其中内容一旦遭到泄露，将对个人、企业、政府或者行政单位造成巨大的经济影响，因此，现亟需一种提高文件数据传输的安全性的技术。

发明内容

为了提高文件数据传输的安全性，本申请提供一种基于大数据的文件数据安全传输方法、装置、设备及计算机可读存储介质。

第一方面，本申请提供一种基于大数据的文件数据安全传输方法，采用如下的技术方案：

一种基于大数据的文件数据安全传输方法，包括：

获取待传输大数据文件，将所述待传输大数据文件按照预设文件划分规则划分为多个文件块；

获取所述文件块的文件数据和文件名生成规则，基于所述文件数据和文件名生成规则生成所述文件块的文件名称；

基于所述文件名称和预设文件压缩格式生成压缩文件；

获取压缩文件加密规则，基于所述加密规则和所述压缩文件生成加密压缩文件；

获取文件排序规则，基于所述文件排序规则对所述加密压缩文件进行排序，生成排序结果；

基于所述排序结果创建传输任务；

基于所述传输任务进行文件数据传输。

通过采用上述技术方案，将一个待传输大数据文件划分为多个文件块，将每个文件块都以预设的文件压缩格式进行压缩生成压缩文件，将压缩文件进行加密处理，生成加密压缩文件，将加密压缩文件重新进行排列，根据排列结果创建传输任务，根据传输任务进行文件传输，所传输的文件分别经过了划分压缩和顺序排列的处理，使得在拦截之后无法进行破解，即使被破解也无法获得全部的文件数据，从而提高文件数据传输的安全性。

可选的，所述基于所述文件数据和文件名生成规则生成所述文件块的文件名称包括：

获取所述文件数据的数据内容、特征词表单和文件名长度；

基于所述数据内容和所述特征词表单提取特征词；

基于所述特征词和所述文件名长度生成所述文件名称。

可选的，所述基于所述加密规则和所述压缩文件生成加密压缩文件包括：

提取所述文件名称中的关键字，将所述关键字转换为数字；

将所述数字进行至少一次哈希运算生成哈希值，将所述哈希值作为所述压缩文件的密钥；

使用所述密钥对所述压缩文件进行加密生成加密压缩文件。

可选的，所述基于所述文件排序规则对所述加密压缩文件进行排序，生成排序结果包括：

获取所述文件块的划分顺序和每个文件块的划分顺序值，将所述加密压缩文件按照所述划分顺序排列；

将所述划分顺序值作为所述加密压缩文件的第一排列值；

为每个所述第一排列值分配一个附加值，计算所述第一排列值和所述附加值的和，将所述和作为所述加密压缩文件的第二排列值；

将所述加密压缩文件按照所述第二排列值的大小升序或降序排序，生成排序结果。

可选的，所述基于所述排序结果创建传输任务包括：

基于所述待传输大数据文件创建总任务；

获取所述加密压缩文件的数量，基于所述加密压缩文件的数量将所述总任务划分为多个分任务；

基于多个所述分任务创建传输任务。

可选的，所述基于所述传输任务进行文件数据传输包括：

实时监控每个分任务的传输进度；

判断所述分任务是否出现传输错误；

若所述分任务出现传输错误，则停止所述分任务所属的总任务中全部分任务的文件数据传输；

若所述分任务未出现传输错误，则直至所述分任务所属的总任务中全部分任务传输成功，完成文件数据传输。

通过采用上述技术方案，一个总任务包括至少一个分任务，当一个总任务中的其中一个分任务在传输过程中出现错误时，将终止该总任务下的全部分任务的传输过程，此时用户需要再次选择传输该待传输大数据文件，从而减少了大量冗余数据的产生，减小计算机的运行压力。

可选的，在所述基于所述传输任务进行文件数据传输之后，还包括：

获取所述待传输大数据文件停止文件数据传输的传输次数；

判断所述传输次数是否不小于预设标注阈值；

若所述传输次数不小于预设标注阈值，则对所述待传输大数据文件进行标注，生成标注大数据文件；

基于所述传输次数，生成所述标注大数据文件的处理建议。

第二方面，本申请提供一种基于大数据的文件数据安全传输装置，采用如下的技术方案：

一种基于大数据的文件数据安全传输装置，包括：

文件划分模块，用于获取待传输大数据文件，将所述待传输大数据文件按照预设文件划分规则划分为多个文件块；

名称生成模块，用于获取所述文件块的文件数据和文件名生成规则，基于所述文件数据和文件名生成规则生成所述文件块的文件名称；

文件压缩模块，用于基于所述文件名称和预设文件压缩格式生成压缩文件；

文件加密模块，用于获取压缩文件加密规则，基于所述加密规则和所述压缩文件生成加密压缩文件；

文件排序模块，用于获取文件排序规则，基于所述文件排序规则对所述加密压缩文件进行排序，生成排序结果；

任务创建模块，用于基于所述排序结果创建传输任务；

文件传输模块，用于基于所述传输任务进行文件数据传输。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

一种电子设备，其特征在于，包括处理器，所述处理器与存储器耦合；

所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行第一方面任一项所述的基于大数据的文件数据安全传输方法的计算机程序。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行第一方面任一项所述的基于大数据的文件数据安全传输方法的计算机程序。

附图说明

图1是本申请实施例提供的一种基于大数据的文件数据安全传输方法的流程示意图。

图2是本申请实施例提供的一种基于大数据的文件数据安全传输装置的结构框图。

图3是本申请实施例提供的电子设备的结构框图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本申请实施例提供一种基于大数据的文件数据安全传输方法，该基于大数据的文件数据安全传输方法可由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云让算服务的云服务器。终端设备可以是智能手机、平板电脑、台式计算机等，但并不局限于此。

图1为本申请实施例提供的一种基于大数据的文件数据安全传输方法的流程示意图。

如图1所示，该方法主要流程描述如下（步骤S101～S104）：

步骤S101，获取待传输大数据文件，将待传输大数据文件按照预设文件划分规则划分为多个文件块。

在本实施例中，在将待传输大数据文件划分为多个文件块时，需要根据待传输大数据文件的大小和预设文件划分规则进行划分，预设文件划分规则包括待传输大数据文件的大小区间和位于该区间内需要划分文件块的大小，例如，待传输大数据文件的大小区间为300兆-350兆，此区间内的文件块的大小为30兆，若当前待传输大数据文件的大小为320兆时，则将单签待传输大数据文件划分为10个30兆的文件块和1个20兆的文件块。需要说明的是，待传输大数据文件的大小区间和位于该区间内需要划分文件块的大小需要根据实际传输需求设置，在此不做具体限定。

步骤S102，获取文件块的文件数据和文件名生成规则，基于文件数据和文件名生成规则生成文件块的文件名称。

针对步骤S102，获取文件数据的数据内容、特征词表单和文件名长度；基于数据内容和特征词表单提取特征词；基于特征词和文件名长度生成文件名称。

在本实施例中，在将待传输大数据文件划分为多个文件块时，为了便于对每个文件块所携带的文件数据进行识别，需要根据当前文件块中写入文件数据的数据内容生成属于当前文件块的文件名称。根据文件数据的数据内容生成文件名称时需要依赖于文件名生成规则进行生成，文件名生成规则包括特征词表单和文件名长度，特征词表单记录有与当前待传输大数据文件的文件类型相匹配的特征词，特征词包括中文和英文两种语言，文件名长度根据提取到的特征词的组合形式进行调整。例如，将特征词为中文时特征词的长度设置为1至5个字符长度，将特征词为英文时特征词的长度设置为1-10个字符长度时，当提取到的特征词全部为中文时，文件名长度不大于10个字符长度，当提取到的特征词包括中文和英文两种语音形式时，文件名长度不大于15个字符长度，当提取到的特征词全部问英文时，文件名长度不大于20个字符长度，具体的特征词长度和文件名长度需要根据实际需求进行设置，在此不做具体限定。

需要说明的是，提取完特征词之后，将提取到的特征词按照提取的顺序依次排列形成特征词序列，按照特征词序列中的排列顺序依次进行特征词的选取，当选取的特征词的字符长度总和大于文件名长度时，则将选取的最后一个特征词进行舍弃，将选取的全部特征词作为当前文件块的文件名称。

步骤S103，基于文件名称和预设文件压缩格式生成压缩文件。

在本实施例中，预设文件压缩格式为自行设定的文件压缩格式，即除常见的.ZIP和.RAR之外的文件压缩格式，使用自行设定的文件压缩格式对文件块进行压缩之后，通常的解压缩方式无法将当前压缩文件进行解压，只有使用同样传输渠道的用户才能进行解压缩，即便当前压缩文件在传输的过程中被拦截，拦截者也无法进行解密查看。

在生成压缩文件时，将文件名称作为压缩文件的名称，即压缩之后的压缩文件的名称与未压缩之前文件块的文件名称保持一致。

步骤S104，获取压缩文件加密规则，基于加密规则和压缩文件生成加密压缩文件。

针对步骤S104，提取文件名称中的关键字，将关键字转换为数字；将数字进行至少一次哈希运算生成哈希值，将哈希值作为压缩文件的密钥；使用密钥对压缩文件进行加密生成加密压缩文件。

在本实施例中，压缩文件加密规则包括提取文件名称中的关键字，将关键字转换为对应的数字，对数字进行哈希运算生成哈希值，将哈希值作为当前压缩文件的密钥，用来对当前压缩文件进行加密生成加密压缩文件。

进一步的，关键字为由特征词中选取出的字，由于特征词包括中文词组和英文单词，所以关键词的设定需要根据特征词进行设置，由于特征词的数量较为庞大，因此关键字对应的数字并不限制于单个数字，关键字可以对应为多个数字。例如，存在关键字“库”、“幂”和“集”，其对应的数字可分别设置为“15”、“9”和“05”，具体的关键词和其对应的数字需要根据实际需求进行设置，在此不做具体限定。

在提取完关键字之后，首先将关键字按照提取的顺序依次排列，并给每个关键字排列顺序赋予移动值，根据移动值重新进行排列，生成关键字序列，在生成关键字序列之后，将每个关键字转换为对应的数字，从而得到一个数字序列，将该字数序列进行哈希运算，在进行哈希运算时，可以只计算一次也可以计算多次，当进行多次哈希运算时，第N+1次的哈希运算可以在第N次哈希运算之后的第N哈希值的基础之上再次进行哈希运算，其中N=1，2,3，…，n，将最后一次的哈希值作为压缩文件的密钥；也可以将数字序列中的数字进行拆分生成多个数字小组，对每个数字小组进行哈希运算，得到多个哈希值，再将多个哈希值进行基础运算和排列组合将运算结果或者排列结果作为压缩文件的密钥，或者在运算结果或者排列结过的基础之上再次进行哈希运算，将最后的哈希值作为压缩文件的密钥，使用密钥对压缩文件加密，生成最终的加密压缩文件。

具体的，在给每个关键字排列顺序赋予移动值时，需要使每个移动后的关键字的位置与原始位置相同，并且可以给有些关键字的赋予大于0的移动值，有些关键字赋予的移动值为0，在进行移动时，由关键字排列顺序中第一个移动值大于0的关键字进行移动，在第一个移动值大于0的关键字移动完成之后，第二个移动值大于0的关键字开始移动，以此类推，直至最后一个移动值大于0的关键字移动完成生成关键字序列。例如，关键词ABCDEF，将A向后移动一位，将E向前移动3位，则A首先进行移动，生成BACDEF，然后E进行移动，生成BEACDF，将BEACDF作为关键字序列。

步骤S105，获取文件排序规则，基于文件排序规则对加密压缩文件进行排序，生成排序结果。

针对步骤S105，获取文件块的划分顺序和每个文件块的划分顺序值，将加密压缩文件按照划分顺序排列；将划分顺序值作为加密压缩文件的第一排列值；为每个第一排列值分配一个附加值，计算第一排列值和附加值的和，将和作为加密压缩文件的第二排列值；将加密压缩文件按照第二排列值的大小升序或降序排序，生成排序结果。

在本实施例中，文件块的划分顺序为正序划分或倒序划分，划分顺序值为第几个划分出来的文件块，例如，将一个50兆的待传输大户数据文件按照10兆进行正序划分，则第一个划分出的10兆文件块的划分顺序值为1，以此类推，第四次划分完成之后，最后一个10兆文件块的划分顺序值为5，为每个顺序值分别分配一个附加值，分配的多个附加值必须在两个以上，即附加值至少为两个不同的值，最终的排序结果不能与最初的加密压缩文件按照划分顺序排列的顺序相同。

步骤S106，基于排序结果创建传输任务。

针对步骤S106，基于待传输大数据文件创建总任务；获取加密压缩文件的数量，基于加密压缩文件的数量将总任务划分为多个分任务；基于多个分任务创建传输任务。

在本实施例中，将单个待传输大数据文件作为传输任务中的总任务，将由该待传输大数据文件划分出的多个文件块生成的加密压缩文件作为分任务。例如，一个待传输大数据文件划分为10个文件块，则该待传输大数据文件对应创建的主任务中包含有10个分任务。

步骤S107，基于传输任务进行文件数据传输。

针对步骤S107，实时监控每个分任务的传输进度；判断分任务是否出现传输错误；若分任务出现传输错误，则停止分任务所属的总任务中全部分任务的文件数据传输；若分任务未出现传输错误，则直至分任务所属的总任务中全部分任务传输成功，完成文件数据传输。

在本实施例中，每一个总任务为一个监控主体，每一个监控主体仅监控属于自己的分任务。每个分任务按照加密压缩文件的排序结果同时进行传输，实时监控每个分任务的文件传输情况，当其中一个分任务在传输的过程中出现传输错误时，则停止该出现传输错误的分任务对应的主任务的全部分任务的传输，当所有分任务全部未出现传输错误并当全部的分任务完成传输时，该待传输大数据文件完成传输。

进一步的，在分任务出现传输错误停止传输时，需要重新创建传输任务，重新进行传输，并且在重新创建传输任务之前需要对出现传输错位的分任务对应的加密压缩文件进行基础的病毒查杀处理，在杀毒结束之后进行再一次的任务创建和文件传输。

若当其中一个分任务传输失败时继续传输其他分任务，由于分任务对应的文件块经过加密、压缩和排序处理，在对查找传输失败的加密压缩文件时，需要对传输成功的加密压缩文件进行解密、解压缩和重新排列的处理，将其还原为初始的文件块状态，并且根据其中的文件数据内容，确定出传输失败的文件块，需要消耗大量的时间和人力。若不进行排查，则会将全部的分任务再次进行传输，从而使得传输成功的加密压缩文件进行多次的重复传输，从而增加计算机的处理压力。

在本实施例中，获取待传输大数据文件停止文件数据传输的传输次数；判断传输次数是否不小于预设标注阈值；若传输次数不小于预设标注阈值，则对待传输大数据文件进行标注，生成标注大数据文件；基于传输次数，生成标注大数据文件的处理建议。

在本实施例中，计算每个待传输大数据文件停止文件数据传输的传输次数，每次传输时在上一次传输的次数基础之上加一，例如，待传输大数据文件停止文件数据传输两次，则表示该待传输大数据文件已经传输过两次，再次传输时需要在传输两次的基础之上加一，即此次传输为该待传输大数据文件的第三次文件数据传输。需要说明的是，若此次文件数据传输成功则依旧将该待传输大数据文件。

当传输次数大于等于预设标注阈值时，则将该待传输大数据文件进行标注，根据待传输大数据文件的传输次数生成处理建议，其中，处理建议包括建议对此待传输大数据文件进行杀毒，建议重新制作此待传输大数据文件等，具体的预设标注阈值和处理建议需要根据实际需求进行设置，在此不做具体限定。

图2为申请实施例提供的一种基于大数据的文件数据安全传输装置200的结构框图。

如图2所示，基于大数据的文件数据安全传输装置200主要包括：

文件划分模块201，用于获取待传输大数据文件，将待传输大数据文件按照预设文件划分规则划分为多个文件块；

名称生成模块202，用于获取文件块的文件数据和文件名生成规则，基于文件数据和文件名生成规则生成文件块的文件名称；

文件压缩模块203，用于基于文件名称和预设文件压缩格式生成压缩文件；

文件加密模块204，用于获取压缩文件加密规则，基于加密规则和压缩文件生成加密压缩文件；

文件排序模块205，用于获取文件排序规则，基于文件排序规则对加密压缩文件进行排序，生成排序结果；

任务创建模块206，用于基于排序结果创建传输任务；

文件传输模块207，用于基于传输任务进行文件数据传输。

作为本实施例的一种可选实施方式，名称生成模块202具体用于获取文件数据的数据内容、特征词表单和文件名长度；基于数据内容和特征词表单提取特征词；基于特征词和文件名长度生成文件名称。

作为本实施例的一种可选实施方式，文件压缩模块203具体用于提取文件名称中的关键字，将关键字转换为数字；将数字进行至少一次哈希运算生成哈希值，将哈希值作为压缩文件的密钥；使用密钥对压缩文件进行加密生成加密压缩文件。

作为本实施例的一种可选实施方式，文件排序模块205具体用于获取文件块的划分顺序和每个文件块的划分顺序值，将加密压缩文件按照划分顺序排列；将划分顺序值作为加密压缩文件的第一排列值；为每个第一排列值分配一个附加值，计算第一排列值和附加值的和，将和作为加密压缩文件的第二排列值；将加密压缩文件按照第二排列值的大小升序或降序排序，生成排序结果。

作为本实施例的一种可选实施方式，任务创建模块206具体用于基于待传输大数据文件创建总任务；获取加密压缩文件的数量，基于加密压缩文件的数量将总任务划分为多个分任务；基于多个分任务创建传输任务。

作为本实施例的一种可选实施方式，文件传输模块207具体用于实时监控每个分任务的传输进度；判断分任务是否出现传输错误；若分任务出现传输错误，则停止分任务所属的总任务中全部分任务的文件数据传输；若分任务未出现传输错误，则直至分任务所属的总任务中全部分任务传输成功，完成文件数据传输。

作为本实施例的一种可选实施方式，该基于大数据的文件数据安全传输装置200还包括：

次数获取模块，用于获取待传输大数据文件停止文件数据传输的传输次数；

阈值判断模块，用于判断传输次数是否不小于预设标注阈值；

文件标注模块，用于对待传输大数据文件进行标注，生成标注大数据文件；

建议生成模块，用于基于传输次数，生成标注大数据文件的处理建议。

在一个例子中，以上任一装置中的模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个专用集成电路(application specificintegratedcircuit，ASIC)，或，一个或多个数字信号处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)，或这些集成电路形式中至少两种的组合。

再如，当装置中的模块可以通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，CPU)或其它可以调用程序的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图3为本申请实施例提供的电子设备300的结构框图。

如图3所示，电子设备300包括处理器301和存储器302，还可以进一步包括信息输入/信息输出(I/O)接口303、通信组件304中的一种或多种以及通信总线305。

其中，处理器301用于控制电子设备300的整体操作，以完成上述的基于大数据的文件数据安全传输方法的全部或部分步骤；存储器302用于存储各种类型的数据以支持在电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random AccessMemory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。

I/O接口303为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件304用于电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearField Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件104可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备300可以被一个或多个应用专用集成电路 (Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例给出的基于大数据的文件数据安全传输方法。

通信总线305可包括一通路，在上述组件之间传送信息。通信总线305可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA (ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。通信总线305可以分为地址总线、数据总线、控制总线等。

电子设备300可以包括但不限于移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，还可以为服务器等。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的基于大数据的文件数据安全传输方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器 (R ead-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：赵睿;杨旭东;王大庆;邸宴龙;张舰;辛伟平;任旭飞;菅国梁;
专利申请人：中网华信科技股份有限公司;