掌桥专利:专业的专利平台
掌桥专利
首页

验证数据集的生成方法、芯片、电子设备和存储介质

文献发布时间:2024-04-29 00:47:01


验证数据集的生成方法、芯片、电子设备和存储介质

技术领域

本发明涉及数据处理技术领域,尤其是涉及一种验证数据集的生成方法、芯片、电子设备和存储介质。

背景技术

信息化时代的来临使得信息量得到了爆炸式增长,进行传输处理的数据量也相应地变得越来越巨大。在这种背景之下,用于对数据进行压缩的压缩算法以及相应的用于对数据进行解压的解压算法就显得尤为重要。对压缩算法/解压算法进行验证的一个常用方法是利用压缩/解压算法对验证数据集进行压缩/解压,并将压缩/解压得到的结果与目标结果进行对比。

此处所说的验证数据集用于对压缩/解压算法进行验证。验证数据集一般有匹配字段和非匹配字段组成。目前最为常用的生成验证数据集的方法主要有利用一定使用场景和边界对随机生成的数据集进行筛选,以及人为制造验证数据集两种。

然而上述生成验证数据集的方式中,随机生成的数据得到的匹配字段的数目很少,因而符合使用场景和边界情况的有效数据也很少,因而生成有效数据的效率很低。对于人为制造验证数据集的方式,由人来对验证数据集进行考虑时很难穷尽所有的情况,进而利用这样的验证数据集对压缩/解压算法进行验证会导致验证不充分。

发明内容

本发明实施方式的目的在于提供一种验证数据集的生成方法、芯片、电子设备和存储介质,用以提高用于验证压缩/解压算法的验证数据集的可靠性,进而实现能够对压缩/解压算法进行更为有效且更加充分的验证。

为了解决上述问题,本发明的实施方式提供了一种验证数据集的生成方法,其中该验证数据集用于对压缩算法和/或解压算法进行验证,所述方法包括:随机生成一份数据;将所述一份数据划分为n组,并将经所述划分得到的所述n组数据复制m份,得到m*n组数据;将所述m*n组数据进行随机重排,并将经所述随机重排的m*n组数据作为用于对压缩算法和/或解压算法进行验证的验证数据集。

本发明的实施方式还提供了一种芯片,所述芯片位于电子设备内且与所述电子设备内的存储器连接,所述存储器存储有可被所述芯片执行的指令,所述指令被所述芯片执行,以使所述芯片能够执行上述的验证数据集的生成方法。

本发明的实施方式还提供了一种电子设备,包括:上述的芯片,以及与上述芯片连接的存储器。

本发明的实施方式还提供了一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时实现上述的验证数据集的生成方法。

在本发明的实施方式中,首先随机生成一份数据,进而对所述一份数据划分为n组,并将经所述划分得到的所述n组数据复制m份。得到的m*n组数据中能够保证一定数目的匹配字段,相对于相关技术中将完全随机生成的数据用于验证压缩算法的技术手段,匹配字段占比更高,因而能够保证对压缩算法进行更为有效的验证。进一步地,将m*n组数据进行随机重排,并将经所述随机重排的m*n组数据作为用于对压缩算法和/或解压算法进行验证的验证数据集,能够保证最终得到的验证数据集中匹配字段以及非匹配字段分布的位置是随机的,从而能够确保得到的验证数据集的可靠性。利用本发明的实施方式提供的方法生成的验证数据集,能够对压缩算法和/或解压算法进行更为有效且更加充分的验证。

另外,所述一份数据的长度为X个字节,且所述X随机生成。随机生成的一份数据的长度是随机的,因而能够进一步保证验证数据集的可靠性。

另外,所述将所述一份数据划分为n组,包括:获取Y个数字,其中,所述Y个数字互不重复且数值均小于X;依据所述Y个数字对所述一份数据划分,得到所述n组数据;其中,所述Y个数字中的每个数字表示所述一份数据中的划分位置。通过上述步骤实现了将随机生成的一份数据进行随机划分,即划分得到的n组数据中各组数据的长度和内容是随机的。从而使得在进行后续的复制步骤时得到的匹配字段的长度和内容也是随机确定的,能够进一步保证验证数据集的可靠性。

另外,所述Y随机生成。在一个实施方式中,将一份数据划分的组数也是随机确定的,从而能够对压缩算法和/或解压算法在边界情况下的效果进行更好地验证。

另外,所述将所述数据划分为n组,包括:获取Y个数字,其中,所述Y个数字的数值均小于X;依据所述Y个数字对所述一份数据划分,得到所述n组数据;其中,所述Y个数字中的每个数字表示从所述一份数据中划分的字节数。通过上述步骤也能够实现将随机生成的一份数据划分为长度和内容均随机的n组数据。从而使得在进行后续的复制步骤时得到的匹配字段的长度和内容也是随机确定的,能够进一步保证验证数据集的可靠性。

另外,所述将所述m*n组数据进行随机重排,包括:随机生成m*n个互不重复的数字,利用所述m*n个互不重复的数字对所述m*n组数据进行索引,得到所述经所述随机重排的m*n组数据。利用随机生成m*n个互不重复的数字对m*n组数据进行索引实现重排,能够以简便快捷的方式实现保证最终得到的验证数据集中匹配字段以及非匹配字段分布的位置是随机的。

另外,所述m随机生成。对划分得到的所述n组数据复制的份数也是随机生成的数字,能够更好地实现遍历边界情况,从而实现对压缩算法和/或解压算法进行更加充分的验证。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1是根据本发明一实施方式中的验证数据集的生成方法的流程示意图;

图2是根据本发明一实施方式中的对一份数据进行划分进而复制的示意图;

图3是根据本发明一实施方式中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。

本发明的一实施方式涉及一种验证数据集的生成方法,所述验证数据集用于对压缩算法和/或解压算法进行验证。

在本实施方式中,该验证数据集的生成方法包括:随机生成一份数据;将所述一份数据划分为n组,并将经所述划分得到的所述n组数据复制m份,得到m*n组数据;将所述m*n组数据进行随机重排,并将经所述随机重排的m*n组数据作为用于对压缩算法和/或解压算法进行验证的验证数据集。

下面对本实施例中的验证数据集的生成方法的实现细节进行具体的说明,以下内容仅为方便理解本方案的实现细节,并非实施本方案的必须。具体流程如图1所示,可包括如下步骤:

步骤101,随机生成一份数据。

在本步骤中,随机生成指的是生成的一份数据中各字节具体为何数值是随机的。随机生成的一份数据可以参考图2中最上端示出的一份数据。

此外,随机生成的一份数据的长度可以是X个字节,且所述X也可以是随机生成。生成的一份数据的具体数值以及数据长度均为随机的,能够进一步保证验证数据集的可靠性。

步骤102,将所述一份数据划分为n组,并将经所述划分得到的所述n组数据复制m份,得到m*n组数据。

可以理解地,在本步骤中,将划分得到的n组数据复制m份后,由于在经复制得到的数据中,n组数据中的每组数据均存在多个,因此n组数据中的各组数据即为最终得到的验证数据集中的匹配字段。

对于本步骤还值得说明的是,可以通过多种方式将一份数据划分为n组。

在一个例子中,所述将所述一份数据划分为n组,包括:获取Y个数字,其中,所述Y个数字互不重复且数值均小于X;依据所述Y个数字对所述一份数据划分,得到所述n组数据;其中,所述Y个数字中的每个数字表示所述一份数据中的划分位置。通过上述步骤实现了将随机生成的一份数据进行随机划分,即划分得到的n组数据中各组数据的长度和内容是随机的。从而使得在进行后续的复制步骤时得到的匹配字段的长度和内容也是随机确定的,能够进一步保证验证数据集的可靠性。通过本例划分得到的所述n组数据请参考图2的中间示出的n组数据。图2中示出的YO、Y1以及Y2即为表示划分位置的各数字。

值得说明的是,所述Y也可以是随机生成的。在这种情况下,将一份数据划分的组数也是随机确定的,从而能够更好地遍历边界情况,进而实现对压缩算法和/或解压算法在边界情况下的效果进行更为充分的验证。

在另一个例子中,还可以通过随机确定划分后各组数据的长度来实现对所述一份数据进行划分。在本例中,所述将所述数据划分为n组,包括:获取Y个数字,其中,所述Y个数字的数值均小于X;依据所述Y个数字对所述一份数据划分,得到所述n组数据;其中,所述Y个数字中的每个数字表示从所述一份数据中划分的字节数。通过上述步骤也能够实现将随机生成的一份数据划分为长度和内容均随机的n组数据。从而使得在进行后续的复制步骤时得到的匹配字段的长度和内容也是随机确定的,能够进一步保证验证数据集的可靠性。

对于本步骤,还值得说明的是,对n组数据复制的份数m也可以是随机生成的。对划分得到的所述n组数据复制的份数也是随机生成的数字,能够更好地实现遍历边界情况,从而实现对压缩算法和/或解压算法进行更加充分的验证。复制得到的m*n组数据可以参考图2中最下端输出的数据组。

步骤103,将所述m*n组数据进行随机重排,并将经所述随机重排的m*n组数据作为用于对压缩算法和/或解压算法进行验证的验证数据集。

在本步骤中,对m*n组数据进行随机重排,使得最终得到的验证数据集中匹配字段和非匹配字段的位置是随机的。在一个具体的例子中,将所述m*n组数据进行随机重排,可以包括:随机生成m*n个互不重复的数字,利用所述m*n个互不重复的数字对所述m*n组数据进行索引,得到所述经所述随机重排的m*n组数据。利用随机生成m*n个互不重复的数字对m*n组数据进行索引实现重排,能够以简便快捷的方式实现保证最终得到的验证数据集中匹配字段以及非匹配字段分布的位置是随机的。

在上述实施方式中,最终得到的验证数据集中匹配字段的长度、位置以及内容可以均为随机的,非匹配字段的数量和位置也可以是随机的。此外,由于上述匹配字段与非匹配字段的相关信息都可以是随机的,且数据划分的组数、重复的组数等都是随机的,能够实现遍历所有边界情况,对压缩算法和/或解压算法的完备性进行更为充分的验证。

在本实施方式中,首先对随机生成的若干数据划分为n组,并将经所述划分得到的所述n组数据复制m份。得到的m*n组数据中能够保证一定数目的匹配字段,相对于相关技术中将完全随机生成的数据用于验证压缩算法的技术手段,匹配字段占比更高,因而能够保证对压缩算法进行更为有效的验证。进一步地,将m*n组数据进行随机重排,并将经所述随机重排的m*n组数据作为用于对压缩算法和/或解压算法进行验证的验证数据集,能够保证最终得到的验证数据集中匹配字段以及非匹配字段分布的位置是随机的,从而能够确保得到的验证数据集的可靠性。

本发明的上述实施方式涉及的验证数据集的生成方法可以由一种验证数据集的生成设备实现。该验证数据集的生成设备可以包括:初始数据生成模块,用于随机生成一份数据;数据复制模块,用于将所述一份数据划分为n组,并将经所述划分得到的所述n组数据复制m份,得到m*n组数据;数据重排模块,用于将所述m*n组数据进行随机重排,并将经所述随机重排的m*n组数据作为用于对压缩算法和/或解压算法进行验证的验证数据集。

值得一提的是,本发明上述实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。

本发明的实施例涉及一种芯片,如图3所示,芯片301位于电子设备内且与电子设备内的存储器302连接,存储器302存储有可被芯片301执行的指令,指令被芯片301执行,以使芯片301能够执行上述的验证数据集的生成方法。

其中,存储器302和芯片301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个芯片301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经芯片301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给芯片301。

芯片301负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储芯片301在执行操作时所使用的数据。

本发明的实施例涉及一种电子设备,如图3所示,包括:第三实施例中的芯片301,以及与芯片301连接的存储器302。

上述产品可执行本申请实施例所提供的验证数据集的生成方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的验证数据集的生成方法。

本申请的实施例还提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述验证数据集的生成方法。

本领域技术人员可以理解,实现上述验证数据集的生成方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可以在不脱离本申请的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该符合权利要求书所提到的创新性特征的最大范围。

相关技术
  • 生成、验证二维码的方法和装置,存储介质和电子设备
  • 开锁验证方法、服务器、门锁、电子设备和存储介质
  • 基于区块链的交易验证方法、装置、存储介质及电子设备
  • 基于压力感应的登录验证方法、装置、存储介质电子设备
  • 指纹识别登录验证方法、装置、存储介质及电子设备
  • 一种验证码的生成、验证方法、电子设备及存储介质
  • 验证码生成与验证方法、系统、电子设备及存储介质
技术分类

06120116592123