掌桥专利:专业的专利平台
掌桥专利
首页

用于划分组合逻辑的方法和电路

文献发布时间:2023-06-19 10:08:35


用于划分组合逻辑的方法和电路

技术领域

本公开总体而言涉及电路领域,更具体而言,涉及用于划分组合逻辑的方法和电路。

背景技术

哈希(Hash)算法,也称为散列算法,是信息技术领域非常基础也非常重要的技术。它能将任意长度的二进制值(明文)映射为较短的固定长度的二进制值(Hash值),并且不同的明文很难映射为相同的Hash值。

由于比特币将哈希算法作为工作量证明(POW)的重要手段,后续的各种采用POW的数字货币也延续了这种设计,以SHA256、MD5为代表的算法在设计之初都属于算力敏感型的算法。这意味着计算资源是瓶颈,主频越高的CPU进行哈希的速度也越快。这个设计直接导致后来的矿机出现,采用ASIC芯片的矿机更是将这种运算能力成倍提升,更多矿场的出现使得当时的比特币面临算力中心化的威胁。

为了限制计算能力的依赖,人们开始寻求新的算法,将目光投向了存储依赖,也就是内存依赖。莱特币率先使用内存依赖型的Scrypt算法作为POW核心。Scrypt算法是程序员兼密码学家Colin Percival在其2009年的论文《STRONGER KEY DERIVATION VIASEQUENTIAL MEMORY-HARD FUNCTIONS》中提出的。

Scrypt是一种密钥导出功能(Key Derivation Function)算法,即KDF算法,主要适用于生成密钥,目的是为了避免黑客低成本地大量产生密钥去试探密码。Scrypt算法的这个效果正好被用在莱特币的nonce碰撞中,避免了矿厂矿池低成本地挖矿。

由于Scrypt算法运行中会占用大量内存,而内存的硬件成本较高,从而使得矿厂矿池不可能低成本地大量挖矿。

因此,为了降低挖矿的成本,存在对于提高诸如Scrypt算法的KDF算法的运算效率的电路和方法的需求。

发明内容

根据本公开的第一方面,提供了一种用于划分组合逻辑的方法。该方法包括接收算法的输入参数。该方法还包括基于所述输入参数,循环地并且顺序地执行所述算法包括的第一运算、第二运算和第三运算。这里,第N次循环中的第一运算与第N-1次循环中的第三运算被划分为一个第一组合逻辑并且N为大于1的整数,并且第二运算被划分为至少一个第二组合逻辑。

根据本公开的第二方面,提供了一种用于划分组合逻辑的电路。该电路包括输入模块,所述输入模块被配置为接收算法的输入参数。该电路还包括运算模块,所述运算模块被配置为基于所述输入参数,循环地并且顺序地执行所述算法包括的第一运算、第二运算和第三运算。该电路还包括控制模块,所述控制模块被配置为将第N次循环中的第一运算与第N-1次循环中的第三运算划分为一个第一组合逻辑并且将第二运算划分为至少一个第二组合逻辑,其中N为大于1的整数。

根据本公开的第三方面,提供了一种计算芯片。所述计算芯片包括一个或多个如上所述的电路。

根据本公开的第四方面,提供了一种加密货币挖矿机。所述加密货币挖矿机包括一个或多个如上所述的计算芯片。

通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:

图1示出了Scrypt算法的步骤的说明图;

图2示出了图1中的Scrypt算法中使用的scryptROMix算法的步骤的说明图;

图3示出了图2中的scryptROMix算法中使用的scryptBlockMix算法的步骤的说明图;

图4示出了图3中的scryptBlockMix算法中使用的Salsa算法的详细说明图;

图5示出了根据本发明的实施例的用于划分组合逻辑的方法的流程图;

图6示出了根据本发明的一个实施例的用于划分组合逻辑的电路600的功能框图。

注意,在以下说明的实施方式中,有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分,而省略其重复说明。在本说明书中,使用相似的标号和字母表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

为了便于理解,在附图等中所示的各结构的位置、尺寸及范围等有时不表示实际的位置、尺寸及范围等。因此,所公开的发明并不限于附图等所公开的位置、尺寸及范围等。此外,附图不必按比例绘制,一些特征可能被放大以示出具体组件的细节。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。也就是说,本文中的用于实现散列算法的电路和方法是以示例性的方式示出,来说明本公开中的电路或方法的不同实施例,而并非意图限制。本领域的技术人员将会理解,它们仅仅说明可以用来实施本发明的示例性方式,而不是穷尽的方式。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。

Scrypt算法包括以下的输入参数:P,S,N,r,p和dkLen。这里,P是密码短语,是一个字节串;S是盐,是一个字节串;N是CPU/内存消耗参数,必须大于1,是2的n次幂并且小于2^(128*r/8);r是块大小参数;p是并行化参数,是一个小于等于((2^32-1)*hLen)/MFLen的正整数,其中hLen为32,MFlen是128*r;dkLen是期望输出的导出密钥的字节长度,是一个小于等于(2^32-1)*hLen的正整数,其中hLen为32。

Scrypt算法包括输出DK。DK是导出密钥,其长度为dkLen个字节。

在本公开的上下文中,所述的字节只是8比特的字节,其含义与八位组(octet)相同。

图1示出了Scrypt算法的步骤的说明图。

在图1的步骤1中,初始化一个阵列B,该阵列B由p个块构成,每个块的大小为128*r个字节。例如,B[0]表示第一个块,B[1]表示第二个块,B[p-1]表示第p个块。在步骤1中调用了PBKDF2-HMAC-SHA256算法。该算法是一个已知的算法,例如可参见“Password-BasedCryptography Specification Version 2.0”(B.Kaliski,Network Working Group,IETF,Informational,RFC 2898,Section 5.2,September 2000)以了解其细节。

在图1的步骤2中,对于阵列B的每个块,调用了scryptROMix算法来进行计算。

在图1的步骤3中,将在步骤2中计算出的阵列B作为盐,再次调用PBKDF2-HMAC-SHA256算法,从而得到导出密钥DK作为输出。

简而言之,Scrypt算法被用来将人类可读的密码短语P变换成长度为dkLen个字节的导出密钥。

在Scrypt算法中被调用的scryptROMix算法包括以下的输入参数:r,B和N。这里,r是块大小参数;B是输入的长度为128*r个字节的块;N是CPU/内存消耗参数,必须大于1,是2的n次幂并且小于2^(128*r/8)。

scryptROMix算法包括输出B’。B’是长度为128*r个字节的输出块。

图2示出了图1中的Scrypt算法中使用的scryptROMix算法的步骤的说明图。

在图2的步骤1中,建立一个变量X,并赋值为输入的块B。

在图2的步骤2中,在一个循环中,调用scryptBlockMix算法(即,块混合算法)N次,并将每次调用scryptBlockMix算法返回的X备份在数组V的元素V[0]至V[N-1]中。

在图2的步骤3中,在一个循环中,将X与备份数组V中的一个随机元素V[j]进行异或运算,并将运算结果作为输入参数调用scryptBlockMix算法。该过程执行N次。这里,Integerify(B[0]...B[2*r-1])被定义为将B[2*r-1]转换为小端整数。也就是说,Integerify函数的作用是取输入块X的最后64字节转换成小端整数。j等于该小端整数除以N得到的余数。从而数组V中的第j个元素被取出与X进行异或操作。

在scryptROMix算法中被调用的scryptBlockMix算法包括字节串B作为输入,该字节串B的长度为128*r个字节,其对应于scryptROMix算法中的块B,但是在scryptBlockMix算法中被当作2*r个64字节的块来处理,记作B[0]||B[1]||...||B[2*r-1],其中的每个元素是一个64字节的块。

scryptBlockMix算法包括输出B’[0]||B’[1]||...||B’[2*r-1],这2*r个64字节块的串接形成一个长度为128*r个字节的字节串。

图3示出了图2中的scryptROMix算法中使用的scryptBlockMix算法的步骤的说明图。

在图3的步骤1中,定义临时变量X,并取出输入字节串B中的最后一个块B[2*r-1]赋值给X。

在图3的步骤2中,在一个循环中,将所有块分别与上一个Salsa的结果进行异或运算,第一个块B[0]则跟最后一个块B[2*r-1]进行异或运算。然后,使用异或运算的结果作为输入来调用Salsa算法。最后,将Salsa算法的结果保存在数组Y中。上述循环执行2*r次,即针对每个64字节块执行一次。

在图3的步骤3中,如图3所示地交叉地组合数组Y的各元素从而输出字节串B’。

图4示出了图3中的scryptBlockMix算法中使用的Salsa算法的详细说明图。

在图4的Salsa算法中,输入的64字节块被划分为16个字in[0]…in[15],其中每个字是一个32位的无符号整数。输出的64字节块同样也是由作为无符号整数的16个字out[0]…out[15]形成的。图4中的函数R(a,b)的作用是将a(一个32位的字)向左移位b位,并且将a向右移位(32-b)位,之后将两次移位的结果进行或运算。

在图4中的第一个for循环中,将输入的16个字赋值给临时变量x[0]…x[15]。

在图4中的第二个for循环中,该循环一共被执行4次,每一次循环将方框401~408中的每个方框中的四个算式都计算一次。

在图4的第三个for循环中,将输入的字in[i]与中间变量中的对应字x[i]相加,从而得到要输出的字out[i]。

以上是对Scrypt算法的简要介绍。

目前,除了使用通用计算机之外,还广泛使用专用芯片来执行Scrypt算法,诸如在矿机中使用的ASIC芯片或FPGA芯片。此外,在芯片的一个运算级中,组合逻辑从一组寄存器取得操作数,进行运算,然后把运算结果输出到另一组寄存器。芯片的最高工作频率由芯片中的寄存器到寄存器之间的最长的组合逻辑路径决定。这个最长组合逻辑路径越长,芯片的最高工作频率越低。根据Scrypt算法,其最长的组合逻辑例如由方框401中的算式x[4]^=R(x[0]+x[12],7)所决定,因为该算式形成了最长的组合逻辑。该算式包括:一次加法运算,一次循环移位运算、以及一次异或运算。而图4的方框401-408中的其余31个算式包括同样的三种运算。因此,通常芯片会将组合逻辑(加法+循环移位+异或)的执行时间作为一个执行周期,从而确定其工作频率。

以上面介绍的Scrypt算法为例来说明本发明。为了简化说明,假定算法中的参数N=1024,r=1并且p=1。由图1至图4可以看出,Scrypt算法的核心为scryptBlockMix算法,主要体现在图3和图4中。

本发明的发明人发现,scryptBlockMix算法的一次执行所需的时间为:

(1个周期(图3中第3行的X xor B[i]消耗的时间)+Salsa算法执行时间)*2r。

在r=1的情况下,scryptBlockMix算法将仅执行两次循环(参见图3的步骤2)。需要注意的是,算法中的赋值操作只涉及读写操作并不涉及运算操作,所以赋值操作消耗的时间可以忽略。

本发明的发明人发现,Salsa算法中的计算存储如下的依赖性。即,方框401-408中的每一个方框中的四个算式需要顺序地执行,即,每一个算式依赖于同一方框中的前面的算式的计算结果。同时,作为循环的下半部分的方框405-408的计算依赖于作为上半部分的方框401-404的计算结果,需要等待方框401-404中的计算全部完成。此外,循环的上半部分的方框401-404的计算之间不存在依赖关系,并且循环的下半部分的方框405-408的计算之间也不存在依赖关系。

以方框401中的算式为例,x[8]的计算要等待x[4]的计算完成之后才能开始,x[12]的计算要等待x[8]的计算完成之后才能开始,x[0]的计算要等待x[12]的计算完成之后才能开始。另一方面,例如,方框402中的x[9]的计算、方框403中的x[14]的计算以及方框404中的x[3]的计算不依赖于其他方框中的算式的计算,因而可以立即开始。

如上所述,由于芯片的周期是由算法中的最长组合逻辑(即,最复杂算式)决定的,因此图4中的各个算式都能够在一个周期内执行完成。因此,方框401中的四个算式可以在4个周期内完成,而方框402-404中的算式可以与方框401中的算式并行完成,从而方框401-404中的算式的执行总计耗时4个周期。同样地,循环的下半部分的方框405-408中的算式的执行也将耗时4个周期。

由于图4中的第二个for循环将执行四次,因此总共将耗时4*(4+4)=32个周期。最后,在Salsa算法的末尾处存在一个加法计算,该加法计算将会消耗一个周期。

综上所述,在N=1024,r=1并且p=1的情况下,一次完整地执行scryptBlockMix算法将需要(1+((4+4)*4)+1)*2=68个周期。

图5示出了根据本发明的实施例的用于划分组合逻辑的方法的流程图。该方法例如可以由电路、芯片或者挖矿机执行。如图5所示,该方法包括步骤510,在步骤510中,接收算法的输入参数。例如,在Scrypt算法的例子中,步骤510包括接收P、S、N、r、p、dkLen等参数。

在步骤520中,基于所述输入参数,循环地并且顺序地执行所述算法包括的第一运算、第二运算和第三运算。根据本发明的一个实施例,所述算法包括Scrypt算法的一部分,例如为scryptBlockMix算法。

根据本发明的一个实施例,所述算法的第N次循环中的第一运算与第N-1次循环中的第三运算被划分为一个第一组合逻辑并且N为大于1的整数,并且其中第二运算被划分为至少一个第二组合逻辑。在scryptBlockMix算法的例子中,第一运算对应于图3的代码第3行中的异或运算,第二运算对应于图4的Salsa算法中的第二个for循环中的运算,而第三运算对应于图4的Salsa算法的末尾部分的加法运算。也就是说,本公开提出了将一个算法的第N次循环中的首个运算与第N-1次循环中的末尾运算划分为一个组合逻辑。

根据本发明的一个实施例,所述第一组合逻辑中的第一运算和第三运算可以被配置为在一个时钟周期中执行。

在scryptBlockMix算法的例子中,根据本发明,(x[i]+in[i])将被配置成与下一次循环的开头处的(X xor B[i])在同一个周期内完成执行。通过这样做,scryptBlockMix算法的执行所需的时间将从

1+((4+4)*4)+1+1+((4+4)*4)+1=68

变成

1+((4+4)*4)+1+((4+4)*4)+1=67

从而,运算效率提高了68/67-1=1.493%。

在另一个例子中,例如当p=1且r=2时,由于需要执行四次循环,可以节省三个周期,从而运算效率提高了(34*4)/(34*4-3)-1=2.256%。本发明的发明人发现,当循环次数越多时,运算效率提升得也越多。

根据本发明的一个实施例,所述第二组合逻辑的执行时间大于或等于所述第一组合逻辑的执行时间。在scryptBlockMix算法的例子中,因为Salsa算法中的例如算式x[4]^=R(x[0]+x[12],7)的单次运算的组合逻辑为(加法+循环移位+异或)的执行时间明显大于合并到同一周期中的组合逻辑(加法+异或)的执行时间,所以芯片的周期或频率没有改变,从而没有增加额外的硬件开销。

根据本发明的一个实施例,所述时钟周期取决于所述第二组合逻辑的执行时间。例如,在scryptBlockMix算法的例子中,时钟周期取决于组合逻辑(加法+循环移位+异或)的执行时间,例如可以等于或略大于组合逻辑(加法+循环移位+异或)的执行时间。

根据本发明的一个实施例,所述至少一个第二组合逻辑中的每一个可以被配置为在一个所述时钟周期中执行。在scryptBlockMix算法的例子中,第二运算可以包括多个运算(即,第二个for循环中的算式),并且每个运算可以形成一个组合逻辑。

根据本发明的一个实施例,所述算法还可以包括第四运算,所述第四运算在第一运算之后并且在第三运算之前执行。也就是说,除了决定芯片的周期的第二运算之外,在第一运算和第三运算之间,算法还可以包括其他的运算。

图6示出了根据本发明的一个实施例的用于划分组合逻辑的电路600的功能框图。该电路600包括输入模块610、运算模块620以及控制模块630。根据本发明的一个实施例,输入模块610被配置为接收算法的输入参数。根据本发明的一个实施例,运算模块620被配置为基于所述输入参数,循环地并且顺序地执行所述算法包括的第一运算、第二运算和第三运算。根据本发明的一个实施例,控制模块630被配置为将第N次循环中的第一运算与第N-1次循环中的第三运算划分为一个第一组合逻辑并且将第二运算划分为至少一个第二组合逻辑,其中N为大于1的整数。

根据本发明的一个实施例,所述运算模块执行的所述算法包括Scrypt算法的一部分。

根据本发明的一个实施例,所述控制模块将所述第一组合逻辑中的第一运算和第三运算配置为在一个时钟周期中执行。

根据本发明的一个实施例,所述第二组合逻辑的执行时间大于或等于所述第一组合逻辑的执行时间。

根据本发明的一个实施例,所述时钟周期取决于所述第二组合逻辑的执行时间。

根据本发明的一个实施例,所述控制模块将所述至少一个第二组合逻辑中的每一个配置为在一个所述时钟周期中执行。

根据本发明的一个实施例,所述算法还包括第四运算,所述第四运算在第一运算之后并且在第三运算之前执行。

根据本公开的实施例,如上所述的用于划分组合逻辑的电路可以被实施为一种计算芯片。

本领域技术人员将理解,可以通过用诸如Verilog或VHDL的硬件描述语言(HDL)来实现根据本公开的电路和/或芯片。可以针对给定集成电路制造技术设计的单元库合成HDL描述,并可以出于定时、功率和其他原因修改,以获得最终的设计数据库,可以将最终的设计数据库传输到工厂以通过半导体制造系统生产集成电路。半导体制造系统可通过(例如在可包括掩膜的晶片上)沉积半导体材料、移除材料、改变所沉积材料的形状、(例如通过掺杂材料或利用紫外处理修改介电常数)对材料改性等等来生产集成电路。集成电路可以包括晶体管并还可以包括其他电路元件(例如,诸如电容器、电阻器、电感器等无源元件)以及晶体管和电路元件之间的互连。

根据本公开的实施例,如上所述的计算芯片可以包括在一种计算设备中,该计算设备优选地用于执行加密货币的挖掘。该计算设备例如可以是加密货币挖矿机,诸如莱特币挖矿机。

尽管以上利用Scrypt算法对本发明的思想进行了说明,但是Scrypt算法仅仅是一个用于说明的例子,本发明不限于应用于Scrypt算法,而是同样可以应用于其他算法,只要能够使得算法中的多个运算被划分到同一个时钟周期从而缩短了运算时间即可。

通过采用本发明的技术方案,由于没有改变芯片的原有周期或频率,没有降低芯片的原有性能,也没有增加硬件开销,从而能够提高运算效率。

在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。

在说明书及权利要求中的词语“前”、“后”、“顶”、“底”、“之上”、“之下”等,如果存在的话,用于描述性的目的而并不一定用于描述不变的相对位置。应当理解,这样使用的词语在适当的情况下是可互换的,使得在此所描述的本公开的实施例,例如,能够在与在此所示出的或另外描述的那些取向不同的其他取向上操作。

如在此所使用的,词语“示例性的”意指“用作示例、实例或说明”,而不是作为将被精确复制的“模型”。在此示例性描述的任意实现方式并不一定要被解释为比其它实现方式优选的或有利的。而且,本公开不受在上述技术领域、背景技术、发明内容或具体实施方式中所给出的任何所表述的或所暗示的理论所限定。

如在此所使用的,词语“基本上”意指包含由设计或制造的缺陷、器件或元件的容差、环境影响和/或其它因素所致的任意微小的变化。词语“基本上”还允许由寄生效应、噪音以及可能存在于实际的实现方式中的其它实际考虑因素所致的与完美的或理想的情形之间的差异。

上述描述可以指示被“连接”或“耦合”在一起的元件或节点或特征。如在此所使用的,除非另外明确说明,“连接”意指一个元件/节点/特征与另一种元件/节点/特征在电学上、机械上、逻辑上或以其它方式直接地连接(或者直接通信)。类似地,除非另外明确说明,“耦合”意指一个元件/节点/特征可以与另一元件/节点/特征以直接的或间接的方式在机械上、电学上、逻辑上或以其它方式连结以允许相互作用,即使这两个特征可能并没有直接连接也是如此。也就是说,“耦合”意图包含元件或其它特征的直接连结和间接连结,包括利用一个或多个中间元件的连接。

还应理解,“包括/包含”一词在本文中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件以及/或者它们的组合。

本领域技术人员应当意识到,在上述操作之间的边界仅仅是说明性的。多个操作可以结合成单个操作,单个操作可以分布于附加的操作中,并且操作可以在时间上至少部分重叠地执行。而且,另选的实施例可以包括特定操作的多个实例,并且在其他各种实施例中可以改变操作顺序。但是,其它的修改、变化和替换同样是可能的。因此,本说明书和附图应当被看作是说明性的,而非限制性的。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。在此公开的各实施例可以任意组合,而不脱离本公开的精神和范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本公开的范围和精神。本公开的范围由所附权利要求来限定。

相关技术
  • 用于划分组合逻辑的方法和电路
  • 一种用于并行电路仿真的电路划分方法
技术分类

06120112438006