掌桥专利:专业的专利平台
掌桥专利
首页

数据处理装置、数据处理方法和电子设备

文献发布时间:2023-06-19 19:28:50


数据处理装置、数据处理方法和电子设备

技术领域

本公开涉及人工智能技术领域,尤其涉及深度学习、神经网络和云计算等技术领域,可应用于图像处理、自然语言处理、语音识别、自动驾驶、产品推荐等场景下。更具体地,本公开提供了一种数据处理装置、数据处理方法和电子设备。

背景技术

随着人工智能技术的发展,深度学习模型广泛地应用于各种场景中。深度学习模型包括多种神经网络(Neural Network)模型。可以利用各种数据处理装置实现神经网络模型涉及的大量操作。

发明内容

本公开提供了一种数据处理装置、数据处理方法和电子设备。

根据本公开的一方面,提供了一种数据处理装置,该装置包括:获取单元,配置为获取待处理数据,其中,待处理数据包括多个浮点数,浮点数的指数位为至少两个;划分单元,配置为将待处理数据划分为多个待处理子数据,其中,待处理子数据包括至少一个浮点数;量化单元,配置为:根据待处理子数据中至少一个浮点数中的极值和浮点数的指数位,确定至少一个数值区间;以及根据至少一个浮点数各自所处的数值区间,对至少一个浮点数分别进行量化,得到量化数据,其中,量化数据包括浮点数的第一值和第二值;处理单元,配置为利用量化数据中浮点数的第一值和第二值进行运算处理,得到处理结果;以及输出单元,配置为输出处理结果。

根据本公开的另一方面,提供了一种数据处理方法,应用于数据处理装置,该方法包括:获取待处理数据,其中,待处理数据包括多个浮点数,浮点数的指数位为至少两个;根据待处理子数据中至少一个浮点数中的极值和浮点数的指数位,确定至少一个数值区间;根据至少一个浮点数各自所处的数值区间,对至少一个浮点数分别进行量化,得到量化数据,量化数据包括浮点数的第一值和第二值;利用量化数据中浮点数的第一值和第二值进行运算处理,得到处理结果;以及输出处理结果。

根据本公开的另一方面,提供了一种电子设备,包括至少一个本公开提供的数据处理器。

据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开的一个实施例的浮点数的编码的示意图;

图2是根据本公开的一个实施例的数据处理装置的结构框图;

图3是根据本公开的一个实施例的数据处理器的示意图;

图4是根据本公开的一个实施例的数据处理方法的流程图;以及

图5是根据本公开的一个实施例的可以应用数据处理装置的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

深度学习技术可以将对象的低层特征组合形成更加抽象的高层特征,以表示对象的类别或属性。基于深度学习技术,可以发现与对象相关的数据的分布式特征。神经网络模型例如可以包括深度神经网络模型(DeepNeural Network,DNN)、循环神经网络模型(Recurrent Neural Network,RNN)和卷积神经网络模型(Convolutional NeuralNetwork,CNN)等。

神经网络模型涉及大量计算密集型的操作。这些操作例如可以包括:矩阵乘法操作、卷积操作、池化(Pooling)操作等等。在利用中央处理器(Central Processing Unit,CPU)实现这些操作的情况下,需要较高的时间成本。为了提高应用神经网络模型的效率,可以利用神经网络处理器实现神经网络模型的操作。神经网络处理器可以是在图形处理器(Graph Processing Unit,GPU)、场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)等等处理器的基础上实现的。神经网络处理器的计算效率更高。相较于通用型的中央处理器,神经网络处理器的计算性能可以提升至少一个数量级。

神经网络处理器处理的数据可以是浮点数。浮点数是与定点数相对的概念。计算机中的定点数约定小数点的位置不变,即,人为设定了一个数的小数点位置。例如,对于定点纯整数,可以约定小数点在数值位的最后。又例如对于定点纯小数,约定了数值位的最高位在小数点的后面。由于计算机字长的限制,当需要表示的数据有很大的数值范围时,不能直接用定点小数或定点整数表示。

浮点数可以由尾数M和阶码E构成。基数为2的数F的浮点数表示为:

F=M*2

浮点数的编码规则:尾数M必须为小数,用n+1位有符号定点小数表示;位数n+1决定了浮点数的精度。尾数越长,所能表示的精度越高。n为大于0的整数。阶码E必须为整数,用k+1位有符号定点整数表示;位数k+1决定了浮点数表示的数值范围,即,数据大小或小数点在数据中的真实位置;阶符决定阶码的正负。阶码越长,能表示的范围越大。k为大于0的整数

浮点数编码的位数m为:

m=(n+1)+(k+1)(公式二)

神经网络模型对数据的处理可以包括两个阶段:训练阶段和推理阶段。在训练阶段,利用已知的数据集调整神经网络模型的参数,得到一个经训练的神经网络模型。在训练阶段,数据集中的数据需要有较高的精度。类型为浮点数的数据可以应用在神经网络的训练阶段。

浮点数可以包括单精度浮点数(Float Point 32,FP32)、张量单精度浮点数(TensorFloat 32,TF32)、半精度浮点数(Float Point 32,FP16)和脑浮点数(Brain FloatPoint 16,BF16)。

单精度浮点数、张量单精度浮点数的精度较高。这两类浮点数的位宽为32位,导致其访存的数据量会比半精度浮点数高一倍左右,也需要较多的计算资源。在处理类型为单精度浮点数、张量单精度浮点数的数据时,神经网络处理器的性能较差。例如,对于单精度浮点数,一种图形处理器的性能可以为60 TOPS(Tera Operations Per Second,每秒钟可进行一万亿次操作)。对于张量单精度浮点数,该图形处理器的性能可以为500 TOPS。对于半精度浮点数或脑浮点数,该图形处理器的性能可以为1000 TOPS。可见,在训练阶段,若使用半精度浮点数或脑浮点数,可以获得更高的性能。

定点数(例如4位的定点数或8位的定点数)的位宽较少、精度较差,可以应用于神经网络模型的推理阶段。

图1是根据本公开的一个实施例的浮点数的编码的示意图。

浮点数在计算机可以通过编码方式进行表示。浮点数的编码包括符号位(sign)101、指数位(exponent)102和尾数(fraction)103。

符号位用于表示浮点数的符号。例如,0可以表示浮点数为正数,1可以表示浮点数为负数。

指数位可以表示浮点数的取值范围。例如,指数位越多,可以表示的范围越广。

根据尾数和指数位,可以确定浮点数的精度,尾数越多,浮点数的精度越高。

在一些实施例中,以浮点数是半精度浮点数为示例,半精度浮点数的符号位为1位、指数位可以为5位、尾数为10位。

若指数位全为0且尾数为0,则表示该半精度浮点数为0。

若指数位全为0且尾数不为0,则半精度浮点数FP16可以为:

若指数位全为1且尾数为0,则表示正负无穷±inf。

若指数位全为1且尾数不为0,则表示为非数(Not A Number,NAN)。

其他情况下,该半精度浮点数FP16可以为:

单精度浮点数的符号位为1位、指数位可以为8位、尾数为23位。

张量单精度浮点数的符号位为1位、指数位可以为8位、尾数为10位。在一些实施例中,一些神经网络处理器可以处理类型为单精度浮点数或张量单精度浮点数的数据。单精度浮点数或张量单精度浮点数的指数位为8位,能够表示的数的范围较广。此外,二者的尾数位数也较多,精度较高。单精度浮点数或张量单精度浮点数的位宽都是32位,而半精度浮点数的位宽是16位。存储单精度浮点数或张量精度浮点数所需的内存资源比半精度浮点数多一倍左右,处理单精度浮点数或张量单精度浮点数所需的硬件资源也比半精度浮点数多。

单精度浮点数的指数位为5位,可以表示的数的范围较小。在训练阶段,若使用单精度浮点数,可能导致模型难以收敛。

脑精度浮点数的符号位为1位、指数位可以为8位、尾数可以为7位。在一些实施例中,张量处理器(Tensor Processing Unit,TPU)可以处理类型的脑精度浮点数的数据。脑精度浮点数的指数位为8位,可以表示的数的范围较广。脑精度浮点数的尾数为7位,导致脑精度浮点数的精度比单精度浮点数差。在训练阶段,若使用脑精度浮点数可能导致模型难以收敛。

在一些实施例中,可以对待处理数据中的多个浮点数进行全局量化。例如,可以从多个浮点数据中确定最大值,根据该最大值对多个浮点数分别进行量化。然而,在待处理数据中浮点数的数量较多且分布不均匀的情况下,全局量化的精度较差。

在另一些实施例中,为了改善模型的表示范围,可以基于浮点数的指数位进行量化。浮点数的指数位与浮点数可以表示的位宽相关。例如,浮点数FP可以包括1个符号位、3个指数位和12个尾数位。可以从多个浮点数FP中确定最大值Max_0,然后基于最大值Max_0和第一预设值2

在浮点数包括2个指数位的情况下,可以表示的位宽较为适中,也可以应用于大部分的应用场景。基于此,针对包括2个以上指数位的浮点数,本公开提供一种数据处理装置,下面将进行说明。

图2是根据本公开的一个实施例的数据处理装置的结构框图。

如图2所示,该装置200可以包括获取单元210、划分单元220、量化单元230、处理单元240和输出单元250。

获取单元210,配置为获取待处理数据。

在本公开实施例中,待处理数据可以包括多个浮点数。

例如,待处理数据可以包括第一待处理数据。第一待处理数据可以为一个矩阵。该矩阵包括多个浮点数。又例如,第一待处理数据可以为16×1的矩阵,该矩阵可以包括16个浮点数。

在本公开实施例中,浮点数的指数位可以为至少两个。例如,浮点数的符号位可以为1位,浮点数的指数位可以大于或等于2位,浮点数可以为16位。又例如,浮点数的符号位可以为1位,浮点数的指数位可以为2位,浮点数的尾数可以为13位。

划分单元220,配置为将待处理数据划分为多个待处理子数据。

在本公开实施例中,待处理子数据包括至少一个浮点数。例如,可以将第一待处理数据划分为两个第一待处理子数据。每个第一待处理子数据可以包括8个浮点数。

量化单元230,配置为:根据待处理子数据中至少一个浮点数中的极值和浮点数的指数位,确定至少一个数值区间;以及根据至少一个浮点数各自所处的数值区间,对浮点数进行量化,得到量化数据。

在本公开实施例中,极值可以包括最大值。例如,第一待处理子数据Data_A1可以包括多个浮点数。若浮点数的指数位为2个,可以确定2

在本公开实施例中,量化数据的数量可以与待处理子数据的数量一致。

例如,待处理子数据为2个,量化数据也可以为2个。

在本公开实施例中,量化数据包括浮点数的第一值和第二值。

例如,量化数据可以包括至少一个浮点数各自的第一值和第二值。

例如,对于第一待处理子数据Data_A1,以处于第一数值区间的浮点数FP_A11和浮点数FP_A12为例,根据数据阈值Max_0A1,进行缩放,得到的数值作为浮点数FP_A11和浮点数FP_A12的第一值。可以将浮点数的绝对值作为被除数,第一值作为除数,进行除法运算,得到该浮点数的第二值。在一个示例中,可以利用第一预设值Pre_1对数据阈值Max_0A1进行缩放。浮点数FP_A11的第一值FP_A11F1可以为Max_0A1/Pre_1,第二值FP_A11F2可以是(FP_A11v/Max_0A1)*Pre_1,FP_A11v是浮点数FP_A11的绝对值。浮点数FP_A12的第一值FP_A1_2F1可以为Max_0A1/Pre_1,第二值FP_A12F2可以是(FP_A12v/Max_A01)*Pre_1,FP_A12v是浮点数FP_A12的绝对值。

处理单元240,配置为利用量化数据中浮点数的第一值和第二值进行运算处理,得到处理结果。

在本公开实施例中,可以利用量化数据进行各种运算。

例如,各种运算可以包括:矩阵乘法、池化、卷积等等。处理单元240可以利用一部分或全部浮点数的第一值和第二值进行运算处理,得到处理子结果。

输出单元250,配置为输出处理结果。

例如,在获得一部分浮点数的处理子结果之后,可以将这些处理子结果作为处理结果,并输出该处理结果。

通过本公开实施例,对待处理数据进行划分,并对划分后得到的待处理子数据中的浮点数进行了量化,可以大幅地提高处理装置的精度。此外,利用量化数据进行运算,可以降低运算所需的硬件资源开销,提高了运算效率,提升了处理装置的性能。此外,在浮点数的指数位为2个的情况下,可以进一步提高处理装置的精度,也可以进一步降低硬件资源开销,有助于提高处理效率。

可以理解,上文以1个待处理数据为示例,对本公开提供的处理装置进行了详细描述,但本公开不限于此。在本公开实施例中,待处理数据可以为至少一个。例如,2个待处理数据可以分别为2个维数不同的矩阵。

可以理解,上文以量化数据包括浮点数的第一值和第二值为示例,对本公开提供的处理装置进行了详细说明,但本公开不限于此。在本公开实施例中,可以将浮点数量化为两个以上的数值。

可以理解,极值还可以包括最小值。

可以理解,在本公开实施例中,可以利用量化数据中浮点数的第一值和第二值,确定浮点数的平方值。

例如,对于浮点数FP_A11,可以通过以下运算,确定处理子结果FP_A11sq:

FP_A11sq=FP_A11F2*FP_A11F2*FP_A11F1*FP_A11F1 (公式五)

可以理解,在本公开实施例中,浮点数的类型可以是各种类型的浮点数。例如,量化单元230可以对单精度浮点数、张量单精度浮点数、半精度浮点数、脑浮点数等各种类型的浮点数进行量化。而处理单元240可以根据相应浮点数的第一值和第二值进行运算,得到处理结果。通过本公开实施例,本公开的处理装置200可以用于处理各种不同精度的数据,有着极强的兼容性。

在一些实施例中,本公开提供的处理装置还可以包括:存储单元,与量化单元和处理单元耦接,用于存储来自量化单元的量化数据。

在本公开实施例中,存储单元可以是内置的缓存单元。

例如,存储单元可以包括多个存储子单元。第一存储子单元用于存储量化数据。

又例如,存储单元也可以包括不同的存储分区,一个存储分区用于存储量化数据。

可以理解,上文对处理装置的整体进行了详细描述,下面将结合相关实施例对本公开的划分单元进行详细描述。

在一些实施例中,划分单元可以包括:第一确定模块,可以配置为根据待处理数据中多个浮点数的数据分布信息,确定待处理子数据中浮点数的数量。划分模块,可以配置为根据待处理子数据中浮点数的数量,将待处理数据划分为多个待处理子数据。

在本公开实施例中,数据分布信息可以指示待处理数据中多个浮点数的分布情况。例如,数据分布信息可以指示多个浮点数均匀分布。又例如,数据分布信息也可以指示多个浮点数不均匀分布。

在本公开实施例中,第一确定模块还配置为:响应于确定数据分布信息指示待处理数据中多个浮点数均匀分布,确定待处理子数据中浮点数的数量为第一预设参数值。

在本公开实施例中,响应于确定数据分布信息指示待处理数据中多个浮点数不均匀分布,确定待处理子数据中浮点数的数量为第二预设参数值,其中,第一预设参数值大于第二预设参数值。通过本公开实施例,在数据均匀分布时,待处理子数据中的浮点数的数量较多,可以提高量化处理效率,进而提高处理装置的运行效率。在数据分布不均匀时,待处理子数据中的浮点数据的数量较少,有助于提高处理装置的精度。

可以理解,上文对本公开的划分单元进行了说明,下面将结合相关实施例对本公开的量化单元进行进一步说明。

在一些实施例中,上述的量化单元230可以包括:第二确定模块,可以配置为根据浮点数的指数位,确定数值区间的区间数量。第三确定模块,可以配置为根据待处理子数据中至少一个浮点数中的极值,确定至少一个数值区间。量化模块,可以配置为根据浮点数所处的数值区间,对浮点数进行量化,得到量化数据。写入模块,可以配置为将量化数据写入存储单元。

下面将结合相关实施例对量化单元的确定模块进行详细说明。

在本公开实施例中,第二确定模块,可以配置为根据浮点数的指数位,确定数值区间的区间数量。例如,若浮点数的指数位为2个,可以确定数据区间的区间数量为2

在本公开实施例中,第三确定模块可以配置为:根据第一预设值、极值和区间数量,确定至少一个数据阈值。

例如,区间数量可以为I个。可以理解,在浮点数的指数位为2个的情况下,I可以为4(2

例如,第一预设值可以为2

在本公开实施例中,至少一个数据阈值为I+1个数据阈值。例如,数据阈值的数量可以与区间数量相对应。又例如,在区间数量I为4个的情况下,数据阈值的数量可以为5个。

在本公开实施例中,第三确定模块还可以配置为:可以将极值确定为第1个数据阈值。

例如,若将待处理数据划分为K个待处理子数据。对于第k个待处理子数据Data_k中的多个浮点数,可以将最大值作为第1个数据阈值Max_0k。K为大于1的整数,k为大于或等于1且小于或等于K的整数。

在本公开实施例中,第三确定模块还可以配置为:可以根据第i个数据阈值和第一预设值,确定第i+1个数据阈值。

例如,i为大于或等于1的整数,i为小于或等于I的整数。在一个示例中,以I=4为示例,i的取值范围可以为1、2、3、4。

例如,可以通过以下公式,确定数据阈值:

可以理解,对于第k个待处理子数据Data_k,Max_1k、Max_2k、Max_3k、Max_4k分别为第2个数据阈值、第3个数据阈值、第4个数据阈值、第5(I+1)个数据阈值。

在本公开实施例中,第三确定模块还可以配置为:根据至少一个数据阈值,确定至少一个数值区间。

例如,确定模块还可以配置为:根据第i个数据阈值和第i+1个数据阈值,确定第i个数值区间。

例如,对应上述的第k个待处理子数据Data_k,可以根据第1个数据阈值Max_0k和第2个数据阈值Max_1k,确定第1个数值区间Max_1k~Max_0k。可以根据第2个数据阈值Max_1k和第3个数据阈值Max_2k,确定第2个数值区间Max_2k~Max_1k。可以根据第3个数据阈值Max_2k和第4个数据阈值Max_3k,确定第3个数值区间Max_3k~Max_2k。可以根据第4个数据阈值Max_3k和第5个数据阈值Max_4k,确定第4个数值区间Max_4k~Max_3k。

可以理解,上文对量化单元的确定模块进行了详细描述。下面将结合相关实施例对量化单元的量化模块进行详细描述。

在本公开实施例中,量化模块可以配置为:根据目标数据阈值和第一预设值,得到浮点数的第一值。根据第一预设值、浮点数和目标数据阈值,得到浮点数的第二值。

例如,目标数据阈值为与浮点数所处的数值区间相关的两个数据闽值之间的较大值。

例如,对于第k个待处理子数据中的浮点数FP_k,若该浮点数FP_k的绝对值FP_kv处于第i个数值区间(Max_i+1k<FP_kv<Max_ik),则浮点数FP_k的目标数据阈值为:第i个数值区间的两个数据阈值(Max_ik和Max_i+1k)中较大的第i个数据阈值Max_ik。

第一预设值可以为2

浮点数FP_k的第二值FP_kF2可以为:

可以理解,上文对量化单元的量化模块进行了详细描述,下面将结合相关实施例对量化单元的写入模块进行详细说明。

在本公开实施例中,写入模块,配置为将量化数据写入存储单元。

例如,可以将浮点数FP_k的第一值FP_kF1和第二值FP_kF2写入存储单元。

可以理解,如上述,以I=4为示例,第i个数值区间可以为第1个数值区间至第4个数值区间中的任一个。

在一些实施例中,量化数据包括目标处理函数相关的函数数据以及与目标处理函数相关的目标浮点数的第一值和第二值。

例如,神经网络模型可以用于处理浮点数数据。神经网络模型可以包括多个处理函数,这些处理函数本身也具有大量的参数,这些参数也可以是浮点数。处理函数的参数可以作为与该处理函数相关的待处理数据。这些待处理数据也可以用矩阵表示,矩阵中的全部或部分元素为浮点数。对这些待处理数据进行量化,可以得到处理函数相关的函数数据。

又例如,处理函数可以处理一个或几个输入的浮点数。目标浮点数可以是处理函数的输入。

又例如,目标浮点数和处理函数相关的待处理数据可以来自于不同的待处理数据。在一个示例中,目标处理函数可以为卷积核函数。卷积核函数的参数可以实现为一个3*3的矩阵。该3*3的矩阵中包括9个浮点数。将该3*3的矩阵作为待处理数据,进行量化,得到目标处理函数的函数数据。该函数数据包括9个浮点数各自的第一值和第二值。

可以理解,上文对本公开的量化单元进行了详细描述。下面将结合相关实施例,对本公开的处理单元进行详细描述。

在一些实施例中,上述的处理单元240可以包括:读取模块,可以配置为从存储单元读取目标处理函数以及与目标处理函数相关的目标浮点数的第一值和第二值。处理模块,可以配置为利用目标处理函数处理目标浮点数的第一值和第二值,得到处理结果。

例如,读取模块可以读取目标处理函数的函数数据和目标浮点数。

例如,目标浮点数可以为至少一个。

在本公开实施例中,待处理数据可以包括第一待处理数据和第二待处理数据。多个待处理子数据包括:来自第一待处理数据的多个第一待处理子数据,以及来自第二待处理数据的多个第二待处理子数据。目标浮点数包括:来自第一待处理子数据的第一目标浮点数和来自第二待处理子数据的第二目标浮点数。例如,与目标处理函数Fun_t1相关的目标浮点数分别来自于第一待处理数据Data_A和第二待处理数据Data_B。可以将第一待处理数据Data_A划分为K个第一待处理子数据。也可以将第二待处理数据Data_B划分为K个第二待处理子数据。来自于第k个第一待处理子数据Data_Ak的一个第一目标浮点数可以为浮点数FP_A1k。来自于第k个第二待处理子数据Data_Bk的一个第二目标浮点数可以为浮点数FP_B1k。目标处理函数Fun_t1可以为乘法函数,用于计算两个浮点数的乘积。

在本公开实施例中,处理模块还可以配置为:根据目标浮点数的符号位,确定目标符号位。

例如,可以对第一目标浮点数和第二目标浮点数的符号位进行按位异或,得到的结果作为目标符号位。在一个示例中,可以对浮点数FP_A1k的符号位和浮点数FP_B1k的符号位进行按位异或,得到目标符号位。

在本公开实施例中,处理模块还配置为:利用目标处理函数处理目标浮点数的第一值和第二值,得到输出浮点数的绝对值。

例如,处理模块还配置为:将第一目标浮点数的第一值和第二值以及第二目标浮点数的第一值和第二值依次相乘,得到输出浮点数的绝对值。

在一个示例中,可以通过以下公式确定输出浮点数的绝对值FP_AB1kv:

FP_AB1kv=FP_A1kF2*FP_B1kF2*FP_A1kF1*FP_B1kF1 (公式十二)

FP_A1kF1为浮点数FP_A1k的第一值,FP_A1kF2为浮点数FP_A1k的第二值。FP_B1kF1为浮点数FP_B1k的第一值,FP_B1kF2为浮点数FP_B1k的第二值。

在本公开实施例中,处理模块还配置为:根据输出浮点数的绝对值和目标符号位,得到输出浮点数。

例如,根据输出浮点数的绝对值FP_AB1kv和目标符号位,可以确定输出浮点数FP_AB1k。

在本公开实施例中,处理模块还配置为:根据输出浮点数,得到处理结果。

例如,在目标处理函数只与浮点数FP_A1k和浮点数FP_B1k相关的情况下,可以将输出浮点数FP_AB1k作为处理结果。

在本公开实施例中,处理模块还配置为:将处理结果转换为浮点数,得到转换后处理结果。通过本公开实施例,输出的结果也是浮点数,可以进一步提高处理装置的兼容性。

在本公开实施例中,输出模块还配置为:输出转换后处理结果。

可以理解,上文对本公开的处理装置进行了详细描述,下面将结合图3和相关实施例对本公开的处理装置的原理进行详细描述。

图3是根据本公开的一个实施例的数据处理装置的示意图。

如图3所示,获取单元310可以从其他设备获取待处理数据,并将待处理数据存储在片外存储单元370中。获取单元310可以是直接内存存取(Direct Memory Access,DMA)单元。例如,待处理数据可以包括多个浮点数。该浮点数的指数位可以为2个。

在获取待处理数据之后,划分单元320可以从片外存储单元370读取相应的待处理数据。划分单元320可以将待处理数据划分为多个待处理子数据。

接下来,量化单元330可以对多个待处理子数据各自的多个浮点数进行量化。例如,根据待处理子数据中多个浮点数中的极值和浮点数的指数位,确定至少一个数值区间;以及根据至少一个浮点数各自所处的数值区间,对待处理子数据的至少一个浮点数分别进行量化,得到量化数据。在本公开实施例中,量化数据包括:目标处理函数相关的函数数据以及与目标处理函数相关的目标浮点数的第一值和第二值。

根据量化数据的类型,将量化数据写入存储单元。存储单元可以为片上静态随机存取存储器(Static Random Access Memory,SRAM)存储。在本公开实施例中,存储单元包括第一存储单元361和第二存储单元362。可以将函数数据存入第一存储单元361,将目标浮点数的第一值和第二值存入第二存储单元362。第一存储单元361也可以被称为模型SRAM存储单元,第二存储单元362也可以被称为输入SRAM存储单元。

待处理数据可以包括多个浮点数,量化数据可以包括多个浮点数的第一值和第二值。

处理单元340可以利用目标处理函数处理目标浮点数的第一值和第二值,得到处理子结果。可以将处理子结果转换为浮点数的格式,缓存入输出单元350。在处理单元340完成处理之后,输出单元350可以将多个处理子结果作为处理结果,并输出至片外存储单元370。输出单元350也可以被称为结果SRAM单元。

下面将结合相关实施例对本公开的处理装置进行进一步详细说明。

在一些实施例中,获取单元配置为获取待处理数据。例如,待处理数据可以包括第一待处理数据Data_A和第二待处理数据Data_B。

第一待处理数据Data_A可以用一个1行16列的矩阵表示,Data_A=[1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0]。

第二待处理数据Data_B可以用一个16行1列的矩阵表示,转置后的Data_B=[0.004,4.0,6.0,8.0,10.0,12.0,14.0,16.0,18.0,20.0,22.0,24.0,26.0,28.0,30.0,32.0]。可以理解,为了便于理解,在本实施例中,将第一待处理数据Data_A和第二待处理数据Data_B中的多个浮点数均用十进制表示。

可以理解,上述的第一待处理数据Data_A浮点数FP_A11对应的十进制数可以为1.0。上述的第一待处理数据Data_A浮点数FP_A12对应的十进制数可以为2.0。上述的待处理数据Data_B浮点数FPB1k对应的十进制数可以为0.004。

在一些实施例中,划分单元,配置为将待处理数据划分为多个待处理子数据。例如,可以将第一待处理数据Data_A划分为第一待处理子数据Data_A1和第一待处理子数据Data_A2。第一待处理子数据Data_A1=[1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0],第一待处理子数据Data_A2=[9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0]。又例如,可以将第二待处理数据Data_B划分为第二待处理子数据Data_B1和第二待处理子数据Data_B2。第二待处理子数据Data_B1=[0.004,4.0,6.0,8.0,10.0,12.0,14.0,16.0],第二待处理子数据Data_B2=[18.0,20.0,22.0,24.0,26.0,28.0,30.0,32.0]。

在一些实施例中,量化单元,配置为:根据待处理子数据中多个浮点数中的极值和浮点数的指数位,确定至少一个数值区间;以及根据至少一个浮点数各自所处的数值区间,对至少一个浮点数分别进行量化,得到量化数据。量化数据包括浮点数的第一值和第二值。例如,对于第一待处理子数据Data_A1,最大值Max_A1为8.0。对于第二待处理子数据Data_B1,最大值Max_B1为16.0。

对于第一待处理子数据Data_A1,可以将最大值Max_A1作为第1个数据阈值Max_0A1。对于第二待处理子数据Data_B1,可以将最大值Max_B1作为第1个数据阈值Max_0B1。接下来,可以利用上述的公式六至公式九,分别确定第一待处理子数据Data_A1和第二待处理子数据Data_B1多个其他的数据阈值。

对于第一待处理子数据Data_A1,第2个数据阈值Max_1A1可以为0.000976563,第3个数据阈值Max_2A1可以为1.19209*10

对于第二待处理子数据Data_B1,第2个数据阈值Max_1B1可以为0.001953125,第3个数据阈值Max_2B1可以为9.5367431640625*10

在一些实施例中,处理单元,配置为利用量化数据中浮点数的第一值和第二值进行运算处理,得到处理结果。

例如,处理单元可以将第一待处理子数据Data_A1的量化数据和第二待处理子数据Data_B1的量化数据相乘。在该处理过程中,可以将以下数据相乘:第一待处理子数据Data_A1的第1个浮点数FP_A11的第一值和第二值,第二待处理子数据Data_B1中第1个浮点数FP_B11的第一值和第二值。

第一待处理子数据Data_A1的第1个浮点数FP_A11对应的十进制数为1.0,处于数值区间0.000976563~8.0。根据上述的公式十和公式十一,可以确定浮点数FP_A11的第一值FP_A11F1和第二值FP_A11F2。第一值FP_A11F1对应的十进制数可以为1024,第二值FP_A11F2对应的十进制数可以为0.000976563。

第二待处理子数据Data_B1的浮点数FP_B11对应的十进制数为0.004,处于数值区间0.001953125~16。根据上述的公式十和公式十一,可以确定浮点数FP_B11的第一值FP_B11F1和第二值FP_B11F2。第一值FP_B11F1对应的十进制数可以为2.048,第二值FP_B11F2对应的十进制数可以为0.001953125。

将浮点数FP_A11的第一值、浮点数FP_A11的第二值、浮点数FP_B11的第一值以及浮点数FP_B11的第二值相乘,可以得到输出浮点数的绝对值FP_AB11v,可以通过以下公式实现:

FP_AB11v_10=1024*2.048*0.000976563*0.001953125=0.004000002(公式十三)

FP_AB11v对应的十进制数FP_AB11v_10可以为0.004000002。

通过本公开实施例,可以有效地提高处理装置的计算效率,同时也可以使得处理装置的计算精度保持在较高的水平。

可以理解,浮点数之间直接进行各种运算所需的计算资源较高,而将其转换为第一值和第二值,再进行运算,可以显著地降低运算资源。例如,以浮点数相乘为例,浮点数FP_A11和浮点数FP_B11是以编码的形式存储在片外存储单元中,二者之间相乘会消耗较多的计算资源。而利用这两个浮点数的第一值和第二值进行运算,可以显著地降低运算资源。浮点数FP_A11的第二值和浮点数FP_B11的第二值相乘(1024对应的二进制数和2.048对应的二进制数相乘),仅需与处理单元对应的移位寄存器执行简单移位操作即可完成。

可以理解,上文将第一待处理数据划分为K个第一待处理子数据,将第二待处理数据划分为K个第二待处理子数据。但本公开不限于此,在本公开实施例中,根据不同待处理数据划分出的待处理子数据的数量可以不同,下面将进行说明。

在一些实施例中,获取单元配置为获取待处理数据。例如,待处理数据可以包括第一待处理数据Data_C和第二待处理数据Data_D。第一待处理数据Data_C可以为M×J的矩阵。第二待处理数据Data_D可以为J×N的矩阵。M可以为大于1的整数,J可以为大于1的整数,N可以为大于1的整数。

在一些实施例中,划分单元,配置为将待处理数据划分为多个待处理子数据。待处理子数据可以包括T个浮点数。例如,T可以为大于或等于1的整数。又例如,可以将第一待处理数据Data_C划分为多个第一待处理子数据。每个第一待处理子数据可以包括T个浮点数。也可以将第二待处理数据划分为多个第二待处理子数据,每个第二待处理子数据包括T个浮点数。又例如,T可以小于M,也可以小于J,也可以小于N。可以理解,T与M、J和N也可以为其他关系,本公开对此不进行限制。

在一些实施例中,量化单元,配置为:根据待处理子数据中多个浮点数中的极值和浮点数的指数位,确定至少一个数值区间;以及根据至少一个浮点数各自所处的数值区间,对至少一个浮点数分别进行量化,得到量化数据。量化数据包括浮点数的第一值和第二值。例如,在T小于M的情况下,第一待处理子数据Data_C1可以来自于第一待处理数据Data_C的第一行。可以确定第一待处理子数据Data_C1的最大值Max_C1。可以根据最大值Max_C1对第一待处理子数据中的T个浮点数进行量化,得到量化数据Q_C1。量化数据Q_C1包括第一待处理子数据Data_C1中各浮点数的第一值和第二值。又例如,在T小于J的情况下,第二待处理子数据Data_D1可以来自于第二待处理数据Data_D的第一列。可以确定第二待处理子数据Data_D1的最大值Max_D1。可以根据最大值Max_D1对第二待处理子数据中的T个浮点数进行量化,得到量化数据Q_D1。量化数据Q_D1包括第二待处理子数据Data_D1中各浮点数的第一值和第二值。

在一些实施例中,处理单元,配置为利用量化数据中浮点数的第一值和第二值进行运算处理,得到处理结果。例如,处理单元可以将多个第一待处理子数据的量化数据和多个第二待处理子数据的量化数据相乘。在该运算过程中,可以将第一待处理子数据的量化数据和第二待处理子数据的量化数据相乘。又例如,处理结果可以为一个M×N的矩阵。

在一些实施例中,输出单元,配置为输出处理结果。例如,可以输出该M×N的矩阵。

图4是根据本公开的一个实施例的数据处理方法的流程图。

如图4所示,该方法400包括操作S410至操作S450。

可以理解,方法400可以应用于数据处理装置。

在操作S410,获取待处理数据。例如,待处理数据包括多个浮点数。浮点数的指数位为至少两个。

在操作S420,将待处理数据划分为多个待处理子数据。例如,待处理子数据包括至少一个浮点数。

在操作S430,根据待处理数据中至少一个浮点数中的极值和浮点数的指数位,确定至少一个数值区间。

在操作S440,根据至少一个浮点数各自所处的数值区间,对至少一个浮点数分别进行量化,得到量化数据。例如,量化数据包括浮点数的第一值和第二值。

在操作S450,利用量化数据中浮点数的第一值和第二值进行运算处理,得到处理结果。

在操作S460,输出处理结果。

在本公开实施例中,可以利用处理装置200实现方法400。

例如,可以利用获取单元210执行操作S410。

例如,可以利用划分单元220执行操作S420。

例如,可以利用量化单元240执行操作S430和操作S440。

例如,可以利用处理单元240执行操作S450。

例如,可以利用输出单元250执行操作S460。

在一些实施例中,将待处理数据划分为多个待处理子数据包括:根据待处理数据中多个浮点数的数据分布信息,确定待处理子数据中浮点数的数量。根据待处理子数据中浮点数的数量,将待处理数据划分为多个待处理子数据。例如,可以利用划分单元220的第一确定模块根据待处理数据中多个浮点数的数据分布信息,确定待处理子数据中浮点数的数量。又例如,可以利用划分单元220的划分模型根据待处理子数据中浮点数的数量,将待处理数据划分为多个待处理子数据

在一些实施例中,确定待处理子数据中浮点数的数量包括以下操作至少之一:响应于确定数据分布信息指示待处理数据中多个浮点数均匀分布,确定待处理子数据中浮点数的数量为第一预设参数值。响应于确定数据分布信息指示待处理数据中多个浮点数不均匀分布,确定待处理子数据中浮点数的数量为第二预设参数值。例如,第一预设参数值大于第二预设参数值。例如,可以利用划分单元220的第一确定模型执行相关操作。

在一些实施例中,根据待处理子数据中至少一个浮点数中的极值和浮点数的指数位,确定至少一个数值区间包括:根据浮点数的指数位,确定数值区间的区间数量。根据待处理数据中至少一个浮点数中的极值以及区间数量,确定至少一个数值区间。

在一些实施例中,根据至少一个浮点数各自所处的数值区间,对至少一个浮点数分别进行量化,得到量化数据包括:根据浮点数所处的数值区间,对浮点数进行量化,得到量化数据。在本公开实施例中,可以利用量化单元230的第二确定模块根据浮点数的指数位,确定数值区间的区间数量。可以利用量化单元230的第三确定模块根据待处理子数据中至少一个浮点数中的极值以及区间数量,确定至少一个数值区间。在本公开实施例中,可以利用量化单元230的量化模块根据浮点数所处的数值区间,对浮点数进行量化,得到浮点数的第一值和第二值。

在一些实施例中,根据待处理子数据中至少一个浮点数中的极值以及区间数量,确定至少一个数值区间包括:根据第一预设值、极值和区间数量,确定至少一个数据阈值。根据至少一个数据阈值,确定至少一个数值区间。例如,可以利用量化单元230的第三确定模块执行相关操作。

在一些实施例中,区间数量为I个,至少一个数据阈值为I个数据阈值,I为大于1的整数。

在一些实施例中,根据第一预设值和极值,确定至少一个数据阈值包括:将极值确定为第1个数据阈值。根据第i个数据阈值和第一预设值,确定第i+1个数据阈值。例如,i为大于或等于1的整数,i为小于或等于I的整数。例如,可以利用量化单元230的第二确定模块执行相关操作。

在一些实施例中,根据至少一个数据阈值,确定至少一个数值区间包括:根据第i个数据阈值和第i+1个数据阈值,确定第i个数值区间。例如,可以利用量化单元230的第三确定模块执行相关操作。

在一些实施例中,根据浮点数所处的数值区间,对浮点数进行量化,得到浮点数的第一值和第二值包括:根据目标数据阈值和第一预设值,得到浮点数的第一值。根据第一预设值、浮点数和目标数据阈值,得到浮点数的第二值。例如,目标数据阈值为与浮点数所处的数值区间相关的两个数据阈值之间的较大值。例如,可以利用量化单元230的量化模块执行相关操作。

在一些实施例中,量化数据包括目标处理函数相关的函数数据以及与目标处理函数相关的目标浮点数的第一值和第二值。

在一些实施例中,利用量化数据中浮点数的第一值和第二值进行运算处理,得到处理结果包括:读取目标处理函数以及与目标处理函数相关的目标浮点数。利用目标处理函数处理目标浮点数的第一值和第二值,得到处理结果。例如,可以利用处理单元240的读取模块读取目标处理函数以及与目标处理函数相关的目标浮点数。例如,可以利用处理单元240的处理模块利用目标处理函数处理目标浮点数的第一值和第二值,得到处理结果。

在一些实施例中,利用目标处理函数处理目标浮点数的第一值和第二值,得到处理结果包括:根据目标浮点数的符号位,确定目标符号位。利用目标处理函数处理目标浮点数的第一值和第二值,得到输出浮点数的绝对值。根据输出浮点数的绝对值和目标符号位,得到输出浮点数。根据输出浮点数,得到处理结果。例如,可以利用处理单元230的处理模块执行相关操作。

在一些实施例中,待处理数据包括第一待处理数据和第二待处理数据,多个待处理子数据包括:来自第一待处理数据的多个第一待处理子数据,以及来自第二待处理数据的多个第二待处理子数据,目标浮点数包括:来自第一待处理子数据的第一目标浮点数和来自第二待处理子数据的第二目标浮点数。

在一些实施例中,利用目标处理函数处理目标浮点数的第一值和第二值,得到输出浮点数的绝对值包括:将至少两个目标浮点数的第一值以及至少两个目标浮点数的第二值依次相乘,得到输出浮点数的绝对值。例如,可以利用处理单元240的处理模块执行相关操作。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理器、图形处理器、各种专用的人工智能(AI)计算芯片、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。例如,各种专用的人工智能计算芯片可以包括上文所描述的处理装置200。

计算单元501执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列、专用集成电路、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)显示器或者LCD(液晶显示器));以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术分类

06120115925904