导航：首页> 测量；测试>数据处理器、数据处理方法和电子设备

数据处理器、数据处理方法和电子设备

文献发布时间：2023-06-19 19:28:50

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、神经网络和云计算等技术领域，可应用于图像处理、自然语言处理、语音识别、自动驾驶、产品推荐等场景下。更具体地，本公开提供了一种数据处理器、数据处理方法和电子设备。

背景技术

随着人工智能技术的发展，深度学习模型广泛地应用于各种场景中。深度学习模型包括多种神经网络(Neural Network)模型。可以利用处理器实现神经网络模型涉及的大量操作。

发明内容

本公开提供了一种数据处理器、数据处理方法和电子设备。

根据本公开的一方面，提供了一种数据处理器，该处理器包括：获取单元，配置为获取待处理数据；量化单元，配置为根据待处理数据中多个浮点数中的极值，对浮点数进行量化，得到量化数据，量化数据包括浮点数的第一值和第二值；运算单元，配置为利用量化数据中浮点数的第一值和第二值进行运算处理，得到运算结果；以及输出单元，配置为输出运算结果。

根据本公开的另一方面，提供了一种数据处理方法，该方法包括：获取待处理数据；根据待处理数据中多个浮点数中的极值，对浮点数进行量化，得到量化数据，量化数据包括浮点数的第一值和第二值；利用量化数据中浮点数的第一值和第二值进行运算处理，得到运算结果；以及输出运算结果。

根据本公开的另一方面，提供了一种电子设备，包括至少一个本公开提供的数据处理器。

据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的浮点数的编码的示意图；

图2是根据本公开的一个实施例的数据处理器的结构框图；

图3是根据本公开的一个实施例的数据处理器的原理图；

图4是根据本公开的一个实施例的数据处理方法的流程图；以及

图5是根据本公开的一个实施例的可以应用数据处理器的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

深度学习技术可以将对象的低层特征组合形成更加抽象的高层特征，以表示对象的类别或属性。基于深度学习技术，可以发现与对象相关的数据的分布式特征。神经网络模型例如可以包括深度神经网络模型(Deep neural network，DNN)、循环神经网络模型(Recurrent Neural Network，RNN)和卷积神经网络模型(Convolutional NeuralNetwork，CNN)等。

神经网络模型涉及大量计算密集型的操作。这些操作例如可以包括：矩阵乘法操作、卷积操作、池化(Pooling)操作等等。在利用中央处理器(Central Processing Unit，CPU)实现这些操作的情况下，需要较高的时间成本。为了提高应用神经网络模型的效率，可以利用神经网络处理器实现神经网络模型的操作。神经网络处理器可以是在图形处理器(Graph Processing Unit，GPU)、场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)等等处理器的基础上实现的。神经网络处理器的计算效率更高。相较于通用型的中央处理器，神经网络处理器的计算性能可以提升至少一个数量级。

神经网络处理器处理的数据可以是浮点数。浮点数是与定点数相对的概念。计算机中的定点数约定小数点的位置不变，即，人为设定了一个数的小数点位置。例如，对于定点纯整数，可以约定小数点在数值位的最后。又例如对于定点纯小数，约定了数值位的最高位在小数点的后面。由于计算机字长的限制，当需要表示的数据有很大的数值范围时，不能直接用定点小数或定点整数表示。

浮点数可以由尾数M和阶码E构成。基数为2的数F的浮点数表示为：

F＝M*2

浮点数的编码规则：尾数M必须为小数，用n+1位有符号定点小数表示；位数n+1决定了浮点数的精度。尾数越长，所能表示的精度越高。n为大于0的整数。阶码E必须为整数，用k+1位有符号定点整数表示；位数k+1决定了浮点数表示的数值范围，即，数据大小或小数点在数据中的真实位置；阶符可以决定阶码的正负。阶码越长，能表示的范围越大。

k为大于0的整数

浮点数编码的位数m为：

m＝(n+1)+(k+1) (公式二)

神经网络模型对数据的处理可以包括两个阶段：训练阶段和推理阶段。在训练阶段，利用已知的数据集调整神经网络模型的参数，得到一个经训练的神经网络模型。在训练阶段，数据集中的数据需要有较高的精度。类型为浮点数的数据可以应用在神经网络的训练阶段。

浮点数可以包括单精度浮点数(Float Point 32，FP32)、张量单精度浮点数(TensorFloat 32，TF32)、半精度浮点数(Float Point 32，FP16)和脑浮点数(Brain FloatPoint 16，BF 16)。

单精度浮点数、张量单精度浮点数的精度较高。这两类浮点数的位宽为32位，导致其访存的数据量会比半精度浮点数高一倍左右，也需要较多的计算资源。在处理类型为单精度浮点数、张量单精度浮点数的数据时，神经网络处理器的性能较差。例如，对于单精度浮点数，一种图形处理器的性能可以为60TOPS(Tera Operations Per Second，每秒钟可进行一万亿次操作)。对于张量单精度浮点数，该图形处理器的性能可以为500TOPS。对于半精度浮点数或脑浮点数，该图形处理器的性能可以为1000TOPS。可见，在训练阶段，若使用半精度浮点数或脑浮点数，可以获得更高的性能。

定点数(例如4位的定点数或8位的定点数)的位宽较少、精度较差，可以应用于神经网络模型的推理阶段。

图1是根据本公开的一个实施例的浮点数的编码的示意图。

浮点数在计算机可以通过编码方式进行表示。浮点数的编码包括符号位(sign)101、指数位(exponent)102和尾数(fraction)103。

符号位用于表示浮点数的符号。例如，0可以表示浮点数为正数，1可以表示浮点数为负数。

指数位可以表示浮点数的取值范围。例如，指数位越多，可以表示的范围越广。

根据尾数和指数位，可以确定浮点数的精度，尾数越多，浮点数的精度越高。

在一些实施例中，以浮点数是半精度浮点数为示例，半精度浮点数的符号位为1位、指数位可以为5位、尾数为10位。

若指数位全为0且尾数为0，则表示该半精度浮点数为0。

若指数位全为0且尾数不为0，则半精度浮点数FP16可以为：

若指数位全为1且尾数为0，则表示正负无穷±inf。

若指数位全为1且尾数不为0，则表示为非数(Not A Number，NAN)。

其他情况下，该半精度浮点数FP16可以为：

单精度浮点数的符号位为1位、指数位可以为8位、尾数为23位。

张量精度浮点数的符号位为1位、指数位可以为8位、尾数为10位。在一些实施例中，一些神经网络处理器可以处理类型为单精度浮点数或张量精度浮点数的数据。单精度浮点数或张量精度浮点数的指数位为8位，能够表示的数的范围较广。此外，二者的尾数位数也较多，精度较高。单精度浮点数或张量精度浮点数的位宽都是32位，而半精度浮点数的位宽是16位。存储单精度浮点数或张量精度浮点数所需的内存资源比半精度浮点数多一倍左右，处理单精度浮点数或张量精度浮点数所需的硬件资源也比半精度浮点数多。

单精度浮点数的指数位为5位，可以表示的数的范围较小。在训练阶段，若使用单精度浮点数，可能导致模型难以收敛。

脑精度浮点数的符号位为1位、指数位可以为8位、尾数为7位。在一些实施例中，张量处理器(Tensor Processing Unit，TPU)可以处理类型的脑精度浮点数的数据。脑精度浮点数的指数位为8位，可以表示的数的范围较广。脑精度浮点数的尾数为7位，导致脑精度浮点数的精度比单精度浮点数差。在训练阶段，使用脑精度浮点数可能导致模型难以收敛。

图2是根据本公开的一个实施例的数据处理器的结构框图。

如图2所示，该处理器200可以包括获取单元210、量化单元220、运算单元230和输出单元240。

获取单元210，配置为获取待处理数据。

在本公开实施例中，待处理数据可以包括多个浮点数。

例如，1个待处理数据可以为一个矩阵。该矩阵包括多个浮点数。

在本公开实施例中，浮点数的符号位可以为1位，浮点数的指数位可以小于5位，浮点数可以为16位。

例如，浮点数的符号位可以为1位，浮点数的指数位可以为3位，浮点数的尾数可以为12位。

量化单元220，配置为根据待处理数据中多个浮点数中的极值，对浮点数进行量化，得到量化数据。

在本公开实施例中，量化数据的数量可以与待处理数据的数量一致。

例如，待处理数据为1个，量化数据也可以为1个。

在本公开实施例中，量化数据包括浮点数的第一值和第二值。

例如，量化数据可以包括多个浮点数的第一值和第二值。

在本公开实施例中，极值可以包括最大值。

例如，待处理数据Data_A包括多个浮点数。根据这些浮点数中的最大值Max_A，进行缩放，得到的数值作为每个浮点数的第一值。可以将浮点数的绝对值作为被除数，第一值作为除数，进行除法运算，得到该浮点数的第二值。在一个示例中，可以利用第一预设值Pre_1对最大值Max_A进行缩放。待处理数据Data_A中一个浮点数FP_A1的第一值FP_A1F1可以为Max_A/Pre_1，第二值FP_A1F2可以是(FP_A1v/Max_A)*Pre_1，FP_A1v是浮点数FP_A1的绝对值。待处理数据Data_A中另一个浮点数FP_A2的第一值FP_A2F1可以为Max_A/Pre_1，第二值FP_A2F2可以是(FP_A2v/Max_A)*Pre_1，FP_A2v是浮点数FP_A2的绝对值。

运算单元230，配置为利用量化数据中浮点数的第一值和第二值进行运算处理，得到运算结果。

在本公开实施例中，可以利用量化数据进行各种运算。

例如，各种运算可以包括：矩阵乘法、池化、卷积等等。运算单元230可以利用一部分浮点数的第一值和第二值进行运算处理，得到运算子结果。

输出单元240，配置为输出运算结果。

例如，在获得全部浮点数的运算子结果之后，可以将这些运算子结果作为运算结果，并输出该运算结果。

通过本公开实施例，对浮点数进行了量化，利用量化数据进行运算，可以降低运算所需的硬件资源开销，提高了运算效率，提升了处理器的性能。

可以理解，上文以1个待处理数据为示例，对本公开提供的处理器进行了详细描述，但本公开不限于此。在本公开实施例中，待处理数据可以为至少一个。例如，2个待处理数据可以分别为2个维数不同的矩阵。

在本公开实施例中，量化数据的数量可以与待处理数据的数量一致。例如，待处理数据为多个，量化数据也为多个。

可以理解，上文以量化数据包括浮点数的第一值和第二值为示例，对本公开提供的处理器进行了详细说明，但本公开不限于此。在本公开实施例中，可以将浮点数量化为两个以上的数值。

可以理解，极值还可以包括最小值。

可以理解，在本公开实施例中，可以利用量化数据中浮点数的第一值和第二值，确定浮点数的平方值。

例如，对于浮点数FP_A1，可以通过以下运算，确定运算子结果FP_A1sq：

FP_A1sq＝FP_A1F2*FP_A1F2*FP_A1F1*FP_A1F1 (公式五)

可以理解，在本公开实施例中，浮点数的类型可以是各种类型的浮点数。例如，量化单元220可以对单精度浮点数、张量单精度浮点数、半精度浮点数、脑浮点数等各种类型的浮点数进行量化。而运算单元230可以根据相应浮点数的第一值和第二值进行运算，得到运算结果。通过本公开实施例，本公开的处理器200可以用于处理各种不同精度的数据，有着极强的兼容性。

在一些实施例中，本公开提供的处理器还可以包括：存储单元，与量化单元和运算单元耦接，用于存储来自量化单元的量化数据。

在本公开实施例中，存储单元可以是内置的缓存单元。

例如，存储单元可以包括多个存储子单元。一个存储子单元用于存储量化数据。

又例如，存储单元也可以包括不同的存储分区，一个存储分区用于存储量化数据。

可以理解，上文对处理器的整体进行了详细描述，下面将结合相关实施例对本公开的量化单元进行详细描述。

在一些实施例中，上文所述的量化单元220可以包括：确定模块，配置为根据待处理数据中多个浮点数中的极值，确定至少一个数值区间。量化模块，配置为根据浮点数所处的数值区间，对浮点数进行量化，得到量化数据。写入模块，配置为将量化数据写入存储单元。

下面将结合相关实施例对量化单元的确定模块进行详细说明。

在本公开实施例中，确定模块还配置为：根据第一预设值和极值，确定至少一个数据阈值。

例如，第一预设值可以为2

在本公开实施例中，至少一个数据阈值为1个数据阈值。例如，数据阈值的数量可以是预设的。又例如，I可以等于8。

在本公开实施例中，确定模块还配置为：可以将极值确定为第1个数据阈值。

例如，对于待处理数据Data中的多个浮点数，可以将最大值作为第1个数据阈值Max_0。

在本公开实施例中，确定模块还配置为：可以根据第i个数据阈值和第一预设值，确定第i+1个数据阈值。

例如，i为大于或等于1的整数，i为小于I的整数。在一个示例中，以I＝8为示例，i的取值范围可以为1、2、3、4、5、6、7。

例如，可以通过以下公式，确定数据阈值：

可以理解，Max_1、Max_2、Max_3、Max_4、Max_5、Max_6、Max_7分别为第2个数据阈值、第3个数据阈值、第4个数据阈值、第5个数据阈值、第6个数据阈值、第7个数据阈值、第8个数据阈值。

在本公开实施例中，至少一个数值区间为I个数值区间，I为大于1的整数。

在本公开实施例中，确定模块还配置为：根据第二预设值和至少一个数据阈值，确定至少一个数值区间。

例如，确定模块还配置为：根据第i个数据阈值和第i+1个数据阈值，确定第i个数值区间。

例如，可以根据第1个数据阈值Max_0和第2个数据阈值Max_1，确定第1个数值区间Max_1～Max_0。可以根据第2个数据阈值Max_1和第3个数据阈值Max_2，确定第2个数值区间Max_2～Max_1。可以根据第3个数据阈值Max_2和第4个数据阈值Max_3，确定第3个数值区间Max_3～Max_2。可以根据第4个数据阈值Max_3和第5个数据阈值Max_4，确定第4个数值区间Max_4～Max_3。可以根据第5个数据阈值Max_4和第6个数据阈值Max_5，确定第5个数值区间Max_5～Max_4。可以根据第6个数据阈值Max_5和第7个数据阈值Max_6，确定第6个数值区间Max_6～Max_5。可以根据第7个数据阈值Max_6和第8个数据阈值Max_7，确定第7个数值区间Max_7～Max_6。

在本公开实施例中，确定模块还配置为：根据第I个数据阈值和第二预设值，确定第I个数值区间。

例如，根据第8个数据阈值Max_7和第二预设值(例如为0)，确定第8个数值区间0～Max_7。

可以理解，上文对量化单元的确定模块进行了详细描述。下面将结合相关实施例对量化单元的量化模块进行详细描述。

在本公开实施例中，量化模块配置为：根据目标数据阈值和第一预设值，得到浮点数的第一值。根据第一预设值、浮点数和目标数据阈值，得到浮点数的第二值。

例如，目标数据阈值为与浮点数所处的数值区间相关的两个数据阈值之间的较大值。

例如，若该浮点数FP的绝对值FP_v处于第1个数值区间(Max_1＜FP_v≤Max_0)，则浮点数FP的目标数据阈值为：第1个数值区间的两个数据阈值(Max_0和Max_1)中较大的第1个数据阈值Max_0。

如上文所述，第一预设值可以为2

浮点数FP的第二值FP_F2可以为：

可以理解，上文对量化单元的量化模块进行了详细描述，下面将结合相关实施例对量化单元的写入模块进行详细说明。

在本公开实施例中，写入模块，配置为将量化数据写入存储单元。

例如，可以将浮点数FP的第一值FP_F1和第二值FP_F2写入存储单元。

可以理解，上文以浮点数处于第1个数值区间为示例，对量化单元的量化模块进行了详细描述。浮点数也可以处于其他数值区间。下面将结合相关实施例来详细说明：确定处于其他数值区间的浮点数的第一值和第二值的方式。

例如，若该浮点数FP的绝对值FP_v处于第2个数值区间(Max_2＜FP_v＜Max_1)，则浮点数FP的目标数据阈值为：第2个数值区间的两个数据阈值(Max_1和Max_2)中较大的第2个数据阈值Max_1。

如上文所述，第一预设值可以为2

浮点数FP的第二值FP_F2可以为：

又例如，若该浮点数FP的绝对值FP_v处于第3个数值区间(Max_3＜FP_v＜Max_2)，则浮点数FP的目标数据阈值为：第3个数值区间的两个数据阈值(Max_2和Max_3)中较大的第3个数据阈值Max_2。

如上文所述，第一预设值可以为2

浮点数FP的第二值FP_F2可以为：

又例如，若该浮点数FP的绝对值FP_v处于第4个数值区间(Max_4＜FP_v＜Max_3)，则浮点数FP的目标数据阈值为：第4个数值区间中两个数据阈值(Max_3和Max_4)中较大的第4个数据阈值Max_3。

如上文所述，第一预设值可以为2

浮点数FP的第二值FP_F2可以为：

又例如，若该浮点数FP的绝对值FP_v处于第5个数值区间(Max_5＜FP_v＜Max_4)，则浮点数FP的目标数据阈值为：第5个数值区间的两个数据阈值(Max_4和Max_5)中较大的第5个数据阈值Max_4。

如上文所述，第一预设值可以为2

浮点数FP的第二值FP_F2可以为：

又例如，若该浮点数FP的绝对值FP_v处于第6个数值区间(Max_6＜FP_v＜Max_5)，则浮点数FP的目标数据阈值为：第6个数值区间的两个数据阈值(Max_5和Max_6)中较大的第6个数据阈值Max_5。

如上文所述，第一预设值可以为2

浮点数FP的第二值FP_F2可以为：

又例如，若该浮点数FP的绝对值FP_v处于第7个数值区间(Max_7＜FP_v＜Max_6)，则浮点数FP的目标数据阈值为：第7个数值区间的两个数据阈值(Max_6和Max_7)中较大的第7个数据阈值Max_6。

如上文所述，第一预设值可以为2

浮点数FP的第二值FP_F2可以为：

又例如，若该浮点数FP的绝对值FP_v处于第8个数值区间(0＜FP_v＜Max_7)，则浮点数FP的目标数据阈值为：第8个数值区间的两个数据阈值(0和Max_7)中较大的第8个数据阈值Max_7。

如上文所述，第一预设值可以为2

浮点数FP的第二值FP_F2可以为：

在一些实施例中，量化数据包括目标处理函数相关的函数数据以及与目标处理函数相关的目标浮点数的第一值和第二值。

例如，神经网络模型可以用于处理浮点数数据。神经网络模型可以包括多个处理函数，这些处理函数本身也具有大量的参数，这些参数也可以是浮点数。处理函数的参数可以作为与该处理函数相关的待处理数据。这些待处理数据也可以用矩阵表示，矩阵中的全部或部分元素为浮点数。对这些待处理数据进行量化，可以得到处理函数相关的函数数据。

又例如，处理函数可以处理一个或几个输入的浮点数。目标浮点数可以是处理函数的输入。

又例如，目标浮点数和处理函数相关的待处理数据可以来自于不同的待处理数据。在一个示例中，目标处理函数可以为卷积核函数。卷积核函数的参数可以实现为一个3*3的矩阵。该3*3的矩阵中包括9个浮点数。将该3*3的矩阵作为待处理数据，进行量化，得到目标处理函数的函数数据。该函数数据包括9个浮点数各自的第一值和第二值。

可以理解，上文对本公开的量化单元进行了详细描述。下面将结合相关实施例，对本公开的运算单元进行详细描述。

在一些实施例中，上文所述的运算单元230可以包括：读取模块，配置为从存储单元读取目标处理函数以及与目标处理函数相关的目标浮点数。运算模块，配置为利用目标处理函数处理目标浮点数的第一值和第二值，得到运算结果。

例如，读取模块可以读取目标处理函数的函数数据和目标浮点数。

例如，目标浮点数可以为至少一个。

又例如，待处理数据为至少两个，目标浮点数为至少两个，至少两个目标浮点数分别来自于至少两个待处理数据。在一个示例中，与目标处理函数Fun_t1相关的目标浮点数分别来自于待处理数据Data_A和待处理数据Data_B。来自于待处理数据Data_A的一个目标浮点数可以为浮点数FP_A1。来自于待处理数据Data_B的一个目标浮点数可以为浮点数FP_B1。目标处理函数Fun_t1可以为乘法函数，用于计算两个浮点数的乘积。

在本公开实施例中，运算模块还配置为：根据目标浮点数的符号位，确定目标符号位。

例如，以目标浮点数为2个为示例，对2个目标浮点数的符号位进行按位异或，得到的结果作为目标符号位。在一个示例中，可以对浮点数FP_A1的符号位和浮点数FP_B1的符号位进行按位异或，得到目标符号位。

在本公开实施例中，运算模块还配置为：利用目标处理函数处理目标浮点数的第一值和第二值，得到输出浮点数的绝对值。

例如，运算模块还配置为：将至少两个目标浮点数的第一值以及至少两个目标浮点数的第二值依次相乘，得到输出浮点数的绝对值。

在一个示例中，可以通过以下公式确定输出浮点数的绝对值FP_AB1v：

FP_AB1v＝FP_A1F2*FP_B1F2*FP_A1F1*FP_B1F1 (公式二十九)

FP_A1F1为浮点数FP_A1的第一值，FP_A1F2为浮点数FP_A1的第二值。FP_B1F1为浮点数FP_B1的第一值，FP_B1F2为浮点数FP_B1的第二值。

在本公开实施例中，运算模块还配置为：根据输出浮点数的绝对值和目标符号位，得到输出浮点数。

例如，根据输出浮点数的绝对值FP_AB1v和目标符号位，可以确定输出浮点数FP_AB1。

在本公开实施例中，运算模块还配置为：根据输出浮点数，得到运算结果。

例如，在目标处理函数只与浮点数FP_A1和浮点数FP_B1相关的情况下，可以将输出浮点数FP_AB1作为运算结果。

在本公开实施例中，运算模块还配置为：将运算结果转换为浮点数的格式，得到转换后运算结果。例如，可以将运输结果或运算子结果转换为浮点数的编码格式。通过本公开实施例，输出的结果也是浮点数，可以进一步提高处理器的兼容性。

在本公开实施例中，输出模块还配置为：输出转换后运算结果。

可以理解，上文对本公开的处理器进行了详细描述，下面将结合图3和相关实施例对本公开的处理器的原理进行详细描述。

图3是根据本公开的一个实施例的数据处理器的原理图。

如图3所示，获取单元310可以从其他设备获取待处理数据，并将待处理数据存储在片外存储单元中。获取单元310可以是直接内存存取(Direct Memory Access，DMA)单元。

在获取待处理数据之后，量化单元320从片外存储单元读取相应的待处理数据。量化单元320根据待处理数据中多个浮点数中的极值，对待处理数据进行量化，得到量化数据。在本公开实施例中，量化数据包括：目标处理函数相关的函数数据以及与目标处理函数相关的目标浮点数的第一值和第二值。

根据量化数据的类型，将量化数据写入存储单元。存储单元可以为片上静态随机存取存储器(Static Random Access Memory，SRAM)。在本公开实施例中，存储单元包括第一存储单元351和第二存储单元352。可以将函数数据存入第一存储单元351，将目标浮点数的第一值和第二值存入第二存储单元352。第一存储单元351也可以被称为模型SRAM存储单元，第二存储单元352也可以被称为输入SRAM存储单元。

待处理数据可以包括多个浮点数，量化数据可以包括多个浮点数的第一值和第二值。

运算单元330可以利用目标处理函数处理目标浮点数的第一值和第二值，得到运算子结果。可以将运算子结果转换为浮点数的格式，缓存入输出单元340。在运算单元330完成运算之后，输出单元340可以将多个运算子结果作为运算结果，并输出至片外存储单元360。输出单元340也可以被称为结果SRAM单元。

下面将结合相关实施例对本公开的处理器进行进一步详细说明。

在一些实施例中，获取单元配置为获取待处理数据。例如，待处理数据为两个，分别为待处理数据Data_A和待处理数据Data_B。

待处理数据Data_A可以用一个1行16列的矩阵表示，Data_A＝[1.0，2.0，3.0，4.0，5.0，6.0，7.0，8.0，9.0，10.0，11.0，12.0，13.0，14.0，15.0，16.0]。

待处理数据Data_B可以用一个16行1列的矩阵表示，转置后的Data_B＝[0.004，4.0，6.0，8.0，10.0，12.0，14.0，16.0，18.0，20.0，22.0，24.0，26.0，28.0，30.0，32.0]。可以理解，为了便于理解，在本实施例中，将待处理数据Data_A和待处理数据Data_B中的多个浮点数均用十进制表示。

可以理解，上文所述的待处理数据Data_A浮点数FP_A1对应的十进制数可以为1.0。上文所述的待处理数据Data_A浮点数FP_A2对应的十进制数可以为2.0。上文所述的待处理数据Data_B浮点数FP_B1对应的十进制数可以为0.004。

在一些实施例中，量化单元，配置为根据待处理数据中多个浮点数中的极值，对浮点数进行量化，得到量化数据。量化数据包括浮点数的第一值和第二值。例如，对于待处理数据Data_A，最大值Max_A为16.0。对于待处理数据Data_B，最大值Max_B为32.0。

对于待处理数据Data_A，可以将最大值Max_A作为第1个数据阈值Max_0A。对于待处理数据Data_B，可以将最大值Max_B作为第1个数据阈值Max_0B。接下来，可以利用上文所述的公式六至公式十二，分别为待处理数据Data_A和待处理数据Data_B确定多个其他的数据阈值。

对于待处理数据Data_A，第2个数据阈值Max_1A可以为0.00390625，第3个数据阈值Max_2A可以为9.5367431640625*10

对于待处理数据Data_B，第2个数据阈值Max_1B可以为0.0078125，第3个数据阈值Max_2B可以为1.9073486328125*10

在一些实施例中，运算单元，配置为利用量化数据中浮点数的第一值和第二值进行运算处理，得到运算结果。

例如，运算单元可以将待处理数据Data_A和待处理数据Data_B相乘。在该运算过程中，可以将待处理数据Data_A的第1个浮点数FP_A1和待处理数据Data_B中第1个浮点数FP_B1相乘。

待处理数据Data_A的第1个浮点数FP_A1对应的十进制数为1.0，处于数值区间0.00390625～16.0。根据上文所述的公式十三和公式十四，可以确定第1个浮点数FP_A1的第一值FP_A1F1和第二值FP_A1F2。第一值FP_A1F1对应的十进制数可以为0.00390625，第二值FP_A1F2对应的十进制数可以为256。

待处理数据Data_B的第1个浮点数FP_B1对应的十进制数为0.004，处于数值区间1.9073486328125*10

将待处理数据Data_A的第1个浮点数FP_A1和待处理数据Data_B中第1个浮点数FP_B1相乘，得到输出浮点数的绝对值FP_AB1v，可以通过以下公式实现：

FP_AB1v_10＝256*2097*0.00390625*1.9073486328125*10

＝0.0039997 (公式三十)

FP_AB1v对应的十进制数FP_AB1v_10可以为0.0039997。

通过本公开实施例，可以有效地提高处理器的计算效率，同时也可以使得处理器的计算精度保持在较高的水平。

可以理解，浮点数之间直接进行各种运算所需的计算资源较高，而将其转换为第一值和第二值，再进行运算，可以显著地降低运算所需资源。例如，以浮点数相乘为例，浮点数FP_A1和浮点数FP_B1是以编码的形式存储在片外存储单元中，二者直接相乘会消耗较多的计算资源。而利用这两个浮点数的第一值和第二值进行运算，可以显著地降低运算资源。浮点数FP_A1的第二值和浮点数FP_B1的第二值相乘(256对应的二进制数和2097对应的二进制数相乘)，仅需与运算单元对应的移位寄存器执行简单移位操作即可完成。

图4是根据本公开的一个实施例的数据处理方法的流程图。

如图4所示，该方法400包括操作S410至操作S440。

可以理解，方法400可以应用于数据处理器。

在操作S410，获取待处理数据。

在操作S420，根据待处理数据中多个浮点数中的极值，对浮点数进行量化，得到量化数据。例如，量化数据包括浮点数的第一值和第二值。

在操作S430，利用量化数据中浮点数的第一值和第二值进行运算处理，得到运算结果。

在操作S440，输出运算结果。

在本公开实施例中，可以利用处理器200实现方法400。

例如，可以利用获取单元210执行操作S410。

例如，可以利用量化单元220执行操作S420。

例如，可以利用运算单元230执行操作S430。

例如，可以利用输出单元240执行操作S440。

在一些实施例中，根据待处理数据中多个浮点数中的极值，对浮点数进行量化，得到量化数据包括：根据待处理数据中多个浮点数中的极值，确定至少一个数值区间。根据浮点数所处的数值区间，对浮点数进行量化，得到量化数据。

在本公开实施例中，可以利用量化单元220的确定模块根据待处理数据中多个浮点数中的极值，确定至少一个数值区间。在本公开实施例中，可以利用量化单元220的量化模块根据浮点数所处的数值区间，对浮点数进行量化，得到量化数据。

在一些实施例中，根据待处理数据中多个浮点数中的极值，确定至少一个数值区间包括：根据第一预设值和极值，确定至少一个数据阈值。根据第二预设值和至少一个数据阈值，确定至少一个数值区间。例如，可以利用量化单元220的确定模块执行以下操作：根据第一预设值和极值，确定至少一个数据阈值。根据第二预设值和至少一个数据阈值，确定至少一个数值区间。

在一些实施例中，至少一个数据阈值为I个数据阈值，至少一个数值区间为I个数值区间，I为大于1的整数。

在一些实施例中，根据第一预设值和极值，确定至少一个数据阈值包括：将极值确定为第1个数据阈值。根据第i个数据阈值和第一预设值，确定第i+1个数据阈值。例如，i为大于或等于1的整数，i为小于I的整数。例如，可以利用量化单元220的确定模块执行以下操作：将极值确定为第1个数据阈值。根据第i个数据阈值和第一预设值，确定第i+1个数据阈值。

在一些实施例中，根据第二预设值和至少一个数据阈值，确定至少一个数值区间包括：根据第i个数据阈值和第i+1个数据阈值，确定第i个数值区间。根据第I个数据阈值和第二预设值，确定第I个数值区间。例如，可以利用量化单元220的确定模块执行以下操作：根据第i个数据阈值和第i+1个数据阈值，确定第i个数值区间。根据第I个数据阈值和第二预设值，确定第I个数值区间。

在一些实施例中，根据浮点数所处的数值区间，对浮点数进行量化，得到量化数据包括：根据目标数据阈值和第一预设值，得到浮点数的第一值。根据第一预设值、浮点数和目标数据阈值，得到浮点数的第二值。例如，目标数据阈值为与浮点数所处的数值区间相关的两个数据阈值之间的较大值。例如，可以利用量化单元220的量化模块执行以下操作：根据目标数据阈值和第一预设值，得到浮点数的第一值。根据第一预设值、浮点数和目标数据阈值，得到浮点数的第二值。

在一些实施例中，量化数据包括目标处理函数相关的函数数据和与目标处理函数相关的目标浮点数。

在一些实施例中，利用量化数据中浮点数的第一值和第二值进行运算处理，得到运算结果包括：读取目标处理函数以及与目标处理函数相关的目标浮点数。利用目标处理函数处理目标浮点数的第一值和第二值，得到运算结果。例如，可以利用运算单元230的读取模块读取目标处理函数以及与目标处理函数相关的目标浮点数。例如，可以利用运算单元230的运算模块利用目标处理函数处理目标浮点数的第一值和第二值，得到运算结果。

在一些实施例中，利用目标处理函数处理目标浮点数的第一值和第二值，得到运算结果包括：根据目标浮点数的符号位，确定目标符号位。利用目标处理函数处理目标浮点数的第一值和第二值，得到输出浮点数的绝对值。根据输出浮点数的绝对值和目标符号位，得到输出浮点数。根据输出浮点数，得到运算结果。例如，可以利用运算单元230的运算模块执行以下操作：根据目标浮点数的符号位，确定目标符号位。利用目标处理函数处理目标浮点数的第一值和第二值，得到输出浮点数的绝对值。根据输出浮点数的绝对值和目标符号位，得到输出浮点数。根据输出浮点数，得到运算结果。

在一些实施例中，待处理数据为至少两个，目标浮点数为至少两个，至少两个目标浮点数分别来自于至少两个待处理数据。

在一些实施例中，利用目标处理函数处理目标浮点数的第一值和第二值，得到输出浮点数的绝对值包括：将至少两个目标浮点数的第一值以及至少两个目标浮点数的第二值依次相乘，得到输出浮点数的绝对值。例如，可以利用运算单元230的运算模块将至少两个目标浮点数的第一值以及至少两个目标浮点数的第二值依次相乘，得到输出浮点数的绝对值。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

在本公开实施例中，本公开提供了一种电子设备，该电子设备可以包括至少一个本公开提供的数据处理器。例如，该电子设备可以包括数据处理器200。

在本公开实施例中，本公开提供了一种电子设备，该电子设备也可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的方法。例如，该处理器可以执行方法400。

在本公开实施例中，本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开提供的方法。

在本公开实施例中，本公开提供了一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开提供的方法。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理器、图形处理器、各种专用的人工智能(AI)计算芯片、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。例如，各种专用的人工智能计算芯片可以包括上文所描述的处理器200。

计算单元501执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列、专用集成电路、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)显示器或者LCD(液晶显示器))；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王勇;陈庆澍;王京;欧阳剑;邰秀瑢;
专利申请人：昆仑芯(北京)科技有限公司;

上一篇：用于水浸探伤工件定位与水浸过程的自动可控机构
下一篇：一种基于内插法代值的LED晶圆光性测试方法