掌桥专利:专业的专利平台
掌桥专利
首页

数据处理装置、方法、电子设备和存储介质

文献发布时间:2024-04-18 19:54:45


数据处理装置、方法、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域,尤其涉及芯片技术领域和深度学习技术领域,可以应用于信息推荐等场景下。更具体地,本公开提供了一种数据处理装置、方法、电子设备和存储介质。

背景技术

随着人工智能技术的发展,深度学习技术可以应用于视频推荐、购物搜索、广告推送等各种应用场景。

发明内容

本公开提供了一种数据处理装置、方法、设备以及存储介质。

根据本公开的一方面,提供了一种数据处理装置,该装置包括:内部存储单元,包括第一存储空间和第二存储空间;以及处理器,配置为:获取用于目标操作的第i嵌入表信息,其中,第i嵌入表信息表征了用于目标操作的第i批次嵌入数据,i为大于1且小于或等于N的整数,N为与目标操作相对应的总处理批次;将第i-1批次嵌入数据从第一存储空间加载至第二存储空间,以及根据第i嵌入表信息,将第i批次嵌入数据从外部存储单元加载至第一存储空间;以及从第二存储空间加载第i-1批次嵌入数据,以利用第i-1批次嵌入数据执行目标操作。

根据本公开的另一方面,提供了一种电子设备,包括本公开提供的数据处理装置。

根据本公开的另一方面,提供了一种数据处理方法,该方法包括:获取用于目标操作的第i嵌入表信息,其中,第i嵌入表信息表征了用于目标操作的第i批次嵌入数据,i为大于1且小于或等于N的整数,N为与目标操作相对应的总处理批次;将第i-1批次嵌入数据从内部存储单元的第一存储空间加载至内部存储单元的第二存储空间,以及根据第i嵌入表信息,将第i批次嵌入数据从外部存储单元加载至第一存储空间;以及从第二存储空间加载第i-1批次嵌入数据,以利用第i-1批次嵌入数据执行目标操作。

根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开的一个实施例的数据处理装置的示意框图;

图2A和图2B是根据本公开的一个实施例的数据处理装置和外部存储单元的示意图;

图3是根据本公开的一个实施例的电子设备的示意图

图4是根据本公开的一个实施例的数据处理方法的流程图;以及

图5是根据本公开的一个实施例的可以应用数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在各种深度学习模型中,深度推荐模型(Deep Learning Recommendation Model,DLRM)可以应用于视频推荐、购物搜索和广告推荐等业务场景,可以提高用户体验,也可以实现业务价值。

可以将大量经用户授权的特征数据和业务场景相关的业务数据作为训练样本,频繁且迭代地根据不同的需求来训练深度推荐模型。在训练样本的数量较大的情况下,深度推荐模型的训练成本较高。在深度推荐模型运行过程中,可以在嵌入表(Embedding Table)中进行查表(1ookup),再进行之后的计算。在深度推荐模型所需的总存储空间中,嵌入表所需的存储空间例如可以占该总存储空间的99%以上。而在深度推荐模型的总运算量中,与嵌入表相关的运算量例如可以占该总运算量的1%。

图形处理器(Graphics Processing Unit,GPU)可以具有高速存储单元(HighBandwidth Memory)和较强的计算能力,可以作为训练深度推荐模型的主流硬件设备。然而,随着深度推荐模型的不断改进,嵌入表的数据量不断增加。图形处理器的高速存储单元容量可能会小于嵌入表所需的容量。

在一些实施例中,可以将深度推荐模型拆分,得到多个深度推荐子模型。将多个深度推荐子模型分别部署至多个硬件设备。由此,多个硬件设备可以分别存储嵌入表的一部分,以满足嵌入表所需的存储资源开销。然而,多个硬件设备的资源开销可能是很不均衡的。有些硬件设备的硬件资源被充分利用,有些硬件设备的硬件资源难以被充分利用。

在一些实施例中,可以利用中央处理器(Central Processing Unit,CPU)执行与嵌入表相关的操作。中央处理器获得的处理结果可以发送给图形处理器,以便图形处理器执行后续操作。然而,对于与嵌入表相关的操作,中央处理器的运算能力低于图形处理器。利用中央处理器和图形处理器共同执行深度推荐模型的相关操作,可能导致模型的性能较低。此外,中央处理器与图形处理器之间的数据传输也具有较高的通讯开销。

在一些实施例中,可以缓存嵌入表中的一些嵌入数据,使得图形处理器可以完成大部分的操作。然而,若模型的待处理数据未命中该嵌入数据,可以中断运算,从原嵌入表中读取待处理数据命中的目标嵌入数据,导致模型运行效率降低。

为了提高人工智能芯片或图形处理器的性能,本公开提供了一种数据处理装置,下面将进行说明。

图1是根据本公开的一个实施例的数据处理装置的示意框图。

如图1所示,装置100可以包括存储单元110和处理器120。

内部存储单元110,可以为图形处理器的显存单元,也可以是神经网络处理器(Neural network Processing Unit,NPU)的存储单元,也可以是昆仑芯(XPU)的存储单元。

在本公开实施例中,存储单元110可以包括第一存储空间和第二存储空间。第一存储空间和第二存储空间可以分别用于存储嵌入表的嵌入数据。

处理器120,可以为图形处理器,也可以为神经网络处理器等各种处理器。处理器120可以从第二存储空间加载嵌入数据来执行目标操作。

处理器120可以配置为:获取用于目标操作的第i嵌入表信息。

在本公开实施例中,目标操作可以是与嵌入表相关的操作。

在本公开实施例中,第i嵌入表信息表征了用于目标操作的第i批次嵌入数据。i可以为大于1且小于或等于N的整数。N可以为与目标操作相对应的总处理批次。例如,第i嵌入表信息可以是根据待处理数据的第i待处理子数据确定的。第i嵌入表信息可以包括至少一个第i嵌入表索引。第i批次嵌入数据可以包括至少一个第i批次嵌入子数据。第i批次嵌入子数据可以对应一个嵌入表索引。第i批次嵌入数据可以是初始嵌入表数据的一部分。N个批次的嵌入数据的数据量可以小于或等于初始嵌入表数据的数据量。

处理器120还可以配置为:将第i-1批次嵌入数据从第一存储空间加载至第二存储空间。

处理器120还可以配置为:根据第i嵌入表信息,将第i批次嵌入数据从外部存储单元加载至第一存储空间。

在本公开实施例中,将第i-1批次嵌入数据从第一存储空间加载至第二存储空间和将第i批次嵌入数据从外部存储单元加载至第一存储空间可以是并行执行的。例如,从外部存储单元加载数据所需的时间大于从第一存储空间加载数据所需的时间。

在本公开实施例中,外部存储单元可以是中央处理器的存储单元。外部存储单元可以存储有初始嵌入表数据。

在本公开实施例中,任一批次的嵌入数据的数据量可以小于或等于第一存储空间的存储容量。例如,第i批次的嵌入数据的数据量可以小于或等于第一存储空间的容量。

处理器120还可以配置为:从第二存储空间加载第i-1批次嵌入数据,以利用第i-1批次嵌入数据执行目标操作。例如,处理器120可以利用第i-1批次嵌入数据对第i待处理子数据执行目标操作,得到第i-1处理结果。

通过本公开实施例,第一存储空间可以存储从外部存储单元加载的在后批次的嵌入数据。第二存储空间可以存储当前批次的嵌入数据,以便处理器执行目标操作。由此,在处理器执行目标操作的过程中,在后批次的嵌入数据可以被加载到芯片的内部存储单元,可以降低从外部存储单元加载数据对处理器性能的影响。

可以理解,上文对本公开的处理装置进行了说明,下面将结合图2A和图2B对本公开的处理器进行进一步说明。

图2A和图2B是根据本公开的一个实施例的数据处理装置和外部存储单元的示意图。

在本公开实施例中,内部存储单元210可以包括第一存储空间211和第二存储空间212。第一存储空间211的容量可以和第二存储空间的212的容量相同。

在本公开实施例中,处理器可以配置为:获取用于目标操作的第1嵌入表信息。例如,待处理数据可以包括多个待处理字符。按照预设的排序方式,处理器220可以对多个待处理字符进行排序,得到排序后的多个待处理字符。将排序后的多个待处理字符划分为N个待处理子数据。每个待处理子数据可以包括至少一个字符。根据第1待处理子数据,可以确定第1嵌入表信息。根据第i待处理子数据,可以确定第i嵌入表信息。

在本公开实施例中,处理器还可以配置为发送以下请求:确定与目标操作相对应的N批次嵌入数据是否被存储至外部存储单元。如图2A所示,外部存储单元230可以存储有初始嵌入表231。可以理解,图2A所示的初始嵌入表231的数据量仅为示例。初始嵌入表231中可以包括大量的嵌入子数据。在初始嵌入表231被存储至外部存储单元230的情况下,可以确定与目标操作相对应的N批次嵌入数据被存储至外部存储单元。外部存储单元230例如可以是中央处理器的主存储器(Main Memory)。第一存储空间211和第二存储空间212的容量例如可以为初始嵌入表231的数据量的1%。初始嵌入表231例如可以包括M个嵌入子数据。M可以为大于12的整数。M个嵌入子数据可以包括:嵌入子数据0、嵌入子数据1、嵌入子数据2、嵌入子数据3、嵌入子数据4、嵌入子数据5、......、嵌入子数据i0、嵌入子数据i1、嵌入子数据i2、嵌入子数据i3、嵌入子数据i4、嵌入子数据i5、......嵌入子数据M。

在本公开实施例中,第1嵌入表信息可以包括至少一个第1嵌入表索引。如图2A所示,第1嵌入表信息201可以包括第1嵌入表索引Index_1、第1嵌入表索引Index_3和第1嵌入表索引Index_5。

在本公开实施例中,处理器还可以配置为:在确定与目标操作相对应的N批次嵌入数据被存储至外部存储单元的情况下,将N批次嵌入数据中与至少一个第1嵌入表索引相对应的第1批次嵌入数据加载至第一存储空间。例如,嵌入子数据1可以与第1嵌入表索引Index_1相对应。嵌入子数据3可以与第1嵌入表索引Index_3相对应。嵌入子数据5可以与第1嵌入表索引Index_5相对应。嵌入子数据1、嵌入子数据3和嵌入子数据5可以作为3个第1批次嵌入子数据。根据3个第1批次嵌入子数据,可以确定第1批次嵌入数据。可以将第1批次嵌入数据从外部存储单元加载至第一存储空间211。

在本公开实施例中,处理器还可以配置为:获取用于目标操作的第i嵌入表信息。例如,如上述,根据第i待处理子数据,可以确定第i嵌入表信息。

在本公开实施例中,第i嵌入表信息包括至少一个第i嵌入表索引。如图2B所示,第i嵌入表信息202可以包括第i嵌入表索引Index_i1、第i嵌入表索引Index_i3和第i嵌入表索引Index_i5。

在本公开实施例中,处理器还可以配置为:在确定与目标操作相对应的N批次嵌入数据被存储至外部存储单元的情况下,将N批次嵌入数据中与至少一个第i嵌入表索引相对应的第i批次嵌入数据加载至第一存储空间。如图2B所示,嵌入子数据i1可以与第i嵌入表索引Index_i1相对应。嵌入子数据i3可以与第i嵌入表索引Index_i3相对应。嵌入子数据i5可以与第i嵌入表索引Index_i5相对应。嵌入子数据i1、嵌入子数据i3和嵌入子数据i5可以作为3个第i批次嵌入子数据。根据3个第i批次嵌入子数据,可以确定第i批次嵌入数据。

在本公开实施例中,处理器还可以配置为:将第i-1批次嵌入数据从第一存储空间加载至第二存储空间以及根据第i嵌入表信息,将第i批次嵌入数据从外部存储单元加载至第一存储空间。例如,可以将第1批次嵌入数据从第一存储空间211加载至第二存储空间212。也可以将第i批次嵌入数据从外部存储单元230加载至第一存储空间211。可以理解,从外部存储单元230加载嵌入数据所需的时间大于从第一存储存储空间211加载嵌入数据所需的时间。

在本公开实施例中,处理器还可以配置为:从第二存储空间加载第i-1批次嵌入数据,以利用第i-1批次嵌入数据执行目标操作。例如,处理器220可以从第二存储空间212加载第1批次嵌入数据。

在本公开实施例中,处理器还可以配置为:利用第i-1批次嵌入数据执行目标操作,得到第i-1处理结果。例如,处理器220可以利用第1批次嵌入数据执行目标操作,得到第1处理结果。目标操作例如可以是嵌入(embedding)操作。通过本公开实施例,可以实现从外部存储单元加载在后嵌入数据以及处理器处理当前嵌入数据的并行,可以充分利用图形处理器或人工智能芯片的并行能力,降低从外部存储单元加载数据所需的时间成本,提高了图形处理器或人工智能芯片的性能。

以N大于或等于3为示例,在获得了第1处理结果且第i批次嵌入数据被加载至第一存储空间211之后,处理器220可以将第i批次嵌入数据加载至第二存储空间212。此外,处理器220还可以获取第i+1嵌入表信息。处理器220可以根据第i+1嵌入表信息,将第i+1批次嵌入数据从外部存储单元230加载至第一存储空间211。处理器220可以利用第i批次嵌入数据执行目标操作,得到第i处理结果。

在获得了N个处理结果之后,处理器还可以配置为:根据第1处理结果至第N处理结果,得到目标操作的处理结果。例如,可以将第1处理结果至第N处理结果融合,得到目标操作的处理结果。融合操作可以为拼接操作。通过本公开实施例,将嵌入表存储于外部存储单元,多次从外部存储单元加载嵌入表的一部分以执行目标操作,可以充分利用外部存储单元的存储资源,也可以充分利用图形处理器或人工智能芯片的运算能力,可以提高嵌入操作的执行效率。

可以理解,上文以i=2为示例,对本公开的处理器进行了说明,但本公开不限于此,i可以为大于1且小于或等于N的整数。

在一些实施例中,以处理器是图形处理器为例,在利用一个显卡(graphics card)的情况下,图形处理器可以利用上百吉字节(GigaByte,GB)或太字节(Terabyte,TB)级别的嵌入表进行模型推理。

可以理解,上文对本公开的数据处理装置进行了说明,下面将对包括数据处理装置的电子设备进行说明。

图3是根据本公开的一个实施例的电子设备的示意框图。

如图3所示,电子设备30可以包括数据处理装置300。数据处理装置300例如可以为上述的装置100。

可以理解,上文对本公开的电子设备进行了说明,下面将对本公开的数据处理方法进行说明。

图4是根据本公开的一个实施例的数据处理方法的流程图。

如图4所示,该方法400可以包括操作S410至操作S30。

在操作S410,获取用于目标操作的第i嵌入表信息。

在本公开实施例中,第i嵌入表信息表征了用于目标操作的第i批次嵌入数据,i为大于1且小于或等于N的整数,N为与目标操作相对应的总处理批次。

在操作S420,将第i-1批次嵌入数据从内部存储单元的第一存储空间加载至内部存储单元的第二存储空间,以及根据第i嵌入表信息,将第i批次嵌入数据从外部存储单元加载至第一存储空间。

在操作S430,从第二存储空间加载第i-1批次嵌入数据,以利用第i-1批次嵌入数据执行目标操作。

可以理解,可以利用上述的处理器220执行方法400。

在一些实施例中,方法400还包括:利用第i-1批次嵌入数据执行目标操作,得到第i-1处理结果。根据第1处理结果至第N-1处理结果,得到目标操作的处理结果。

在一些实施例中,第一存储空间的容量与第二存储空间的容量相同。

在一些实施例中,方法400还包括:将第1批次嵌入数据从外部存储单元加载至第二存储空间。

在一些实施例中,第i嵌入表信息包括至少一个第i嵌入表索引。将第i批次嵌入数据从外部存储单元加载至第一存储空间包括:在确定与目标操作相对应的N批次嵌入数据被存储至外部存储单元的情况下,将N批次嵌入数据中与至少一个第i嵌入表索引相对应的第i批次嵌入数据加载至第一存储空间。

在一些实施例中,目标操作包括嵌入操作。

可以理解,上文对本公开的数据处理方法进行了说明,下面将对包括上述数据处理装置的电子设备进行说明。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)显示器或者LCD(液晶显示器));以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术分类

06120116380426