掌桥专利:专业的专利平台
掌桥专利
首页

GPU处理电路结构

文献发布时间:2023-06-19 10:46:31


GPU处理电路结构

技术领域

本申请涉及数据技术领域,具体涉及一种GPU处理电路结构。

背景技术

图形处理器(英语:Graphics Processing Unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。

现有的GPU处理图像的速度较慢,影响了图像的处理速度。

发明内容

本申请实施例提供了一种GPU处理电路结构,其具有图像处理速度快的优点。

第一方面,本申请实施例提供一种GPU处理电路结构,所述GPU处理电路结构应用于电子设备内,所述结构包括:

存储单元、n个控制单元、计算单元、信令转发单元、数据转发单元、复合转发单元;计算单元、信令转发单元、数据转发单元、复合转发单元的数量之和为m*n;

其中,n个控制单元呈列排列,m*n个单元呈矩阵排列,其中m为矩阵的行值,n为矩阵的列值,n个控制单元202分别与矩阵排列的m*n个单元的第一列的n个单元连接;存储单元分别与矩阵排列的最后一行的m个单元连接;

矩阵排列的m*n个单元包括普通区域、信令转发区域、数据转发区域和复合转发区域;其中,普通区域仅包括计算单元,信令转发区域包括:计算单元和信令转发单元;数据转发区域包括:计算单元和数据转发单元,复合转发区域包括:计算单元和复合转发单元;

控制单元,用于向计算单元、信令转发单元、复合转发单元发送计算指令;

存储单元,用于存储计算数据或计算结果;

所述存储单元具有多个IO接口,多个IO接口分别连接矩阵排列的最后一行的m个计算单元、数据转发单元和复合转发单元;

计算单元,用于依据该计算指令对计算数据执行运算得到计算结果;将该计算结果发送至存储单元;

信令转发区域包括多个信令子区域,每个信令子区域呈3*3阵列排布,信令转发单元位于3*3阵列的中心位置,且信令转发单元分别与3*3阵列边缘的8个计算单元连接,该信令转发单元,用于接收控制单元发送的计算指令,将该计算指令转发给控制单元3*3阵列边缘的8个计算单元;

数据转发区域包括多个数据子区域,每个数据子区域呈3*3阵列排布,数据转发单元位于3*3阵列的中心位置,且数据转发单元分别与3*3阵列边缘的8个计算单元连接,该数据转发单元,用于提取存储单元的计算数据,将该计算数据转发给控制单元3*3阵列边缘的8个计算单元;

复合转发区域包括多个复合子区域,每个复合子区域呈3*3阵列排布,复合转发单元位于3*3阵列的中心位置,且复合转发单元分别与3*3阵列边缘的8个计算单元连接,该复合转发单元,用于接收控制单元发送的计算指令,提取存储单元的计算数据,将该计算指令以及计算数据转发给控制单元3*3阵列边缘的8个计算单元。

上述m、n均为大于等于5的整数且m≥n。

第二方面,提供一种电子设备,该电子设备包括GPU处理电路结构。

实施本申请实施例,具有如下有益效果:

可以看出,本申请提供的技术方案的技术效果主要是减少计算数据或计算信令的转发次数,即通过在不同的区域设置对应的转发单元来减少计算数据或计算信令的转发次数,从来减少计算数据以及计算信令的时延,进而提高图像的处理速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是一种电子设备的结构示意图。

图2是本申请实施例提供的一种GPU处理电路结构示意图。

图3为本申请提供的信令子区域、数据子区域、复合子区域的分布示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

参阅图1,图1提供了一种电子设备,该电子设备具体可以包括:处理器、存储器、摄像头和显示屏,上述部件可以通过总线连接,也可以通过其他方式连接,本申请并不限制上述连接的具体方式。在实际应用中,上述电子设备具体可以为智能手机、个人计算机、服务器、平板电脑等等。

上述处理器具体可以包括:通用处理器和图像处理器GPU。

参阅图2(以m=6、n=6为例,实际上m可以大于6,例如12、18等等),图2提供了一种GPU处理电路结构,该结构具体可以包括:存储单元201、n个控制单元202、计算单元203、信令转发单元204、数据转发单元205、复合转发单元206;计算单元203、信令转发单元204、数据转发单元205、复合转发单元206的数量之和为m*n;

其中,该n个控制单元202呈列排列,m*n个单元呈矩阵排列,其中m为矩阵的行值,n为矩阵的列值,n个控制单元202分别与矩阵排列的m*n个单元的第一列的n个单元连接;存储单元201分别与矩阵排列的最后一行的m个单元连接;

矩阵排列的m*n个单元包括普通区域301、信令转发区域302、数据转发区域303和复合转发区域304;其中,普通区域301仅包括计算单元203,信令转发区域302包括:计算单元和信令转发单元;数据转发区域303包括:计算单元和数据转发单元,复合转发区域304包括:计算单元和复合转发单元;

控制单元,用于向计算单元、信令转发单元、复合转发单元发送计算指令;为了方便画图,控制单元与信令转发单元和复合转发单元的连接用虚线表示,

存储单元201,用于存储计算数据或计算结果;

存储单元201具有多个IO(输入输出)接口,多个IO接口分别连接矩阵排列的最后一行的m个计算单元、数据转发单元和复合转发单元;为了方便画图,存储单元与数据转发单元和复合转发单元的连接用虚线表示,

计算单元,用于依据该计算指令对计算数据(可以是读取或接收的计算数据)执行运算(加、减、乘、除等算术运算)得到计算结果;将该计算结果发送至存储单元(若是与存储单元的IO接口连接,则直接发送至存储单元,若与存储单元的IO接口不直接连接,则通过转发方式(可以通过复合转发单元或与存储单元直接连接的计算单元)发送至存储单元;

信令转发区域包括多个信令子区域,每个信令子区域呈3*3阵列排布(如图3所示),信令转发单元位于3*3阵列的中心位置,且信令转发单元分别与3*3阵列边缘的8个计算单元连接,该信令转发单元,用于接收控制单元发送的计算指令,将该计算指令转发给控制单元3*3阵列边缘的8个计算单元;

数据转发区域包括多个数据子区域,每个数据子区域呈3*3阵列排布(如图3所示),数据转发单元位于3*3阵列的中心位置,且数据转发单元分别与3*3阵列边缘的8个计算单元连接,该数据转发单元,用于提取存储单元的计算数据,将该计算数据转发给控制单元3*3阵列边缘的8个计算单元;

复合转发区域包括多个复合子区域,每个复合子区域呈3*3阵列排布(如图3所示),复合转发单元位于3*3阵列的中心位置,且复合转发单元分别与3*3阵列边缘的8个计算单元连接,该复合转发单元,用于接收控制单元发送的计算指令,提取存储单元的计算数据,将该计算指令以及计算数据转发给控制单元3*3阵列边缘的8个计算单元。

上述m、n均为大于等于5的整数且m≥n。

如图2所示,相邻的计算单元之间互相连接,该连接可以为传递数据或信令。上述相邻可以为上、下相邻,也可以为左、右相邻。

对于计算速度的影响主要有2个方向,第一个方向,即计算速度快,即相同的数据计算速度快,此主要是基于处理电路的频率有关,第二个方向,是IO开销小,即相同的数据转发的次数少,对于GPU的结构来说,由于计算单元很多,若所有的计算单元均与控制单元以及存储单元直接连接,那么对于控制单元以及存储单元接口的数量会大大增加,这样会大大增加成本,这样就需要即不增加很多的IO接口,又需要减少转发的次数,基于这个思路,这里划分4个区域,对于4个区域的特点分别设置不同的转发单元(即转发电路)来实现不同的功能,这样提高图像处理的速度。

本申请提供的技术方案的技术效果主要是减少计算数据或计算信令的转发次数,即通过在不同的区域设置对应的转发单元来减少计算数据或计算信令的转发次数,从来减少计算数据以及计算信令的时延,进而提高图像的处理速度。

上述各个单元均可以采用硬件电路实现,该硬件电路包括但不限于FPGA、CGRA、专用集成电路ASIC、模拟电路和忆阻器等。

在一种可选的方案中,上述数据转发单元以及复合转发单元分别设置有寄存器,该寄存器用于存储数据。

在这里设置寄存器能够多计算单元计算的数据进行缓存,提高了数据读取或存储的效率。

本申请还提供一种电子设备,该电子设备包括上述GPU处理电路结构。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选 实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • GPU处理电路结构
  • 硬件二值化图像处理电路结构及采用该电路结构的图像处理模块
技术分类

06120112669036