RRU装置时延与功率优化方法、系统及存储介质
文献发布时间:2023-06-19 13:29:16
技术领域
本发明涉及移动通信技术领域,特别涉及一种RRU装置时延与功率优化方法、系统及存储介质。
背景技术
目前5G设备的RRU侧数据量大,而且数据需要实时处理,这就对处理器的要求很高,时延与功耗作为RRU的一个重要指标,影响很大。目前,在对数据进行实时处理时,通常采用fpga或者ti的dsp方案,这种方案具有对处理器要求高和成本高的缺点。
发明内容
本发明的主要目的是提出一种RRU装置时延与功率优化方法、系统及存储介质,旨在实现RRU数据的并行处理,提升数据处理效率,减少时延和CPU运行时间。
为实现上述目的,本发明提供了一种RRU装置时延与功率优化方法,所述方法应用于RRU装置时延与功率优化系统,所述系统包括VCPU,所述VCPU包括标量累加器、标量寄存器、矢量运算器、向量寄存器数组,其中,所述矢量运算器包括16个乘累加器AU;所述方法包括以下步骤:
通过所述标量累加器对所述标量寄存器中的整形数据进行运算;
将运算得到的数据存入a寄存器,并进行进一步处理后存入R寄存器;
对所述R寄存器中的数据进行移位操作,或者以预设模式利用所述乘累加器AU进行运算;
将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中。
本发明进一步地技术方案是,所述通过所述标量累加器对所述标量寄存器中的整形数据进行运算的步骤包括对所述整形数据进行按位与、按位或或者按位取反计算。
本发明进一步地技术方案是,所述对所述R寄存器中的数据以预设模式利用所述乘累加器AU进行运算的步骤中的预设模式包括straight模式或者S0conj模式。
本发明进一步地技术方案是,所述将将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中的步骤包括:
将所述运算数据以wr.even模式,只把偶数存入到R寄存器中。
本发明进一步地技术方案是,所述将所述运算数据以wr.even模式,只把偶数存入到R寄存器中的步骤之后还包括:
将所述R寄存器中的数据根据指示存储到a[i]寄存器所指定的内存中。
本发明进一步地技术方案是,所述RRU装置时延与功率优化系统还包括IPPU,所述方法还包括:
对AU进行运算得到的数据进行排序。
为实现上述目的,本发明还提出一种RRU装置时延与功率优化系统,所述系统包括VCPU,所述VCPU包括标量累加器、标量寄存器、矢量运算器、向量寄存器数组、以及存储器和处理器,所述存储器存储有RRU装置时延与功率优化程序,所述RRU装置时延与功率优化程序被所述处理器调用时执行以下步骤:
通过所述标量累加器对所述标量寄存器中的整形数据进行运算;
将运算得到的数据存入a寄存器,并进行进一步处理后存入R寄存器;
对所述R寄存器中的数据进行移位操作,或者以预设模式利用所述乘累加器AU进行运算;
将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中。
本发明进一步地技术方案是,所述系统还包括IPPU,所述RRU装置时延与功率优化程序被所述处理器调用时还执行以下步骤:
对AU进行运算得到的数据进行排序。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有RRU装置时延与功率优化程序,所述RRU装置时延与功率优化程序被处理器调用时执行如权利要求1至7任意一项所述的方法的步骤。
本发明RRU装置时延与功率优化方法、系统及存储介质的有益效果是:本发明通过上述技术方案,通过所述标量累加器对所述标量寄存器中的整形数据进行运算;将运算得到的数据存入a寄存器,并进行进一步处理后存入R寄存器;对所述R寄存器中的数据进行移位操作,或者以预设模式利用所述乘累加器AU进行运算;将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中,减少了时延和CPU运行时间,提升了数据处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是RRU流程图;
图2是VCPU结构图;
图3是本发明RRU装置时延与功率优化方法较佳实施例的流程示意图;
图4是汇编代码示意图;
图5是DPD原理图;
图6是滤波器实现原理图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
RRU的大部分环节都有大量的数据需要计算,而且数据的计算需要有实时形,这就为使用专用汇编优化留下空间。
如图1所示的RRU的流程为:
1)下行:波束赋形—>傅里叶反变换—>4倍升采样—>削峰—>数字预失真—>IQ不平衡处理—>数模转换—>射频;
2)上行:射频—>模数转换—>IQ校准—>下采样—>傅里叶变换—>波束赋形。
考虑到目前的RRU数据处理对处理器要求高、成本高,由此,本发明提出一种解决方案。
具体地,本发明提出一种RRU装置时延与功率优化方法,本发明RRU装置时延与功率优化方法应用于如图2所示的RRU装置时延与功率优化系统,所述系统包括VCPU,所述VCPU包括标量累加器、标量寄存器、矢量运算器、向量寄存器数组,其中,所述矢量运算器包括16个乘累加器AU。
如图3所示,本发明RRU装置时延与功率优化方法较佳实施例包括以下步骤:
步骤S10,通过所述标量累加器对所述标量寄存器中的整形数据进行运算。
步骤S20,将运算得到的数据存入a寄存器,并进行进一步处理后存入R寄存器。
步骤S30,对所述R寄存器中的数据进行移位操作,或者以预设模式利用所述乘累加器AU进行运算。
步骤S40,将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中。
具体地,所述通过所述标量累加器对所述标量寄存器中的整形数据进行运算的步骤包括对所述整形数据进行按位与、按位或或者按位取反计算。
所述对所述R寄存器中的数据以预设模式利用所述乘累加器AU进行运算的步骤中的预设模式包括straight模式或者S0conj模式。
所述将将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中的步骤包括:
将所述运算数据以wr.even模式,只把偶数存入到R寄存器中。
所述将所述运算数据以wr.even模式,只把偶数存入到R寄存器中的步骤之后还包括:
将所述R寄存器中的数据根据指示存储到a[i]寄存器所指定的内存中。
本实施例中,所述RRU装置时延与功率优化系统还包括IPPU,所述方法还包括:
对AU进行运算得到的数据进行排序。
以下结合图2至图6对本发明RRU装置时延与功率优化方法做进一步的详细阐述。
本发明RRU装置时延与功率优化方法的专用汇编包括处理器VCPU和IPPU。
RRU装置时延与功率优化方法应用于如图2所示的RRU装置时延与功率优化系统中,其中:
1),Scalar ALU标量累加器,就是对单个整形数进行运算,比如按位与,按位或或者按位取反。
2),Scalar Registers,标量寄存器,里面装一些整形数据,比如数据有多少行,循环有多少次。
3),VectorArithmetic Unit矢量运算器,这是本发明的重点,vspa的优势就体现在这里。RRU中的数据是一个符号一个符号的进来,每个符号可能有4096个点的数据,这种数据类型适合本发明的矢量运算器。
4),Vector Register Array向量寄存器数组;
5),Memory Pointer Registers内存指针,内存地址放到a寄存器中。
6),data memory arbitration就是本发明的内存空间。
如图2所示,VCPU具有强大的运算能力,一次可以load 1024个比特,也就是64个int16的数同时进行运算。数据运算过程如下:
1)数据首先load到a寄存器,a寄存器存放数据的地址,这个地址来源于c代码中传参给a寄存器。a中的数据load进R中后,自己的值也会变化,这样就可以读取下一行的数据。
2)然后load到R寄存器,到R寄存器后,数据可以在R寄存器中进行移位操作,也可以根据设置不同的模式,将数据load进s0、s1、s2利用乘累加器AU进行运算。
这些模式就是本发明能够进程各种操作的基础。比如straight模式,数据就是跟源数据一致;S0conj就是对输入的数据取共轭。
3)数据进入s0、s1、s2后就可以运算了。本发明的dsp有16个Au,每个Au可以同时做四次乘累加,也就是说一次可以并行做64次乘累加,这在数据运算中就有很大的优势。
4)数据运算完之后保存在图2中的RV中。
5)Rv中的数据根据配置存储到R中,这里有各种存储的模式,比如wr.even,只把Rv中的偶数存储到R寄存器中。
6)R寄存器中的数据根据指示存储到a[i]寄存器所指定的内存中。
由图2可以知道,标量运算有scalar运算器。向量运算有AU、SAU、NCO模块。AU主要做线性运算,比如乘法,加法;SAU主要做非线性运算,比如开平方;NCO主要做fft运算与混频。
本汇编一次可以load 1024比特的数据进去。里面有16个AU,每个AU可以做4次累加。这样一次就可以做64个并行运算,提高效率。
IPPU模块主要用来做数据的排序,比如FFT后的数据重排序。
在编写代码时,本发明也要考虑并行性,编写代码是以rmad/rmac/cmad/cmac等指令的指令个数占整个代码的cycle的比重。
图4是一段汇编代码,同一行的代码是同时执行的。如果同一行对同一寄存器既有读操作又有写操作,会优先执行读操作,然后再写。
基于优化数字滤波器,本发明涉及FFT、混频、DPD等运算。
其中,1、针对FFT,本发明汇编中有专门的nco模块对数据进行fft、ifft运算,再用IPPU对运算结果进行重新排序。
2、针对DPD模块,本发明汇编中的矩阵运算可以优化DPD中的矩阵运算,DPD中大量的训练样本需要计算,采用汇编并行处理,大大提高效率。DPD中的滤波器以及傅里叶变换,都可以用专用汇编优化。DPD原理如图5所示,DPD的目的就是要让放大器成线性。
3、针对滤波器,有大量的数据跟滤波器系数相乘,采用汇编中的向量乘法。对于结果中的累加运算采用汇编中的cmad迭代相加。
3.1,滤波器原理:如下表所示,滤波器的运算原理为,第一行的数据x,第二行是滤波器系数h,假设滤波器系数为10.滤波器一个格子一个格子往右移动,每移动一个,数据跟对应的滤波器系数相乘。
1)第一轮,对应元素相乘,将乘的结果累加得到y1:
2),第二轮,对应元素相乘,将乘的结果累加,得到y2:
3),第三轮,对应元素相乘,将乘的结果累加,得到y3:
3.1,滤波器实现过程如图6所示:S1寄存器里装着待滤波的数据,S0寄存器里面装者滤波器系数,S2里面装的是直流分量。图6中rmad跟rmac是把系数跟待滤波数据相乘,输出out=S0*S1+S2,图6中ROR是一个右移操作。
本发明RRU装置时延与功率优化方法的有益效果是:本发明通过上述技术方案,通过所述标量累加器对所述标量寄存器中的整形数据进行运算;将运算得到的数据存入a寄存器,并进行进一步处理后存入R寄存器;对所述R寄存器中的数据进行移位操作,或者以预设模式利用所述乘累加器AU进行运算;将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中,减少了时延和CPU运行时间,提升了数据处理效率。
为实现上述目的,本发明还提出一种RRU装置时延与功率优化系统,所述系统包括VCPU,所述VCPU包括标量累加器、标量寄存器、矢量运算器、向量寄存器数组、以及存储器和处理器,所述存储器存储有RRU装置时延与功率优化程序,所述RRU装置时延与功率优化程序被所述处理器调用时执行以下步骤:
通过所述标量累加器对所述标量寄存器中的整形数据进行运算;
将运算得到的数据存入a寄存器,并进行进一步处理后存入R寄存器;
对所述R寄存器中的数据进行移位操作,或者以预设模式利用所述乘累加器AU进行运算;
将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中。
进一步地,所述系统还包括IPPU,所述RRU装置时延与功率优化程序被所述处理器调用时还执行以下步骤:
对AU进行运算得到的数据进行排序。
本发明RRU装置时延与功率优化系统的有益效果是:本发明通过上述技术方案,通过所述标量累加器对所述标量寄存器中的整形数据进行运算;将运算得到的数据存入a寄存器,并进行进一步处理后存入R寄存器;对所述R寄存器中的数据进行移位操作,或者以预设模式利用所述乘累加器AU进行运算;将运算数据以预设方式存入RV中,并将RV中的数据根据配置存储到R寄存器中,减少了时延和CPU运行时间,提升了数据处理效率。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有RRU装置时延与功率优化程序,所述RRU装置时延与功率优化程序被处理器调用时执行如上实施例所述的方法的步骤,这里不再赘述。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
- RRU装置时延与功率优化方法、系统及存储介质
- 一种面向MEC时延最小的任务功率联合优化方法和系统