一种光电通信系统的数据处理方法

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及数据压缩技术领域，具体涉及一种光电通信系统的数据处理方法。

背景技术

通信技术发展越来越成熟，光电通信系统的应用也越来越广泛。通过光信号进行传输的数字或模拟信号，能够达到较高的数据传输速率，然而，随着数据传输需求的增加，光电通信系统中需要传输的数据量也越来越大，因此需要对数据进行压缩处理。

分布累计表是实现RANS熵编码的关键部分之一，它记录了每个符号的累积分布情况，为计算符号的编码长度提供了基础数据。而现有技术在使用RANS熵编码进行数据压缩时，通常根据数据种类数确定分布累计表的大小，但是由于光电通信系统中的数据种类较多，并且各类数据出现的频率难以预测，所以通过数据种类数确定的分布累计表大小会使各类字符在分布累计表中所占长度比例与其在光电通信系统数据中的频率之间存在较大偏差，导致最终的数据压缩效率低下。

发明内容

为了解决通过数据种类数确定的分布累计表大小会使各类字符在分布累计表中所占长度比例与其在光电通信系统数据中的频率之间存在较大偏差，导致最终的数据压缩效率低下的技术问题，本发明的目的在于提供一种光电通信系统的数据处理方法，所采用的技术方案具体如下：

本发明提出了一种光电通信系统的数据处理方法，所述方法包括：

获取光电通信系统中的待处理数据；获取所述待处理数据的字符种类数、字符总数以及每类字符的字符频次；

根据所述字符种类数和每类字符的字符频次获得分布累计表的长度区间；根据所述字符种类数获得分布累计表的初始长度值；

以所述长度区间中任一整数分布累计表长度值作为待测长度值；根据所述待测长度值与所述初始长度值的差异获得基础变量；

根据所述初始长度值、所述字符总数和所述字符种类数获得初始偏差程度值；根据所述待测长度值、所述字符总数和所述字符种类数获得待测偏差程度值；根据所述初始偏差程度值和所述待测偏差程度值的差异以及所述字符种类数，获得差异变量；

根据所述基础变量和所述差异变量获得所述待测长度值的优化程度值；根据所述长度区间中所有分布累计表长度值的优化程度值获得最优分布累计表长度值；根据所述最优分布累计表长度值完成所述待处理数据的压缩。

进一步地，所述长度区间的获取方法包括：

将所述字符种类数作为所述长度区间的下限；

获取各类字符的字符频次的最大公因数，将所述字符总数与所述最大公因数的比值作为所述长度区间的上限；

根据所述长度区间的下限和上限获得所述分布累计表的所述长度区间。

进一步地，所述基础变量的公式模型包括：

其中，

进一步地，所述初始偏差程度值的获取方法包括：

根据每类字符的字符频次和所述字符总数获得每类字符的字符频率；

将所述初始长度值与每类字符的所述字符频率相乘的值作为每类字符的第一初始分配值；将所述第一初始分配值的小数部分作为第一小数，对所有的第一初始分配值进行四舍五入取整操作，获得第一最终分配值；

根据各类字符的第一最终分配值的和值与所述初始长度值的差异对每类字符的第一最终分配值进行长度调整操作，获得第一分配长度值；

将每类字符第一分配长度值与所述初始长度值的比值作为每类字符的第一长度比例值；以每类字符的第一长度比例值为底数，字符频率为指数，作为每类字符的初始贴切量；将各类字符的所述初始贴切量进行累乘获得初始贴切程度值；根据所述初始贴切程度值获得初始偏差程度值，所述初始贴切程度值和所述初始偏差程度值呈负相关。

进一步地，所述根据各类字符的第一最终分配值的和值与所述初始长度值的差异对每类字符的第一最终分配值进行长度调整操作，获得第一分配长度值，包括：

当各类字符的第一最终分配值的和值大于所述初始长度值时，将大于等于0.5的所有的第一小数中的最小值对应的第一最终分配值减1；当各类字符的第一最终分配值的和值小于所述初始长度值时，将小于0.5的所有的第一小数中的最大值对应的第一最终分配值加1；

直至各类字符的第一最终分配值的和值等于所述初始长度值时，结束长度调整操作，获得各类字符的第一分配长度值。

进一步地，所述待测偏差程度值的获取方法包括：

根据每类字符的字符频次和所述字符总数获得每类字符的字符频率；

将所述待测长度值与每类字符的所述字符频率相乘的值作为每类字符的第二初始分配值；将所述第二初始分配值的小数部分作为第二小数，对所有的第二初始分配值进行四舍五入取整操作，获得第二最终分配值；

根据各类字符的第二最终分配值的和值与所述待测长度值的差异对每类字符的第二最终分配值进行长度调整操作，获得第二分配长度值；

将每类字符的第二分配长度值与所述待测长度值的比值作为每类字符的第二长度比例值；以每类字符的第二长度比例值为底数，字符频率为指数，作为每类字符的待测贴切量；将各类字符的所述待测贴切量进行累乘获得待测贴切程度值；根据所述待测贴切程度值获得待测偏差程度值，所述待测贴切程度值和所述待测偏差程度值呈负相关。

进一步地，所述根据各类字符的第二最终分配值的和值与所述待测长度值的差异对每类字符的第二最终分配值进行长度调整操作，获得第二分配长度值，包括：

当各类字符的第二最终分配值的和值大于所述待测长度值时，将大于等于0.5的所有的第二小数中的最小值对应的第二最终分配值减1；当各类字符的第二最终分配值的和值小于所述待测长度值时，将小于0.5的所有的第二小数中的最大值对应的第二最终分配值加1；

直至各类字符的第二最终分配值的和值等于所述待测长度值时，结束长度调整操作，获得各类字符的第二分配长度值。

进一步地，所述差异变量的公式模型包括：

其中，

进一步地，所述优化程度值的获取方法包括：

将所述基础变量的值与所述差异变量的值相加并进行负相关映射后作为所述优化程度值。

进一步地，所述根据所述最优分布累计表长度值完成所述待处理数据的压缩，包括：

根据所述最优分布累计表长度值获取最优分布累计表；

基于RANS熵编码根据所述最优分布累计表完成所述待处理数据的压缩。

本发明具有如下有益效果：

本发明的目的在于对分布累计表长度值的大小进行调整，获取最优的分布累计表长度值，进而提高数据压缩效率；首先获取光电通信系统中的待处理数据，然后获得字符种类数、字符总数以及每类字符的字符频次；然后可获取分布累计表的长度区间，通过对长度区间中的分布累计表长度值进行遍历，获取到长度区间中每一个分布累计表长度值，即待测长度值的优化程度值，进而选出最优分布累计表长度值；优化程度值主要从两个方面进行分析，其一是分析待测长度值与初始长度值之间的差异，获取基础变量，原因在于分布累计表长度值的变化会对数据的编码长度造成影响；进一步地，由于光电通信系统中的数据包含的字符种类数不定，且各类字符出现的频率难以预测，并且分布累计表长度值的变化也会影响到各类字符在分布累计表中所占长度比例与各类字符的频率之间的偏差大小，故分别获取待测长度值和初始长度值对应的偏差程度值，偏差程度值反映了在每个分布累计表长度值下各类字符所占的长度比例与其频率之间的贴切程度，然后通过待测长度值和初始长度值的偏差程度值之间的差异，获得差异变量；然后通过将基础变量和差异变量相结合，获得待测长度值相对于初始长度值的优化程度值；进而基于优化程度值选出最优分布累计表长度值，然后即可完成待处理数据的压缩。由于分布累计表长度值增大会导致数据编码长度增大，但是同时会使各类字符在分布累计表中所占比例与其在数据中的频率之间的偏差减小；故本发明通过分析二者之间的关系，将二者进行结合，从而选出最优分布累计表长度值，进而提高了数据的压缩效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种光电通信系统的数据处理方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种光电通信系统的数据处理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种光电通信系统的数据处理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种光电通信系统的数据处理方法的方法流程图，该方法包括以下步骤：

步骤S1：获取光电通信系统中的待处理数据；获取待处理数据的字符种类数、字符总数以及每类字符的字符频次。

光电通信系统的数据是指收集和记录光电通信系统中需要传输的数据，这些数据包括但不限于：数据帧、控制信息、应用数据、数据协议等，采集这些数据可以用于用户间的信息传递和网络通信，也可以帮助监测和维护系统的运行状态和性能。然而，随着光电通信系统中需要传输的数据量越来越大，故在光电通信系统传输的数据被传输前，需要对该数据进行压缩。通常使用范围非对称系数(Range Asymmetric Numeral Systems-RANS)熵编码对其进行压缩，而分布累计表是实现RANS熵编码的关键部分之一，它记录了每个符号的累积分布情况，为计算符号的编码长度提供了基础数据。

在本发明实施例中，通过分析由分布累计表长度变化造成的数据编码长度变化以及各类字符所占长度比例与其频率之间的偏差关系，将二者进行结合对分布累计表长度值进行评价，然后获取最优分布累计表长度值，进而提高压缩效率。

首先获取光电通信系统中的待处理数据，获取待处理数据的方法可以为利用传感技术或者读取存储器中的待处理数据。由于光电通信系统中的数据主要是各种字符，因此可对获取到的待处理数据进行处理，将其按照字典序排序，获取待处理数据的字符序列。

然后根据字符序列获取字符种类数、字符总数以及每类字符的字符频次，将字符种类数记为

至此，获取到了光电通信系统中的待处理数据以及待处理数据的字符种类数、字符总数以及每类字符的字符频次，可以完成后续的分析过程。

步骤S2：根据字符种类数和每类字符的字符频次获得分布累计表的长度区间；根据字符种类数获得分布累计表的初始长度值。

常规情况下，RANS熵编码直接通过字符种类数获得分布累计表的长度值，但是由于光电通信系统中数据分布杂乱，且各类字符的出现频率不一，因此常规情况下的分布累计表长度值会导致字符在分布累计表中分配的长度比例与字符本身在数据中出现的频率有较大偏差，造成编码长度高于信息熵的情况，影响最终的数据压缩效率。

所以本发明实施例通过设置分布累计表的长度区间，对长度区间中每一个分布累计表长度值进行遍历，分析长度区间中每个分布累计表长度值对于常规情况下的分布累计表长度值的优化程度值，进而选择最优的分布累计表长度值。

首先可根据步骤S1中获取到的字符种类数获得常规情况下的分布累计表长度值，记为初始长度值。初始长度值为以2为底，字符种类数

然后基于字符种类数和每类字符的字符频次获取分布累计表长度区间。

优选地，本发明一个实施例中长度区间的获取方法包括：

由于分布累计表的设计目的是为了能够覆盖所有可能的字符组合，而每个字符的出现频率和组合情况都是不同的。因此，为了能够准确地反映每个字符的出现频率和其他字符的组合情况，分布累计表的长度至少应该等于字符种类数

然后计算能够满足字符频率的最小分布累计表长度值，对于一组既定数据，如果分布累计表长度值等于数据中包含的字符总数，那么该分布累计表长度值一定可以符合字符在原数据中的频率。但是在实际应用中，如果将分布累计表长度设置为数据中包含的字符总量，可能会导致分布累计表过于冗长，从而增加了编码的复杂度和存储空间的需求。所以在此基础上，在构建分布累计表时，需要确定一个合适的长度，以覆盖所有可能的字符组合。为了达到这个目标，本发明实施例中计算所有种类字符在数据中出现频次的最大公因数，记为

至此，获取到了长度区间，即可完成后续遍历长度区间内每个分布累计表长度值进而分析出最优分布累计表长度值的操作。

步骤S3：以长度区间中任一整数分布累计表长度值作为待测长度值；根据待测长度值与初始长度值的差异获得基础变量。

获取步骤S2中的分布累计表的长度区间中所有整数分布累计表长度值，然后对其进行遍历，为了便于解释和说明，本发明实施例中以任一整数分布累计表长度值为例，将其作为待测长度值，通过对待测长度值进行后续的处理，说明本发明的整个过程。

分布累计表的长度值会对数据的编码长度产生影响，因此基于待测长度值和初始长度值的差异获得基础变量，基础变量可以初步表征出分布累计表长度区间中的分布累计表长度值相较于常规情况下，即初始长度值对编码长度的影响。

优选地，本发明一个实施例中基础变量的获取方法包括：

对待测长度值和初始长度值分别获取对应的编码基础长度并做差，获得基础变量，即可表征出待测长度值相比于常规情况下初始长度值对编码基础长度的影响。基础变量的公式模型为：

其中，

在基础变量的公式模型中，由于分布累计表长度值越大时，对应的基础编码长度会增加，那么最终的数据编码长度也会增加，因此当基础变量的值越小，说明此时的待测长度值越小，那么此时仅分析分布累计表长度值对基础编码长度的影响，进而对于最终的数据编码长度的影响时，基础变量的值越小越好，且该值为负数时更好。

至此，通过分析待测长度值与初始长度值的差异获得了评价待测长度值相较于初始长度值的优化程度的第一个指标，基础变量，可继续进行后续的分析。

步骤S4：根据初始长度值、字符总数和字符种类数获得初始偏差程度值；根据待测长度值、字符总数和字符种类数获得待测偏差程度值；根据初始偏差程度值和待测偏差程度值的差异以及字符种类数，获得差异变量。

由于分布累计表长度值也会影响到各类字符在分布累计表中分配的长度比例和字符在数据中的频率之间的偏差值，进而影响到最终数据的编码长度，影响压缩效率；因此可根据初始长度值、字符总数和字符种类数获得初始偏差程度值，待测长度值、字符总数和字符种类数获得待测偏差程度值，从而完成后续对待测长度值优化程度的评价。

优选地，本发明一个实施例中初始偏差程度值的获取方法包括：

由于需要分析各类字符所分配的长度比例与字符在数据中的频率之间的关系，故首先根据字符总数和每类字符的字符频次获得每类字符的字符频率；然后将初始长度值与每类字符的字符频率相乘，获得每类字符的第一初始分配值，该第一初始分配值可能存在小数，所以将第一初始分配值的小数部分作为第一小数；然后对所有的第一初始分配值进行四舍五入取整操作，获得第一最终分配值。

根据各类字符的第一最终分配值的和值与初始长度值的差异判断是否需要对各类字符的第一最终分配值进行长度调整操作，获得第一分配长度值。然后将每类字符第一分配长度值与初始长度值的比值作为每类字符所分配的第一长度比例值；由于第一长度比例值获取过程中进行了长度调整操作，因此每类字符的第一长度比例值和每类字符的频率之间的会有所差异，本发明实施例中根据每类字符的字符频率与第一长度比例值获得初始偏差程度值。初始偏差程度值的公式模型为：

其中，

在初始偏差程度值的公式模型中，将每类字符在待处理数据中的频率作为指数，每类字符在初始长度值中所分配的第一长度比例值作为底数，然后将每类字符对应的数值进行累乘，由于各类字符的第一长度比例值的和以及字符频率的和均为1，因此在以第一长度比例值为底数时，当每类字符的频率与第一长度比例值越接近时，那么每类字符的初始贴切量就越大，故累乘的值，初始贴切程度值

由于在上述过程中对各类字符的第一初始分配值进行四舍五入获取第一最终分配值后，可能会导致各类字符的第一最终分配值的和值不等于分布累计表的初始长度值，因此需要对每类字符的第一最终分配值进行长度调整操作。

优选地，本发明一个实施例中根据各类字符的第一最终分配值的和值与初始长度值的差异对每类字符的第一最终分配值进行长度调整操作，获得第一分配长度值，包括：

当各类字符的第一最终分配值的和值大于初始长度值时，将大于等于0.5的所有的第一小数中的最小值对应的第一最终分配值减1；当各类字符的第一最终分配值的和值小于初始长度值时，将小于0.5的所有的第一小数中的最大值对应的第一最终分配值加1；

重复该调整过程直至各类字符的第一最终分配值的和值等于初始长度值时，结束长度调整操作，获得各类字符第一分配长度值。

同理，优选地，本发明一个实施例中待测偏差程度值的获取方法包括：

将待测长度值与每类字符的字符频率相乘，获得每类字符的第二初始分配值，该第二初始分配值可能存在小数，所以将第二初始分配值的小数部分作为第二小数；然后对所有的第二初始分配值进行四舍五入取整操作，获得第二最终分配值。

根据各类字符的第二最终分配值的和值与待测长度值的差异判断是否需要对各类字符的第二最终分配值进行长度调整操作，获得第二分配长度值。然后将每类字符第二分配长度值与待测长度值的比值作为每类字符所分配的第二长度比例值；由于第二长度比例值获取过程中进行了长度调整操作，因此每类字符的第二长度比例值和每类字符的频率之间的会有所差异，本发明实施例中根据每类字符的字符频率与第二长度比例值获得待测偏差程度值。待测偏差程度值的公式模型为：

其中，

在待测偏差程度值的公式模型中，将每类字符在待处理数据中的频率作为指数，每类字符在待测长度值中所分配的第二长度比例值作为底数，然后将每类字符对应的数值进行累乘，由于各类字符的第二长度比例值的和以及字符频率的和均为1，因此在以第二长度比例值为底数时，当每类字符的频率与第二长度比例值越接近时，那么每类字符的待测贴切量就越大，故累乘的值，待测贴切程度值

同理，由于第二长度比例值获取过程中进行了长度调整操作。

故优选地，本发明一个实施例中根据各类字符的第二最终分配值的和值与待测长度值的差异对每类字符的第二最终分配值进行长度调整操作，获得第二分配长度值，包括：

当各类字符的第二最终分配值的和值大于待测长度值时，将大于等于0.5的所有的第二小数中的最小值对应的第二最终分配值减1；当各类字符的第二最终分配值的和值小于待测长度值时，将小于0.5的所有的第二小数中的最大值对应的第二最终分配值加1；

重复该调整过程直至各类字符的第二最终分配值的和值等于待测长度值时，结束长度调整操作，获得各类字符第二分配长度值。

在分别获得初始偏差程度值和待测偏差程度值后，根据二者的差异即可获得能够反映待测长度值相较于初始长度值的优化程度的另一指标，差异变量。

优选地，本发明一个实施例中差异变量的获取方法包括：

根据待测偏差程度值、初始偏差程度值以及字符种类数获得差异变量。差异变量的公式模型为：

其中，

在差异变量的公式模型中，当根据待测偏差程度值和初始偏差程度值获取的差异值

至此，通过分析在分布累计表长度值下每类字符的长度比例值和每类字符的频率之间的偏差程度值，获得了待测长度值相较于初始长度值的优化程度的另一指标，差异变量，可在后续过程中将差异变量与基础变量进行结合，完成对待测长度值优化程度的评价。

步骤S5：根据基础变量和差异变量获得待测长度值的优化程度值；根据长度区间中所有分布累计表长度值的优化程度值获得最优分布累计表长度值；根据最优分布累计表长度值完成待处理数据的压缩。

将步骤S3中获得的基础变量和步骤S4中获得的差异变量进行结合，获得待测分布累计表长度的优化程度值。

优选地，本发明一个实施例中优化程度值的获取方法包括：

将待测长度值对应的基础变量的值与差异变量的值相加，相加后的值进行负相关映射，作为优化程度值。优化程度值的公式模型具体可以例如：

其中，

在优化程度值的公式模型中，由于分布累计表长度值的增加，会导致基础编码长度增加进而造成最终编码长度的增加，因此根据待测长度值与初始长度值的差异获取到的基础变量的值应该越小越好，且为负数时最好；同时分布累计表长度值的增加，也会导致每类字符的长度比例值和每类字符的频率之间的偏差程度值越小，那么根据待测长度值与初始长度值的偏差程度值的差异获取到的差异变量的值也是越小越好，且为负数时最好，因此在优化程度值的获取过程中，将基础变量的值和差异变量的值相加，并进行负相关映射完成逻辑关系矫正，获取优化程度值。

基于上述方法即可获得长度区间中所有分布累计表长度值的优化程度值，而越大的优化程度值说明分布累计表长度越好，故将所有优化程度值中最大的优化程度值对应的分布累计表长度值作为最优分布累计表长度值。

在获取到最优分布累计表长度值后，即可根据最优分布累计表长度值完成待处理数据的压缩。

优选地，本发明一个实施例中根据最优分布累计表长度完成待处理数据的压缩，包括：

由于本发明实施例中是对RANS熵编码算法中的分布累计表长度值进行改进，因此首先根据最优分布累计表长度值获取最优分布累计表；然后基于RANS熵编码根据最优分布累计表完成待处理数据的压缩。需要说明的是，RANS熵编码为本领域技术人员熟知的技术手段，在此不做赘述。

至此，本发明实施例通过分析分布累计表长度变化对最终数据压缩的影响，在保证分布累计表长度值较短的前提下，使得分布累计表中各类字符所分配的长度比例值与其在数据中的频率更加贴切，提高了数据的压缩效率。

综上所述，本发明实施例主要分析在基于RANS熵编码对光电通信系统中的数据进行压缩时，分布累计表长度的变化对最终数据压缩效率的影响，进而筛选出最优的分布累计表长度值，提高数据压缩效率。首先获取光电通信系统中的待处理数据，并将其转换为字符序列；由于常规情况下，RANS熵编码的分布累计表长度为以2为底，字符种类数作为指数，将其作为初始长度值；然后根据字符种类数和每类字符的字符频次获得分布累计表长度区间，遍历该区间内每个整数的分布累计表长度值，分析其对于初始长度值的优化程度值；将区间中任一整数分布累计表长度值作为待测长度值，优化程度值主要由两个方面获取，其一为根据待测长度值和初始长度值的差异获取的基础变量，基础变量表征了分布累计表长度值变化时对基础编码长度的影响；另一方面为分析每类字符在分布累计表长度中所分配的长度比例值和其在数据中的频率之间的偏差程度值，然后根据待测长度值的偏差程度值与初始长度值的偏差程度值之间的差异获得差异变量，差异变量可以反映出分布累计表长度值变化时对字符所分配的长度比例值和其频率之间的贴切程度的影响；然后将二者进行结合，即可获得待测长度值的优化程度值；然后将最大的优化程度值对应的分布累计表长度值作为最优分布累计表长度值，最后基于RANS熵编码根据最优分布累计表长度值完成光电系统中数据的压缩；本发明实施例通过分析分布累计表长度变化后对编码长度增大和减小的对抗关系，对分布累计表长度值进行筛选，获取最优分布累计表长度值，从而达到提高数据压缩效率的效果。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：深圳市华宜达通信设备有限公司;广东华宜达通信技术有限公司;