掌桥专利:专业的专利平台
掌桥专利
首页

一种高校科研数据采集管理系统

文献发布时间:2023-06-19 19:27:02


一种高校科研数据采集管理系统

技术领域

本发明涉及电数字数据处理技术领域,具体涉及一种高校科研数据采集管理系统。

背景技术

科研数据对高校发展科学研究的重要性毋庸置疑,需要被及时地采集与留档存储管理。不过,由于科研数据不但包括大量的实验数据,还包括与实验数据对应的或相关联的论文、期刊等数据,这便导致科研数据一方面数据量巨大,另一方面会因为数据类型多样而导致数据繁杂且规律性较低。

由于现有的数据压缩算法一般都是借助数据的重复性或者说规律性而实现的数据压缩,那么现有的数据压缩算法在面对规律性较低的高校科研数据时,便无法做到高效压缩,使得数据量巨大的科研数据因无法被高效压缩而将占用较大的存储空间,导致对应的存储成本较高,不利于对高校科研数据的采集管理。

发明内容

为提高对高校科研数据采集管理过程中的压缩效率,本发明提供了一种高校科研数据采集管理系统,所采用的技术方案具体如下:

本发明的一种高校科研数据采集管理系统,包括:

数据采集与编码模块,用于采集高校科研数据并将高校科研数据按照编码规则编码为编码值,将编码值按照高校科研数据的采集顺序进行排列,得到原始数据串;

数据分割与放大模块,用于将原始数据串分割为多个分割部分,计算所述编码规则中最大编码值与分割部分内各个编码值的差异程度,根据所述差异程度确定对分割部分内编码值的放大倍数,以所述放大倍数对分割部分内编码值进行放大得到初步放大值,将不大于所述编码规则中最大编码值的初步放大值作为放大编码值,将大于所述编码规则中最大编码值的初步放大值所对应的放大前的编码值作为放大编码值,得到由放大编码值组成的放大后分割部分;

数据压缩存储模块,用于将放大后分割部分按照所述多个分割部分的分割顺序拼接为优化数据串,对优化数据串进行压缩并存储。

本发明的有益效果为:

本发明首先采用编码规则将高校科研数据中的不同种类数据进行编码得到原始数据串而完成统一表达,然后将原始数据串分割为多个分割部分并将每个分割部分内的编码值以自适应放大倍数进行放大而使各个分割部分中的放大后编码值都向编码规则中的最大编码值靠近,从而以提高数据重复性的方式提高数据规律性,将规律性提高后的优化数据串进行压缩时便可提高压缩效率,然后通过对压缩数据进行存储便可完成对高校科研数据的采集管理。本发明该方法通过对高校科研数据划分为多个分割部分并使各个分割部分按照不同放大倍数靠近编码规则中的最大编码值的方式,提高了待压缩数据的规律性从而提高了对高校科研数据采集管理过程中的压缩效率。

进一步的,所述将原始数据串分割为多个分割部分的方法为:

将原始数据串映射为二维矩阵,将所述二维矩阵分割为多个分割块,将每个分割块分别作为一个所述分割部分。

进一步的,所述计算所述编码规则中最大编码值与分割部分内各个编码值的差异程度的方法为:

计算所述编码规则中最大编码值与所述分割块中出现频率最高的编码值的第一差值,计算所述编码规则中最大编码值与所述分割块中各个编码值的第二差值之和,以所述第一差值、所述第二差值之和以及所述分割块中数值大于出现频率最高的编码值的编码值个数确定分割块的待变换系数,以待变换系数作为所述差异程度;

所述待变换系数与所述第一差值以及所述第二差值之和成正比,与所述分割块中数值大于出现频率最高的编码值的编码值个数成反比。

进一步的,所述待变换系数为:

其中,CT为分割块的待变换系数,

进一步的,所述根据所述差异程度确定对分割部分内编码值的放大倍数的方法为:

利用所有分割块的待变换系数中的最大值以及最小值对分割块的待变换系数进行归一化处理,根据归一化后的分割块的待变换系数确定分割块内编码值的放大倍数;

所述分割块内编码值的放大倍数与所述归一化后的分割块的待变换系数成正比。

进一步的,所述分割块内编码值的放大倍数为:

其中,

进一步的,所述数据分割与放大模块还执行对所述放大倍数进行修正的步骤:

统计分割块内放大后大于所述编码规则中最大编码值的编码值个数在分割块内所有编码值中的占比,以所述占比确定修正后的分割块内编码值的放大倍数;

所述修正后的分割块内编码值的放大倍数与所述占比成反比。

进一步的,所述修正后的分割块内编码值的放大倍数为:

其中,

进一步的,所述数据压缩存储模块对所述优化数据串进行压缩后,按照所述高校科研数据的类型对所得压缩数据打标签。

进一步的,还包括:

数据查找模块,用于在查找高校科研数据时,以所述标签查找压缩数据并解压得到优化数据串,根据优化数据串获取过程中多个分割部分的分割方式、各分割部分对应的放大倍数以及未经放大便作为放大编码值的编码值,将优化数据串还原为原始数据串,对原始数据串译码得到所要查找的高校科研数据。

附图说明

图1是本发明该种高校科研数据采集管理系统的框图;

图2是本发明的Z字型扫描法的示意图;

图3是本发明的对二维矩阵分割得到分割块的示意图。

具体实施方式

本发明的构思为:由于高校科研数据所包含的内容种类多样,所以采集所得高校科研数据繁杂且规律性较低,现有的借助数据规律性而实现的数据压缩技术无法完成对高校科研数据的高效压缩,为此本申请首先将高校科研数据按照编码规则进行编码,然后对高校科研数据进行分割,并对每个分割部分的数据值进行合适于自身的、不同倍率的放大而使各个分割部分的放大后数据值均尽可能靠近编码规则中的最大值,以提高高校科研数据中各个数据值的重复程度,增大相同数据值、相同数据值段落连续重复出现的可能性,从而提高高校科研数据的规律性,实现对高校科研数据的更高效的压缩。

下面结合附图及实施例,对本发明的一种高校科研数据采集管理系统进行详细说明。

系统实施例:

如图1所示,其示出了本发明一个实施例所提供的一种高校科研数据采集管理系统的系统框图,该系统包括:数据采集与编码模块、数据分割与放大模块、数据压缩存储模块以及数据查找模块。以下分别对各个模块的作用进行详细介绍:

数据采集与编码模块,用于采集高校科研数据并将高校科研数据按照编码规则编码为编码值,将编码值按照高校科研数据的采集顺序进行排列,得到原始数据串。

由于高校科研数据不但包括中英文论文与期刊,还包括实验数据与计算机代码、运算公式等,所以高校科研数据中会同时包括数字、中文、英文以及各种字符,为实现对整体数据的统一处理,首先需要将上述各类型数据转化处理为同一类型的数据。

本实施例优选使用GB2312编码标准对高校科研数据进行编码处理,按照对高校科研数据的采集顺序,将编码后所得各个编码值进行排序,得到由编码值构成的原始数据串。GB2312编码标准是一种可同时编码数字、中文、英文以及各种字符的编码规则,所以采用该种编码标准,可完成对所有高校科研数据的统一编码从而将各类型数据转化为同一类型的数据。当然,在其它实施例中,还可以采用其它的可同时编码数字、中文、英文以及各种字符的编码规则,如在GB2312编码标准上进一步发展出来的GB18030编码标准。

由于不同编码标准对数据编码后所得到的具体数值并非都是以十进制表示,所以为便于计算,本实施例优选在按照编码标准对数据进行编码后再将编码所得数值按照进制转换规则转换为十进制数,将转换后所得十进制数作为最终的编码值并构成原始数据串。例如,本实施例采用的GB2312编码标准是二进制编码规则,其利用16位的二进制数完成汉字的表示,也即利用GB2312编码标准对某个汉字进行编码后会得到一个16位的二进制数,将所得该16位二进制数按照二进制转十进制的规则进行转换后,便可将所得十进制数作为本实施例中的编码值放入原始数据串中,完成原始数据串的获取。

当然,由于进制转换并不实际改变编码值的大小而只是一种提高计算便捷性的手段,所以在其它实施例中,也可在利用编码标准对高校科研数据进行编码后,不再进行进制转换而直接将编码所得数值作为编码值放入原始数据串中,完成原始数据串的获取。

数据分割与放大模块,用于将原始数据串分割为多个分割部分,计算所述编码规则中最大编码值与分割部分内各个编码值的差异程度,根据所述差异程度确定对分割部分内编码值的放大倍数,以所述放大倍数对分割部分内编码值进行放大得到初步放大值,将不大于所述编码规则中最大编码值的初步放大值作为放大编码值,将大于所述编码规则中最大编码值的初步放大值所对应的放大前的编码值作为放大编码值,得到由放大编码值组成的放大后分割部分。

由于高校科研数据所包含的内容种类繁多,同时包含中文、英文、数字以及符号等数据类型,而中文、英文、数字以及符号等数据类型在计算机语言中分别处于不同的计算机代码取值范围上,也即不同数据类型对应所得编码值的取值范围分布差异明显。所以为提高对高校科研数据的压缩效率,本申请期望将高校科研数据中不同的数据类型所对应的计算机代码,也就是不同数据类型所对应的编码值之间的差异,经不同倍率的放大处理后尽可能缩小,从而提高高校科研数据的数据重复性或者说规律性,最终提高对其的压缩效率。

又考虑到不同数据类型对应所得编码值虽然差异明显但相同数据类型对应所得编码值在小范围上会集中出现的特性,本申请在对编码值进行倍率放大使其接近编码规则的最大编码值之前,首先对所获取的由编码值构成的原始数据串进行分割处理,得到多个分割部分,以尽可能贴合不同数据类型对应所得编码值虽差异明显但相同数据类型对应所得编码值会在小范围上集中出现的特性,从而在对不同分割部分以不同的放大倍率进行放大后,能够更大程度提高放大后编码值与编码规则的最大编码值的接近程度,最终更大程度上提高高校科研数据的规律性。

其中编码规则中的最大编码值具体是指编码规则中编码值取值范围的上限值,本实施例采用的是GB2312编码规则,其编码值取值范围的上限值以16进制表示是FEFE,以十进制表示是65278,而以原始的二进制表示则是1111111011111110。在采用其它编码规则的其它实施例中,编码规则中的最大编码值则是相应所采用的其它编码规则中编码值取值范围的上限值。

对于如何实现对原始数据串的分割,一种实施例中的方法是将原始数据串等长度地分割为多个数据段,然后确定编码规则中最大编码值与每个分割部分也即每个数据段中编码值的差异程度,从而得到对每个分割部分也即每个数据段的放大倍数并进行放大,得到放大后的编码值。

而优选地,在本实施例中,则通过将原始数据串映射为矩阵后对矩阵分割的形式完成对原始数据串的分割。本实施例首先对原始数据串进行映射得到二维矩阵,然后将二维矩阵分割得到多个分割块并确定每个分割块内编码值的放大倍数,以所得放大倍数对分割块内编码值进行放大从而得到放大后编码值。

具体的,在统计原始数据串中编码值的总数

对于二维矩阵,如图3所示本实施例将其分割为宽度

在本实施例中,优选按照从左到右、从上到下的方式在二维矩阵中划分分割块,在其它实施例中还可以按照其它方法划分分割块。如图3所示,存在着划分后二维矩阵中的剩余部分的长或宽不足

在通过对二维矩阵划分为多个分割块从而实现对原始数据串分割为多个分割部分后,由于不同分割块中所含编码值对应的数据种类不同,所以部分分割块中的编码值整体大小会较大,而部分分割块中的编码值整体大小会较小,举例即为,若第一个分割块中的编码值都是由汉字编码得到,而第二个分割块中的编码值都是由英文字母编码得到,由于在GB2312编码标准中汉字的编码值取值范围大于英文字母的编码值取值范围,所以第一个分割块中编码值的整体取值会明显大于第二个分割块中编码值的整体取值,两者各自适用的,或者说两者各自需要进行放大的倍数值便会不同。

为有效衡量不同分割块中编码值的整体大小,本实施例通过计算编码规则中最大编码值与每个分割块中各个编码值之间的差异程度,来确定对每个分割块内各个编码值进行放大的最佳倍数,并使差异程度较大的分割块中的编码值被较大倍数地放大,而差异程度较小的分割块中的编码值被较小倍数地放大。

首先计算每个分割块的待变换系数:

其中,CT为分割块的待变换系数,

由于本实施例在此所要确定的是分割块中编码值相较于编码规则中最大编码值的差异程度,那么在分割块的待变换系数计算公式中,考虑到分割块内出现频率最高的编码值

关于

假设当前分割块对应所得

而且需要说明的是,归一化操作

然后,根据分割块的待变换系数确定分割块内编码值的放大倍数:

其中,

在分割块内编码值的放大倍数的计算公式中,

确定对分割块内编码值的放大倍数k后,便可利用放大倍数k对分割块内各个编码值的放大处理,将分割块内各个编码值均乘以放大倍数k得到放大编码值,从而得到由放大编码值组成的放大后分割块。

考虑到会存在部分放大后的编码值会大于编码规则中最大编码值而导致后续无法译码的情况,那么为避免该种情况发生,则需不对这些编码值进行放大而直接将原本编码值作为放大后编码值放入放大后的分割块并进行记录,以及在后续数据解压还原阶段也不再对这些数据进行相应放大倍数的还原处理。为实现该种过程,则需要在压缩数据中额外地对这些放大后会大于编码规则中最大编码值的编码值进行位置记录,当使用放大倍数k对分割块中编码值进行放大处理后超过编码规则中最大编码值的这种编码值过多,显然会导致压缩数据中需额外加入的记录数据过多而导致压缩数据明显增大,从而影响数据压缩效率。

为此,本实施例还额外包括根据所得放大编码值对放大倍数k进行进一步优化的内容。

具体的,本实施例根据分割块中放大后会大于编码规则中最大编码值的该种编码值的数量在分割块整体编码值中的占比,来对放大倍数进行修正:

其中,

在修正后的分割块内编码值的放大倍数计算公式中,

容易理解的是,对放大倍数进行修正的内容并非本发明整体方案成功实施的必要步骤,所以在其它实施例中,还可以不包括本实施例的对放大倍数进行修正的内容。

数据压缩存储模块,用于将放大后分割部分按照所述多个分割部分的分割顺序拼接为优化数据串,对优化数据串压缩后按照所述高校科研数据的类型打标签并存储。

在完成对每个分割部分中各个编码值的放大后,原始数据串内的各个编码值实际上便经过自适应放大而更大程度上接近了编码规则中的最大编码值,从而使得原始数据串中的数据规律性得到了提高。那么,此时将各个由放大编码值所构成的放大后分割部分按照对原始数据串分割得到的各个分割部分的分割顺序进行拼接后,拼接所得数据串即为相较于原始数据串规律性提高的数据串,将拼接所得数据串记为优化数据串。

具体的,在本实施例中,由于是将原始数据串按照Z字型扫描法首先映射为正方形二维矩阵后再划分为多个分割块而实现的将原始数据串分割为多个分割部分,所以在本实施例中,需要首先按照二维矩阵中各个分割块的排列顺序将放大后分割块进行排列构成放大后二维矩阵,然后按照Z字型扫描法扫描放大后二维矩阵,得到优化数据串。

由于所得到的优化数据串相较于由原始高校科研数据而构成的原始数据串在数据规律性上已经得到了明显的提升,所以此时采用现有的数据压缩方法对优化数据串进行压缩,相较于直接对原始数据串进行压缩,压缩效率会有明显的提升,会得到更小的压缩数据包。现有的数据压缩方法有多种,本实施例优选使用串表压缩算法LZW完成对优化数据串的压缩。

在对优化数据串压缩得到压缩数据并存储后,即可通过提高数据压缩效率完成对高效科研数据的高效采集管理。而进一步的,为满足后续可能存在的对高效科研数据采集管理系统中所存储的数据的查询需求,本实施例在上述对高效科研数据的采集管理的内容基础上,还包括对数据打标签并根据标签查找高效科研数据的内容。

由于高校科研数据种类多样,所以为了便于对高校科研数据的查询,本实施在存储压缩数据包时,还进一步对所得压缩数据包按照高校科研数据的种类进行打标签。对压缩数据包进行打标签的方法为现有技术,故在此不再赘述。

数据查找模块,用于在查找高校科研数据时,以所述标签查找压缩数据并解压得到优化数据串,根据优化数据串获取过程中多个分割部分的分割方式、各分割部分对应的放大倍数以及未经放大便作为放大编码值的编码值,将优化数据串还原为原始数据串,对原始数据串译码得到所要查找的高校科研数据。

在相关人员需要从高校科研数据采集管理系统中查找高校科研数据时,其只需要向系统输入所要查找的高校科研数据的标签信息,数据查找模块在接收到输入系统的标签信息后,便可首先根据标签信息确定与标签信息对应的压缩数据包,然后对压缩数据包解压后便可得到相应的优化数据串。

由于所得优化数据串是由原始数据串得到的,而原始数据串得到优化数据串的过程中,对映射所得二维矩阵进行分割得到多个分割部分的分割方式、各个分割部分对应的放大倍数以及未经放大而直接作为放大编码值的编码值都是已知的,那么便可将优化数据串还原为相应的原始数据串,再对还原所得原始数据串按照编码规则进行译码,即可得到所要查找的高校科研数据。

具体的,在根据输入系统的标签信息查找到相应的压缩数据包并解压得到对应优化数据串后,由于本实施例的优化数据串是通过分割块组合成为放大后二维矩阵并以Z字型扫描法获得的,那么在得到优化数据串后,便首先需要将优化数据串按照Z字型扫描法的扫描顺序进行还原得到放大后二维矩阵,然后根据正方形二维矩阵分割得到多个分割块的方法,将放大后二维矩阵分割为与分割块数量相同的多个放大后分割块,并根据每个放大后分割块获取过程中所使用的放大倍数k,对放大后分割块内的各个编码值乘以1/k以进行缩小还原操作得到放大前的分割块也即原始分割块,且由于放大后分割块获取过程中存在着一些实际上未经放大而直接将原始编码值作为放大后编码值的编码值,所以在对放大后分割块进行缩小还原操作时,这些编码值也就相应地不再进行缩小还原操作而是直接将其编码值放入所得放大前的分割块的相应位置处,以得到准确的放大前的分割块也即原始分割块。

在完成对各个放大后分割块的缩小还原操作后,此时所得的放大前的分割块所组成的矩阵实际上即为通过Z字型扫描法由原始数据串映射所得的宽度为

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

相关技术
  • 一种高校教师的教学科研数据采集管理系统
  • 一种高校教师科研业绩考核管理系统
技术分类

06120115918990