掌桥专利:专业的专利平台
掌桥专利
首页

动车分布式大数据传输优化方法、系统、设备及介质

文献发布时间:2023-06-19 16:04:54



技术领域

本申请涉及分布式数据传输管理,特别涉及一种动车分布式大数据传输优化方法、系统、设备及介质。

背景技术

目前,大数据的传输在各类分布式系统中具有越来越重要的地位。分布式系统的功能是否实现,性能是否达标,故障率是否低于允许值,在很大程度上取决于数据的高效,准确,可靠地传输。

然而,分布式系统的数据源往往跨地域,跨平台,成分复杂,且往往在时间分布上很不均衡。往往在某个时段或某个区段,有大量数据需要传输。而在其它某个时段或其它某个区段,又存在空闲,导致较严重的传输不均衡。但分布式系统的硬件投资和软件设计必须按峰值传输需求来规划,这就造成了闲时浪费,但峰值时出现瓶颈,且可能陷入恶性循环,诱发各类故障频发。

关于分布式系统大数据传输的优化,现有技术的方案:

专利公开号:CN113497761A,发明专利名称为“车载设备和通信系统以及数据传输方法”,公开了一种用于机动车上的多个车载设备的通信系统的数据传输方法。

专利公开号:CN110519338B,发明名称为“一种基于协同通信的数据传输方法”,公开了一种基于协同通信的数据传输机制。

但现有技术中大多没有从源头上去解决优化大数据传输的技术问题。这就好比治理交通,如果不从车流和人流等源头去治理,那往往就是事倍功半。如果绝大部分车流、人流不均衡出行,则治理和优化交通往往是治标不治本,中心城区的高峰时段会常态化拥堵。理论和实践表明,基于源头的治理和优化是较高水平的策略。

因此,为了解决现有技术中存在的上述问题,并为适应铁路动车车辆数据传输的管理要求,为了有效地防止数据传输缺乏高效规划,造成数据忙闲不均,极大的浪费了系统资源,同时忙时的拥堵会造成数据拥塞,导致动车的主要业务无法实时获取关键数据,为铁路全系统带来了潜在的巨大风险。因此,迫切需要引入先进的数据传输优化技术,亟需建立一套比较完善的动车分布式大数据传输优化方法及其系统,实现对数据传输的最优化处理,同时,为数据贯通提供技术支撑。

发明内容

本发明提出了一种动车分布式大数据传输优化方法、系统、设备及介质,可有效地防止数据传输缺乏规划,造成数据忙闲不均,极大的浪费了系统资源,同时避免忙时的拥堵而造成的数据拥塞。

第一方面,本申请实施例提供了一种动车分布式大数据传输优化方法,应用于包括铁总中心节点、及连接于铁总中心节点的多个段级中间节点及多个所级节点的动车组管理信息系统,包括:

数据源合集生成步骤:在一时段内,将多个段级中间节点及多个所级节点的所有运维数据按照数据文件长度排序,选取其中数据文件长度大于预设长度的多个选定数据源,生成数据源合集;

数据库负荷监测步骤:将时段划分为多个子时段,计算并监测各个子时段内的铁总中心节点的数据负荷;

权重优化迭代步骤:基于选定数据源的时敏性参数取值范围,通过辅助系数分别动态调节各个选定数据源的重要度参数及文件长度系数,计算各个选定数据源的权重值;

数据传输优化步骤:基于各个选定数据源的权重值,动态调整选定数据源的传输顺序,对各个子时段的数据负荷进行优化,重复执行权重优化迭代步骤,直到优化后的数据负荷满足最优负荷模型,实现对各个子时段的数据负荷削峰填谷,满足分布式大数据的最优化传输。

本发明优选的,上述权重优化迭代步骤包括权重优化迭代模型:

当选定数据源的时敏性参数TS(j)小于第一时敏预定参数,则选定数据源的权重值W(j)为:W(j)=Ks(j)*S(j)+Kd(j)*d(j),其中,j=0、1、……、N,N为选定数据源的最大个数,Ks(j)为重要度参数S(j)的辅助系数,d(j)为第j个选定数据源D(j)的文件长度系数,Kd(j)为文件长度系数d(j)的辅助系数。

本发明优选的,上述最优负荷模型为:

优化后的各个子时段的数据负荷L'(i):[|L'(0)-μ|+|L'(1)-μ|+……+|L'(i)-μ|+……+|L'(M)-μ|]小于或等于预设负荷不均衡度量值,且[L'(0)+L'(1)+……+L'(i)+……+L'(M)]小于或等于预设总负荷量,其中,μ是时段当中的平均数据负荷,μ=[L'(0)+L'(1)+……+L'(i)+……+L'(M)]/M,L'(i)是经优化后的i子时段的数据负荷;i=0、1、……、M,M为子时段的个数。

本发明优选的,上述重要度参数S(j)为基于第j个各个选定数据源的铁总业务重要度和紧急度进行设定;

时敏性参数TS(j)为基于第j个各个选定数据源的铁总业务时间迫切度进行设定;

文件长度系数d(j)为基于第j个选定数据源的文件长度进行设定,其中,j=0、1、……、N,N为选定数据源的最大个数。

本发明优选的,上述数据传输优化步骤还包括:

下传优化步骤:铁总中心节点针对下传到多个段级中间节点及多个所级节点的待下传数据生成调度文件,调度文件包括分级排列的多个目的IP地址,待下传数据基于分级排列的目的IP地址逐级匹配并转发到多个段级中间节点及多个所级节点。

下传优化步骤将单一从铁总中心向多个下级传输,即一对多传输方式转化为了多对多传输方式,且段级中间节点相当于一个三通阀一样,将自上而下的传输分流为同级的平行传输。

本发明优选的,上述数据传输优化步骤还包括:

相似数据传输优化步骤:将选定数据源文件转换为分行的预定格式二进制文件,将二进制文件的相邻两行二进制数据逐个进行异或操作后,查找相邻两行二进制数据的差异位并标记后传输,实现相似数据传输的优化;

同级数据抽象优化步骤:将同一级别的多个段级中间节点或多个所级节点同一类型的数据文件同一时间统一发送,实现同一级别的节点数据文件的逻辑抽象为一个大数据文件。

本发明优选的,上述权重优化迭代步骤包括:当选定数据源的时敏性参数TS(j)=p时,则对于第j个数据源D(j),在第p个子时段,权重值W(j)为预定最大值,在其它子时段,则权重值W(j)=0,其中,j=0、1、……、N,N为选定数据源的最大个数,p=0、1、……、M,M为子时段的个数。

第二方面,本申请实施例提供了一种动车分布式大数据传输优化系统,应用于包括铁总中心节点、及连接于铁总中心节点的多个段级中间节点及多个所级节点的动车组管理信息系统,采用如上任意一项动车分布式大数据传输优化方法,包括:

数据源合集生成模块:在一时段内,将多个段级中间节点及所述多个所级节点的所有运维数据按照数据文件长度排序,选取其中数据文件长度大于预设长度的多个选定数据源,生成数据源合集;

数据库负荷监测模块:将时段划分为多个子时段,计算并监测各个子时段内的铁总中心节点的数据负荷;

权重优化迭代模块:基于选定数据源的时敏性参数取值范围,通过辅助系数分别动态调节各个选定数据源的重要度参数及文件长度系数,计算各个选定数据源的权重值;

数据传输优化模块:基于各个选定数据源的权重值,动态调整选定数据源的上传或下传传输顺序,对各个子时段的数据负荷进行优化,重复执行权重优化迭代步骤,直到优化后的数据负荷满足最优负荷模型,实现对各个子时段的数据负荷削峰填谷,满足分布式大数据的最优化传输。

第三方面,本申请实施例提供了一种服务器设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述动车分布式大数据传输优化方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述的动车分布式大数据传输优化方法。

相比于相关现有技术,具有以下突出的有益效果:

1、本发明提供的动车分布式大数据传输优化方法及系统,能够防止由于传输效率较差,因而传输出错概率增加,重传概率增大,进一步加大了传输量,加剧了传输拥堵,降低了传输效率,反过来进一步增加了重传概率,陷入恶性循环的问题;

2、本发明提供的数据传输优化方法,基于数据本身的特性,将这些特性抽象成权重来优化自身的传输;实现了各个时段数据载荷的削峰填谷,避免了数据传输的闲忙极度不均而造成的数据传输问题;

3、本发明支持通过调度文件进行数据的快速下发,调度文件通过分级排列的目的IP地址,实现逐级数据匹配和转发的功能,极大的提升了本发明优化后的数据转发效率,缩短了数据传输时间,同时,将一对多传输转化为了多对多传输方式;

4、本发明支持将选定数据源文件转换为分行的预定格式二进制文件,查找相邻两行二进制数据的差异位并标记后传输,实现相似数据传输数据量的极大缩减,极大的节省了传输带宽,提高了大量相似数据的传输优化效率;

5、本发明支持通过不断迭代动态调节各关键参数的辅助系数,实现动态调整选定数据源的传输顺序,对各个子时段的数据负荷进行优化,实现对各个子时段的数据负荷削峰填谷,满足分布式大数据的最优化传输;

6、本发明在优化大数据传输的基础上,为数据贯通提供了技术支撑。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是本发明动车分布式大数据传输优化方法的流程图;

图2是本发明具体实施例动车组管理信息系统示意图;

图3是本发明动车分布式大数据传输优化架构图;

图4是根据本申请实施例的设备的硬件结构示意图。

以上图中:

100 动车分布式大数据传输优化系统

10数据源合集生成模块 20 数据库负荷监测模块

30 权重优化迭代模块 40 数据传输优化模块

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

为解决现有技术的问题,本发明旨在解决数据传输与业务衔接不够的问题入手,根据业务来设定“动车组管理信息系统(EMIS)”各数据源的权重以优化目前粗放的传输模式。由于铁总与各运用所、各高级修、各段级系统之间是一对多的集中式传输拓扑结构。因而当某运用所、某高级修、某段级系统突然向铁总传输大量数据时,就可能堵塞其它运用所、其它高级修、其它段级系统往铁总的传输。在峰值时,还会导致已传输到铁总的数据不能及时装载进铁总数据库,因而会导致关键的业务数据,比如开行,车组状态和检修实绩不能及时上报,甚至会造成全路传输中断。经分析,目前不太可能改变一对多的集中式传输拓扑结构,但最重要,最紧急,最关键的数据和信息占比还是较低的。比较现实可行的方式是将各运用所、各高级修、各段级系统的需要传输的数据和信息按重要程度、紧急程度和业务等进行分级,确定权重。权重高的优先级高,权重低的优先级低。优先级高的先传输,优先级低的后传输甚至暂停传输。从源头上可靠有效地避免某运用所、某高级修、某段级系统突然向铁总传输大量数据和信息时,堵塞其它运用所、其它高级修、其它段级系统往铁总的传输的难题。当优先级高的数据和信息成功传输到铁总并成功装载进数据库后,再反馈一些信息给各运用所、各高级修、各段级系统,恢复优先级低的数据和信息往铁总的传输。当然,权重不应是静态的,应根据变化了的重要程度、紧急程度、业务和网络状态等进行动态调整和优化。铁总往各运用所、各高级修、各段级系统的反馈信息也应该根据传输状态和网络状态等动态可优化。总之,本发明的目标是将“动车组管理信息系统(EMIS)”目前粗放的传输模式改进成精细模式,与业务和网络状态等形成闭环,避免传输的堵塞和中断,也为数据贯通提供了技术支撑,为全寿命周期管理和数字化精准检修提供数据支撑。

图1为本发明动车分布式大数据传输优化方法的流程图,如图1所示,本申请实施例提供了一种动车分布式大数据传输优化方法,应用于包括铁总中心节点、及连接于铁总中心节点的多个段级中间节点及多个所级节点的动车组管理信息系统(EMIS),包括:

数据源合集生成步骤S10:在一时段内,将多个段级中间节点及多个所级节点的所有运维数据按照数据文件长度排序,选取其中数据文件长度大于预设长度的多个选定数据源,生成数据源合集;本发明具体实施例可以设置数据文件预设长度大于等于100kb,但本发明并不限于此,还可以设置其他数据文件预设长度。

数据库负荷监测步骤S20:将时段划分为多个子时段,计算并监测各个子时段内的铁总中心节点的数据负荷;本发明具体实施例设置时段为一天,子时段为1个小时,一时段内有24个子时段,但本发明并不限于此,还可以设置其他时段及子时段。

权重优化迭代步骤S30:基于选定数据源的时敏性参数取值范围,通过辅助系数分别动态调节各个选定数据源的重要度参数及文件长度系数,计算各个选定数据源的权重值;

数据传输优化步骤S40:基于各个选定数据源的权重值,动态调整选定数据源的传输顺序,对各个子时段的数据负荷进行优化,重复执行权重优化迭代步骤,直到优化后的数据负荷满足最优负荷模型,实现对各个子时段的数据负荷削峰填谷,满足分布式大数据的最优化传输。

本发明优选的,上述权重优化迭代步骤S30包括权重优化迭代模型:

当选定数据源的时敏性参数TS(j)小于第一时敏预定参数,则选定数据源的权重值W(j)为:W(j)=Ks(j)*S(j)+Kd(j)*d(j),其中,j=0、1、……、N,N为选定数据源的最大个数,Ks(j)为重要度参数S(j)的辅助系数,d(j)为第j个选定数据源D(j)的文件长度系数,Kd(j)为文件长度系数d(j)的辅助系数。本发明具体实施例可以设置第一时敏预定参数为0,但本发明并不限于此,还可以设置其他数据文件预设长度。其中,Ks(j)和Kd(j)初始值都设置为1。但随着迭代的进行,Ks(j)和Kd(j)会趋向优化值。但本发明并不限于此,还可以设置其他初始值。

本发明优选的,上述权重优化迭代步骤S30包括:

当选定数据源的时敏性参数TS(j)=p时,则对于第j个数据源D(j),在第p个子时段,权重值W(j)为预定最大值,在其它子时段,则权重值W(j)=0,其中,j=0、1、……、N,N为选定数据源的最大个数,p=0、1、……、M,M为子时段的个数。

本发明具体实施例可以设置权重值W(j)的预定最大值为100,但本发明并不限于此,还可以设置其他权重值W(j)的预定最大值为100。

本发明优选的,上述最优负荷模型为:

优化后的各个子时段的数据负荷L'(i):[|L'(0)-μ|+|L'(1)-μ|+……+|L'(i)-μ|+……+|L'(M)-μ|]小于或等于预设负荷不均衡度量值,且[L'(0)+L'(1)+……+L'(i)+……+L'(M)]小于或等于预设总负荷量,其中,μ是时段当中的平均数据负荷,μ=[L'(0)+L'(1)+……+L'(i)+……+L'(M)]/M,L'(i)是经优化后的i子时段的数据负荷;i=0、1、……、M,M为子时段的个数。

本发明具体实施例可以设置预设负荷不均衡度量值小于或等于10,但本发明并不限于此,还可以设置其他预设负荷不均衡度量值;

本发明具体实施例可以设置预设总负荷量根据实际各个子时段数据负荷的和选取最优值,但本发明并不限于此,还可以设置其他预设总负荷量。

本发明优选的,上述重要度参数S(j)为基于第j个各个选定数据源的铁总业务重要度和紧急度进行设定;

时敏性参数TS(j)为基于第j个各个选定数据源的铁总业务时间迫切度进行设定;

文件长度系数d(j)为基于第j个选定数据源的文件长度进行设定,其中,j=0、1、……、N,N为选定数据源的最大个数。

本发明优选的,上述数据传输优化步骤S40还包括:

下传优化步骤:铁总中心节点针对下传到多个段级中间节点及多个所级节点的待下传数据生成调度文件,调度文件包括分级排列的多个目的IP地址,待下传数据基于分级排列的目的IP地址逐级匹配并转发到多个段级中间节点及多个所级节点,将一对多传输转化为多对多传输。

本发明优选的,上述数据传输优化步骤S40还包括:

相似数据传输优化步骤:将选定数据源文件转换为分行的预定格式二进制文件,将二进制文件的相邻两行二进制数据逐个进行异或操作后,查找相邻两行二进制数据的差异位并标记后传输,实现相似数据传输的优化;

同级数据抽象优化步骤:将同一级别的多个段级中间节点或多个所级节点同一类型的数据文件同一时间统一发送,实现同一级别的节点数据文件的逻辑抽象为一个大数据文件。

以下结合附图对本发明具体实施例进行详细说明:

1、动车组管理信息系统(EMIS)

本发明具体实施例中,本发明基于但不限于分布式“动车组管理信息系统(EMIS)”的大数据传输。如图2所示,分布式“动车组管理信息系统(EMIS)”的大数据传输的拓扑结构;

EMIS: EMU(Electric Multiple Units电力动车组) Management InformationSystem,即“动车组管理信息系统”,是一个覆盖18个铁路局的大型分布式运维管理信息系统:有1个铁总中心节点:铁总;若干个分布式节点:包括共67个运用所、7个高级修、25个段级系统。因而,EMIS对应分布式数据库,1个中心节点数据库:即,铁总数据库(包含3个数据库实例);若干个节点数据库:包括(EMIS所级数据库1、EMIS所级数据库2、……EMIS所级数据库j、……EMIS所级数据库67)运用67个EMIS所级数据库、7个高级修数据库、(EMIS段级数据库1、EMIS段级数据库2……EMIS段级数据库i……EMIS段级数据库25)25个EMIS段级数据库。

基于安全和分担负荷(或开销)等各方面的考虑,铁总数据库服务器不直接与各节点数据库发生双向数据传输,而是通过铁总接口服务器与各节点数据库发生双向数据传输,然后再由铁总接口服务器统一与铁总数据库发生双向数据传输。这么做一是利用铁总接口服务器隔离外界与铁总数据库;二是利用铁总接口服务器分担铁总数据库用于数据传输的负荷,因为数据量很大,尤其是峰值数据量更大,所以用于大数据传输的负荷很大。EMIS铁总数据库可以说是整个“动车组管理信息系统(EMIS)”中最关键的核心。一旦出故障,会影响整个“动车组管理信息系统(EMIS)”的正常运行。从EMIS各运用所、各高级修、各段级系统数据库往EMIS铁总数据库传输数据在本专利中称之为上传;从EMIS铁总数据库往各运用所、各高级修、各段级系统数据库传输数据在本专利中称之为下传。

目前,“动车组管理信息系统(EMIS)”大致可分为三层四级:第一层,即最上层,是铁总中心节点,由铁总接口服务器和铁总数据库服务器构成;第二层,是25个中间层节点,即25个段级节点,由25个段级数据库服务器构成。每个中间层节点与最上层中心节点之间有直接双向数据传输;第三层则比较特殊(包含两级),最下层节点包含25个所级节点,但只有7个高级修节点。这是因为不是所有段级节点包含高级修节点,只有7个段级节点包含高级修节点。如图2,第i个段级节点就不包含高级修节点。每个所级节点与最上层中心节点之间有直接双向数据传输,每个高级修节点与最上层中心节点之间也有直接双向数据传输。同时,某些所级节点还与其所属的段级节点之间有直接双向数据传输;某些含高级修节点的段级节点还与其下的高级修节点之间有直接的双向数据传输。另外,最下层的所级节点和高级修节点通过中间层段级节点与最上层中心节点之间还可能有间接双向数据传输。

EMIS第二层和第三层节点服务器上通常包含同样的功能模块:调度管理、作业管理、技术管理、设备管理、物流管理、成本管理、安全管理、质量管理、综合管理。当然,由于各节点的业务不同,同名的功能模块会产生不同的上传数据源,并接收最上层中心节点产生的各类下传数据源。最上层中心节点需要接收所有第二层和第三层节点产生的各类上传数据源,并产生各类下传数据源,向所有第二层和第三层节点下传。所以,整个“动车组管理信息系统(EMIS)”的最大瓶颈就是最上层这个中心节点。这个中心节点的大部分负荷都是用于接收各类上传数据源,产生各类下传数据,并下传给所有第二层和第三层节点。优化“动车组管理信息系统(EMIS)”的大数据传输在很大程度上就能消除或缓解这个最大瓶颈。根据长期实际工程实践观测,也证实了对EMIS铁总数据库负荷影响最大的因素就是数据传输。因而本专利的目标可简化为优化数据传输。并且是通过设定各数据源的权重来优化数据传输,从而优化铁总数据库的负荷。本发明中的权重和规则可看作是优化铁总数据库负荷的调节因子。

2、数学建模:

2.1、EMIS铁总数据库负荷Load: L(0)、L(1)、……、L(i)、……、L(23),其中0表示一天时段的第0个子时段,即凌晨0点到1点这个子时段;23表示一天的第23个子时段,即23点到24点这个子时段。L(i)表示EMIS铁总数据库在第i个时段的负荷。本专利所述的“动车组管理信息系统(EMIS)”配套有一个按24个子时段监测铁总数据库负荷的系统。本发明具体实施例中分为24个子时段,但本发明不限于此,还可以采用其他数量的时段。

2.2、数据源Data: D(1)、D(2)、……、D(j)、……、D(n)。在本专利所述的“动车组管理信息系统(EMIS)”中,为了便于优化传输,将第二层或第三层同类的多个节点合并,抽象成一个逻辑上的大节点,这是第一层抽象。比如,将第二层的25个段级节点合并,抽象成一个逻辑上的大段级节点。因为我们的程序已优化为在这25个段级节点中同时产生某类数据,并同时上传。所以,对于最上层的中心节点来说,在优化传输的逻辑上就相当于一个段级节点产生该类数据并上传。即,每个段级节点产生1份某类数据,对于最上层的中心节点来说,就相当于一个逻辑上的大段级节点产生25份该类数据;同理,将第三层的67个所级节点合并,抽象成一个逻辑上的大所级节点;同理,将第三层的7个高级修节点合并,抽象成一个逻辑上的大高级修节点;可只考虑从最上层中心节点、逻辑上的大段级节点、逻辑上的大所级节点、逻辑上的大高级修节点抽象出的前n个传输数据量最大的数据源,这是第二层抽象。为便于优化,可将抽象出来的第j个数据源D(j)所需传输的数据量进一步抽象为在这n个数据源中的排序,这是第三层抽象。若D(j)=1,则表明可以较大概率置信第j个数据源D(j)所需传输的数据量在这n个数据源中是最大的,即,排序为1;若D(j)=n,则表明可以较大概率置信第j个数据源D(j)所需传输的数据量在这n个数据源中是最小的,即,排序为n。由于第j个数据源D(j)所需传输的数据量一般都是在变化的,因而在根据第j个数据源D(j)所需传输的数据量来设定第j个数据源D(j)的权重W(j)时,会有个系数,比如Kd(j),来进行修正。但本发明所述的“动车组管理信息系统(EMIS)”配套有一个监测各节点传输量的系统,第j个数据源D(j)所需传输的数据量的变化量不会太频繁,太大,因而,一般也不需要频繁,大幅度地调节系数Kd(j)。

2.3、数据源的重要性Significance: S(1)、S(2)、……、S(j)、……、S(n)。在本专利所述的“动车组管理信息系统(EMIS)”中,同类节点的业务也是同类的,因而同类节点的各类业务的重要性都是相同的。比如,第1个段级节点的数据源1(对应业务1)若最重要,则第2、……、7个段级节点的数据源1(对应业务1)也都是最重要的。第1个段级节点的数据源3(对应业务3)若最不重要,则第2、……、7个段级节点的数据源3(对应业务3)也都是最不重要的;则上述抽象出的第j个数据源的重要性S(j)与业务j密切相关。业务j越重要,则S(j)越大;业务j越紧急,则S(j)也越大;业务j越不重要,则S(j)越小;业务j越不紧急,则S(j)也越小;为便于优化,可将抽象出来的第j个数据源D(j)的重要性S(j)进一步抽象为在这n个重要性中的排序,这是第三层抽象。若S(j)=1,则表明D(j)最重要;若S(j)=n,则表明D(j)最不重要;与D(j)一样,S(j)也是设定第j个数据源的权重W(j)的因素之一。而且也有一个系数Ks(j)来修正S(j),因为S(j)也不是固定不变的。但根据长期的观测,第j个数据源D(j)的重要性S(j)的变动不会太频繁太大,因而,一般也不需要频繁,大幅度地调节系数Ks(j)。

2.4、数据源的时敏性Time Sensitivity: TS(1)、TS(2)、……、TS(j)、……、TS(n)。若TS(j)=2,则表示数据源D(j)必须在2时段传输;若TS(j)=23,则表示数据源D(j)必须在23时段传输;若数据源D(j)可在任意时段传输,则在数学模型上可将其定义为TS(j)<0,即没有时敏性。

2.5、数据源的权重Weight:W(1)、W(2)、……、W(j)、……、W(n)。W(j)表示第j个数据源的权重。一般来说,若第j个数据源D(j)的重要性S(j)较大,则第j个数据源D(j)的权重W(j)可设为较大。但不一定,因有可能第j个数据源D(j)的重要性S(j)并不大,但需要传输的数据量非常大,因而也需要将第j个数据源D(j)的权重W(j)设为较大。与D(j)一样,权重W(j)也可抽象为排序。若W(j)=1,则表明,根据经验,可以较大概率置信第j个数据源D(j)的权重W(j)在这n个数据源中是最前的,即,排序为1;若W(j)=n,则表明,根据经验,可以较大概率置信第j个数据源D(j)的权重W(j)在这n个数据源中是最后的,即,排序为n。

2.6、接口服务器会根据要下传的文件生成一个调度文件。调度文件本质上是文本文件,包含Tracker信息和文件信息两部分。Tracker信息主要是转发时需要用到的各段级服务器的地址和针对这些服务器的必要设置。文件信息是根据对下传文件按一定的校验算法计算生成的。接口服务器只需将某文件下传到其中一个段级服务器,而不是所有的段级服务器。然后由该段级服务器将接收到的该文件转发到其下的运用所、高级修服务器和其它段级服务器。其它段级服务器再将接收到的该文件转发到其下的运用所、高级修服务器和其它更多段级服务器。这就相当于裂变反应。比如,1个传给2个,2个传给4个,4个传给8个,......。或者,1个传给3个,3个传给9个,9个传给27个,......。这样一来,传输量就可极大减少,传输时间极大缩短。不但传输效率大幅提高,铁总数据库服务器和铁总接口服务器的负荷也大幅减轻了。总之,一对多传输转换为了多对多传输。段级中间节点相当于一个三通阀一样,将自上而下的传输分流为同级的平行传输。

2.7、对相似信息的传输。我们的业务导致了数据库中的某些表的各行之间非常相似。即,每一行都有很多字段(相当于列),比如有几十个字段,但字段数相等,且只有一个或几个字段的内容与下一行有差异。若采用我们的文本文件传输方式,则转换成文本文件后,就是文本文件中每一行与下一行长度相等,但两行之间只有少数几个字符不同。所以,第i行可以整行传输,但第i+1行只需传输与第i行不同的那一个或几个字段。同理,第i+2行也只需传输与第i+1行不同的那一个或几个字段,依此类推,......。这样一来,传输量就可大幅减少。不但传输效率提高了,铁总数据库服务器和铁总接口服务器的负荷也减轻了。接收端根据接收到的第i行,以及i+1行与第i行不同的那一个或几个字段,第i+2行与第i+1行不同的那一个或几个字段,依此类推,......,最终恢复出所有行。更进一步,可以采用二进制文件传输。因为即使是有差异的字段,也只有很小部分有差异。比如,某个字段存储几十位长的序列号,但该字段的各行其实只有个位不同,而其它几十位全部相同。转化成二进制文件并将第i+1行与第i行异或后,则第i+1行一个几百位长的二进制串,其实只有一位或几位与第i行不同。

3.本发明的可抽象成如下优化问题:

3.1 已知EMIS某天的各L(i)、D(j)、S(j)、TS(j),i=0、1、……、i、……、23,表示一天的24个时段;j=0、1、……、j、……、n,n是上文抽象出的前n个数据传输量最大的数据源,D(j)表示数据传输量排第j位的数据源,求如何设定第j个数据源的权重W(j),使得本专利优化后的EMIS铁总数据库负荷L'(0)、L'(1)、……、L'(i)、……、L'(23),具有如下特性:[|L'(0)-μ|+|L'(1)-μ|+……+|L'(i)-μ|+……+|L'(23)-μ|]要小于或等于预设负荷不均衡度量值,尽可能小,且[L'(0)+L'(1)+……+L'(i)+……+L'(23)]小于或等于预设总负荷量,也尽可能小。其中,L'(0)是经本专利优化后的0时段的负荷;L'(i)是经本专利优化后的i时段的负荷;L'(23)是经本专利优化后的23时段的负荷。

显然,若L'(0)=L'(1)=……=L'(23)=μ,其中μ是一天当中某个时段的平均负荷,即μ=[L(0)+L(1)+……+L(i)+……+L(23)]/24,则[|L'(0)-μ|+|L'(1)-μ|+……+|L'(i)-μ|+……+|L'(23)-μ|]肯定最小,而且为零。当然,这只是理想情况,现实中几乎不可能做到各时段负荷在经本专利优化后能完全一致。所以,本发明的现实目标是削峰填谷,均匀化EMIS铁总数据库在各时段的负荷,使得原本差异很大的各时段负荷在经本专利优化后能尽量一致。从贫富分化优化为共同富裕。现实目标是[|L'(0)-μ|+|L'(1)-μ|+……+|L'(i)-μ|+……+|L'(23)-μ|]要尽可能小,其中|L'(i)-μ|表示L'(i)与μ之差的绝对值,即,L'(i)偏离μ的程度。若为了加快优化的速度,绝对值可改为平方。但这可能导致优化过程中的振荡加剧。必须指出:不管是[|L'(0)-μ|+|L'(1)-μ|+……+|L'(i)-μ|+……+|L'(23)-μ|],还是{[L'(0)-μ]2+[L'(1)-μ]2+……+[L'(i)-μ]2+……+[L'(23)-μ]2},此时的[L'(0)+L'(1)+……+L'(i)+……+L'(23)]不一定最小,只能是接近最小。但由于对各时段负荷削峰填谷了,因而对EMIS铁总数据库负荷的冲击会大幅降低,EMIS铁总数据库就能以较大置信概率在接近于最优负荷的状态下平稳运行。最大限度地优化传输和负荷的不均衡水准。不但能减少传输中断的可能,还能减少EMIS铁总数据库发生其它故障的概率。并且也能节约硬件投资,提高了投资效费比。

3.2确定权重W(j)的几个基本步骤如下:

1、当TS(j)=p>0时,则对于第j个数据源D(j),在第p个时段,W(j)应尽量大,在其它时段,则W(j)=0;第j个数据源D(j)必须在第p个时段传输,或在第p个时段邻近的时段传输。但根据长期观测,TS(j)=p>0的数据源占比较小。即使某个业务产生的数据源具有时敏性,但往往只是该数据源中的小部分具有时敏性,可将不具有时敏性的大部分数据拆分出来,形成一个不具有时敏性的新数据源。

2、当TS(j)<第一时敏预定参数=0时,则对于第j个数据源D(j),若S(j)大,则W(j)应尽量大;若d(j)大,则W(j)应尽量大;所以,可令W(j)=Ks(j)*S(j)+Kd(j)*d(j),Ks(j)为S(j)的系数,Kd(j)为d(j)的系数,d(j)为第j个数据源D(j)的文件长度系数。Ks(j)和Kd(j)初值可为定值,比如都为1。但随着迭代的进行,Ks(j)和Kd(j)会趋向优化值。

3、当TS(j

4、当TS(j

5、当TS(j

6、当TS(j

7、当TS(j

概言之,权重最大的数据源应安排在负荷最小的时段最先传输,权重最小的数据源可随机安排在负荷比较小的时段最后传输。这本质上是一个反复迭代的过程,迭代周期是一天,且W(j)的初始排序应尽量与L(i)倒数的排序一致。也就是说,若第一次迭代前L(i)的由大到小的排序是 L(23)、L(22)、……、L(i)、……、L(0),则L(i)倒数的由大到小的排序是 1/L(0)、1/L(1)、……、1/L(i)、……、1/L(23),即第一次迭代前,0时段的负荷L(0)的排序=23,排序在最后,负荷最小;23时段的负荷L(23)的排序=1,排序在最先,负荷最大。则权重为W(1)、W(2)、……、W(j)、……、W(n)的数据源D(1)、D(2)、……、D(j)、……、D(n)在第一次迭代中安排传输的初始时段可为:0、1、……、i、……、23。也就是说,权重最大的数据源D(1)可初始安排在负荷最小的0时段最先传输,权重最小的数据源D(n)可初始安排在负荷最大的23时段最后传输。注意:n往往大于23,因而在同一个时段上可能会安排多个数据源进行传输。第二天,即经过一个迭代周期后,计算优化后的负荷L'(0)、L'(1)、……、L'(i)、……、L'(23)是否合理,即,L'(i)的由大到小的排序不一定再是L'(23)、L'(22)、……、L'(i)、……、L'(0),[|L'(0)-μ|+|L'(1)-μ|+……+|L'(i)-μ|+……+|L'(23)-μ|]可能变小。再根据第一次优化后的负荷L'(0)、L'(1)、……、L'(i)、……、L'(23)调整各数据源安排传输的时段,在第三天得到第二次迭代优化后的负荷L''(0)、L''(1)、……、L''(i)、……、L''(23)。有时可能会发现,第一天负荷较小的时段在第二天就变成了负荷较大的时段,反之亦然。因为,可能把过多的数据源调整到原本负荷较小的时段传输,结果导致原本负荷较小的这个时段陡然变成了负荷较大的时段。所以,这是一个反复迭代的优化过程。第n+1天的传输时段安排必须根据第n天的反馈回来的实际负荷来调整,第n+2天的传输时段安排必须根据第n+1天反馈回来的实际负荷来调整,以此类推,…… 。但根据经验,这是个收敛的迭代过程。即,经过若干次迭代后,[|L'(0)-μ|+|L'(1)-μ|+……+|L'(i)-μ|+……+|L'(23)-μ|]就会大幅下降,但下降斜率会逐渐平缓,并且[L'(0)+L'(1)+……+L'(i)+……+L'(23)]也会有所下降。这主要是因为,削峰填谷优化后,各时段负荷比较均匀,因而传输出错的概率下降了,重传的概率相应下降了,因而降低了总传输量,进一步优化了传输,形成良性循环。

上述反复迭代的优化过程,可手动实现,也可自动实现,但进行少量必要的人工干预。推荐用后一种方式。

7、“动车组管理信息系统(EMIS)”的25个段级节点、67个运用所节点、7个高级修节点,可抽象为99个目的地。铁总接口服务器原来须将同一个文件下传到99个目的地,现在则只需下传到1个。若某文件下传到第1个目的地所需的时间为t

9、若对相似信息的传输采用二进制文件传输,则最终需传输的其实是个二进制流,而且该二进制流当中绝大部分比特都是0,只有极少数为1。简约数学模型如下:转化成二进制文件后,第i行和第i+1行都有n个二进制值,但第i+1行只有m

第二方面,本申请实施例提供了一种动车分布式大数据传输优化系统100,应用于包括铁总中心节点、及连接于铁总中心节点的多个段级中间节点及多个所级节点的动车组管理信息系统,采用如上任意一项动车分布式大数据传输优化方法,如图3所示,包括:

数据源合集生成模块10:用于在一时段内,将多个段级中间节点及多个所级节点的所有运维数据按照数据文件长度排序,选取其中数据文件长度大于预设长度的多个选定数据源,生成数据源合集;

数据库负荷监测模块20:用于将时段划分为多个子时段,计算并监测各个子时段内的铁总中心节点的数据负荷;

权重优化迭代模块30:用于基于选定数据源的时敏性参数取值范围,通过辅助系数分别动态调节各个选定数据源的重要度参数及文件长度系数,计算各个选定数据源的权重值;

数据传输优化模块40:用于基于各个选定数据源的权重值,动态调整选定数据源的上传或下传传输顺序,对各个子时段的数据负荷进行优化,重复执行权重优化迭代步骤,直到优化后的数据负荷满足最优负荷模型,实现对各个子时段的数据负荷削峰填谷,满足分布式大数据的最优化传输。

第三方面,本申请实施例提供了一种服务器设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述动车分布式大数据传输优化方法。

另外,结合图1描述的本申请实施例的动车分布式大数据传输优化方法可以由服务器设备来实现。图4为根据本申请实施例的服务器设备的硬件结构示意图。

计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图4所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述的动车分布式大数据传输优化方法。

相比于现有技术,本发明能够从源头上优化了分布式“动车组管理信息系统(EMIS)”的大数据传输,具有一定的普适性。随着大型甚至超大型分布式系统越来越多,数据传输,尤其是大数据的传输,具有越来越重要的地位,难度也越来越大。因为大型分布式系统的数据源往往跨地域,跨平台,成分复杂,且往往在时间分布上很不均衡。如果不从源头上去优化大数据传输,往往事倍功半,效果欠佳。比如,由于传输效率较差,因而传输出错概率增加,重传概率增大,进一步加大了传输量,加剧了传输拥堵,降低了传输效率,反过来进一步增加了重传概率,陷入恶性循环。本发明的核心思路就是利用数据本身的特性,将这些特性抽象成权重来优化自身的传输。总之,利用数据本身的规律来优化自身的传输。分布式系统的硬件、带宽、容量、算力等的增长总也赶不上数据量的增长。而且很多情况下,受限于各种现实制约,硬件、带宽、容量、算力等的增长很快就接近了天花板。另外,分布式系统的拓扑结构往往更是难以改变。因而,利用数据本身的特性来优化数据自身的传输就是一个事半功倍的优化策略,能大幅降低陷入恶性循环的概率,并且某种程度上能在不增加投资的情况下实现小马拉大车。这种优化策略适用于大多数分布式系统,因而具有较大的普适价值。本发明为数据贯通提供了技术支撑,这种数据贯通对于很多分布式系统都是有益的。比如,有利于业务整合和挖掘,有利于实现对整机的设计、制造、运用、检修全寿命周期产品技术状态数据的一站式汇集,有利于实现零部件设计、制造、运用、检修等全链条造修数据贯通,有利于及时掌握整机及部件可靠性水平和故障发展规律及趋势,对于推进装备数字化精准检修、深化修程修制改革具有非常重要的意义。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 动车分布式大数据传输优化方法、系统、设备及介质
  • 消息传输方法、分布式系统、设备、介质和无人车
技术分类

06120114689066