掌桥专利:专业的专利平台
掌桥专利
首页

传染病监测预警方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 19:28:50


传染病监测预警方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域,尤其涉及一种传染病监测预警方法、装置、电子设备和存储介质。

背景技术

我国传染病监测预警体制和技术在自动化、信息化、智能化及知识化程度存在不足,对传染病的监测预警相对滞后。现有技术中基于深度学习的CALI-Net监测预警方法的提出只针对单一传染病的改善,不足以适应更多传染病及突发公共卫生事件的预测。

发明内容

本发明提供一种传染病监测预警方法、装置、电子设备和存储介质,用以解决现有技术中传染病监测预警相对滞后、只针对单一传染病的改善,不足以适应更多传染病及突发公共卫生事件的预测的问题。

本发明提供了一种传染病监测预警方法,包括:

获取用于传染病监测的多源数据;

对所述多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据;

确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

在一些实施例中,所述确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据,包括:

将所述处理后的多源数据输入传染病监测预警模型,得到所述多源数据对应的区域内的传染病序列数据;

其中,所述传染病监测预警模型为通过对历史传染病趋势知识进行迁移学习得到的学生模型,所述历史传染病趋势知识是基于老师模型确定的。

在一些实施例中,所述老师模型的训练过程,包括:

获取历史病例数据,对所述历史病例数据进行症状信息提取和症候群映射处理,得到处理后的历史病例数据;

基于所述处理后的历史病例数据,构建本地序列和所有序列的检索数据对;

对所述本地序列和所有序列的检索数据对进行深度聚类映射运算,并确定聚类损失、重构损失和映射损失,基于所述聚类损失、重构损失和映射损失对所述老师模型进行迭代优化。

在一些实施例中,所述对所述本地序列和所有序列的检索数据对进行深度聚类映射运算,并确定聚类损失、重构损失和映射损失,基于所述聚类损失、重构损失和映射损失对所述老师模型进行迭代优化,包括:

将所述本地序列输入至第一编码器,得到所述本地序列对应的隐层编码,将所述所有序列输入至第二编码器,得到所述所有序列对应的隐层编码;

将所述本地序列对应的隐层编码输入第一解码器,得到所述本地序列对应的重构序列,将所述所有序列对应的隐层编码输入第二解码器,得到所述所有序列对应的重构序列;

基于所述本地序列对应的隐层编码,确定第一聚类损失,基于所述所有序列对应的隐层编码,确定第二聚类损失;

基于所述本地序列对应的重构序列,确定第一重构损失,基于所述所有序列对应的重构序列,确定第二重构损失;

基于映射器,对所述本地序列对应的隐层编码和所述所有序列对应的隐层编码进行映射,确定映射损失;

基于所述第一聚类损失、第二聚类损失、第一重构损失、第二重构损失和所述映射损失,对所述老师模型进行迭代优化。

在一些实施例中,所述传染病监测预警模型的训练过程包括:

将多源数据样本与区域编码进行融合,得到融合后的序列,并对所述融合后的序列进行特征提取,得到特征隐层编码,所述特征隐层编码用于表征所述多源数据样本的潜在关联关系;

基于预先建立的区域图,获取拉普拉斯正则化项,所述拉普拉斯正则化项用于引入空间约束;

将所述老师模型和学生模型的隐层各自分别由s模块和t模块转换,使得老师模型和学生模型的隐层被整合到公共特征空间,得到公共特征;

基于所述特征隐层编码、拉普拉斯正则化项和公共特征,确定异构知识迁移损失,基于所述异构知识迁移损失对所述学生模型进行迭代优化,得到所述传染病监测预警模型。

在一些实施例中,所述异构知识迁移损失,包括:所述老师模型的预测损失、所述老师模型和所述学生模型的预测值偏差损失、所述老师模型和所述学生模型隐层的偏差损失、所述拉普拉斯正则化项、区域编码的隐层重构损失、所述老师模型的s模块的隐层重构损失。

在一些实施例中,所述方法还包括:

对所述多源数据对应的区域内的传染病序列数据进行标注,以输出所述传染病序列数据对应的起止时间和解释说明。

本发明还提供一种传染病监测预警装置,包括:

多源数据获取单元,用于获取用于传染病监测的多源数据;

处理单元,用于对所述多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据;

监测预警单元,用于确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的传染病监测预警方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的传染病监测预警方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的传染病监测预警方法。

本发明提供的传染病监测预警方法、装置、电子设备和存储介质,通过对多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据;确定历史传染病趋势知识,以及处理后的多源数据的潜在关联关系,处理后的多源数据的潜在关联关系,能够捕捉不同区域或不同传染病表现的空间相关性,然后基于历史传染病趋势知识和处理后的多源数据的潜在关联关系,预测得到多源数据对应的区域内的传染病序列数据,本发明实现了对多种不同传染病的及时监测预警,提高对传染病进行监测预警的适应性和准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一个实施例提供的传染病监测预警方法的流程示意图;

图2为本发明实施例提供的传染病监测预警模型的训练过程示意图;

图3为本发明一个实施例提供的BDEC算法的示意图;

图4为本发明一个实施例提供的传染病监测预警模型的训练流程示意图;

图5为本发明一个实施例提供的传染病监测预警装置的结构示意图;

图6为本发明一个实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。

现有技术中基于深度学习的CALI-Net监测预警方法,其主要缺陷包括:区域图构建单一,只针对医疗机构进行构建;预测及时较差,模型以周统计值为单位,因此预测及时性要滞后很多;老师模型固定窗口,对不同传染病的适应性不友好;模型只为每个窗口数据做标准化,不能很好地兼容规模不同的机构;只能上线传染病数据的预测,无法标注传染病的开始、持续、结束时间;模型预测结果可解释性差。

针对现有技术的缺陷,本发明提供了一种传染病监测预警方法、装置、电子设备和存储介质,下面结合图1-图6,对本发明进行描述。

图1为本发明一个实施例提供的传染病监测预警方法的流程示意图。如图1所示,该方法包括以下步骤:步骤100、步骤101和步骤102。该方法流程步骤仅仅作为本发明一个可能的实现方式。

步骤100、获取用于传染病监测的多源数据。

本发明实施例中用于传染病监测的多源数据,包括:等级医院的病例资料、基层医疗机构的病例资料、气象因素数据、实验室数据、学校晨午晚检数据、药店购药数据、社交媒体的病情记录数据等。

本发明获取的多源数据覆盖范围较广,例如,可以覆盖到某省全省1000余家医疗机构的5年数据、2500余家学校、4000余家药店、以及10余家等级医院的1年数据。通过获取多个机构的相关数据,使得用于传染病监测的数据来源不再单一,从而可以实现对多种不同传染病的及时监测预警,同时可以提升传染病监测预警的准确性。

步骤101、对所述多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据。

可选地,首先通过医学文本结构化技术完成对多源数据的结构化处理,然后提取多源数据中的症状信息,若提取的一个病例数据中的症状信息为发热,同时与发热伴随的症状信息包括:干咳、腹泻、全身症状、皮疹、脑膜炎等。进一步地,将多源数据的症状信息归属到预先建立的传染病症候群体系中的传染病症候群。

可选地,根据专业资料梳理和专家审核,构建传染病症候群体系。所述传染病症候群体系,包括:发热伴呼吸道症候群、发热伴肠道症候群、发热伴全身症状症候群、发热伴皮疹症候群、发热伴脑膜炎症候群、其他发热症候群。

例如,将提取的多源数据的发热且干咳症状进行映射处理,映射到发热伴呼吸道症候群;将提取的多源数据的发热且腹泻症状进行映射处理,映射到发热伴肠道症候群;将提取的多源数据的发热且存在全身症状进行映射处理,映射到发热伴全身症状症候群;将提取的多源数据的发热且存在皮疹症状进行映射处理,映射到发热伴皮疹症候群等;将提取的多源数据的发热且存在脑膜炎症状进行映射处理,映射到发热伴脑膜炎症候群;将提取的多源数据的发热且存在其他非常见症状进行映射处理,映射到发热伴其他症候群等,从而得到映射处理后的多源数据,从而实现对不同传染病进行监测预警,提高对传染病进行监测预警的适应性。

步骤102、确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

可选地,所述历史传染病趋势知识包括:所述症候群历史趋势、季节性高峰时间、季节性高峰强度、未来发病概率。

所述处理后的多源数据的潜在关联关系,能够捕捉不同区域或不同传染病表现的空间相关性。

然后,基于历史传染病趋势知识和处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

在本发明实施例中,通过对多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据;确定历史传染病趋势知识,以及处理后的多源数据的潜在关联关系,处理后的多源数据的潜在关联关系,能够捕捉不同区域或不同传染病表现的空间相关性,然后基于历史传染病趋势知识和处理后的多源数据的潜在关联关系,预测得到多源数据对应的区域内的传染病序列数据,本发明实现了对多种不同传染病的及时监测预警,提高对传染病进行监测预警的适应性和准确性。

需要说明的是,本发明每一个实施方式可以自由组合、调换顺序或者单独执行,并不需要依靠或依赖固定的执行顺序。

在一些实施例中,所述确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据,包括:

将所述处理后的多源数据输入传染病监测预警模型,得到所述多源数据对应的区域内的传染病序列数据;

其中,所述传染病监测预警模型为通过对历史传染病趋势知识进行迁移学习得到的学生模型,所述历史传染病趋势知识是基于老师模型确定的。

图2为本发明实施例提供的传染病监测预警模型的训练过程示意图。如图2所示,构建老师模型(Teacher模型)和学生模型(Student模型)。

老师模型用于基于历史病例数据,学习历史传染病趋势知识,通过对历史传染病趋势知识进行迁移学习,得到学生模型。

参考图2,将处理后的历史病例数据输入老师模型中的聚类模型后进行映射处理,并输入老师模型中的循环神经网络(Recurrent Neural Network,RNN)后进行分类处理,将映射处理后得到的数据序列和分类处理后得到的数据序列进行融合,输出历史传染病趋势知识。

参考图2,将处理后的多源数据与区域编码进行融合,并将融合后的数据序列输入学生模型的门循环单元(Gate Recurrent Unit,GRU)网络,结合预先构建的多源数据对应的区域图,确定拉普拉斯正则化项。

将老师模型的隐层通过s模块(source模块)转换,将学生模型的隐层通过t模块(target模块)转换,使得Teacher模型和Student模型的隐层被整合到公共特征空间实现知识共享,从而可以将历史传染病趋势知识有效地从老师模型单向转移到学生模型。

老师模型经过训练后可以得到历史传染病趋势知识,包括症候群历史趋势、季节性高峰时间、季节性高峰强度、未来发病概率。

传染病监测预警模型是通过对学生模型进行历史传染病趋势知识的迁移学习得到的模型。传染病监测预警模型的预测结果可以以每一个机构为单位,而不仅仅是单点预测,且预测时间可以精确到天。

将所述处理后的多源数据输入传染病监测预警模型,确定历史传染病趋势知识,以及所述处理后的多源数据的空间关联关系。基于历史传染病趋势知识,以及所述处理后的多源数据的空间关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

在本发明实施例中,通过将所述处理后的多源数据输入传染病监测预警模型,得到所述多源数据对应的区域内的传染病序列数据,实现了对多种不同传染病的及时监测预警,提高对传染病进行监测预警的适应性和准确性。

在一些实施例中,所述老师模型的训练过程,包括:

获取历史病例数据,对所述历史病例数据进行症状信息提取和症候群映射处理,得到处理后的历史病例数据;

基于所述处理后的历史病例数据,构建本地序列和所有序列的检索数据对;

对所述本地序列和所有序列的检索数据对进行深度聚类映射运算,并确定聚类损失、重构损失和映射损失,基于所述聚类损失、重构损失和映射损失对所述老师模型进行迭代优化。

可选地,从某平台获取到5年以上历史病历数据,以卫生院为单位,通过医学文本结构化技术完成病历结构化及症状信息提取和症候群映射处理。为避免不同机构数据规模造成的影响,为每个机构单独构建定标器进行数据标准化,最终得到所有卫生院的每日症候群统计数据。

其中,医学文本结构化技术为现有技术,在此不再赘述。

可选地,本地序列(Local Sequence,简称Local序列)是一个预设时间窗口内的时序数据,例如,Local序列一个月内的时序数据,所有序列(ALL Sequence,简称ALL序列)在Local序列上根据不同传染病增加合理的传染病周期天数,例如,ALL序列是一个季节的时序数据。

对历史数据以天为单位按月划分时间窗口,Local序列为滞后29天的病历数据,ALL序列在Local序列上根据不同传染病增加合理的传染病周期天数,从而构建Local序列和ALL序列的检索数据对。例如,流感的周期天数通常为3天,流感对应的ALL序列需要在Local序列的基础上再增加3天。再例如,诺如病毒的周期天数为7天,诺如病毒对应的ALL序列需要在Local序列的基础上再增加7天。取代固定窗口聚类思想,采用灵活窗口,为不同传染病定制化训练,效果更精准。

构建本地序列和所有序列的检索数据对之后,对所述Local序列和ALL序列的检索数据对进行深度聚类映射运算,并确定聚类损失、重构损失和映射损失,基于所述聚类损失、重构损失和映射损失对所述老师模型进行迭代优化。

可选地,采用双层深度嵌入式聚类(Bilayer Deep Embedded Clustering,BDEC)对所述Local序列和ALL序列的检索数据对进行深度聚类映射运算,用于为输入的Local序列匹配到最相似的ALL序列,从而“借鉴”ALL序列的趋势信息。

BDEC是基于深度嵌入式聚类(Deep Embedded Clustering,DEC)算法的改进,DEC算法可实现对序列数据的深度聚类运算,DEC算法丢弃解码器层,并使用聚类损失Lc对编码器进行微调。这种微调会影响到向量化(embedding),削弱特征的表达,进而影响聚类效果。BDEC则坚持使用解码器层,将聚类损失和重构损失的加和作为单元损失。另外,为实现Local序列和ALL序列的检索数据对的正确映射,BDEC首先分别对Local序列和ALL序列构建了改进的DEC结构,例如自编码器结构分别为[Local_size,500,200,20],[ALL_size,500,200,20]),还在Local序列和ALL序列两者编码器的embedding之间构建了映射器mapper,例如,网络结构为[20,100,200,100,20]。图3为本发明一个实施例提供的BDEC算法的示意图。确定聚类损失、重构损失和映射损失,最终由聚类损失、重构损失、映射损失的加和作为损失函数L,基于所述聚类损失、重构损失和映射损失对所述老师模型进行迭代优化。下面给出损失函数L的具体计算公式:

L = Lr1 + Lr2 + γLc1 + γLc2 +θLm(1)

其中,公式(1)中的Lr1为Local序列的重构损失,Lr2为ALL序列的重构损失,Lc1、Lc2分别为Local序列和ALL序列的相对熵作为聚类损失,Lm为映射损失,γ、θ为权重控制系数;

公式(2)中的xi为Local序列,gw′(z)为解码器的输出,gw(z)为解码器函数,z

公式(3)中的KL(P//Q)是KL散度,q

公式(4)中的fw(x)为编码器函数,i和n为各层神经元,x

在本发明实施例中,通过对本地序列和所有序列的检索数据对进行深度聚类映射运算,并确定聚类损失、重构损失和映射损失,基于聚类损失、重构损失和映射损失对老师模型进行迭代优化,在DEC的基础上,对Local-ALL序列构建双层自编码器,并对Local-ALL的隐层构建映射器,还将映射误差MSE纳入模型优化的损失函数中,使深度时空序列聚类更合理,可以实现对历史传染病趋势知识的较好学习,老师模型为所有纳入的机构构建单独的标准化,并对模型各项损失进行归一化处理,能够很好地兼容规模不同的机构,避免因大机构病历较多而掩盖了小机构的传染病事件。

在一些实施例中,所述对所述本地序列和所有序列的检索数据对进行深度聚类映射运算,并确定聚类损失、重构损失和映射损失,基于所述聚类损失、重构损失和映射损失对所述老师模型进行迭代优化,包括:

如图3所示,将所述本地序列(Local Sequence)输入至第一编码器,得到所述本地序列对应的隐层编码Z1,将所述所有序列(ALL Squence)输入至第二编码器,得到所述所有序列对应的隐层编码Z2;

将所述本地序列对应的隐层编码Z1输入第一解码器,得到所述本地序列对应的重构序列,将所述所有序列对应的隐层编码Z2输入第二解码器,得到所述所有序列对应的重构序列;

基于所述本地序列对应的隐层编码Z1,确定第一聚类损失,基于所述所有序列对应的隐层编码Z2,确定第二聚类损失;

基于所述本地序列对应的重构序列,确定第一重构损失,基于所述所有序列对应的重构序列,确定第二重构损失;

基于映射器(Mapper),对所述本地序列对应的隐层编码Z1和所述所有序列对应的隐层编码Z2进行映射,确定映射损失;

基于所述第一聚类损失、第二聚类损失、第一重构损失、第二重构损失和所述映射损失,对所述老师模型进行迭代优化。

利用训练完成的老师模型进行预测的步骤包括:对待预测序列使用长短时记忆网络(Long Short-Term Memory networks,LSTM)构建的编码器对其进行编码,再合并BDEC对Local序列的映射编码一起解码,输入最后构建的回归预测器(例如,网络结构为[40,20,20,20,20,1]),通过预测值MSE迭代优化,得到的老师模型预测结果,可以理解,老师模型的预测结果为历史传染病趋势知识,用于指导学生模型进行预测。

在本发明实施例中,详细描述了老师模型的训练过程,对待预测序列使用LSTM网络构建的编码器对其进行编码,再合并BDEC对Local序列的映射编码一起解码,输入最后构建的回归预测器,通过预测值MSE迭代优化,经过迭代优化后的老师模型可以更好地指导学生模型完成传染病监测预警,提升传染病监测预警的准确性和及时性。

图4为本发明一个实施例提供的传染病监测预警模型的训练流程示意图。如图4所示,在一些实施例中,所述传染病监测预警模型的训练过程包括:步骤400、步骤401、步骤402和步骤403。

步骤400、将多源数据样本与区域编码进行融合,得到融合后的序列,并对所述融合后的序列进行特征提取,得到特征隐层编码,所述特征隐层编码用于表征所述多源数据样本的潜在关联关系。

可选地,对所有机构的多源数据样本做onehot编码,将其经过一个自编码器(例如网络结构为[org_size,16,32]),将该自编码器生成的隐层编码与编码后的多源数据样本进行融合,通过门循环单元(Gate Recurrent Unit,GRU)网络(例如,网络结构为[input_size,46,32],num_layers=2)及三层全连接层构建特征隐层编码(网络结构为[32,32,32,1]),为下一步完成老师模型和学生模型之间的异构知识迁移做准备。

GRU网络是RNN网络的一种,用于解决长期记忆和反向传播中的梯度等问题。

步骤401、基于预先建立的区域图,获取拉普拉斯正则化项,所述拉普拉斯正则化项用于引入空间约束;

可选地,区域图的构建过程如下:

获取所有目标机构的地址(经纬度),同时查询数据库获取所有机构的所属街道信息;

采用聚类算法Kmeans,对基层医疗机构做聚类运算,划分出区域,对聚类后存在交集的区域,按所属街道调整区域划分;并配置文件,用于存储机构和区域的编码,在接口调用过程中使用。

锁定基层医疗机构的区域编码后,对于其他多源机构(如药店、学校等),其区域编码根据所在街道归类到对应的基层医疗机构区域;机构编码则依次添加到基层医疗机构编码之后。

考虑模型的扩展性和兼容性,在各类机构的末位单独预留未知机构编码位。同时生成所有机构到区域的编码映射,即建立机构编码与区域编码之间的映射关系。

可选地,基于拉普拉斯图约束的传染病空间学习,考虑传染病发生在某一区域内可能存在一定的空间关联性,使用拉普拉斯正则化引入空间约束,捕捉不同区域或不同传染病表现很强的空间相关性,并联合预测区域传染病结果。

拉普拉斯图约束构建过程:本发明为目标区域机构构建了关联关系图,采用区域图G(V,E)进行表达,其中V(顶点)表示机构的数量,E表示顶点之间的边,再将该关系图用邻接矩阵A表达,把邻接矩阵A的每一列元素加起来得到N个数,然后放在对角线上(其它地方都是零),组成一个N×N的对角矩阵,记为度矩阵D,度矩阵D表示原图中每个点的度数,即由该点发出的边之数量。其拉普拉斯矩阵即为L=D-A,再经转换后得到正则化的拉普拉斯矩阵,如公式(5)所示:

L

步骤402、将所述老师模型和学生模型的隐层各自分别由source模块和target模块转换,使得老师模型和学生模型的隐层被整合到公共特征空间,得到公共特征。

可选地,参考图2,老师模型和学生模型的隐层各自分别由source模块和target模块转换,使得老师模型和学生模型的隐层被整合到公共特征空间,以便实现知识共享,通过老师模型和学生模型隐层的MSE提示学生模型对老师模型的认同度。

步骤403、基于所述特征隐层编码、拉普拉斯正则化项和公共特征,确定异构知识迁移损失,基于所述异构知识迁移损失对所述学生模型进行迭代优化,得到所述传染病监测预警模型。

可选地,公共特征经过全连接层共享变换,通过迭代优化老师模型和学生模型各自的预测值MSE,将有关历史传染病趋势的知识有效地从target模块单向转移到source模块。

在本发明实施例中,基于特征隐层编码、拉普拉斯正则化项和公共特征,确定异构知识迁移损失,基于异构知识迁移损失对学生模型进行迭代优化,得到传染病监测预警模型,使得预测得到多源数据对应的区域内的传染病序列数据相对准确,提升传染病监测预警的准确性。

在一些实施例中,所述异构知识迁移损失,包括:所述老师模型的预测损失、所述老师模型和所述学生模型的预测值偏差损失、所述老师模型和所述学生模型隐层的偏差损失、所述拉普拉斯正则化项、区域编码的隐层重构损失、所述老师模型的Source模块的隐层重构损失。

老师模型和学生模型的异构知识迁移的损失函数如公式(6)所示:

L_t_s=L_t_p+α*(L_imit+L_hint)+β*L_lap

+λ*L_r_emb+ε*L_t_r(6)

/>

ν=Max(Ms(x

其中,公式(6)中的L_t_p是老师模型预测损失函数,L_imit是老师模型和学生模型的预测值偏差损失函数,L_hint是老师模型和学生模型的隐层的偏差损失函数,L_lap是拉普拉斯正则化项,L_r_emb是区域编码的隐层重构损失函数,L_t_r是老师模型的Source模块的隐层重构损失函数,α、β、λ、ε为各项权重系数;

公式(10)中的L_s_p是学生模型预测损失函数;

公式(11)中的

公式(12)中的ν是学生模型最大误差与最小误差的差。

在本发明实施例中,详细描述了异构知识迁移损失的组成部分,历史疫情趋势的知识通过迁移学习可以有效地从T模块单向转移到S模块,提升传染病监测预警的准确性和及时性。

在一些实施例中,所述传染病监测预警方法还包括:对所述多源数据对应的区域内的传染病序列数据进行标注,以输出所述传染病序列数据对应的起止时间和解释说明。

可选地,基于传染病监测预警模型得到的预测时序数据,包括窗口为预设天数的预测值和真实值,以及多点多源数据与区域编码融合的隐层编码。通过区域图统计,将同一个区域下所有机构的预测值、真实值和对应的隐层编码融合,一起输入标注模型,标注模型可以为LSTM+CRF(conditional random field,条件随机场),为传染病序列标注起止时间,并完成迭代优化。

由于传染病监测预警模型以区域为单位构建特征,为评估区域内引起传染病的关键机构,模型可以逐一关闭和打开区域下各个机构相关的特征,并获得一个是否为事件的概率,因此顺理成章知道区域内各机构的影响权重,从而提供结果的可解释性。

在本发明实施例中,通过对所述多源数据对应的区域内的传染病序列数据进行标注,以输出所述传染病序列数据对应的起止时间和解释说明,在完成传染病数据预测发出预警的同时,还完成传染病从开始、持续到结束时间的标注,为预测结果提供解释,明确传染病的主要来源点。

下面对本发明实施例提供的传染病监测预警装置进行描述,下文描述的传染病监测预警装置与上文描述的传染病监测预警方法可相互对应参照。

图5为本发明一个实施例提供的传染病监测预警装置的结构示意图,如图5所示,该装置500包括:

多源数据获取单元510,用于获取用于传染病监测的多源数据;

处理单元520,用于对所述多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据;

监测预警单元530,用于确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

在一些实施例中,所述确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据,包括:

将所述处理后的多源数据输入传染病监测预警模型,得到所述多源数据对应的区域内的传染病序列数据;

其中,所述传染病监测预警模型为通过对历史传染病趋势知识进行迁移学习得到的学生模型,所述历史传染病趋势知识是基于老师模型确定的。

在一些实施例中,所述老师模型的训练过程,包括:

获取历史病例数据,对所述历史病例数据进行症状信息提取和症候群映射处理,得到处理后的历史病例数据;

基于所述处理后的历史病例数据,构建本地序列和所有序列的检索数据对;

对所述本地序列和所有序列的检索数据对进行深度聚类映射运算,并确定聚类损失、重构损失和映射损失,基于所述聚类损失、重构损失和映射损失对所述老师模型进行迭代优化。

在一些实施例中,所述对所述本地序列和所有序列的检索数据对进行深度聚类映射运算,并确定聚类损失、重构损失和映射损失,基于所述聚类损失、重构损失和映射损失对所述老师模型进行迭代优化,包括:

将所述本地序列输入至第一编码器,得到所述本地序列对应的隐层编码,将所述所有序列输入至第二编码器,得到所述所有序列对应的隐层编码;

将所述本地序列对应的隐层编码输入第一解码器,得到所述本地序列对应的重构序列,将所述所有序列对应的隐层编码输入第二解码器,得到所述所有序列对应的重构序列;

基于所述本地序列对应的隐层编码,确定第一聚类损失,基于所述所有序列对应的隐层编码,确定第二聚类损失;

基于所述本地序列对应的重构序列,确定第一重构损失,基于所述所有序列对应的重构序列,确定第二重构损失;

基于映射器,对所述本地序列对应的隐层编码和所述所有序列对应的隐层编码进行映射,确定映射损失;

基于所述第一聚类损失、第二聚类损失、第一重构损失、第二重构损失和所述映射损失,对所述老师模型进行迭代优化。

在一些实施例中,所述传染病监测预警模型的训练过程包括:

将多源数据样本与区域编码进行融合,得到融合后的序列,并对所述融合后的序列进行特征提取,得到特征隐层编码,所述特征隐层编码用于表征所述多源数据样本的潜在关联关系;

基于预先建立的区域图,获取拉普拉斯正则化项,所述拉普拉斯正则化项用于引入空间约束;

将所述老师模型和学生模型的隐层各自分别由s模块和t模块转换,使得老师模型和学生模型的隐层被整合到公共特征空间,得到公共特征;

基于所述特征隐层编码、拉普拉斯正则化项和公共特征,确定异构知识迁移损失,基于所述异构知识迁移损失对所述学生模型进行迭代优化,得到所述传染病监测预警模型。

在一些实施例中,所述异构知识迁移损失,包括:所述老师模型的预测损失、所述老师模型和所述学生模型的预测值偏差损失、所述老师模型和所述学生模型隐层的偏差损失、所述拉普拉斯正则化项、区域编码的隐层重构损失、所述老师模型的s模块的隐层重构损失。

在一些实施例中,所述传染病监测预警装置500还包括:

标注单元,用于对所述多源数据对应的区域内的传染病序列数据进行标注,以输出所述传染病序列数据对应的起止时间和解释说明。

在此需要说明的是,本发明实施例提供的传染病监测预警装置,能够实现上述传染病监测预警方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图6为本发明一个实施例提供的电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行传染病监测预警方法,该方法包括:获取用于传染病监测的多源数据;对所述多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据;确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例所提供的传染病监测预警方法,该方法包括:获取用于传染病监测的多源数据;对所述多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据;确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例所提供的传染病监测预警方法,该方法包括:获取用于传染病监测的多源数据;对所述多源数据进行症状信息提取和症候群映射处理,得到处理后的多源数据;确定历史传染病趋势知识,以及所述处理后的多源数据的潜在关联关系,基于所述历史传染病趋势知识和所述处理后的多源数据的潜在关联关系,预测得到所述多源数据对应的区域内的传染病序列数据。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120115919363