掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习的个性化PEEP调节方法

文献发布时间:2023-06-19 11:49:09


基于强化学习的个性化PEEP调节方法

技术领域

本发明涉及一种基于强化学习的个性化PEEP调节方法。属于技术领域。

背景技术

呼气末正压(PEEP)是指机械通气过程中,呼吸机在吸气相产生正压,将气体压入肺内,在呼气末气道开放时,气道压力并不降为0,仍然保持一定的正压水平。合适的PEEP值能防止肺泡萎缩塌陷,扩张陷闭气泡和小气道,减轻肺泡和肺间质水肿,从而改善肺的顺应性和氧合功能。在急性呼吸窘迫综合征(ARDS)、急性肺损伤(ALI)的治疗过程中起到较为重要的作用。然而,与机械通气作为患者生命的关键支持手段相矛盾的是,机械通气本身就是有害的。过度的机械通气会导致呼吸机诱导的肺损伤(VILI)。这要求最佳PEEP的选择不仅要考虑改善氧合,还要同时避免VILI的发生。然而疾病和患者的异质性对于机械通气具有不同的反应,这使得PEEP治疗具有患者特异性。目前对于如何选择最佳PEEP仍然没有明确的金标准,优化机械通气患者的PEEP仍然是临床医生面临的一个挑战。

发明内容

本发明的目的在于克服上述不足,提供了一种基于强化学习的个性化PEEP调节方法。

本发明的目的是这样实现的:

一种基于强化学习的个性化PEEP调节方法,该方法通过构建基于患者整个机械通气过程中的生理数据的强化学习模型,强化学习模型代理根据待调节患者的生理数据推荐在下一时段内该患者的个性化PEEP水平实现个性化PEEP调节。其中,强化学习模型构建包括以下步骤:S1、收集每个患者整个机械通气过程中的生理数据序列,包括患者基本信息,临床评分、呼吸机设置值、生命体征值、血气值等构建成数据集。

S2、将收集的每个患者临床生理数据序列进行数据清洗排除异常值,并将时间序列数据的时间间隔统一,后进行缺失值插补,再进行数据归一化;

S3、构建马尔可夫框架,对于机械通气患者的个性化PEEP调节的问题,构建马尔可夫框

架,设计合适的动作空间和奖励函数;所述马尔可夫框架包括:

1)有限状态空间S:在时间t,患者将会处于状态s

2)动作空间A:在时间t,代理采取PEEP设置动作a

3)转移方程P(s

4)奖惩函数r(s

S4、以拟合Q迭代算法为核心构建强化学习模型,所述拟合Q迭代算法使用一系列的单步转换元组来学习状态-动作对的Q值,并且通过解决有监督学习问题的方式对Q值进行

拟合。拟合Q迭代算法就是在不停地迭代拟合中学习到最佳的策略,具体为:

根据构建的马尔可夫框架提取数据集中所有的单步转换元组

初始化Q值Q

将机械通气患者的原始生理数据经过步骤S2的预处理后,输入强化学习模型中,强化学习模型代理即会推荐在下一小时内该患者的个性化PEEP水平。

进一步的,S2中患者在通气过程中的生理数据序列存在噪声大、不同特征时间粒度不同、数据缺失严重等问题。为了更好地学习最佳策略,数据的每个特征都需进行清洗,排除超过范围的异常值。

进一步的,由于不同特征的时间粒度不同,因此将所有生理数据序列中的时间序列特征时间间隔统一为1小时。一小时内有多个值的采用平均值。

进一步的,对于患者基本信息中的年龄、身高等数值型数据采取平均值填充缺失值;对于性别、入院类型等类别型数据采取最频繁值填充缺失值;对于时间序列特征,呼吸设置值采用当前最近的一次非空值填充,生命体征和血气值采取线性插值。

进一步的,对处理后的所有样本进行min-max归一化处理。

其中,v

进一步的,S4中γ通常采用经验值0.9。

本发明方法中,将待调节患者的生理数据经步骤S2预处理后,输入强化学习模型中,强化学习模型代理即会推荐在下一小时内该患者的个性化PEEP水平,推荐的PEEP水平将会考虑氧合和结局,以获得最大的累计期望。

与现有技术相比,本发明的有益效果是:

本发明是一种基于强化学习的个性化PEEP调节方法,借助于强化学习,将临床呼吸治疗过程中的PEEP设置值问题构建为马尔可夫决策问题的框架,在这个框架中,动作被定义为PEEP设置的离散值,奖励函数被定义为与患者最终的结局相关的函数,进而采取迭代Q拟合方法来学习最佳策略。临床医生实际决策过程只能根据病人短期的生理指标来选择相对合适的PEEP值,与此决策思路不同的是,强化学习代理以使病人获得更好的长期结局为目标推荐PEEP值。因此,本发明提出的个性化PEEP调节的方法,在实验验证中取得较好的效果,能使病人获得更好的氧合指标,从而降低患者的死亡率,为医生的临床决策提供较好地建议与辅助。

附图说明

图1为本发明一种基于强化学习的个性化PEEP调节方法流程示意图。

图2为本发明采用的拟合Q迭代算法训练示意图。

图3为本发明采用的个性化PEEP调节方法过程示意图。

图4为本发明提出的强化学习代理对医生实际行为的Q值预测与患者各临床指标的关系。

具体实施方式

为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。

如图1所示,本发明是一种基于强化学习的个性化PEEP调节方法,包括以下步骤:

S1、数据集获取;

提取患者整个机械通气过程中的生理数据序列,包括患者基本信息,临床评分、呼吸机设置值、生命体征值、血气值等具体如表1所示:

表1生理数据

S2、预处理;

1)将提取出来的患者临床生理数据序列进行数据清洗排除异常值:由于医学数据的噪声大、不同特征粒度不同、数据缺失严重的问题,因此为了更好地学习最佳策略,数据的每个特征都需进行清洗,排除超过范围的异常值;

2)将时间序列数据的时间间隔统一为1小时,一小时内有多个值的采用平均值;

3)缺失值插补:对于患者基本信息中的年龄、身高等数值型数据采取平均值填充缺失值;对于性别、入院类型等类别型数据采取最频繁值填充缺失值;对于时间序列特征,呼吸设置值采用当前最近的一次非空值填充,生命体征和血气值采取线性插值;

4)数据归一化:对处理后的所有患者样本数据进行min-max归一化处理。

其中,v

其中,将本地患者临床生理数据按80%和20%分为训练集和测试集,训练集用于强化学习模型的训练,测试集用于模型性能的评估与分析;

S3、构建马尔可夫框架

对于机械通气患者的个性化PEEP调节的问题,构建马尔可夫框架,构思合适的动作空间和奖励函数。马尔科夫框架下所示:

1)有限状态空间S:在时间t,环境(此问题中为患者)将会处于状态s

2)动作空间A:在时间t,代理采取动作a

3)转移方程P(s

4)奖惩函数r(s

S4、以拟合Q迭代算法为核心构建强化学习模型

与Q-learning不同的是,拟合Q迭代算法使用一系列的单步转换元组来学习状态-动作对的Q值,并且通过解决有监督学习问题的方式对Q值进行拟合。拟合Q迭代算法就是在不停地迭代拟合中学习到最佳的策略。如图2,主要包括以下步骤:

S4-1、提取训练集中所有的单步转换元组

S4-2、初始化Q值

S4-3、初始化极限森林(etr)的参数;

S4-4、对于第k轮,Q

S4-5、训练极限森林etr.train();

S4-6、重复步骤S4-4,直到达到指定轮数,k=K;

最终模型学习到的策略为累计回报最大的动作,如图3,π

S5、将机械通气患者的原始生理数据经过步骤S2的预处理后,输入强化学习模型中,强化学习模型代理即会推荐在下一小时内该患者的个性化PEEP水平。图4为在测试集上将医生实际行为(实际设定的PEEP)输入模型中,模型给出的对医生的实际行为预测的Q值与患者各生理指标的关系。结果显示,当模型预测的医生行为的回报(Q值)越高,患者实际获得的氧合(氧合指数、氧饱和度、氧分压)就越高,呼吸力学指标(驱动压、机械功)就越低,肺的顺应性也越好,这表明模型得到了很好的训练并具有较好的预测效果。

本发明是一种基于强化学习的个性化PEEP调节方法,借助于强化学习,将临床呼吸治疗过程中的PEEP设置值问题构建为马尔可夫决策问题的框架,在这个框架中,动作被定义为PEEP设置的离散值,奖励函数被定义为与患者最终的结局相关的函数,进而采取迭代Q拟合方法来学习最佳策略。临床医生实际决策过程只能根据病人短期的生理指标来选择相对合适的PEEP值,与此决策思路不同的是,强化学习代理能最大化长期的回报。因此,本发明提出的个性化PEEP调节的方法,在实验验证中取得较好的效果,能使病人获得更好的氧合指标,从而降低患者的死亡率,为医生的临床决策提供较好地建议与辅助。

在上述实施例中,仅对本发明进行示范性描述,但是本领域技术人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。

相关技术
  • 基于强化学习的个性化PEEP调节方法
  • 一种基于强化学习网络的目标引导型个性化对话方法与系统
技术分类

06120113065998