掌桥专利:专业的专利平台
掌桥专利
首页

病区医护对讲管理系统及其方法

文献发布时间:2024-04-18 19:58:21


病区医护对讲管理系统及其方法

技术领域

本申请涉及智能语音管理领域,且更为具体的涉及一种病区医护对讲管理系统及其方法。

背景技术

病区医护对讲管理系统是一种用于医疗机构病区内医护人员之间进行通讯和协作的系统。该系统的目的是提高病区内医护人员之间的沟通效率,加强工作协调,提升患者护理质量。医护人员可以通过系统进行实时语音通话或发送文字消息。他们可以直接呼叫特定的个人或组,或者在需要时广播消息给整个病区。然而,在医疗机构的病区环境中,可能存在各种环境音,如患者的呼吸声、设备的嘈杂声、人员的交谈声等。这些环境音可能对医护人员之间的通讯造成一定的干扰和困扰。

因此,期待一种优化的病区医护对讲管理方案。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种病区医护对讲管理系统及其方法,其使用基于深度神经网络模型的人工智能技术来智能地对医护人员之间的语音信号进行特征编码与提取,以此来更为精准的解码语音信号。这样,构建病区医护对讲管理方案,来获取医护人员之间的语音信号,提高了在病区环境的下的通讯质量和用户体验,使医护人员能够更好地进行沟通和协作。

根据本申请的一个方面,提供了一种病区医护对讲管理系统,其包括:

信号采集模块,用于获取对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号;

第一时频图转换模块,用于计算所述第一声音信号的第一时域增强图、第一SIFT变换时频图和第一S变换时频图;

第一通道聚合模块,用于将所述第一时域增强图、所述第一SIFT变换时频图和所述第一S变换时频图沿通道维度进行聚合以得到第一多通道时频图;

第一时频特征提取模块,用于将所述第一多通道时频图通过作为特征提取器的第一卷积神经网络模型以得到第一声音特征矩阵;

第二时频图转换模块,用于计算所述第二声音信号的第二时域增强图、第二SIFT变换时频图和第二S变换时频图;

第二通道聚合模块,用于将所述第二时域增强图、所述第二SIFT变换时频图和所述第二S变换时频图沿通道维度进行聚合以得到第二多通道时频图;

第二时频特征提取模块,用于将所述第二多通道时频图通过作为特征提取器的第二卷积神经网络模型以得到第二声音特征矩阵;

融合模块,用于融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵;

优化模块,用于对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵;

结果生成模块,用于将所述优化解码特征矩阵通过生成器以得到解码语音信号。

在上述的病区医护对讲管理系统中,所述第一时频特征提取模块,用于:

使用所述作为特征提取器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行以下操作:

对输入数据进行卷积处理以得到卷积特征图;

对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;

对所述池化特征图进行非线性激活以得到激活特征图;

其中,所述作为特征提取器的第一卷积神经网络模型的最后一层的输出为所述第一声音特征矩阵,所述作为特征提取器的第一卷积神经网络的第一层的输入为所述第一多通道时频图。

在上述的病区医护对讲管理系统中,所述第二时频特征提取模块,用于:

使用所述作为特征提取器的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行以下操作:

对输入数据进行卷积处理以得到卷积特征图;

对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;

对所述池化特征图进行非线性激活以得到激活特征图;

其中,所述作为特征提取器的第二卷积神经网络模型的最后一层的输出为所述第二声音特征矩阵,所述作为特征提取器的第二卷积神经网络的第一层的输入为所述第二多通道时频图。

在上述的病区医护对讲管理系统中,所述融合模块,用于:

以如下融合公式来融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵,

其中,所述融合公式为:

其中,

在上述的病区医护对讲管理系统中,所述优化模块,包括:

块状切分单元,用于对所述解码特征矩阵进行块状切分以得到多个解码子块特征矩阵;

均值池化单元,用于对所述多个解码子块特征矩阵分别进行均值池化以得到多个解码子块全局语义特征向量;

按位均值单元,用于计算所述多个解码子块全局语义特征向量的全局按位置均值向量以得到解码全局语义枢轴特征向量;

相对密度单元,用于计算所述多个解码子块全局语义特征向量中各个解码子块全局语义特征向量与所述解码全局语义枢轴特征向量之间的交叉熵以得到由多个交叉熵值组成的局部特征分布相对密度语义特征向量;

激活单元,用于将所述局部特征分布相对密度语义特征向量输入Softmax激活函数以得到局部特征分布相对密度概率化特征向量;

加权单元,用于以所述局部特征分布相对密度概率化特征向量中各个位置的特征值对所述各个解码子块特征矩阵进行加权以得到多个加权后解码子块特征矩阵;

拼接单元,用于将所述多个加权后解码子块特征矩阵进行拼接以得到所述优化解码特征矩阵。

根据本申请的另一方面,还提供了一种病区医护对讲管理方法,其包括:

获取对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号;

计算所述第一声音信号的第一时域增强图、第一SIFT变换时频图和第一S变换时频图;

将所述第一时域增强图、所述第一SIFT变换时频图和所述第一S变换时频图沿通道维度进行聚合以得到第一多通道时频图;

将所述第一多通道时频图通过作为特征提取器的第一卷积神经网络模型以得到第一声音特征矩阵;

计算所述第二声音信号的第二时域增强图、第二SIFT变换时频图和第二S变换时频图;

将所述第二时域增强图、所述第二SIFT变换时频图和所述第二S变换时频图沿通道维度进行聚合以得到第二多通道时频图;

将所述第二多通道时频图通过作为特征提取器的第二卷积神经网络模型以得到第二声音特征矩阵;

融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵;

对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵;

将所述优化解码特征矩阵通过生成器以得到解码语音信号。

与现有技术相比,本申请提供的病区医护对讲管理系统及其方法,其使用基于深度神经网络模型的人工智能技术来智能地对医护人员之间的语音信号进行特征编码与提取,以此来更为精准的解码语音信号。这样,构建病区医护对讲管理方案,来获取医护人员之间的语音信号,提高了在病区环境的下的通讯质量和用户体验,使医护人员能够更好地进行沟通和协作。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的病区医护对讲管理系统的框图。

图2图示了根据本申请实施例的病区医护对讲管理系统的系统架构图。

图3图示了根据本申请实施例的病区医护对讲管理方法的流程图。

图4图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

申请概述

如上述背景技术所言,在医疗机构的病区环境中,可能存在各种环境音,如患者的呼吸声、设备的嘈杂声、人员的交谈声等。这些环境音可能对医护人员之间的通讯造成一定的干扰和困扰。因此,期待一种优化的病区医护对讲管理方案。

针对上述技术问题,提出了一种优化的病区医护对讲管理方案,其使用基于深度神经网络模型的人工智能技术来智能地对医护人员之间的语音信号进行特征编码与提取,以此来更为精准的解码语音信号。这样,构建病区医护对讲管理方案,来获取医护人员之间的语音信号,提高了在病区环境的下的通讯质量和用户体验,使医护人员能够更好地进行沟通和协作。

目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。

近年来,深度学习以及神经网络的发展为病区医护对讲管理方案提供了新的解决思路和方案。

具体地,首先,获取对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号。考虑到对讲机在实际使用中,语音常被周围环境噪声干扰,严重影响了对话质量和听者的听觉感受。现有一些基于单通道语音增强算法和语音降噪算法,这些算法虽然能在一定程度上消除噪声,但它们比较难同时考虑降噪和音质两个问题,但实现降噪的同时导致对音质的损伤,且噪声消除越多,对音质损伤越严重。在本申请技术方案中,对讲机采用传感器阵列,同时,考虑到对讲机的成本、体积和功耗随着传感器个数的增加而增加,双传感器系统是折衷的选择。使用两个音频接收器可以增强病区医护对讲系统对声音信号的感知能力,提高语音信号的质量和准确性,从而改善医护人员之间的沟通和协作效果。

然后,分别计算第一声音信号和第二声音信号的时域增强图、SIFT变换时频图和S变换时频图。时域增强图是声音信号在时间域上的增强表示。通过计算第一声音信号和第二声音信号的时域增强图,可以突出声音信号的瞬时特征,例如声音的起伏、强度和变化。SIFT(Scale-Invariant Feature Transform)变换是一种在不同尺度下提取图像特征的方法。在声音信号的上下文中,SIFT变换可以将声音信号转换为时频图,其中横轴表示时间,纵轴表示频率,像素值表示声音的能量或强度。S变换是一种对信号进行时频分析的方法,可以将信号表示为时间和频率的函数。S变换时频图可以帮助分析声音信号的频谱特性和时域演化。通过计算时域增强图、SIFT变换时频图和S变换时频图,可以从不同的角度和表示方式来描述声音信号的特征。

接着,为了综合利用不同特征表示的信息,将所述时域增强图、所述SIFT变换时频图和所述S变换时频图沿通道维度进行聚合以得到第一多通道时频图和第二多通道时频图。考虑到不同的特征图反映了声音信号的不同方面,例如时域增强图反映了声音的时序特征,SIFT变换时频图和S变换时频图反映了声音的频率特征和时变特征。通过将它们聚合在一起,可以综合利用它们的信息,提供更全面和丰富的时频特征描述。同时,考虑到如果某个特征在某些情况下受到噪声或干扰的影响,其他特征可能仍然保持较好的表现。通过将它们聚合在一起,可以减轻单个特征的干扰,提高整体特征的稳定性和可靠性。

然后,将第一多通道时频图通过作为特征提取器的第一卷积神经网络模型以得到第一声音特征矩阵。卷积神经网络(Convolutional Neural Network,CNN)是一种在图像和音频处理领域广泛应用的深度学习模型。它通过多层卷积和池化操作,能够自动学习和提取输入数据中的特征。将多通道时频图输入卷积神经网络模型中,可以让网络自动学习时频特征的空间结构和时序模式。卷积层可以捕捉到不同尺度的特征,而池化层可以对特征进行降维和抽象,进一步提取更高级的特征表示。通过多层卷积和池化操作,网络可以逐渐提取出更抽象、更语义化的声音特征。

接着,将所述第二多通道时频图通过作为特征提取器的第二卷积神经网络模型以得到第二声音特征矩阵。将第一多通道时频图和第二多通道时频图分别输入不同的卷积神经网络模型,可以让每个模型专注于学习和提取各自声音信号的特征表示。

然后,融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵。第一声音特征矩阵和第二声音特征矩阵分别捕捉了两个声音信号的特征信息。通过融合这两个特征矩阵,可以综合利用它们的信息,提供更丰富和多样化的特征表示。不同声音信号可能受到不同的噪声、干扰或变化的影响。通过将不同声音特征矩阵融合在一起,可以增强特征的稳定性和鲁棒性。如果某个特征在某些情况下受到干扰,其他特征可能仍然保持较好的表现,从而提高整体特征的可靠性。

进而,将所述解码特征矩阵通过生成器以得到解码语音信号。在本申请技术方案中,生成器是一个神经网络模型,它接受解码特征矩阵作为输入,并通过学习和模拟声音信号的生成过程,将特征矩阵转化为对应的解码语音信号。生成器将解码特征矩阵转化为解码语音信号,实现了从抽象特征空间到具体声音波形的逆向映射。这样可以还原出原始声音信号的细节和特征,使其具有可听性。在特征提取和编码的过程中,可能会有一些信息丢失或压缩。通过生成器,可以尝试恢复这些丢失的信息,使解码语音信号更接近原始声音信号,提高还原的准确性和完整性。

特别地,考虑到所述解码特征矩阵是通过不同的特征提取器提取得到的。特征提取器可能使用不同的卷积神经网络模型或其他特征提取方法,这些方法对输入数据的处理方式和特征表示能力不同。因此,不同的特征提取器可能会提取出具有不同分布的特征,导致解码特征矩阵的特征分布呈现异质性。同时,在生成解码特征矩阵的过程中,涉及到多通道特征的融合。不同通道的特征可能具有不同的分布模式和统计特性。当进行特征融合时,可能存在不同通道特征的不均匀性,即某些通道的特征在整个特征矩阵中占据较大比例,而其他通道的特征占据较小比例。这种不均匀性可能导致解码特征矩阵的特征分布不平衡。

由于解码特征矩阵在特征分布上存在空间异质性和不均匀性,输入生成器的解码语音信号可能存在类概率域偏移。这意味着生成器在不同类别的解码语音信号概率分布上存在一定的偏差,可能导致生成器在某些类别上生成的语音信号质量下降。为了解决这个问题,对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵,以提升所述解码特征矩阵的特征表达的结构合理性和鲁棒性。

具体地,对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵,包括:对所述解码特征矩阵进行块状切分以得到多个解码子块特征矩阵;对所述多个解码子块特征矩阵分别进行均值池化以得到多个解码子块全局语义特征向量;计算所述多个解码子块全局语义特征向量的全局按位置均值向量以得到解码全局语义枢轴特征向量;计算所述多个解码子块全局语义特征向量中各个解码子块全局语义特征向量与所述解码全局语义枢轴特征向量之间的交叉熵以得到由多个交叉熵值组成的局部特征分布相对密度语义特征向量;将所述局部特征分布相对密度语义特征向量输入Softmax激活函数以得到局部特征分布相对密度概率化特征向量;以所述局部特征分布相对密度概率化特征向量中各个位置的特征值对所述各个解码子块特征矩阵进行加权以得到多个加权后解码子块特征矩阵;将所述多个加权后解码子块特征矩阵进行拼接以得到所述优化解码特征矩阵。

这里,对所述解码特征矩阵进行空间域块状切分以得到多个解码子块特征矩阵,接着对所述多个解码子块特征矩阵分别进行均值池化以得到多个解码子块全局语义特征向量,并以所述多个解码子块全局语义特征向量的全局按位置均值向量来作为所述多个解码子块特征矩阵的特征分布的类中心,进而计算所述多个解码子块全局语义特征向量中各个解码子块全局语义特征向量与所述解码全局语义枢轴特征向量之间的交叉熵,以此来度量所述各个解码子块特征矩阵相对于所述全局类中心的特征分布空间一致性和偏移性。进而,通过Softmax激活函数对由所述多个交叉熵值组成的局部特征分布相对密度语义特征向量进行概率化,并以所述局部特征分布相对密度概率化特征向量中各个位置的特征值对所述各个解码子块特征矩阵进行加权以对所述解码特征矩阵的各个局部特征矩阵进行基于空间分布一致性的特征分布校正,以此来提升所述解码特征矩阵的特征表达的结构合理性和鲁棒性。

在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图1图示了根据本申请实施例的病区医护对讲管理系统的框图。如图1所示,根据本申请实施例的病区医护对讲管理系统100,包括:信号采集模块110,用于获取对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号;第一时频图转换模块120,用于计算所述第一声音信号的第一时域增强图、第一SIFT变换时频图和第一S变换时频图;第一通道聚合模块130,用于将所述第一时域增强图、所述第一SIFT变换时频图和所述第一S变换时频图沿通道维度进行聚合以得到第一多通道时频图;第一时频特征提取模块140,用于将所述第一多通道时频图通过作为特征提取器的第一卷积神经网络模型以得到第一声音特征矩阵;第二时频图转换模块150,用于计算所述第二声音信号的第二时域增强图、第二SIFT变换时频图和第二S变换时频图;第二通道聚合模块160,用于将所述第二时域增强图、所述第二SIFT变换时频图和所述第二S变换时频图沿通道维度进行聚合以得到第二多通道时频图;第二时频特征提取模块170,用于将所述第二多通道时频图通过作为特征提取器的第二卷积神经网络模型以得到第二声音特征矩阵;融合模块180,用于融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵;优化模块190,用于对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵;以及结果生成模块200,用于将所述优化解码特征矩阵通过生成器以得到解码语音信号。

图2图示了根据本申请实施例的病区医护对讲管理系统的系统架构图。如图2所示,在该系统架构中,首先,获取对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号。然后,计算所述第一声音信号的第一时域增强图、第一SIFT变换时频图和第一S变换时频图。接着,将所述第一时域增强图、所述第一SIFT变换时频图和所述第一S变换时频图沿通道维度进行聚合以得到第一多通道时频图。然后,将所述第一多通道时频图通过作为特征提取器的第一卷积神经网络模型以得到第一声音特征矩阵。接着,计算所述第二声音信号的第二时域增强图、第二SIFT变换时频图和第二S变换时频图。然后,将所述第二时域增强图、所述第二SIFT变换时频图和所述第二S变换时频图沿通道维度进行聚合以得到第二多通道时频图。接着,将所述第二多通道时频图通过作为特征提取器的第二卷积神经网络模型以得到第二声音特征矩阵。然后,融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵。接着,对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵。进而,将所述优化解码特征矩阵通过生成器以得到解码语音信号。

在上述的病区医护对讲管理系统100中,所述信号采集模块110,用于获取对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号。如上述背景技术所言,在医疗机构的病区环境中,可能存在各种环境音,如患者的呼吸声、设备的嘈杂声、人员的交谈声等。这些环境音可能对医护人员之间的通讯造成一定的干扰和困扰。因此,期待一种优化的病区医护对讲管理方案。

针对上述技术问题,提出了一种优化的病区医护对讲管理方案,其使用基于深度神经网络模型的人工智能技术来智能地对医护人员之间的语音信号进行特征编码与提取,以此来更为精准的解码语音信号。这样,构建病区医护对讲管理方案,来获取医护人员之间的语音信号,提高了在病区环境的下的通讯质量和用户体验,使医护人员能够更好地进行沟通和协作。

目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。

近年来,深度学习以及神经网络的发展为病区医护对讲管理方案提供了新的解决思路和方案。

具体地,首先,获取对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号。考虑到对讲机在实际使用中,语音常被周围环境噪声干扰,严重影响了对话质量和听者的听觉感受。现有一些基于单通道语音增强算法和语音降噪算法,这些算法虽然能在一定程度上消除噪声,但它们比较难同时考虑降噪和音质两个问题,但实现降噪的同时导致对音质的损伤,且噪声消除越多,对音质损伤越严重。在本申请技术方案中,对讲机采用传感器阵列,同时,考虑到对讲机的成本、体积和功耗随着传感器个数的增加而增加,双传感器系统是折衷的选择。使用两个音频接收器可以增强病区医护对讲系统对声音信号的感知能力,提高语音信号的质量和准确性,从而改善医护人员之间的沟通和协作效果。

在上述的病区医护对讲管理系统100中,所述第一时频图转换模块120,用于计算所述第一声音信号的第一时域增强图、第一SIFT变换时频图和第一S变换时频图。时域增强图是声音信号在时间域上的增强表示。通过计算第一声音信号和第二声音信号的时域增强图,可以突出声音信号的瞬时特征,例如声音的起伏、强度和变化。SIFT(Scale-InvariantFeature Transform)变换是一种在不同尺度下提取图像特征的方法。在声音信号的上下文中,SIFT变换可以将声音信号转换为时频图,其中横轴表示时间,纵轴表示频率,像素值表示声音的能量或强度。S变换是一种对信号进行时频分析的方法,可以将信号表示为时间和频率的函数。S变换时频图可以帮助分析声音信号的频谱特性和时域演化。通过计算时域增强图、SIFT变换时频图和S变换时频图,可以从不同的角度和表示方式来描述声音信号的特征。

在上述的病区医护对讲管理系统100中,所述第一通道聚合模块130,用于将所述第一时域增强图、所述第一SIFT变换时频图和所述第一S变换时频图沿通道维度进行聚合以得到第一多通道时频图。考虑到不同的特征图反映了声音信号的不同方面,例如时域增强图反映了声音的时序特征,SIFT变换时频图和S变换时频图反映了声音的频率特征和时变特征。通过将它们聚合在一起,可以综合利用它们的信息,提供更全面和丰富的时频特征描述。同时,考虑到如果某个特征在某些情况下受到噪声或干扰的影响,其他特征可能仍然保持较好的表现。通过将它们聚合在一起,可以减轻单个特征的干扰,提高整体特征的稳定性和可靠性。

在上述的病区医护对讲管理系统100中,所述第一时频特征提取模块140,用于将所述第一多通道时频图通过作为特征提取器的第一卷积神经网络模型以得到第一声音特征矩阵。卷积神经网络(Convolutional Neural Network,CNN)是一种在图像和音频处理领域广泛应用的深度学习模型。它通过多层卷积和池化操作,能够自动学习和提取输入数据中的特征。将多通道时频图输入卷积神经网络模型中,可以让网络自动学习时频特征的空间结构和时序模式。卷积层可以捕捉到不同尺度的特征,而池化层可以对特征进行降维和抽象,进一步提取更高级的特征表示。通过多层卷积和池化操作,网络可以逐渐提取出更抽象、更语义化的声音特征。

具体地,在本申请实施例中,所述第一时频特征提取模块140,用于:使用所述作为特征提取器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行以下操作:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的第一卷积神经网络模型的最后一层的输出为所述第一声音特征矩阵,所述作为特征提取器的第一卷积神经网络的第一层的输入为所述第一多通道时频图。

在上述的病区医护对讲管理系统100中,所述第二时频图转换模块150,用于计算所述第二声音信号的第二时域增强图、第二SIFT变换时频图和第二S变换时频图。提取第二声音信号的不同的角度和表示方式的声音信号的特征,便于后续的分析。

在上述的病区医护对讲管理系统100中,所述第二通道聚合模块160,用于将所述第二时域增强图、所述第二SIFT变换时频图和所述第二S变换时频图沿通道维度进行聚合以得到第二多通道时频图。为了获取更加全面的信息,按照处理第一通道聚合模块的方式来进行处理。

在上述的病区医护对讲管理系统100中,所述第二时频特征提取模块170,用于将所述第二多通道时频图通过作为特征提取器的第二卷积神经网络模型以得到第二声音特征矩阵。将第一多通道时频图和第二多通道时频图分别输入不同的卷积神经网络模型,可以让每个模型专注于学习和提取各自声音信号的特征表示。

具体地,在本申请实施例中,所述第二时频特征提取模块170,用于:使用所述作为特征提取器的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行以下操作:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的第二卷积神经网络模型的最后一层的输出为所述第二声音特征矩阵,所述作为特征提取器的第二卷积神经网络的第一层的输入为所述第二多通道时频图。

在上述的病区医护对讲管理系统100中,所述融合模块180,用于融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵。第一声音特征矩阵和第二声音特征矩阵分别捕捉了两个声音信号的特征信息。通过融合这两个特征矩阵,可以综合利用它们的信息,提供更丰富和多样化的特征表示。不同声音信号可能受到不同的噪声、干扰或变化的影响。通过将不同声音特征矩阵融合在一起,可以增强特征的稳定性和鲁棒性。如果某个特征在某些情况下受到干扰,其他特征可能仍然保持较好的表现,从而提高整体特征的可靠性。

具体地,在本申请实施例中,所述融合模块180,用于:以如下融合公式来融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵,其中,所述融合公式为:

其中,

在上述的病区医护对讲管理系统100中,所述优化模块190,用于对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵。考虑到所述解码特征矩阵是通过不同的特征提取器提取得到的。特征提取器可能使用不同的卷积神经网络模型或其他特征提取方法,这些方法对输入数据的处理方式和特征表示能力不同。因此,不同的特征提取器可能会提取出具有不同分布的特征,导致解码特征矩阵的特征分布呈现异质性。同时,在生成解码特征矩阵的过程中,涉及到多通道特征的融合。不同通道的特征可能具有不同的分布模式和统计特性。当进行特征融合时,可能存在不同通道特征的不均匀性,即某些通道的特征在整个特征矩阵中占据较大比例,而其他通道的特征占据较小比例。这种不均匀性可能导致解码特征矩阵的特征分布不平衡。

由于解码特征矩阵在特征分布上存在空间异质性和不均匀性,输入生成器的解码语音信号可能存在类概率域偏移。这意味着生成器在不同类别的解码语音信号概率分布上存在一定的偏差,可能导致生成器在某些类别上生成的语音信号质量下降。为了解决这个问题,对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵,以提升所述解码特征矩阵的特征表达的结构合理性和鲁棒性。

具体地,对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵,包括:对所述解码特征矩阵进行块状切分以得到多个解码子块特征矩阵;对所述多个解码子块特征矩阵分别进行均值池化以得到多个解码子块全局语义特征向量;计算所述多个解码子块全局语义特征向量的全局按位置均值向量以得到解码全局语义枢轴特征向量;计算所述多个解码子块全局语义特征向量中各个解码子块全局语义特征向量与所述解码全局语义枢轴特征向量之间的交叉熵以得到由多个交叉熵值组成的局部特征分布相对密度语义特征向量;将所述局部特征分布相对密度语义特征向量输入Softmax激活函数以得到局部特征分布相对密度概率化特征向量;以所述局部特征分布相对密度概率化特征向量中各个位置的特征值对所述各个解码子块特征矩阵进行加权以得到多个加权后解码子块特征矩阵;将所述多个加权后解码子块特征矩阵进行拼接以得到所述优化解码特征矩阵。

这里,对所述解码特征矩阵进行空间域块状切分以得到多个解码子块特征矩阵,接着对所述多个解码子块特征矩阵分别进行均值池化以得到多个解码子块全局语义特征向量,并以所述多个解码子块全局语义特征向量的全局按位置均值向量来作为所述多个解码子块特征矩阵的特征分布的类中心,进而计算所述多个解码子块全局语义特征向量中各个解码子块全局语义特征向量与所述解码全局语义枢轴特征向量之间的交叉熵,以此来度量所述各个解码子块特征矩阵相对于所述全局类中心的特征分布空间一致性和偏移性。进而,通过Softmax激活函数对由所述多个交叉熵值组成的局部特征分布相对密度语义特征向量进行概率化,并以所述局部特征分布相对密度概率化特征向量中各个位置的特征值对所述各个解码子块特征矩阵进行加权以对所述解码特征矩阵的各个局部特征矩阵进行基于空间分布一致性的特征分布校正,以此来提升所述解码特征矩阵的特征表达的结构合理性和鲁棒性。

具体地,在本申请实施例中,所述优化模块190,包括:块状切分单元,用于对所述解码特征矩阵进行块状切分以得到多个解码子块特征矩阵;均值池化单元,用于对所述多个解码子块特征矩阵分别进行均值池化以得到多个解码子块全局语义特征向量;按位均值单元,用于计算所述多个解码子块全局语义特征向量的全局按位置均值向量以得到解码全局语义枢轴特征向量;相对密度单元,用于计算所述多个解码子块全局语义特征向量中各个解码子块全局语义特征向量与所述解码全局语义枢轴特征向量之间的交叉熵以得到由多个交叉熵值组成的局部特征分布相对密度语义特征向量;激活单元,用于将所述局部特征分布相对密度语义特征向量输入Softmax激活函数以得到局部特征分布相对密度概率化特征向量;加权单元,用于以所述局部特征分布相对密度概率化特征向量中各个位置的特征值对所述各个解码子块特征矩阵进行加权以得到多个加权后解码子块特征矩阵;以及拼接单元,用于将所述多个加权后解码子块特征矩阵进行拼接以得到所述优化解码特征矩阵。

在上述的病区医护对讲管理系统100中,所述结果生成模块200,用于将所述优化解码特征矩阵通过生成器以得到解码语音信号。在本申请技术方案中,生成器是一个神经网络模型,它接受解码特征矩阵作为输入,并通过学习和模拟声音信号的生成过程,将特征矩阵转化为对应的解码语音信号。生成器将解码特征矩阵转化为解码语音信号,实现了从抽象特征空间到具体声音波形的逆向映射。这样可以还原出原始声音信号的细节和特征,使其具有可听性。在特征提取和编码的过程中,可能会有一些信息丢失或压缩。通过生成器,可以尝试恢复这些丢失的信息,使解码语音信号更接近原始声音信号,提高还原的准确性和完整性。

综上,根据本申请实施例的病区医护对讲管理系统已被阐明,其使用基于深度神经网络模型的人工智能技术来智能地对医护人员之间的语音信号进行特征编码与提取,以此来更为精准的解码语音信号。这样,构建病区医护对讲管理方案,来获取医护人员之间的语音信号,提高了在病区环境的下的通讯质量和用户体验,使医护人员能够更好地进行沟通和协作。

示例性方法

图3图示了根据本申请实施例的病区医护对讲管理方法的流程图。如图3所示,根据本申请实施例的所述病区医护对讲管理方法,包括步骤:S110,获取对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号;S120,计算所述第一声音信号的第一时域增强图、第一SIFT变换时频图和第一S变换时频图;S130,将所述第一时域增强图、所述第一SIFT变换时频图和所述第一S变换时频图沿通道维度进行聚合以得到第一多通道时频图;S140,将所述第一多通道时频图通过作为特征提取器的第一卷积神经网络模型以得到第一声音特征矩阵;S150,计算所述第二声音信号的第二时域增强图、第二SIFT变换时频图和第二S变换时频图;S160,将所述第二时域增强图、所述第二SIFT变换时频图和所述第二S变换时频图沿通道维度进行聚合以得到第二多通道时频图;S170,将所述第二多通道时频图通过作为特征提取器的第二卷积神经网络模型以得到第二声音特征矩阵;S180,融合所述第一声音特征矩阵和所述第二声音特征矩阵以得到解码特征矩阵;S190,对所述解码特征矩阵进行基于局部特征分布的密度域概率化以得到优化解码特征矩阵;以及S200,将所述优化解码特征矩阵通过生成器以得到解码语音信号。

这里,本领域技术人员可以理解,上述病区医护对讲管理方法中的各个步骤的具体操作已经在上面参考图1到图2的病区医护对讲管理系统的描述中得到了详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的病区医护对讲管理系统 100可以实现在各种终端设备中,例如病区医护对讲管理服务器等。在一个示例中,根据本申请实施例的病区医护对讲管理系统 100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该病区医护对讲管理系统100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该病区医护对讲管理系统 100同样可以是该终端设备的众多硬件模块之一。

替换地,在另一示例中,该病区医护对讲管理系统 100与该终端设备也可以是分立的设备,并且该病区医护对讲管理系统 100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。

综上,根据本申请实施例的病区医护对讲管理方法已被阐明,其使用基于深度神经网络模型的人工智能技术来智能地对医护人员之间的语音信号进行特征编码与提取,以此来更为精准的解码语音信号。这样,构建病区医护对讲管理方案,来获取医护人员之间的语音信号,提高了在病区环境的下的通讯质量和用户体验,使医护人员能够更好地进行沟通和协作。

示例性电子设备

下面,参考图4来描述根据本申请实施例的电子设备。图4为根据本申请实施例的电子设备的框图。如图4所示,电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的病区医护对讲管理方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如对讲机的第一音频接收器的第一声音信号和第二音频接收器的第二声音信号等各种内容。

在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息,包括解码语音信号等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图4中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的病区医护对讲管理方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的病区医护对讲管理方法中的功能中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

相关技术
  • 一种病区医护对讲管理系统
  • 传染病病区医护人员实用挎包
技术分类

06120116479933