掌桥专利:专业的专利平台
掌桥专利
首页

输电线路鸟类声音识别模型优化方法、系统、介质及设备

文献发布时间:2024-04-18 19:58:53


输电线路鸟类声音识别模型优化方法、系统、介质及设备

技术领域

本发明涉及输电线路监控技术领域,尤其涉及一种输电线路鸟类声音识别模型优化方法、系统、介质及设备。

背景技术

近年来,电网大力推进可视化线路建设,以可视化、智能化手段提高输电线路的巡检效率,输电通道可视化技术在隐患的及时发现、及时预警方面起到了重要作用,对输电线路的安全性、可靠性保障以及智能化提升方面都做出了突出贡献。尽管近年来输电通道可视化技术及与之相关的人工智能技术都取得了一定进展,但仍处于起步阶段,距离满足输电运维需求还有很长的路要走。要满足安全性、可靠性、智能化输电线路的需求,不但需要研究视觉技术,还应广泛研究听觉、触觉、嗅觉相关技术。

鸟类活动作为导致输电线路故障的一个重要因素,越来越多针对鸟害的防治措施不断被采取,例如加强巡视排查,使用防鸟驱鸟装置等。但是面对整体防鸟区域范围广、杆塔多、识鸟难度大等问题,一般的措施很难起到针对性的防治效果。鸟类的图像及声音分类的准确识别及图像音频检索是解决输电线路环境中防治鸟害如东方白鹳等大型鸟类问题的重要方法。

当前基于深度学习的终端鸟叫声音分类算法的工作方式为:在云端服务器进行样本数据积累标注并进行模型训练,模型训练完毕经过测试量化压缩以后部署到移动终端进行推理。然而随着监控设备部署数量越来越多,各监控场千变万化,使得在云端训练并部署到监控终端的检测模型在不同背景下进行鸟叫声音识别缺少一定的鲁棒性。受限于云训练服务器的资源,为每个监控设备的安装场景单独训练一个模型几乎是无法实现的。而每一个输电线路监控设备长时间监控着一个固定的场景,其环境下活动的鸟种在一段时间内变化不大。因此如果只针对一个固定的场景研究声音分类算法常常能取得不错的效果,当场景发生变化,则及时的对算法进行调试,修改参数,最终也能达到较高的检测性能。因此,基于端侧的深度学习识别模型的在线调优非常有实际意义。

当前输电线路监控鸟类声音的分析流程主要在云服务器进行。随着监拍装置的不断增多、监拍密度不断加大。源源不断的声音数据通过无线网络涌向云端分析服务器,给4g无线网络及云端服务器带来巨大压力。分析服务器不能及时分析处理海量的音频数据,造成大量的数据积压,引发搞告警延迟,隐患无法及时通知到用户,给输电线路的安全带来巨大隐患。

将隐患分析智能迁移至监控设备进行前端分析是输电线路监控隐患识别的必然趋势,但是由于前端设备的低算力及低功耗的限制,常用的深度神经网络模型过大,不适合在终端进行前端隐患识别分析计算,只能部署轻量级的深度神经网络模型。然而轻量级网络模型对音频的特征表达不足,识别精度无法达到云端分析服务器的识别精度。另外,输电线路场景千变万化,用云端服务器训练的一个模型去识别所有输电场景下的隐患,导致网络模型与具体识别的输电线路监拍场景融合不足,导致大量误报,识别精度降低。

发明内容

针对现有技术存在的不足,本发明的目的是提供一种输电线路鸟类声音识别模型优化方法、系统、介质及设备,能够从海量在运行的前端分析设备中筛选出需要进行模型迭代升级的设备子集,避免了对所有设备进行模型迭代升级训练的现象。并通过实时模型微调,极大的解决了不同场景下模型训练资源不够的问题,并能及时更新高漏报误报率的某场景隐患识别模型,降低误报及漏报。

为了实现上述目的,本发明是通过如下的技术方案来实现:

本发明第一方面提供了一种输电线路鸟类声音识别模型优化方法,包括以下步骤:

获取当前场景一段时间内的背景声音,并对背景声音进行预处理;

依次利用前端服务器和云端分析服务器对背景声音进行分类检测,得到背景声音的分类检测结果,根据分类检测结果生成初步样本集;

利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充,在线生成训练样本集;

利用扩充后的样本集微调终端设备侧运行的鸟类声音识别模型,其中,微调过程包括:固定鸟类声音识别模型参数层,新初始化一个层作为微调层,仅配置微调层用于扩充后的样本集训练。

进一步的,对背景声音进行预处理的步骤包括:

对所有采集的背景声音进行强变化检测,从声音的本身、时域及频域三个角度对采集的背景声音进行判断,计算声压级、帧最大能量、频域平均能量三个特征值,将特征值与预先设定阈值进行比较,当三个特征值超过预设阈值则保留下来,否则就将背景声音滤除。

进一步的,依次利用前端服务器和云端分析服务器对背景声音进行分类检测的具体步骤为:

利用前端服务器对预处理后的背景声音与预设告警声音对比分类,判断是否达到模型优化标准;

当预处理后的背景声音达到模型优化标准时,利用云端分析服务器对背景声音进行二次分类检测,确定背景声音的告警种类。

更进一步的,利用云端分析服务器对背景声音进行二次分类检测的具体步骤为:

对鸟鸣声音信号进行预加重和滑窗均匀分割处理,通过声图变换方法转化为对应的图像特征信息,获得的图像特征信息作为输入,使用训练好的鸟种识别模型,最终实现通过鸟鸣声对鸟种进行预测识别。

更进一步的,鸟种识别模型的训练过程为:

首先对鸟叫音频数据提取鸟类叫声特征,同时将地域特征和声音特征拼接作为新特征,将新特征输入到模型中,模型使用新特征进行训练,具体的,模型结构构建好之后,模型内部参数随机初始化,然后通过数据及正反向传播算法在不断地训练中对参数进行迭代更新,学习到能够拟合输电场景声音数据分布的参数,最终使用该模型结构和相应的参数共同实现鸟类声音的识别。

更进一步的,所述告警声音根据每个场景环境中不同的常见鸟类声音进行设置。

更进一步的,鸟类叫声特征采用梅尔频谱图,给每个地域赋予数字代号,然后对代号进行编码得到地域特征,然后将地域特征与叫声特征拼接为新特征作为模型输入。

进一步的,得到背景声音的分类检测结果后,通过监控平台对分类检测结果进行人工审核确认。

进一步的,利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充的具体步骤包括:

利用混淆方法将标注样本与缓存的声音记录中的环境声音记录进行混合增强;

将预置的样本中标注的目标类型片段随机加入初步样本集的样本中进一步增强样本数据。

更进一步的,预置的样本为已知的带标注的目标鸟类声音片段数据集。

进一步的,鸟类识别模型结构采用Efficientnet网络。

本发明第二方面提供了一种输电线路鸟类声音识别模型优化系统,包括:

数据获取模块,被配置为获取当前场景一段时间内的背景声音,并对背景声音进行预处理;

分类检测模块,被配置为依次利用前端服务器和云端分析服务器对背景声音进行分类检测,得到背景声音的分类检测结果,根据分类检测结果生成初步样本集;

样本扩充模块,被配置为利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充,在线生成训练样本集;

模型微调模块,被配置为利用扩充后的样本集微调终端设备侧运行的鸟类声音识别模型,其中,微调过程包括:固定鸟类声音识别模型参数层,新初始化一个层作为微调层,仅配置微调层用于扩充后的样本集训练。

本发明第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的输电线路鸟类声音识别模型优化方法中的步骤。

本发明第四方面提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的输电线路鸟类声音识别模型优化方法中的步骤。

以上一个或多个技术方案存在以下有益效果:

本发明公开了一种输电线路鸟类声音识别模型优化方法、系统、介质及设备,从云端分析服务器中获取前端分析运行数据并进行分类分析,将确认之后的告警信息作为标准信息反馈终端设备,并在设备终端侧基于上传的告警信息作为训练样本对神经网络模型参数进行微调提升模型对该场景的适应能力。本发明能够从海量在运行的前端分析设备中筛选出需要进行模型迭代升级的设备子集,避免了对所有设备进行模型迭代升级训练的现象。并通过实时模型微调,极大的解决了不同场景下模型训练资源不够的问题,并能及时更新高漏报误报率的某场景隐患识别模型,降低误报及漏报。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为本发明实施例一中输电线路鸟类声音识别模型优化方法流程图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;

实施例一:

本发明实施例一提供了一种输电线路鸟类声音识别模型优化方法,如图1所示,通过设备采集一段时间的背景声音,输入到前端进行分析,并将前端分析的结果传送到云端进行二次分析,并人工确认二次分析结果,减少了误报漏报的可能性。人工确认后,平台补充样本给设备,设备根据补充的数据在线生成新的样本,用于端侧模型微调训练。通过上述方法,能够从海量在运行的前端分析设备中筛选出需要进行模型迭代升级的设备子集,避免了对所有设备进行模型迭代升级训练的现象。

具体包括以下步骤:

步骤1,获取当前场景一段时间内的背景声音,并对背景声音进行预处理。

步骤2,依次利用前端服务器和云端分析服务器对背景声音进行分类检测,得到背景声音的分类检测结果,根据分类检测结果生成初步样本集。

步骤3,利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充,在线生成训练样本集。

步骤4,利用扩充后的样本集微调终端设备侧运行的鸟类声音识别模型。

步骤1中,当声音采集设备运行一段时间后,定期收集设备采集的背景声音,并对背景声音进行预处理。对背景声音进行预处理的步骤包括:

对所有采集的背景声音进行强变化检测,从声音的本身、时域及频域三个角度对采集的背景声音进行判断,计算声压级、帧最大能量、频域平均能量三个特征值,将特征值与预先设定阈值进行比较,当三个特征值超过预设阈值则保留下来,否则就将背景声音滤除。

将预处理后的背景声音传输至前端服务器进行分析。

步骤2中,依次利用前端服务器和云端分析服务器对背景声音进行分类检测的具体步骤为:

利用前端服务器对预处理后的背景声音与预设告警声音对比分类,判断是否达到模型优化标准;

首先,将前端服务器预处理后的背景声音与预设告警声音对比,确定背景声音为鸟类声音。具体的,对两种声音提取梅尔频谱特征,然后对两个特征计算余弦相似度,当相似度大于设定阈值则认为是同一类声音。

当预处理后的背景声音达到模型优化标准时,利用云端分析服务器对背景声音进行二次分类检测,确定背景声音的告警种类。得到背景声音的分类检测结果后,通过监控平台对分类检测结果进行人工审核确认。终端监控设备定期主动向平台请求人工确认,确认后的该设备声音的告警信息作为模型微调的训练样本。

在一种具体的实施方式中,云端分析服务器算力要远超前端分析服务器,因此在云端部署的鸟类识别模型参数量更多,模型更大,识别精度也更好。因此使用云端服务器对背景声音进行二次分类,确保样本集中数据的质量;具体表现为对鸟鸣声音信号进行预加重、滑窗均匀分割等处理,通过声图变换方法转化为对应的图像特征信息,获得的图像特征信息作为输入,使用训练好的鸟种识别模型,最终实现通过鸟鸣声对鸟种进行预测识别。

首先对鸟叫音频数据提取鸟类叫声特征,同时将地域特征和声音特征拼接作为新特征,将新特征输入到模型中,模型使用新特征进行训练,具体的,模型结构构建好之后,模型内部参数随机初始化,然后通过数据及正反向传播算法在不断地训练中对参数进行迭代更新,学习到能够拟合输电场景声音数据分布的参数,最终使用该模型结构和相应的参数共同实现鸟类声音的识别。

模型结构采用Efficientnet网络。

告警声音根据每个场景环境中不同的常见鸟类声音进行设置。更具体的,根据不同地域及输电线路/输电网周围的鸟种分布信息构建鸟鸣数据库和地域鸟种分布信息库,同时结合鸟种分布地域性强的特点,通过地域网格化方式,将当前所处的地域环境信息联合鸟类叫声特征共同输入到模型中进行预测。

鸟类叫声特征采用梅尔频谱图,给每个地域赋予数字代号,然后对代号进行编码(one-hot)得到地域特征,然后将地域特征与叫声特征拼接为新特征作为模型输入。

步骤3中,利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充的具体步骤包括:

利用混淆方法将标注样本与缓存的声音记录中的环境声音记录进行混合增强;

将预置的样本中标注的目标类型片段随机加入初步样本集的样本中进一步增强样本数据。具体的,首先从标注好的预置样本中依次挑选目标类型片段,然后遍历所有初步样本集将目标片段随机插入选取初步样本中,以此方式来达到增强样本数据多样性的目的。

其中,预置的样本为已知的带标注的目标鸟类声音片段数据集。本实施例中,是将声音采集设备在安装部署时预置一部分需要识别类型的声音样本及其标注。

本实施例通过样本扩充丰富了训练样本的多样性,同时通过数据增强,突出了训练样本的特征,提高了识别模型的识别准确率。

步骤4中,本实施例基于参数权重的神经网络隐藏层的固化与激活策略进行模型微调。由于受限于端侧的算力及内存限制,端侧的在线模型微调计算不可能对神经网络模型的所有层进行迭代更新,必须进行取舍只对目标检测任务贡献权重较大的某几层进行迭代更新。因此,微调过程包括:固定鸟类声音识别模型参数层,新初始化一个层作为微调层,仅配置微调层用于扩充后的样本集训练。

在一种具体的实施方式中,更具体的包括以下步骤:

(1)鸟类声音识别模型预训练模型设定。将预置在终端设备里面正在运行的鸟类声音识别模型作为预训练模型,鸟类识别模型结构采用Efficientnet网络,Efficientnet一共分为9个stage,其中的卷积层后默认都跟有BN层以及Swish激活函数。stage 1是一个3x3的卷积层。对于 stage 2 到 stage 8 就是在重复堆叠 MBConv,MBConv的结构对于主分支而言,1x1的卷积层(+bn+swish)用于升维,后面跟一个DW卷积(+bn+swish),卷积核的大小为3x3或5x5,紧接着一个SE模块,然后跟一个1x1的卷积(+bn)用于降维,最后通过一个dropout操作。最终将输入分支的矩阵直接传递过来与主分支相加,得到最后的输出。stage9 由三部分组成,首先是一个1×1的卷积,然后是平均池化,最后是一个全连接层。鸟类声音通过特征提取部分获取特征信息,将获得的特征输入模型经过卷积、池化、批归一化等步骤,最后经过全连接层数据对应鸟类的置信度得分。

(2)终端设备模型预处理。预训练模型在转换时保留BatchNorm(批归一化),Dropout(随机丢弃)等训练过程中会用到的算子。

(3)对于微调场景,不需要端侧从零搭建模型,只需要加载预训练模型,固定神经网络前面层的参数,仅对全连接层最后一层用于微调。通过netron模型可视化工具(或其他工具输出的模型json文件)查看最后一层的input.name,保留除去最后一层的预训练模型。

实施例二:

本发明实施例二提供了一种输电线路鸟类声音识别模型优化系统,包括:

数据获取模块,被配置为获取当前场景一段时间内的背景声音,并对背景声音进行预处理;

分类检测模块,被配置为依次利用前端服务器和云端分析服务器对背景声音进行分类检测,得到背景声音的分类检测结果,根据分类检测结果生成初步样本集;

样本扩充模块,被配置为利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充,在线生成训练样本集;

模型微调模块,被配置为利用扩充后的样本集微调终端设备侧运行的鸟类声音识别模型,其中,微调过程包括:固定鸟类声音识别模型参数层,新初始化一个层作为微调层,仅配置微调层用于扩充后的样本集训练。

数据获取模块中,当声音采集设备运行一段时间后,定期收集设备采集的背景声音,并采用预处理模块对背景声音进行预处理。

预处理模块对背景声音进行预处理的步骤包括:

对所有采集的背景声音进行强变化检测,从声音的本身、时域及频域三个角度对采集的背景声音进行判断,计算声压级、帧最大能量、频域平均能量三个特征值,将特征值与预先设定阈值进行比较,当三个特征值超过预设阈值则保留下来,否则就将背景声音滤除。

将预处理后的背景声音传输至前端服务器进行分析。

分类检测模块中,依次利用前端服务器和云端分析服务器对背景声音进行分类检测的具体步骤为:

利用前端服务器对预处理后的背景声音与预设告警声音对比分类,判断是否达到模型优化标准;

首先,将前端服务器预处理后的背景声音与预设告警声音对比,确定背景声音为鸟类声音。具体的,对两种声音提取梅尔频谱特征,然后对两个特征计算余弦相似度,当相似度大于设定阈值则认为是同一类声音。

当预处理后的背景声音达到模型优化标准时,利用云端分析服务器对背景声音进行二次分类检测,确定背景声音的告警种类。得到背景声音的分类检测结果后,通过监控平台对分类检测结果进行人工审核确认。终端监控设备定期主动向平台请求人工确认,确认后的该设备声音的告警信息作为模型微调的训练样本。

在一种具体的实施方式中,云端分析服务器算力要远超前端分析服务器,因此在云端部署的鸟类识别模型参数量更多,模型更大,识别精度也更好。因此使用云端服务器对背景声音进行二次分类,确保样本集中数据的质量;具体表现为对鸟鸣声音信号进行预加重、滑窗均匀分割等处理,通过声图变换方法转化为对应的图像特征信息,获得的图像特征信息作为输入,使用训练好的鸟种识别模型,最终实现通过鸟鸣声对鸟种进行预测识别。

首先对鸟叫音频数据提取鸟类叫声特征,同时将地域特征和声音特征拼接作为新特征,将新特征输入到模型中,模型使用新特征进行训练,具体的,模型结构构建好之后,模型内部参数随机初始化,然后通过数据及正反向传播算法在不断地训练中对参数进行迭代更新,学习到能够拟合输电场景声音数据分布的参数,最终使用该模型结构和相应的参数共同实现鸟类声音的识别。模型结构:模型结构采用Efficientnet网络。

告警声音根据每个场景环境中不同的常见鸟类声音进行设置。更具体的,根据不同地域及输电线路/输电网周围的鸟种分布信息构建鸟鸣数据库和地域鸟种分布信息库,同时结合鸟种分布地域性强的特点,通过地域网格化方式,将当前所处的地域环境信息联合鸟类叫声特征共同输入到模型中进行预测。

鸟类叫声特征采用梅尔频谱图,给每个地域赋予数字代号,然后对代号进行编码(one-hot)得到地域特征,然后将地域特征与叫声特征拼接为新特征作为模型输入。

样本扩充模块中,利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充的具体步骤包括:

利用混淆方法将标注样本与缓存的声音记录中的环境声音记录进行混合增强;

将预置的样本中标注的目标类型片段随机加入初步样本集的样本中进一步增强样本数据。具体的,首先从标注好的预置样本中依次挑选目标类型片段,然后遍历所有初步样本集将目标片段随机插入选取初步样本中,以此方式来达到增强样本数据多样性的目的。

其中,预置的样本为已知的带标注的目标鸟类声音片段数据集,事先进行采集后存储到数据库中。本实施例中,是将声音采集设备在安装部署时预置一部分需要识别类型的声音样本及其标注。

本实施例通过样本扩充丰富了训练样本的多样性,同时通过数据增强,突出了训练样本的特征,提高了识别模型的识别准确率。

模型微调模块中,本实施例基于参数权重的神经网络隐藏层的固化与激活策略进行模型微调。由于受限于端侧的算力及内存限制,端侧的在线模型微调计算不可能对神经网络模型的所有层进行迭代更新,必须进行取舍只对目标检测任务贡献权重较大的某几层进行迭代更新。因此,微调过程包括:固定鸟类声音识别模型参数层,新初始化一个层作为微调层,仅配置微调层用于扩充后的样本集训练。

在一种具体的实施方式中,更具体的包括以下步骤:

(1)鸟类声音识别模型预训练模型设定。将预置在终端设备里面正在运行的鸟类声音识别模型作为预训练模型,鸟类识别模型结构采用Efficientnet网络,Efficientnet一共分为9个stage,其中的卷积层后默认都跟有BN层以及Swish激活函数。stage 1是一个3x3的卷积层。对于 stage 2 到 stage 8 就是在重复堆叠 MBConv,MBConv的结构对于主分支而言,1x1的卷积层(+bn+swish)用于升维,后面跟一个DW卷积(+bn+swish),卷积核的大小为3x3或5x5,紧接着一个SE模块,然后跟一个1x1的卷积(+bn)用于降维,最后通过一个dropout操作。最终将输入分支的矩阵直接传递过来与主分支相加,得到最后的输出。stage9 由三部分组成,首先是一个1×1的卷积,然后是平均池化,最后是一个全连接层。鸟类声音通过特征提取部分获取特征信息,将获得的特征输入模型经过卷积、池化、批归一化等步骤,最后经过全连接层数据对应鸟类的置信度得分。

(2)终端设备模型预处理。预训练模型在转换时保留BatchNorm,Dropout等训练过程中会用到的算子。

(3)对于微调场景,不需要端侧从零搭建模型,只需要加载预训练模型,固定神经网络前面层的参数,仅对全连接层最后一层用于微调。通过netron模型可视化工具(或其他工具输出的模型json文件)查看最后一层的input.name,保留除去最后一层的预训练模型。

实施例三:

本发明实施例三提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本发明实施例一所述的输电线路鸟类声音识别模型优化方法中的步骤,所述步骤为:

步骤1,获取当前场景一段时间内的背景声音,并对背景声音进行预处理。

步骤2,依次利用前端服务器和云端分析服务器对背景声音进行分类检测,得到背景声音的分类检测结果,根据分类检测结果生成初步样本集。

步骤3,利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充,在线生成训练样本集。

步骤4,利用扩充后的样本集微调终端设备侧运行的鸟类声音识别模型。

详细步骤与实施例一提供的输电线路鸟类声音识别模型优化方法相同,这里不再赘述。

实施例四:

本发明实施例四提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明实施例一所述的输电线路鸟类声音识别模型优化方法中的步骤,所述步骤为:

步骤1,获取当前场景一段时间内的背景声音,并对背景声音进行预处理。

步骤2,依次利用前端服务器和云端分析服务器对背景声音进行分类检测,得到背景声音的分类检测结果,根据分类检测结果生成初步样本集。

步骤3,利用缓存的声音记录、预置的样本以及初步样本集进行样本扩充,在线生成训练样本集。

步骤4,利用扩充后的样本集微调终端设备侧运行的鸟类声音识别模型。

详细步骤与实施例一提供的输电线路鸟类声音识别模型优化方法相同,这里不再赘述。

以上实施例二、三和四中涉及的各步骤与实施例一相对应,具体实施方式可参见实施例一的相关说明部分。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术分类

06120116506628