导航：首页> 一般车辆>一种拟声驱鸟音频选择方法及装置

一种拟声驱鸟音频选择方法及装置

文献发布时间：2023-06-19 11:39:06

技术领域

本申请涉及强化学习技术领域，尤其涉及一种拟声驱鸟音频选择方法及装置。

背景技术

目前，在对拟声驱鸟音频的选择中没有更为准确智能的策略，一般是根据人工经验或者拟声音频投入实际应用后的驱鸟效果来作为判据，具有很强的主观性，缺乏一定的理论指导依据，导致防鸟装置出现因为驱鸟音频选择不正确而无法发挥出防鸟装置的最佳防鸟效果的情况。

发明内容

本申请提供了一种拟声驱鸟音频选择方法及装置，使得驱鸟装置可以根据当前状态选择最优的驱鸟音频进行驱鸟。

有鉴于此，本申请第一方面提供了一种拟声驱鸟音频选择方法，所述方法包括：

收集多个驱鸟音频；

采用主观打分法对每个所述驱鸟音频进行打分，计算每个所述驱鸟音频数据的综合得分；

将每个所述驱鸟音频的所述综合得分作为每个所述驱鸟音频对应的初始 Q值，采用Q-learning算法根据驱鸟效果实时更新所述驱鸟音频的Q值，并根据驱鸟装置的当前状态选择播放驱鸟效果最优的驱鸟音频。

可选的，所述采用主观打分法对每个所述驱鸟音频进行打分，计算每个所述驱鸟音频数据的综合得分，包括：

分别得到多个专家对各所述驱鸟音频的打分结果；

将所述打分结果进行标准化；

根据标准化后的数据计算每个专家对同一驱鸟音频的打分比重；

计算每个专家的所述打分比重对应的熵值和信息熵冗余度，由权重计算公式计算每个专家的打分权重；

根据所述打分权重计算每个所述驱鸟音频的综合得分。

可选的，所述将所述打分结果进行标准化，包括：

将打分结果代入带标准化公式中进行标准化，标准化公式为：

式中，i＝1,2…m，j＝1,2…n，m为驱鸟音频个数，n为专家人数；a

可选的，所述根据标准化后的数据计算每个专家对同一驱鸟音频的打分比重，包括：

将标准化后的数据代入到打分比重计算公式中计算每个专家对同一驱鸟音频的打分比重，打分比重公式为：

式中，X

可选的，所述计算每个专家的所述打分比重对应的熵值和信息熵冗余度，由权重计算公式计算每个专家的打分权重，包括：

计算每个专家的所述打分比重对应的熵值和信息熵冗余度，由权重计算公式计算每个专家的打分权重，打分权重计算公式为：

dj表示信息熵冗余度。

可选的，所述根据所述打分权重计算每个所述驱鸟音频的综合得分，包括：

每个驱鸟音频数据的综合得分的求解公式为：

可选的，所述将每个所述驱鸟音频的所述综合得分作为每个所述驱鸟音频对应的初始Q值，采用Q-learning算法根据驱鸟效果实时更新所述驱鸟音频的Q值，并根据驱鸟装置的当前状态选择播放驱鸟效果最优的驱鸟音频，包括：

S301：采用熵权法计算每个所述驱鸟音频的初始得分，将初始得分作为每个所述驱鸟音频的初始Q值；

S302：当防鸟装置处于状态S1时，执行Q值最大的动作，所述动作为播放Q值最大的所述驱鸟音频；

S303：若驱鸟失败，则奖赏值R＝-1；若驱鸟成功，则奖赏值R＝1；

S304：将所述奖赏值，当前状态最大的Q值代入Q值更新公式中，对每个所述驱鸟音频的Q值进行更新；

式中，γ为衰减系数，α为学习速率；s表示防鸟装置的状态，a表示执行的动作，

S305：重复步骤S302-S304，使得所述防鸟装置根据当前状态选择播放驱鸟效果最优的驱鸟音频。

本申请第二方面提供一种拟声驱鸟音频选择装置，所述装置包括：

收集单元，用于收集多个驱鸟音频；

打分单元，用于采用主观打分法对每个所述驱鸟音频进行打分，计算每个所述驱鸟音频数据的综合得分；

选择单元，用于将每个所述驱鸟音频的所述综合得分作为每个所述驱鸟音频对应的初始Q值，采用Q-learning算法根据驱鸟效果实时更新所述驱鸟音频的Q值，并根据驱鸟装置的当前状态选择播放驱鸟效果最优的驱鸟音频。

可选的，所述打分单元包括：

专家打分单元，用于分别得到多个专家对各所述驱鸟音频的打分结果；

标准化单元，用于将所述打分结果进行标准化；

比重计算单元，用于根据标准化后的数据计算每个专家对同一驱鸟音频的打分比重；

权重计算单元，用于计算每个专家的所述打分比重对应的熵值和信息熵冗余度，由权重计算公式计算每个专家的打分权重；

得分计算单元，用于根据所述打分权重计算每个所述驱鸟音频的综合得分。

可选的，所述选择单元包括：

初始Q值计算单元，用于采用熵权法计算每个所述驱鸟音频的初始得分，将初始得分作为每个所述驱鸟音频的初始Q值；

动作执行单元，用于当防鸟装置处于状态S1时，执行Q值最大的动作，所述动作为播放Q值最大的所述驱鸟音频；

奖赏值获取单元，用于若驱鸟失败，则奖赏值R＝-1；若驱鸟成功，则奖赏值R＝1；

Q值更新单元，用于将所述奖赏值，当前状态最大的Q值代入Q值更新公式中，对每个所述驱鸟音频的Q值进行更新；

式中，γ为衰减系数，α为学习速率；s表示防鸟装置的状态，a表示执行的动作，

驱鸟音频选取单元，用于依次重复所述动作执行单元，所述奖赏值获取单元以及所述Q值更新单元中的步骤，使得所述防鸟装置根据当前状态选择播放驱鸟效果最优的驱鸟音频。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种拟声驱鸟音频选择方法，包括：收集多个驱鸟音频；采用主观打分法对每个驱鸟音频进行打分，计算每个驱鸟音频数据的综合得分；将每个驱鸟音频的综合得分作为每个驱鸟音频对应的初始Q值，采用Q-learning算法根据驱鸟效果实时更新驱鸟音频的Q值，并根据驱鸟装置的当前状态选择播放驱鸟效果最优的驱鸟音频。

本申请利用专家打分法及熵权法的结合运用确定各个驱鸟音频的初始得分；并将得到的音频初始得分为Q-learning的Q表初始Q值，利用强化学习中的Q-learning算法实时更新各个拟声驱鸟音频的综合得分以确定当前时刻分数最高的拟声驱鸟音频进行播放，使得Q-learning尽快的选择出驱鸟效果的音频，收敛速度达到最快，使收益期望最大化。

附图说明

图1为本申请一种拟声驱鸟音频选择方法的一个实施例的方法流程图；

图2为本申请一种拟声驱鸟音频选择方法的另一个实施例的方法流程图；

图3为本申请一种拟声驱鸟音频选择装置的一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一种拟声驱鸟音频选择方法的一个实施例的方法流程图，如图1所示，图1中包括：

101、收集多个驱鸟音频；

需要说明的是，本申请可以收集历史驱鸟效果好的驱鸟音频作为本申请中驱鸟装置选用的驱鸟音频，对选取的多个驱鸟音频进行编号，以便于用于后续的打分和记录。

102、采用主观打分法对每个驱鸟音频进行打分，计算每个驱鸟音频数据的综合得分；

需要说明的是，可以采用主观打分法对每个驱鸟音频进行打分，例如可以将多个驱鸟音频分别由多个不同的专家进行打分，根据打分的分值，可以对每个专家设置权重，从而得到每个驱鸟音频的综合得分。

103、将每个驱鸟音频的综合得分作为每个驱鸟音频对应的初始Q值，采用Q-learning算法根据驱鸟效果实时更新驱鸟音频的Q值，并根据驱鸟装置的当前状态选择播放驱鸟效果最优的驱鸟音频。

需要说明的是，根据计算得到的综合得分可以将综合得分作为每个驱鸟音频对应的初始Q值，以便用于后续采用Q-learning算法根据实际的驱鸟效果实时更新驱鸟音频的Q值，并根据驱鸟装置的当前状态选择播放驱鸟效果最优的驱鸟音频，当前状态表示的是当前驱鸟音频的Q值状况，Q值越大表示驱鸟效果最好。

本申请利用专家打分法确定各个驱鸟音频的初始得分；并将得到的音频初始得分为Q-learning的Q表初始Q值，利用强化学习中的Q-learning算法实时更新各个拟声驱鸟音频的综合得分以确定当前时刻分数最高的拟声驱鸟音频进行播放，使得Q-learning尽快的选择出驱鸟效果的音频，收敛速度达到最快，使收益期望最大化。

201、收集多个驱鸟音频；

需要说明的是，收集历史驱鸟效果好的驱鸟音频作为本申请中驱鸟装置选用的驱鸟音频，对选取的多个驱鸟音频进行编号，例如a

202、分别得到多个专家对各驱鸟音频的打分结果；

需要说明的是，可以采用多个专家对各驱鸟音频进行打分，例如可以采用4个专家对驱鸟音频进行打分，如下表1所示：

表1各驱鸟音频初始分数表

203、将打分结果进行标准化；

需要说明的是，将打分结果代入带标准化公式中进行标准化，标准化公式为：

式中，i＝1,2…m，j＝1,2…n，m为驱鸟音频个数，n为专家人数；a

则根据表1可以得到对应的标准化表格，如表2所示：

表2各音频分数标准化表

204、根据标准化后的数据计算每个专家对同一驱鸟音频的打分比重；

需要说明的是，将标准化后的数据代入到打分比重计算公式中计算每个专家对同一驱鸟音频的打分比重，打分比重公式为：

式中，X

205、计算每个专家的打分比重对应的熵值和信息熵冗余度，由权重计算公式计算每个专家的打分权重；

需要说明的是，计算每个专家的打分比重对应的熵值和信息熵冗余度，由权重计算公式计算每个专家的打分权重，打分权重计算公式为：

其中，k＝1/ln(n)>0，满足e

根据上式，则由表2可以得到各专家的权重表如表3所示：

表3各专家指标权重表

206、根据打分权重计算每个驱鸟音频的综合得分；

需要说明的是，每个驱鸟音频数据的综合得分的求解公式为：

则由表3及上述求解共识可以得到各驱鸟音频的得分表：

表4各驱鸟音频综合得分表

207、采用熵权法计算每个驱鸟音频的初始得分，将初始得分作为每个所述驱鸟音频的初始Q值；

需要说明的是，上述步骤205-206即是采用熵权法计算每个驱鸟音频的初始得分，则可以根据计算得到的各驱鸟音频的得分表中的分数作为每个所述驱鸟音频的初始Q值，即每个驱鸟音频的初始Q值如表5：

表5Q表

208、当防鸟装置处于状态S1时，执行Q值最大的动作，动作为播放Q 值最大的驱鸟音频；

需要说明的是，当防鸟装置处于状态S1时，可以执行Q值最大的动作，即选择分数高的音频a5播放。

209、若驱鸟失败，则奖赏值R＝-1；若驱鸟成功，则奖赏值R＝1；

需要说明的是，Q-learning中有状态(state)、动作(action)、奖赏(reward) 这三个要素，防鸟装置需要根据当前状态来采取动作，获得相应的奖赏后改进动作。本申请可以取每次选择播放驱鸟音频前后作为一个状态；动作为选择上述5个音频中的一个；若播放某音频后驱鸟成功则给予1的奖赏即R＝1；若不成功则给予-1的惩罚即R＝-1。

210、将奖赏值，当前状态最大的Q值代入Q值更新公式中，对每个驱鸟音频的Q值进行更新；

需要说明的是，Q值的更新公式为：

式中，γ为衰减系数，α为学习速率；s表示防鸟装置的状态，a表示执行的动作，

则根据表5，当驱鸟成功时，Q(S2,a5)＝1.72；反之Q(S2,a5)＝-0.2780。当进入下一个状态S2时，假设驱鸟失败，Q表更新为如下表6，然后继续执行 Q值最大的动作，即回到步骤208选择播放当前状态Q值最大的驱鸟音频a4。

表6Q表

211、重复步骤208-210，使得防鸟装置根据当前状态选择播放驱鸟效果最优的驱鸟音频。

需要说明的是，防鸟装置在每一个状态更新时，都会根据驱鸟成功与否即环境给出的反馈(Reward)利用Q值更新公式更新五个驱鸟音频的得分，则可以重复步骤208-210，使得防鸟装置根据当前状态选择播放驱鸟效果最优的驱鸟音频。

由以上算法步骤可知各驱鸟音频的得分会不断的循环更新下去，根据选择得分高的播放机制可知，防鸟装置能使每次播放的拟声音频都是收益期望最大的，即不仅利用了Q-learning算法选择出最优的拟声音频，而且使防鸟装置在某一种音频驱鸟失败时可以自我调整从而降低鸟类的适应性，大大改善了防鸟装置的驱鸟效果，同时Q-learning为拟声驱鸟音频的选择提供了更为具有自适应性的策略。

以上是本申请的方法的实施例，本申请还包括一种拟声驱鸟音频选择装置的实施例，如图3所示，包括：

收集单元301，用于收集多个驱鸟音频；

打分单元302，用于采用主观打分法对每个驱鸟音频进行打分，计算每个驱鸟音频数据的综合得分；

选择单元303，用于将每个驱鸟音频的所述综合得分作为每个驱鸟音频对应的初始Q值，采用Q-learning算法根据驱鸟效果实时更新驱鸟音频的Q值，并根据驱鸟装置的当前状态选择播放驱鸟效果最优的驱鸟音频。

在一种具体的实施方式中，打分单元302包括：

专家打分单元，用于分别得到多个专家对各驱鸟音频的打分结果；

标准化单元，用于将打分结果进行标准化；

比重计算单元，用于根据标准化后的数据计算每个专家对同一驱鸟音频的打分比重；

权重计算单元，用于计算每个专家的打分比重对应的熵值和信息熵冗余度，由权重计算公式计算每个专家的打分权重；

得分计算单元，用于根据打分权重计算每个驱鸟音频的综合得分。

选择单元302包括：

初始Q值计算单元，用于采用熵权法计算每个驱鸟音频的初始得分，将初始得分作为每个驱鸟音频的初始Q值；

动作执行单元，用于当防鸟装置处于状态S1时，执行Q值最大的动作，动作为播放Q值最大的驱鸟音频；

奖赏值获取单元，用于若驱鸟失败，则奖赏值R＝-1；若驱鸟成功，则奖赏值R＝1；

Q值更新单元，用于将奖赏值，当前状态最大的Q值代入Q值更新公式中，对每个驱鸟音频的Q值进行更新；

式中，γ为衰减系数，α为学习速率；s表示防鸟装置的状态，a表示执行的动作，

驱鸟音频选取单元，用于依次重复动作执行单元，奖赏值获取单元以及Q 值更新单元中的步骤，使得防鸟装置根据当前状态选择播放驱鸟效果最优的驱鸟音频。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或 c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张羽;陈益平;周庆东;甘团杰;刘天绍;蓝伟松;莫钜槐;张家耀;吴华标;周宇尧;张经纬;
专利申请人：广东电网有限责任公司江门供电局;

上一篇：一种基于可重配时域滤波器的RRU数据合并系统及方法
下一篇：一种轮胎修理用设备