导航：首页> 乐器；声学>一种基于语音控制的音量调节方法、装置、设备和介质

一种基于语音控制的音量调节方法、装置、设备和介质

文献发布时间：2023-06-19 09:26:02

技术领域

本发明实施例涉及人工智能控制技术，尤其涉及一种基于语音控制的音量调节方法、装置、设备和介质。

背景技术

随着语音技术的不断发展和成熟，语音交互逐渐成为人们和智能设备之间主要的交流方式，人们可以通过说话的方式控制设备的状态，例如通过语音表达调节设备的音量，并将其控制在自己感觉舒适的音量大小范围。

然而，目前智能设备在处理语音指令调节音量的方式上，主要借鉴了传统设备的触摸指令或按键指令的交互方式，在指令输入和音量输出变化上显得比较机械和低效。缺乏对用户意图的深入理解，无法提供符合用户需求的、个性化的、智能的交互体验。

发明内容

本发明实施例提供一种基于语音控制的音量调节方法、装置、设备和介质，以强化基于语音指令进行音量调节的智能化程度，满足用户的个性化、智能化交互体验需求。

第一方面，本发明实施例提供了一种基于语音控制的音量调整方法，包括：

获取用户向智能设备发出的语音指令；

对所述语音指令进行语义识别，以确定语义指令；

根据所述语义指令确定音量调整策略，其中，相同调整趋势的音量调整策略的数量至少为两种；

根据所述音量调整策略对所述智能设备的音量进行调整。

第二方面，本发明实施例还提供了基于语音控制的音量调整装置，该装置包括：

获取模块，用于获取用户向智能设备发出的语音指令；

识别模块，用于对所述语音指令进行语义识别，以确定语义指令；

确定模块，用于根据所述语义指令确定音量调整策略，其中，相同调整趋势的音量调整策略的数量至少为两种；

控制模块，用于根据所述音量调整策略对所述智能设备的音量进行调整。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任意实施例所述的基于语音控制的音量调整方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的基于语音控制的音量调整方法。

本发明实施例对用户向智能设备发出的语音指令进行语义识别，确定对应的语义指令；然后根据语义指令确定音量调整策略，相同调整趋势的音量调整策略的数量至少为两种；最后根据音量调整策略对智能设备的音量进行调整。能够实现对智能设备的音量进行多档灵活控制，强化了基于语音指令进行音量调节的智能化程度，满足了用户的个性化、智能化的交互体验需求。

附图说明

图1是本发明实施例一中的一种基于语音控制的音量调整方法的流程图；

图2是本发明实施例二中的一种基于语音控制的音量调整方法的流程图；

图3是本发明实施例三中的一种基于语音控制的音量调整方法的流程图；

图4a为本发明实施例所适用的不同距离下智能设备输出的舒适音量曲线示意图；

图4b为本发明实施例四提供的用户语音调节音量大小的指令聚类示意图；

图4c为本发明实施例四提供的交互场景示意图；

图5是本发明实施例五中的一种基于语音控制的音量调整装置的结构示意图；

图6是本发明实施例六中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种基于语音控制的音量调整方法的流程图，本实施例可适用于基于语音控制进行音量调整的情况，具体地，本实施例可适用于用户基于语音指令，对智能设备的音量进行多档灵活控制的情况。该方法可以由基于语音控制的音量调整装置来执行，该装置由软件和/或硬件实现，并具体配置于计算机设备中。该计算机设备包括但不限于云端服务器或智能设备。如果计算机设备为智能设备，该智能设备可以具备较强的硬件处理能力。此处不对智能设备进行限定，智能设备可以为能够进行语音播放的设备，如智能音箱等。

如图1所示的方法，具体包括如下步骤：

S110、获取用户向智能设备发出的语音指令。

语音指令可以为用于控制智能设备进行音量调整的指令。该语音指令中可以包括能够进行音量调整的语音。本步骤获取语音指令后，可以对语音指令进行分析，从而实现对音量的调整。

示例性的，语音指令包括但不限于：“请大点声”、“请小点声”、“大声一点点”和“声音太小了”。

此处不对获取语音指令的手段进行限定，方法的执行主体不同可以对应有不同的获取手段。当该方法的执行主体为智能设备时，本步骤可以通过智能设备的语音采集装置，如声音传感器获取用户向智能设备发出的语音指令；当该方法的执行主体为云端服务器时，云端服务器可以获取智能设备上报的语音指令。

S120、对所述语音指令进行语义识别，以确定语义指令。

确定语音指令后，本步骤可以对语音指令进行语义识别。语义识别可以理解为对语音指令所表达的自然语义进行解析，以确定语音指令所蕴含的自然语义。

此处不对语义识别的具体手段进行限定，只要能够对音频的语音指令进行识别，确定对应的自然语义即可。语义指令为转换为文字或字符形式的指令，以便于进一步进行深度语义的识别和智能化控制。

S130、根据所述语义指令确定音量调整策略，其中，相同调整趋势的音量调整策略的数量至少为两种。

现有技术中，智能设备在指令输入和音量输出变化上显得比较机械和低效。通常是确定调整趋势，增大或减小，而后按照固定的幅度进行调整。这类似于触控按键的操作。例如，输入“请大点声”则调大一档音量，“请小点声”则调小一档音量。每次指令调节对应的音量调整幅度基本是确定和不变的，用户如果想调整的音量幅度较大，则需要多次发出指令。

本实施例中，不同的语义指令可以具有不同的音量调整策略，相同的语义指令也可以具有相同或不同的音量调整策略。通过设置不同的音量调整策略实现对音量多档灵活的控制，有效解决了现有智能设备在指令输入和音量输出变化上显得比较机械和低效的缺陷。

其中，音量调整策略可以理解为对智能设备进行音量调整的手段。音量调整策略中可以包括有音量调整幅度和/或目标音量绝对值。基于音量调整幅度和/或目标音量绝对值能够对智能设备进行音量调整。

相同的音量调整策略可以具备相同的音量调整幅度和/或目标音量绝对值。不同的调整策略可以具有不同的音量调整幅度或不同的目标音量绝对值。

需要注意的是，为了实现对音量的多档灵活调节，相同调整趋势的音量调整策略的数量为至少两种。其中，相同调整趋势可以理解为对智能设备的调整趋势相同。如，音量增大或音量减少可以认为是相同的调整趋势。更加具体的，音量增大对应的音量调整策略的数量可以为至少两种，每种可以具有不同的音量调整幅度和/或目标音量绝对值。

在上述技术方案的基础上，音量调整策略包括相同调整趋势的至少两种音量调整幅度；和/或音量调整策略包括相同调整趋势的至少两种目标音量绝对值。

音量调整幅度可以理解为音量调节的步幅。如音量调整幅度可以为1刻度，则在进行音量调整时，可以将当前声级调整1刻度。所谓1刻度可以是设定的音量变化步长值，也可以是在音量完整量程中的设定百分比。

目标音量绝对值可以理解为智能设备将要被调节到的音量的绝对值。如目标音量绝对值为41分贝，则在进行音量调整时，可以将当前声级调整到41分贝。

为了实现音量的多档灵活调节，本实施例中音量调整策略可以包括相同调整趋势的至少两种音量调整幅度和/或至少两种目标音量绝对值，以在相同调整趋势时，能够有至少两种音量调整幅度和/或至少两种目标音量绝对值的音量调整策略，供智能设备进行灵活的音量控制。

本实施例中不限定基于语义指令确定音量调整策略的具体手段，如从预先存储的映射关系中查找对应语义指令的音量调整策略。映射关系可以为根据多个语义指令和音量调整策略确定的静态的关系集合。该映射关系可以为通用的，也可以为个性化的，即不同的用户基于各自的语义指令和历史音量调整策略确定的；又如从语义指令集中确定对应语义指令的音量调整策略。该语义指令集可以为根据多个语义指令和音量调整策略确定的动态的关系集合。该语义指令集在用户进行音量控制过程中可以基于用户的使用习惯实时更新，以更能符合用户对音量调整的需求；又如在根据语义指令确定音量调整策略时，可以结合用户的历史音量调整策略，对音量调整策略进行修正，以逐步建立用户个人的语义指令与音量控制策略的对应关系；又如在根据语义指令确定音量调整策略时，可以结合智能设备所处状态和/或用户所处状态，从多维度确定更加准确的音量调节策略。

可以理解的是，根据语义指令确定音量调整策略时，除了基于语义指令外，还可以基于智能设备所处状态、用户所处状态和/或用户历史音量调整策略等控制信息进行智能终端的音量控制。此处不限定各控制信息间，及各控制信息与语义指令间的控制优先级，本领域技术人员可以根据实际需求进行限定。

可选的，当控制信息与语义指令有冲突时，可以以语义指令控制优先。

S140、根据所述音量调整策略对所述智能设备的音量进行调整。

确定音量调整策略后，本步骤可以基于音量调整策略对智能设备的音量进行调整。具体调整手段可以根据音量调整策略的具体内容确定。如本步骤可以根据音量调整策略所包括音量调整幅度对智能设备的音量进行调整；又如本步骤可以根据目标音量绝对值对智能设备的音量进行调整。

本实施例的技术方案，对用户向智能设备发出的语音指令进行语义识别，确定对应的语义指令；然后根据语义指令确定音量调整策略，相同调整趋势的音量调整策略的数量至少为两种；最后根据音量调整策略对智能设备的音量进行调整。能够实现对智能设备的音量进行多档灵活控制，强化了基于语音指令进行音量调节的智能化程度，满足了用户的个性化、智能化的交互体验需求。

在上述技术方案的基础上，所述方法的执行主体为云端服务器或智能设备；

如果执行主体为智能设备，则对所述语音指令进行语义识别，以确定语义指令，根据所述语义指令确定音量调整策略包括：

根据所述语音指令进行语义识别，以确定语义指令，并基于本地存储的映射关系确定语义指令所对应的音量调整策略；或

将所述语音指令发送至云端服务器进行语义识别和音量调整策略的确定，并接收反馈的音量调整策略。

本实施例的基于语音控制的音量调整方法可以由云端服务器执行，也可以由智能设备执行。当该方法的执行主体为智能设备时，智能终端确定语义指令和确定音量调整策略的操作可以在本地完成。如对语音指令进行语义识别，确定对应的语义指令，然后基于本地存储的映射关系确定语义指令所对应的音量调整策略；或智能终端可以将语义指令的确定操作和音量调整策略的确定操作转移至云端服务器完成，以提升处理速度。如将语音指令发送至云端服务器进行语义识别和音量调整策略的确定。然后接收云端服务器反馈的音量调整策略，以基于该音量调整策略对智能设备的音量进行调整。

实施例二

图2是本发明实施例二中的一种基于语音控制的音量调整方法的流程图，本发明实施例在实施例一的基础上进行具体化。本实施例将根据所述语义指令确定音量调整策略具体包括：根据所述语义指令，与语义指令集中的语义指令进行匹配；其中，语义指令集包括至少两类，每类语义指令集与一种音量调整策略对应。如果匹配成功，则确定所述语义指令集对应的音量调整策略。

进一步地，在从语义指令集中确定对应的音量调整策略之后，还包括：

根据用户的历史音量调整策略，对确定的音量调整策略进行修正。本实施例未尽详细解释之处请参见实施例一，在此不再赘述。

如图2所示的方法，具体包括如下步骤：

S210、获取用户向智能设备发出的语音指令。

S220、对所述语音指令进行语义识别，以确定语义指令。

S230、根据所述语义指令，与语义指令集中的语义指令进行匹配；其中，语义指令集包括至少两类，每类语义指令集与一种音量调整策略对应。

本实施例在根据语义指令确定音量调整策略时，可以通过语义指令集确定。语义指令集可以理解为对应一种音量调整策略的语义指令的集合。语义指令集中可以包括对应一种音量调整策略的语义指令和所对应的音量调整策略。

具体地，确定语义指令后，本步骤可以将语义指令与语义指令集中所包括的语义指令进行匹配，查找与语义指令匹配的语义指令集。然后根据语义指令集和音量调整策略的对应关系，确定对应的音量调整策略。其中，匹配的手段包括但不限于：相似度匹配和/或关键词匹配。

需要注意的是，本实施例中包括至少两类语义指令集，每类语义指令集对应一种音量调整策略，从而实现智能设备音量的多档灵活控制。语义指令集可以为根据多个语义指令和音量调整策略确定的。具体地，可以将多个语义指令中，对应一种音量调整策略的语义指令添加至一个语义指令集。

进一步地，根据所述语义指令，与语义指令集中的语义指令进行匹配包括：

根据所述语义指令，在语义指令集中所包括的语义指令中进行相似度匹配或关键词匹配；

如果匹配结果达到设定条件，则确定所述语义指令与语义指令集匹配成功。

在进行语义指令匹配时，可以对语义指令与语义指令集所包括的语义指令进行相似度匹配或关键词匹配。

进行相似度匹配时，可以计算语义指令与语义指令集中预设个数的目标语义指令的相似度。预设个数可以为至少一个。当进行相似度匹配时，设定条件可以为相似度大于相似度阈值。如果确定出的预设个数的相似度均大于相似度阈值，则可以确定语义指令与语义指令集匹配成功。

进行关键词比较时，可以提取语义指令和语义指令集中预设个数的目标语义指令的关键词。当进行关键词匹配时，设定条件可以为关键词相同。如果语义指令的关键词与预设个数的目标语义指令中任一个目标语义指令的关键词相同，则可以确定语义指令与语义指令集匹配成功。

进一步地，所述语义指令集为根据多个用户的语义指令与音量调整策略来确定的；或所述语义指令集为根据该单个用户的语义指令与历史音量调整策略来确定的。

本实施例中的语义指令集可以根据多个语义指令和对应的语音调增策略确定。其中，多个语义指令可以为单个用户或多个用户的语义指令。单个用户可以为当前进行音量调整的用户。

具体地，可以将多个用户或单个用户的对应同一种音量调整策略的语义指令添加至一个语义指令集，实现对多个语义指令的聚类。

S240、如果匹配成功，则确定所述语义指令集对应的音量调整策略。

如果语义指令与语义指令集所包括语义指令匹配，可以认为语义指令匹配成功。匹配成功后，本步骤可以基于语义指令集与音量调整策略的对应关系，确定所述语义指令集对应的音量调整策略。该语义指令集中所包括的语义指令与通过语音指令确定的语义指令匹配。

如果匹配不成功，则可以接收用户的按键指令或触摸指令，然后确定按键指令或触摸指令对应的音量调整策略，将对应的音量调整策略及语义指令添加至语义指令集中；还可以从语义指令集中选取与语义指令匹配度最高的语义指令集，将该语义指令集对应的音量调整策略，确定为语义指令对应的音量调整策略。

S250、根据用户的历史音量调整策略，对确定的音量调整策略进行修正。

在确定音量调整策略后，本步骤可以获取用户的历史音量调整策略，该历史音量调整策略可以为历史确定的对应语义指令的音量调整策略。

本步骤在确定出的音量调整策略进行修正时，可以直接将语义指令集中确定出的音量调整策略替换为历史音量调整策略，从而实现对语义指令集的个性化更新。

S260、根据所述音量调整策略对所述智能设备的音量进行调整。

本实施例中，在基于语义指令确定音量调整策略时，可以将语义指令与语义指令集所包括语义指令进行匹配。如果匹配成功，则确定匹配成功的语义指令集所对应的音量调整策略。然后根据用户的历史音量调整策略，对确定的音量调整策略进行修正，根据修正后的音量调整策略对智能设备进行调整。在实现音量的多档位调节的基础上，使得对音量的控制更能符合用户对音量的调节需求，满足了更加高效和个性化的音量控制体验需求。

在上述技术方案的基础上，该方法，还包括：

采集用户设定控制时长内输入的至少两次语义指令，以及在所述设定控制时长内执行语音控制的起始音量和结束音量；

根据所述起始音量和结束音量，确定对应的音量调整策略；

将对应的所述音量调整策略与所述语义指令，添加到语义指令集中。

可以理解的是，在用户对智能设备进行音量控制的过程中，可以对语义指令集进行更新，以使得更新后的语义指令集更加符合用户需求。

设定控制时长可以为预先设定的进行音量控制的时长。如果在设定控制时长内用户输入了至少两次语义指令，可以认为基于当前语义指令集确定的至少两次语义指令对应的音量调整策略不能满足用户对音量控制的需求。本示例可以基于本次语音控制对语义指令集进行更新。

具体地，采集用户在设定控制时长内输入的至少两次语义指令，及在设定控制时长内执行语音控制的起始音量和结束音量。设定控制时长的起始和结束时间点对应的音量为起始音量和结束音量。即起始音量可以为在设定控制时长内未进行语音控制时的音量。结束音量可以为设定控制时长内执行语音控制后的音量。设定时长内执行的至少两次音量控制可以视为一次语音控制。

确定起始音量和结束音量后，可以基于起始音量和结束音量的差值确定对应的音量调整策略。如直接将该差值设置为对应本次语音控制的音量调整幅度或可以直接将结束音量作为目标音量绝对值。

确定对应的音量调整策略后，可以将对应的音量调整策略和至少两次语义指令添加至语义指令集中。不同的语义指令可以具有不同的添加策略。如当至少两次语义指令为相同的语义指令时，直接将语义指令和音量调整策略添加至语义指令集；当至少两次语义指令为不同的语义指令时，对至少两次语义指令进行语义分析，确定能够修正后的语义指令。如第一次采集的语义指令为增大音量，第二次采集的语义指令为减少一点音量，则修正后的语义指令为增大一点音量。确定修正后的语义指令后，将修正后的语义指令和对应的音量调整策略添加至语义指令集。

语义指令集可以是通用的，也可以是个性化的。通用语义指令集是采集大量用户的语义指令以及所其他的音量调整策略，进行聚类关联而建立的。当用户初次使用智能设备时可优先使用通用语义指令集。每个用户也有自己的语义表达习惯，因此，如果通过采集用户的历史数据表明与通用语义指令集不一致，则可以根据历史数据逐步为该用户建立个性化语义指令集，仅为该用户提供智能化控制。后续将通过实施例具体说明语义指令集的建立过程。

实施例三

图3是本发明实施例三中的一种基于语音控制的音量调整方法的流程图，本发明实施例在上述实施例的基础上进行具体化。本实施例中，具体包括了：确定智能设备所处状态和/或用户所处状态；

相应的，根据所述语义指令确定音量调整策略具体包括：

根据所述语义指令，以及所述智能设备所处状态和/或用户所处状态确定音量调整策略。本实施例未详尽之处请参见前述实施例，在此不再赘述。

如图3所述的方法，具体包括如下步骤：

S310、获取用户向智能设备发出的语音指令。

S320、对所述语音指令进行语义识别，以确定语义指令。

S330、确定智能设备所处状态和/或用户所处状态。

本实施例在对音量进行控制时，可以结合智能设备所处状态和/或用户所处状态，确定音量调整策略。

其中，智能设备所处状态可以理解为智能终端当前的播放场景。用户所处状态可以理解为用户个人的信息，如用户年龄、用户心情等。智能设备所处状态或用户所处状态不同，可以对应有不同的确定手段。智能终端所处状态可以通过动态识别得到。用户所处状态可以通过注册等方式预先采集或动态识别得到。

进一步地，确定智能设备所处状态包括下述至少一种：

确定所述智能设备与用户之间的距离；

确定所述智能设备所处环境的噪音状态；

确定所述智能设备当前播放内容所属应用场景；

确定所述智能设备当前播放所属时段场景。

确定智能设备与用户的距离可以通过传感器、声源定位识别等方式确定。确定智能终端所处环境的噪音状态可以对智能设备所处环境下的声音进行采集和分析得到。噪音状态可以包括噪音类型和/噪音大小。确定智能设备当前播放内容的应用场景可以基于当前播放内容确定。不同的播放内容对应有不同的应用场景。应用场景包括播放摇滚音乐、播放儿童故事、新闻等。时段场景可以理解为当前播放所处时段。时段场景包括深夜、白天、工作时间或娱乐时间等。确定时段场景可以基于当前播放的时间确定。

进一步地，确定用户所处状态包括：用户年龄。

不同的用户年龄对音频的接受情况可以不同，本实施例在确定音量调整策略时，可以结合用户年龄，以使得对智能设备的音量控制更加符合用户需求。

S340、根据所述语义指令，以及所述智能设备所处状态和/或用户所处状态确定音量调整策略。

本步骤可以在语义指令的基础上，结合智能设备所处状态和/或用户所处状态确定音量调整策略。

确定音量调整策略时，可以通过智能设备所处状态和/或用户所处状态确定音量舒适范围；音量舒适范围可以理解为对应智能设备所处状态和/或用户所处状态的舒适的音量范围。确定出音量舒适范围后，可以基于语义指令确定能够在音量舒适范围内进行音量调节的音量调整策略；还可以直接基于预先确定的语义指令，以及智能设备所处状态和/或用户所处状态，及音量调整策略的对应关系，确定音量调整策略。

进一步地，根据所述语义指令，以及所述智能设备所处状态和/或用户所处状态确定音量调整策略包括：

根据所述智能设备所处状态和/或用户所处状态，基于预设对应关系确定音量舒适范围；

根据所述语义指令，确定音量调整策略，其中，所述音量调整策略使得调整后的音量在所述音量舒适范围内。

预设对应关系可以理解为用于确定音量舒适范围的对应关系。确定音量调整策略时，可以首先基于预设对应关系，确定对应智能设备所处状态和/或用户所处状态的音量舒适范围；该音量舒适范围可以限定音量调节的范围。然后基于语义指令，确定对应的语义指令和音量舒适范围的音量调整策略，该音量调整策略能够使得调整后的音量在音量舒适范围内。

进一步地，所述预设对应关系，根据多个智能设备所处状态和/或用户所处状态与期待音量范围的对应关系来确定；或所述预设对应关系，根据该单个用户所拥有智能设备所处状态和/或该单个用户所处状态，与历史期待音量范围的对应关系来确定。

期望音量范围可以理解为期望的对应智能设备所处状态和/或用户所处状态的音量范围。历史期望音量范围为单个用户历史期望对应智能设备所处状态和/或用户所处状态的音量范围。

基于多个智能设备所处状态和/或用户所处状态与期待音量范围的对应关系来确定的预设对应关系可以具有通用性。基于单个用户所拥有智能设备所处状态和/或该单个用户所处状态，与历史期待音量范围的对应关系来确定的预设对应关系，能够更加符合该用户的需求，实现个性化音量调整。

S350、根据所述音量调整策略对所述智能设备的音量进行调整。

本实施例中，在基于语义指令确定音量调整策略时，可以确定智能设备所处状态和/或用户所处状态，然后根据语义指令，智能设备所处状态和/或用户所处状态确定音量调整策略。在进行智能设备的音量控制时，结合智能设备所处状态和/或用户所处状态能够在实现音量的多档位调节的基础上，使得对音量的控制更能满足智能设备所处状态和/或用户所处状态对音量的需求，满足了更加高效和个性化的音量控制体验需求。

实施例四

本发明实施例在上述各实施例的技术方案的基础上，提供了几种具体的实施方式。

目前音量调整缺乏对用户意图、交互环境、用户习惯的理解，无法提供符合用户需求的、高效的、个性化的、智能的交互体验。

本实施例进行音量调整时，可以对智能设备进行个性化音量调整。基于智能设备所处状态、语音指令对应的语义指令、历史音量调整策略等多个信息实现音量的个性化调节和输出。即智能设备通过对交互距离、用户输入指令深度理解、调节音量历史数据的获取、分析、整合，综合判断用户的音量调节需求，提供个性化音量调节交互体验。智能设备可以为搭载DuerOS系统的智能设备。

具体地，首先通过交互距离初步判断最舒适音量范围，即音量舒适范围：通过智能音箱的传感器，如摄像头、红外设备或声源定位等获取用户与智能设备的交互距离信息，并根据距离判断当前交互距离条件下用户最舒适的音量范围，以及智能设备对应的声音输出功率。

图4a为本发明实施例所适用的不同距离下智能设备输出的舒适音量曲线示意图，以智能音箱为例，在智能家居场景下比较常见的用户与设备交互距离和对应的设备输出最佳音量如图4a所示，图4a中数据的来源可以为对30名用户进行智能设备音量调节体验研究得出的试验数据。图4a横坐标为音量输出的音量大小，单位为分贝。纵坐标为认为当前音量舒适的用户。

然后基于用户调节指令的深入分析挖掘用户需求，通过对用户调节音量的语音指令进行获取和深度语义分析，以调大/调小类指令为例(占所有语音调节指令80％)，对用户输入指令进行深度语义分析，提取不同指令间的语义差异以及对应的用户具体诉求。用户的语音调节输入指令可以被分为以下三类，以及不同分类对应的音量变化幅度建议。图4b为本发明实施例四提供的用户语音调节音量大小的指令聚类示意图。参见图4b，该聚类结果可以为对30名用户进行智能设备音量调节体验研究的试验数据的聚类。聚类结果可以包括类别1、类别2和类别3。表1为不同指令分类下的音量变化幅度建议表。图4b收集了大量用户的指令集，按照用户期望值设定对应的调整幅度，如表1所示。

表1不同指令分类下的音量变化幅度建议表

参见表1，表1中列出了不同类别对应的步幅变化。

最后基于用户习惯匹配合适的音量偏好，通过对用户以往的用户音量交互数据的分析，匹配用户习惯的音量偏好，用户习惯数据包括：1)习惯的设备音量大小及时间状态信息，如不同时间段的设备的音量设置状态；2)用户语音调节音量时，起始音量大小和终点音量的设置情况；3)用户语音调节音量的指令集；4)不同场景下的音量大小设置，如用户在消费音乐、百科、新闻等不同内容时的音量设置。利用用户的历史信息匹配合适的音量大小。

本实施例提出了一种基于用户与智能设备交互距离、音量调节指令深度分析、用户调节音量历史的个性化音量调节策略和方法，智能设备通过对交互距离、用户输入指令、调节音量历史数据的获取、分析、整合，综合判断用户的音量调节需求，为用户提供更加个性化和更智能的音量调节交互体验。图4c为本发明实施例四提供的交互场景示意图，参见图4c，用户向智能设备进行语音调节指令(即语音指令)输入，智能设备可以将音量调节指令发送给云端(即云端服务器)进行音量调节指令的语义差异分析。云端反馈相应的音量变化值(即音量调整策略)，智能设备基于音量变化值进行差异化音量输出。

针对智能设备语音音量调节行为，通过对目前占比最高的调大/调小指令(占比近80％)做进一步语义分析，以及结合用户与智能设备的交互距离和用户音量调节历史等信息，为用户提供更加个性化、更加高效的音量调节体验。该方法可以有效改善目前智能设备语音调节音量体验存在的问题。

更加具体的，本实施例的方法包括：

接收用户向智能设备发出的语音指令；

根据智能设备与人的交互距离、用户输入指令深度理解和/或调节音量历史数据，确定语音指令与音量调整幅度的对应关系；其中音量调整幅度包括多个；

根据所述音量调整幅度进行智能设备的音量调整。

上述方案中，智能设备与人的交互距离属于播放场景，播放场景还可以包括：当前时间场景，如深夜、白天、工作时间、娱乐时间；当前应用场景，如播放摇滚音乐、播放儿童故事等。

上述内容可通过调研确定，也可以通过大量用户历史数据统计分析确定。

智能设备与人的交互距离，可通过智能音箱的传感器，如摄像头、红外设备或声源定位等获取用户与智能设备的交互距离信息，并根据距离判断当前交互距离条件下用户最舒适的音量范围，以及智能设备对应的声音输出功率。

上述方案中，还可以考虑用户对音频的接受情况，包括:

用户年龄，主要指用户个人的、静态信息，可通过注册等预先采集或动态识别。

上述方案中，音量调节指令语义分析，可理解为通用、初始化的语义，包括：

通过大数据采集，获取大多数用户习惯输入的语音指令，以及对应期望的音量调整幅度，建立映射关系。可通过人工调研或大量用户的历史习惯统计来确定。

如果用户输入的语音指令，不在上述指令集范围内，则进行关键字匹配和近似度识别。例如声太小了，可匹配到声音太小了。

上述方案中，还可以包括：

在智能设备中如果采集到的指令，与指令集中的指令差别达到预设值，且出现的数量达到一定值，则可以作为新指令，添加到指令集中。可以作为该用户的个性化指令，也可以作为通用指令集使用。例如，英语指令。

上述方案中，调节音量历史数据，是指用户个人历史语音指令习惯，用于对通用指令语义进行校正，具体包括：

1)用户习惯的设备音量大小及时间状态信息，如不同时间段的设备的音量设置状态；

2)用户语音调节音量时，起始音量大小和终点音量的设置情况，例如，在设定短时间内连续给出三次指令，调大音量，则设定短时间的起始和终止时点的音量就是起点音量和终点音量，这视为一次音量调整过程；

3)用户语音调节音量的指令集——用户的新指令；

4)不同场景下的音量大小设置，如用户在消费音乐、百科、新闻等不停内容时的音量设置。

利用该用户的历史信息匹配合适的音量大小。

本发明一个具体的优选实例完整过程可以是：

对于智能设备刚刚被新用户采用时，没有用户的历史数据，则在收到语音指令时，基于设备与人的距离和/或通用指令集确定对应的调整幅度；

逐步采集用户的历史数据，建立用户的个人指令集与音量调整幅度的对应关系，或确定个人指令集与绝对音量的对应关系，直到稳定收敛——该识别纠正过程可以通过云端服务器来计算，确定后在智能设备存储，可供智能设备直接使用，直到出现不匹配的变化情况，再触发云端服务器重新计算规律。

本发明实施例的技术方案可以对音量进行灵活识别，确定对应调整的目标音量，可以是不同的目标音量绝对值或音量调整幅值。本方案的有益效果在于，能够在用户输入语音指令后，基于不同的因素，确定不同的音量调整幅度或绝对目标音量值，尽量一步到位，更符合用户的调整需求。

实施例五

图5是本发明实施例五中的一种基于语音控制的音量调整装置的结构示意图，该装置由软件和/或硬件实现，并具体配置于计算机设备中，用于实现基于语音控制的音量调整。

如图5所示，本实施例提供的装置，可适用于基于语音控制进行音量调整的情况，具体地，本实施例可适用于用户基于语音指令，对智能设备的音量进行多档灵活控制的情况。具体包括：获取模块510、识别模块520、确定模块530和控制模块540。

其中，获取模块510，用于获取用户向智能设备发出的语音指令；

识别模块520，用于对所述语音指令进行语义识别，以确定语义指令；

确定模块530，用于根据所述语义指令确定音量调整策略，其中，相同调整趋势的音量调整策略的数量至少为两种；

控制模块540，用于根据所述音量调整策略对所述智能设备的音量进行调整。

本实施例中，对用户向智能设备发出的语音指令进行语义识别，确定对应的语义指令；然后根据语义指令确定音量调整策略，相同调整趋势的音量调整策略的数量至少为两种；最后根据音量调整策略对智能设备的音量进行调整。能够实现对智能设备的音量进行多档灵活控制，强化了基于语音指令进行音量调节的智能化程度，满足了用户的个性化、智能化的交互体验需求。

进一步地，确定模块530中，音量调整策略包括相同调整趋势的至少两种音量调整幅度；和/或音量调整策略包括相同调整趋势的至少两种目标音量绝对值。

进一步地，确定模块530，包括：

匹配单元，用于根据所述语义指令，与语义指令集中的语义指令进行匹配；其中，语义指令集包括至少两类，每类语义指令集与一种音量调整策略对应；

确定单元，用于当匹配成功时，确定所述语义指令集对应的音量调整策略。

进一步地，匹配单元，具体用于：

根据所述语义指令，在语义指令集中所包括的语义指令中进行相似度匹配或关键词匹配；

如果匹配结果达到设定条件，则确定所述语义指令与语义指令集匹配成功。

进一步地，该装置还包括：修正模块，用于根据所述语义指令，从语义指令集中确定对应的音量调整策略之后，根据用户的历史音量调整策略，对确定的音量调整策略进行修正。

进一步地，匹配单元中的语义指令集为根据多个用户的语义指令与音量调整策略来确定的；或所述语义指令集为根据该单个用户的语义指令与历史音量调整策略来确定的。

进一步地，该装置，还包括：添加模块，用于：

采集用户设定控制时长内输入的至少两次语义指令，以及在所述设定控制时长内执行语音控制的起始音量和结束音量；

根据所述起始音量和结束音量，确定对应的音量调整策略；

将对应的所述音量调整策略与所述语义指令，添加到语义指令集中。

进一步地，该装置，还包括：状态确定模块，用于

确定智能设备所处状态和/或用户所处状态；

相应的，确定模块530具体用于：

根据所述语义指令，以及所述智能设备所处状态和/或用户所处状态确定音量调整策略。

进一步地，状态确定模块确定智能设备所处状态包括下述至少一种：

确定所述智能设备与用户之间的距离；

确定所述智能设备所处环境的噪音状态；

确定所述智能设备当前播放内容所属应用场景；

确定所述智能设备当前播放所属时段场景。

进一步地，状态确定模块确定用户所处状态包括：用户年龄。

进一步地，确定模块530具体用于：

根据所述智能设备所处状态和/或用户所处状态，基于预设对应关系确定音量舒适范围；

根据所述语义指令，确定音量调整策略，其中，所述音量调整策略使得调整后的音量在所述音量舒适范围内。

进一步地，确定模块530中的预设对应关系，根据多个智能设备所处状态和/或用户所处状态与期待音量范围的对应关系来确定；或所述预设对应关系，根据该单个用户所拥有智能设备所处状态和/或该单个用户所处状态，与历史期待音量范围的对应关系来确定。

进一步地，所述装置集成于云端服务器或智能设备；

如果集成于智能设备，则识别模块520和确定模块530具体用于：

根据所述语音指令进行语义识别，以确定语义指令，并基于本地存储的映射关系确定语义指令所对应的音量调整策略；或

将所述语音指令发送至云端服务器进行语义识别和音量调整策略的确定，并接收反馈的音量调整策略。

本发明实施例所提供的基于语音控制的音量调整装置可执行本发明任意实施例所提供的基于语音控制的音量调整方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6是本发明实施例六中的一种计算机设备的结构示意图。图6显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图6所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图6中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基于语音控制的音量调整方法。也即，所述处理单元执行所述程序时实现：

获取用户向智能设备发出的语音指令；

对所述语音指令进行语义识别，以确定语义指令；

根据所述语义指令确定音量调整策略，其中，相同调整趋势的音量调整策略的数量至少为两种；

根据所述音量调整策略对所述智能设备的音量进行调整。

实施例七

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的一种基于语音控制的音量调整方法。也即，该程序被处理器执行时实现：

获取用户向智能设备发出的语音指令；

对所述语音指令进行语义识别，以确定语义指令；

根据所述语义指令确定音量调整策略，其中，相同调整趋势的音量调整策略的数量至少为两种；

根据所述音量调整策略对所述智能设备的音量进行调整。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)域连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈宪涛;贾孟华;王任振;宓佳琦;周茉莉;关岱松;
专利申请人：百度在线网络技术(北京)有限公司;

上一篇：地铁隧道道床面及排水沟清洁作业车及排水沟冲洗方法
下一篇：资源的推送方法和装置、存储介质及电子装置