掌桥专利:专业的专利平台
掌桥专利
首页

音频播放方法、装置、存储介质以及电子设备

文献发布时间:2024-01-17 01:27:33


音频播放方法、装置、存储介质以及电子设备

技术领域

本申请涉及计算机领域,尤其涉及一种音频播放方法、装置、存储介质以及电子设备。

背景技术

现有技术中,用户可以通过收听音频来练习口语听力能力。然而,口语听力的语速为固定的,用户的口语听力能力水平不一,采用固定语速的音频来练习口语听力的效果差。

发明内容

本申请提供了一种音频播放方法、装置、存储介质以及电子设备,以解决采用固定语速的音频练习口语听力效果差的技术问题。

第一方面,本申请提供了一种音频播放方法,包括:播放不同语速等级的原始音频,以根据上述原始音频的速度等级确定收听上述原始音频的目标对象的语速等级;根据上述目标对象的语速等级确定所要播放的目标音频。

作为一种可选的示例,上述根据上述目标对象的语速等级确定所要播放的目标音频包括:从待推荐音频中确定语速等级大于上述目标对象的语速等级的第三推荐音频;将上述第三推荐音频确定为上述目标音频。

作为一种可选的示例,在播放不同语速等级的原始音频之前,上述方法还包括:获取不同语速等级的待调整音频;将每一个上述待调整音频调整为多个不同语速等级的已调整音频,其中,上述已调整音频中包括上述待调整音频;将上述已调整音频确定为上述原始音频。

作为一种可选的示例,上述将每一个上述待调整音频调整为多个不同语速等级的已调整音频包括:对每一个上述待调整音频执行如下操作:将上述待调整音频划分为多个语段,其中,每一个上述语段包括上述语段中的词的词列表,每一个词在上述语段中的起止时间点,上述语段的起止时间点;拉长或缩短每一个上述语段,以得到上述待调整音频的多个已调整音频,其中,每一个上述已调整音频的单位时间内的词播放数量与一个语速等级对应的的单位时间内的词播放数量相同。

第二方面,本申请提供了一种音频播放装置,包括:播放模块,用于播放不同语速等级的原始音频,以根据上述原始音频的速度等级确定收听上述原始音频的目标对象的语速等级;确定模块,用于根据上述目标对象的语速等级确定所要播放的目标音频。

作为一种可选的示例,上述播放模块包括:获取单元,用于在播放不同语速等级的上述原始音频后,获取每一个上述原始音频的反馈结果,其中,上述反馈结果用于表示上述目标对象收听上述原始音频后的反馈操作;根据上述反馈结果确定上述目标对象的语速等级。

作为一种可选的示例,上述反馈结果为上述目标对象的确认选择操作或非选择操作,上述获取单元包括:第一确定子单元,用于从上述原始音频中确定上述反馈结果为上述确认选择操作的第一音频;确定上述第一音频的语速等级的加权平均结果;将上述加权平均结果确定为上述目标对象的语速等级。

作为一种可选的示例,上述反馈结果为正确识别操作或错误识别操作,上述获取单元包括:第二确定子单元,用于从上述原始音频中确定上述反馈结果为上述正确识别操作的第二音频;统计上述第二音频中每一个语速等级的音频的比例;将上述比例大于预定阈值的第二音频中,语速等级最高的第二音频的语速等级确定为上述目标对象的语速等级。

作为一种可选的示例,上述确定模块包括:第一确定单元,用于从待推荐音频中确定语速等级与上述目标对象的语速等级匹配的第一推荐音频;将上述第一推荐音频确定为上述目标音频。

作为一种可选的示例,上述确定模块包括:第二确定单元,用于在确定第二推荐音频将被播放的情况下,在上述第二推荐音频的语速等级与上述目标对象的语速等级不匹配的情况下,将上述第二推荐音频的语速等级调整为上述目标对象的语速等级;将调整语速等级后的上述第二推荐音频确定为上述目标音频。

作为一种可选的示例,上述第二确定单元包括:调整子单元,用于确定与上述目标对象的语速等级对应的的单位时间内的词播放数量;将上述第二推荐音频划分为多个语段,其中,每一个上述语段包括上述语段中的词的词列表,每一个词在上述语段中的起止时间点,上述语段的起止时间点;拉长或缩短每一个上述语段,以将上述第二推荐音频的单位时间内的词播放数量与上述目标对象的语速等级对应的的单位时间内的词播放数量相同。

作为一种可选的示例,上述确定模块包括:第三确定单元,用于从待推荐音频中确定语速等级大于上述目标对象的语速等级的第三推荐音频;将上述第三推荐音频确定为上述目标音频。

作为一种可选的示例,上述装置还包括:调整模块,用于在播放不同语速等级的原始音频之前,获取不同语速等级的待调整音频;将每一个上述待调整音频调整为多个不同语速等级的已调整音频,其中,上述已调整音频中包括上述待调整音频;将上述已调整音频确定为上述原始音频。

作为一种可选的示例,上述调整模块包括:调整单元,用于对每一个上述待调整音频执行如下操作:将上述待调整音频划分为多个语段,其中,每一个上述语段包括上述语段中的词的词列表,每一个词在上述语段中的起止时间点,上述语段的起止时间点;拉长或缩短每一个上述语段,以得到上述待调整音频的多个已调整音频,其中,每一个上述已调整音频的单位时间内的词播放数量与一个语速等级对应的的单位时间内的词播放数量相同。

第三方面,本申请提供了一种电子设备,包括:至少一个通信接口;与上述至少一个通信接口相连接的至少一个总线;与上述至少一个总线相连接的至少一个处理器;与上述至少一个总线相连接的至少一个存储器,其中,上述存储器存储有计算机程序,上述处理器被配置为执行上述计算机程序时实现上述任一项上述的音频播放方法。

第四方面,本申请还提供了一种计算机存储介质,存储有计算机可执行指令,上述计算机可执行指令用于执行本申请上述任一项上述的音频播放方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过播放不同语速等级的原始音频来确定目标对象的语速等级,然后根据目标对象的语速等级来确定要播放的目标音频,从而可以根据用户的等级来播放不同语速等级的音频,实现了准确播放音频的效果,进一步提升了用户练习口语听力的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1为本申请实施例提供的一种音频播放方法的流程图;

图2为本申请实施例提供的一种音频播放方法的系统流程图;

图3为本申请实施例提供的一种音频播放方法的确定用户的语速等级的示意图;

图4为本申请实施例提供的一种音频播放方法的按照用户的语速等级推荐学习资料的示意图;

图5为本申请实施例提供的一种音频播放方法的使用音频对用户进行口语训练的流程图;

图6为本申请实施例提供的一种音频播放方法的调整要播放的音频的语速等级的示意图;

图7为本申请实施例提供的一种音频播放方法的训练音频识别模型的示意图;

图8为本申请实施例提供的一种音频播放方法的变换语速等级的示意图;

图9为本申请实施例提供的一种音频播放装置的结构示意图;

图10为本申请实施例提供的一种电子设备示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。

图1为本申请实施例提供的一种音频播放方法的流程图。如图1所示,上述音频播放方法包括:

S102,播放不同语速等级的原始音频,以根据原始音频的速度等级确定收听原始音频的目标对象的语速等级;

S104,根据目标对象的语速等级确定所要播放的目标音频。

上述音频播放方法可以通过终端来实现。终端可以为手机、平板电脑、笔记本电脑、台式电脑、智能硬件如智能手环、智能学习机等,也可以由终端或智能硬件上的软件程序来执行。例如,用户可以通过终端学习口语,具体语种不做限定。终端可以播放不同语速等级的原始音频。原始音频可以预先获取,可以存储在音频库中。不同语速等级指语速的快慢,具体指标为同样的一段话在不同时间长度的时间段内被朗读完成。也可以通过相同时间段内被朗读的不同数量的词来作为指标。即不同的语速等级的音频的朗读语速不同。

终端播放不同的语速等级的原始音频,可以用来确定目标对象,即收听的原始音频的用户的语速等级。如终端播放1到10级的原始音频,而不显示语速等级,用户听音频来确定用户的语速等级。音频等级越高,语速越快。

确定用户的语速等级后,可以根据用户的语速等级来确定要播放的目标音频。目标音频可以从音频库中获取或者对音频库中的音频调整得到。

本申请实施例提供的该方法,通过播放不同语速等级的原始音频来确定目标对象的语速等级,然后根据目标对象的语速等级来确定要播放的目标音频,从而可以根据用户的等级来播放不同语速等级的音频,实现了准确播放音频的效果,进一步提升了用户练习口语听力的效果。

作为一种可选的示例,播放不同语速等级的原始音频,以根据原始音频的速度等级确定收听原始音频的目标对象的语速等级包括:在播放不同语速等级的原始音频后,获取每一个原始音频的反馈结果,其中,反馈结果用于表示目标对象收听原始音频后的反馈操作;根据反馈结果确定目标对象的语速等级。

本实施例中,在播放原始音频确定用户的语速等级时,可以获取用户的反馈结果。反馈结果可以为用户在收听原始音频后反馈的操作或者反馈的内容。以用户反馈操作为例,每播放一个原始音频,都可以由用户选择是否听懂该原始音频,用户可以选择听懂或者未听懂,即反馈操作。如果用户听懂了,则说明用户可以理解该语速等级的音频。如果听不懂,则表示用户不理解该语速等级的音频。通过查看用户对哪些语速等级的音频能够听懂,则可以确定出用户的语速等级。如用户在5级基本听懂,6级则听不懂了,则用户的语速等级为5级。

作为一种可选的示例,反馈结果为目标对象的确认选择操作或非选择操作,根据反馈结果确定目标对象的语速等级包括:从原始音频中确定反馈结果为确认选择操作的第一音频;确定第一音频的语速等级的加权平均结果;将加权平均结果确定为目标对象的语速等级。

本实施例中,在播放原始音频确定用户的语速等级时,可以获取用户的反馈结果。反馈结果可以为用户是否选择。用户的选择为听取原始音频后的主动操作。表示用户认为自己的水平与选择的音频的语速等级差不多。如播放1到10级的语速等级的音频,用户选择其中的4、5、6级的音频(用户并不知道音频的语速等级,而是根据听时的语感来确定是否适合自己的等级,是否过快或者过慢),说明用户觉得自己的水平在4-6之间。那么,本实施例中,将用户选择的音频的语速等级的加权平均结果确定为用户的语速等级。权值可以根据用户的选择的时间确定。用户越快选择,则权值越大,用户选择的越慢,说明考虑时间越长,权值越小。

作为一种可选的示例,反馈结果为正确识别操作或错误识别操作,根据反馈结果确定目标对象的语速等级包括:从原始音频中确定反馈结果为正确识别操作的第二音频;统计第二音频中每一个语速等级的音频的比例;将比例大于预定阈值的第二音频中,语速等级最高的第二音频的语速等级确定为目标对象的语速等级。

本实施例中,可以在播放原始音频后,显示对应的习题,由用户答题。反馈结果即为答题结果是否正确。播放原始音频后,统计每一个语速等级的原始音频的用户的答题正确率,如果正确率超过预定阈值,则说明用户对该等级的音频是能听懂的。将用户能听懂的音频的最高语速等级确定为用户的语速等级,语速等级再高则用户无法听懂。

作为一种可选的示例,根据目标对象的语速等级确定所要播放的目标音频包括:从待推荐音频中确定语速等级与目标对象的语速等级匹配的第一推荐音频;将第一推荐音频确定为目标音频。

当确定了用户的语速等级之后,可以给用户推荐音频。推荐场景有多种。其中一种场景为给用户推荐语速等级相同的音频。

如用户的语速等级为5,音频库中包含了语速等级1到10的音频,可以从中选择语速等级为5的音频播放给用户听。音频库中的每一个音频可以对应有一个语速等级,语速等级已知。

作为一种可选的示例,根据目标对象的语速等级确定所要播放的目标音频包括:在确定第二推荐音频将被播放的情况下,在第二推荐音频的语速等级与目标对象的语速等级不匹配的情况下,将第二推荐音频的语速等级调整为目标对象的语速等级;将调整语速等级后的第二推荐音频确定为目标音频。

本实施例中,推荐场景可以为推荐给用户与用户的语速等级相同的音频。本实施例中推荐的音频为用户选择的音频或者系统推荐的音频,如果推荐的音频与用户的语速等级相同则无需处理,如果推荐的音频与用户的语速等级不同,则要将推荐的音频的语速等级调整为用户的语速等级。如用户选择了4级的音频进行播放,在播放前,将4级的音频调整为5级的音频进行播放。如果音频库中包含了该4级的音频对应的5级的音频,则无需进行调整,直接从音频库中获取5级的音频进行播放。如果音频库中不包含该4级音频对应的5级音频,则要把4级音频调整为5级音频,再播放。此时,音频库中保留了4级和5级的该音频。

作为一种可选的示例,在确定第二推荐音频将被播放的情况下,在第二推荐音频的语速等级与目标对象的语速等级不匹配的情况下,将第二推荐音频的语速等级调整为目标对象的语速等级包括:确定与目标对象的语速等级对应的的单位时间内的词播放数量;将第二推荐音频划分为多个语段,其中,每一个语段包括语段中的词的词列表,每一个词在语段中的起止时间点,语段的起止时间点;拉长或缩短每一个语段,以将第二推荐音频的单位时间内的词播放数量与目标对象的语速等级对应的的单位时间内的词播放数量相同。

本实施例中,对音频的语速等级进行调整时,涉及到调整音频中的词的语速。具体可以先将音频分段,分为多个语段,分段的目的在于去除词之外的内容的干扰。分段后拉长或缩短每一个语段。拉长或缩短语段时,一个音频的不同语段按照同等比例拉长或者缩短。如4级的音频分成了3个语段,每一个语段的词播放速度拉长到原来的1.2倍。则原来的一个语段播放需要3秒,拉长后需要3.6秒。拉长后的语段组成的即为拉长后的音频,如原来的音频为4级,拉长后的音频可能为5级、6级等。具体每一个语速等级都有单位时间内的词播放数量的要求。按照单位时间内的词播放数量来拉长或者缩短语段,从而得到不同的语速等级的音频。

作为一种可选的示例,根据目标对象的语速等级确定所要播放的目标音频包括:从待推荐音频中确定语速等级大于目标对象的语速等级的第三推荐音频;将第三推荐音频确定为目标音频。

本实施例中,推荐场景可以为辅助用户提升语速等级。如用户的语速等级为5,则可以向用户推荐语速等级为5、6的音频,语速等级为5、6的音频作为训练库播放,锻炼用户的口语能力,从而用户经过长时间训练后,语速等级可能升为6级,从而实现锻炼目的。

作为一种可选的示例,在播放不同语速等级的原始音频之前,上述方法还包括:获取不同语速等级的待调整音频;将每一个待调整音频调整为多个不同语速等级的已调整音频,其中,已调整音频中包括待调整音频;将已调整音频确定为原始音频。

本实施例中,原始音频可以位于音频库中。音频库中包含了不同语速等级的音频。原始音频可以由待调整音频调整得到。待调整音频可以为一或多条。如一条3级的待调整音频,可以调整得到1-10级的原始音频,并将原始音频放到音频库中。从而,使用少量的待调整音频得到大量的不同语速等级的原始音频,充实音频库。

作为一种可选的示例,将每一个待调整音频调整为多个不同语速等级的已调整音频包括:对每一个待调整音频执行如下操作:将待调整音频划分为多个语段,其中,每一个语段包括语段中的词的词列表,每一个词在语段中的起止时间点,语段的起止时间点;拉长或缩短每一个语段,以得到待调整音频的多个已调整音频,其中,每一个已调整音频的单位时间内的词播放数量与一个语速等级对应的的单位时间内的词播放数量相同。

在将一个音频调整为多个不同语速等级的音频的时候,可以将一个音频按照不同的比例拉长或者缩短,不同的比例与不同的语速等级适配,则得到不同的语速等级的原始音频。具体方法可以参见上述过程,在此不再赘述。

本实施例中的原始音频中的词的数量并不限定。原始音频可以包括词音频、句子音频、音乐音频、文章音频以及评审、朗诵等音频内容。如图2为本实施例的系统流程图。

用户可以提供音频、音频转换为多个不同语速的原始音频放入音频库中。播放随机语速等级的原始音频,由用户来听,用户选择能听懂或者选择自认为合适的声音、根据选择的音频的语速等级的加权平均结果来评估用户的语速等级。此处加权平均算法,也可以采用其他更加有效方法实现,比如训练AI模型算法:输入多个长短句子的音频、及对应的语速等级信息,获得一个最终听力语速水平等级。用户定级后,可以为用户提供不同服务。如听力训练、对要播放的学习资料的音频的语速等级的变化,或者推荐播放与用户等级相同的音频。

图3为确定用户的语速等级的示意图。首先根据不同的音频调整语速等级生成得到原始音频,然后通过播放部分原始音频并获取用户的反馈操作来根据反馈操作确定用户的语速等级。

图4为将按照用户的语速等级推荐学习资料的示意图。根据用户的语速等级从多种语速等级的学习资料中选择合适的学习资料,如与用户等级相同的学习资料进行推荐或者播放。

图5为使用音频对用户进行口语训练的流程图。根据用户的语速等级,制定计划,选择合适等级的音频进行播放,以训练用户的口语能力。定期进行测试,根据测试结果可以调整训练计划。

图6为调整要播放的音频的语速等级的示意图。如果要播放的音频的语速等级与用户的语速等级不同,则涉及到调整要播放的音频的语速等级的过程,得到等级与用户的语速等级相同的音频,进而播放。

在调整音频的语速等级时,可以采用如下方法。

首先将待调整音频分段。分段可以根据音频中单词集中程度进行区分。单词的集中程度即单词的密集程度,可以确定每一个单词的播放时长,连续的播放时长相同的单词分成一个语段,则每一个语段的词的播放语速是一致的。每一个语段中包括了每一个词的起始时间点、终止时间点,时间段长度等信息。

图7为训练音频识别模型(Automatic Speech Recognition,ASR)的示意图。输入标注语段后的训练音频,由模型输出拆分语段后的对应文本。

语速调整为在将音频分为多个语段后,可以通过公式调整语段的语速。语速公式是指每分钟所说的单词数。可以用以下公式计算:语速(WPM)=总单词数÷说话时间(分钟)。例如,如果在两分钟内说出了200个单词,那么语速就是100WPM。

图8为一种变换语速等级的示意图。如将语速等级为5的音频的语速加快,调整为语速等级为8的音频。

图9为本申请实施例提供的一种音频播放装置的结构示意图。如图9所示,上述音频播放装置包括:

播放模块902,用于播放不同语速等级的原始音频,以根据原始音频的速度等级确定收听原始音频的目标对象的语速等级;

确定模块904,用于根据目标对象的语速等级确定所要播放的目标音频。

本实施例中,终端播放不同的语速等级的原始音频,可以用来确定目标对象,即收听的原始音频的用户的语速等级。如终端播放1到10级的原始音频,而不显示语速等级,用户听音频来确定用户的语速等级。音频等级越高,语速越快。

确定用户的语速等级后,可以根据用户的语速等级来确定要播放的目标音频。目标音频可以从音频库中获取或者对音频库中的音频调整得到。

本申请实施例提供的该方法,通过播放不同语速等级的原始音频来确定目标对象的语速等级,然后根据目标对象的语速等级来确定要播放的目标音频,从而可以根据用户的等级来播放不同语速等级的音频,实现了准确播放音频的效果,进一步提升了用户练习口语听力的效果。

本实施例的其他示例请参见上述示例,在此不再赘述。

如图10所示,本申请实施例提供提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,

存储器113,用于存放计算机程序;

在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的音频播放方法,包括:

播放不同语速等级的原始音频,以根据原始音频的速度等级确定收听原始音频的目标对象的语速等级;

根据目标对象的语速等级确定所要播放的目标音频。

本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供音频播放方法的步骤。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在,但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的步骤。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

相关技术
  • 音频播放方法、装置、电子设备及存储介质
  • 音频播放方法、装置、电子设备及存储介质
  • 音频播放方法、装置、电子设备及计算机可读介质
  • 音频播放方法、装置、电子设备及计算机可读介质
  • 音频播放方法、装置、电子设备及计算机可读介质
  • 音频播放方法、音频播放装置、电子设备和可读存储介质
  • 音频播放方法、系统、装置、电子设备和存储介质
技术分类

06120116224148