导航：首页> 教育；密码术；显示；广告；印鉴>用于播放音频的方法、装置、电子设备和存储介质

用于播放音频的方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 19:28:50

技术领域

本申请涉及计算机技术领域，具体涉及语音合成领域，尤其涉及一种用于播放音频的方法、装置、电子设备和存储介质。

背景技术

目前，随着科技的进步，使得人们不仅可从传统的书籍或其他印刷的材料(如报纸、杂志等)来实现阅读，也可在个人电脑或其他电子装置上实现阅读。其中，在电脑或其他电子装置上阅读的书籍简称为电子书(E-book)，该电子书是传统印刷的书籍或其他印刷的材料如杂志、报纸等的电子版本，人们可以在电脑或电子装置上对该电子版本进行阅读。并且，结合当今快速的网络以及当今互联网中蕴含的丰富信息资源，利用连接网络的个人电脑或电子装置来进行阅读，无形中可以使使用者拥有了许多资源。

但是，使用者通过在电脑或其他电子装置上阅读电子书基本上也都是沿袭传统的阅读习惯，即使用者单一地从显示器上阅读文本。因此，电子书的使用一般要求使用者的视觉注意力集中在显示器上以读取电子书的信息内容。而这对使用者的阅读而言，很容易造成视觉上的疲劳。因此，随着语音合成引擎技术的提高，现有技术中提出了一种解放使用者眼睛的语音合成方法，在获取到用户当前想要的某一章某一节的内容时，则该方法可包括：直接合成对应该内容的语音，之后，将该语音从耳机或扬声器中输出，并提供该语音给用户。

但如果电子书的某一章节特别长的话，用户可能需要等待很久才能得到音频数据。

发明内容

本公开的实施例提供了一种用于播放音频的方法、装置、电子设备和存储介质。

第一方面，本公开的实施例提供了一种用于播放音频的方法，包括：响应于接收到用户发送的针对目标文本的音频请求指令，将目标文本进行划分，得到多个子文本；将多个子文本上传至服务端；响应于接收到来自服务端的至少一个音频数据，确定至少一个音频数据的播放顺序；根据播放顺序，播放至少一个音频数据。

第二方面，本公开的实施例提供了一种用于播放音频的装置，包括：划分单元，被配置成响应于接收到用户发送的针对目标文本的音频请求指令，将目标文本进行划分，得到多个子文本；上传单元，被配置成将多个子文本上传至服务端；确定单元，被配置成响应于接收到来自服务端的至少一个音频数据，确定至少一个音频数据的播放顺序；播放单元，被配置成根据播放顺序，播放至少一个音频数据。

第三方面，本公开的实施例提供了一种电子设备，包括存储器、处理器、总线及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所描述的用于播放音频的方法。

第四方面，本公开的实施例提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所描述的用于播放音频的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开的用于播放音频的方法的一个实施例可以应用于其中的示例性系统架构图；

图2为本公开的用于播放音频的方法的一个实施例的流程示意图；

图3为本公开的用于播放音频的方法的一个应用场景的示意图；

图4为本公开的用于播放音频的方法的另一个实施例的流程示意图；

图5为本公开的用于播放音频的装置的一个实施例的结构示意图；

图6为本公开的电子设备的一个实施例的结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文中使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

为使本公开的技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本公开作进一步详细的说明。

图1示出了可以应用本公开的用于播放音频的方法或用于播放音频的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如电子书类应用等。终端设备101、102、103上还可以安装有扬声器等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如为终端设备101、102、103上安装的电子书类应用提供支持的后台服务器。后台服务器可以为用户通过各终端设备101、102、103浏览的电子书生成音频数据并反馈给终端设备101、102、103。终端设备101、102、103可以为用户播放上述电子书的音频数据。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的用于播放音频的方法一般由终端设备101、102、103执行。相应地，用于播放音频的装置一般设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示出了本公开的用于播放音频的方法的一个实施例的流程200。如图2所示，本实施例的用于播放音频的方法可以包括以下步骤：

步骤201，响应于接收到用户发送的针对目标文本的音频请求指令，将目标文本进行划分，得到多个子文本。

本实施例中，用于播放音频的方法的执行主体(例如图1所示的终端设备101、102、103)可以接收用户发送的针对目标文本的音频请求指令。这里，目标文本可以是用户阅读的电子书的某一章节中的文本。用户可以通过点击终端显示的电子书页面的指定按钮来实现音频请求指令的发送。执行主体在接收到音频请求指令后，可以将目标文本进行划分，得到多个子文本。具体的，执行主体可以根据字数对目标文本进行划分，例如每个子文本包括500个字。或者，执行主体根据段落数目进行划分，例如每个子文本中包括3段。

步骤202，将多个子文本上传至服务端。

执行主体可以通过多种方式将多个子文本上传至服务端。例如，通过异步传输的方式将多个子文本上传至服务端。上述服务端可以是为目标文本提供语音合成服务的服务器。

步骤203，响应于接收到来自服务端的至少一个音频数据，确定至少一个音频数据的播放顺序。

执行主体将多个子文本上传至服务端后，服务端可以同步为每个子文本进行语音合成，得到每个子文本对应的音频数据。为了加快音频数据的传播速度，服务端可以同步将生成的各个音频数据发送给执行主体。受音频数据的大小和网络带宽影响，执行主体收到各个音频数据的顺序可能与各子文本的排列顺序不同。因此，这里，执行主体首先要确定各音频数据的播放顺序。具体的，执行主体可以根据各音频数据的标识来确定播放顺序。具体的，服务端在生成各音频数据时同时生成与各子文本在目标文本中的位置对应的标识。执行主体可以根据上述标识确定各音频数据的播放顺序。或者，执行主体可以对接收到的音频数据进行文本识别，将识别到的文本与各子文本进行对比。根据对比结果确定播放顺序。为了提高处理效率，执行主体可以只对音频数据的前N秒进行文本识别。

步骤204，根据播放顺序，播放至少一个音频数据。

执行主体在确定各音频数据的播放顺序后，可以播放各音频数据。可以理解的是，执行主体只要接收到位于播放顺序第一位的音频数据后，就可以播放音频数据。这样，用户可以及时的收听到位于目标文本首位的子文本的音频，节约了等待时间。在用户收听音频的过程中，执行主体可以继续接收其它的音频数据，并确定其他音频数据的播放顺序。然后在第一个音频数据播放完成后，确定出播放顺序位于第2位的音频数据并播放。依次类推，直至所有的音频数据播放完成。

参见图3a及图3b，其示出了根据本公开的用于播放音频的方法的一个应用场景的示意图。在该应用场景中，如图3a所示，用户通过终端301中安装的电子书应用点击某一电子书的某一章节。终端301将上述章节进行划分，得到多个小节。将多个小节上传至服务端302。服务端302为各小节进行语音合成，得到多个音频数据。然后，服务端302将各音频数据发送给终端301。终端301自获取到至少一个音频数据后，可以确定接收到的各音频数据的播放顺序。并依据上述播放顺序及时播放各音频数据。这样，用户可以快速地收听第一小节的音频，与此同时终端301可以继续接收其它音频，即在播放音频的过程中同时缓存其它音频数据。如图3b所示，用户可以在电子书应用中点击某一电子书中的某一章节，电子书应用可以及时播放对应的音频数据。

本公开的上述实施例提供的用于播放音频的方法，可以将目标文本划分成多个子文本，并将各子文本上传。在从服务端获取到各子文本对应的音频数据后，可以按照各子文本的播放顺序播放音频数据。这样，能够避免用户在收听长章节的音频时等待时间过长。

继续参加图4，其示出了根据本公开的用于播放音频的方法的另一个实施例的流程400。如图4所示，本实施例的用于播放音频的方法可以包括以下步骤：

步骤401，响应于接收到用户发送的针对目标文本的音频请求指令，确定目标文本是否已上传至服务端。

本实施例中，执行主体在接收到用户发送的针对目标文本的音频请求指令后，可以首先判断目标文本是否已上传至服务端。具体的，执行主体可以根据音频请求指令的历史数据判断是否之前已接收到过目标文本的音频请求指令。如果接收过，则认为目标文本已上传至服务端。或者，执行主体可以通过向服务端发送一个询问信息，服务端在接收到上述询问信息后，可以查找接收历史，确认是否接收过目标文本，并将查询结果发送给执行主体。执行主体可以根据上述查询结果确定目标文本是否已上传至服务端。

步骤402，响应于确定目标文本未上传至服务端，确定目标文本是否满足预设条件。

如果执行主体确定目标文本未上传至服务端，则可以进一步判断目标文本是否满足预设条件。这里，预设条件可以是用于判断目标文本是否需要划分的条件。例如可以是字数超过预设阈值，或者可以是其中的段落数目超过预设阈值。

步骤403，响应于确定目标文本满足预设条件，将目标文本进行划分。

如果执行主体确定目标文本满足预设条件，则认定目标文本需要划分，则可对目标文本进行划分。在划分时，可以根据段落数量或文字数量进行划分。例如，可以将每5个段落划分为一个子文本，或者将1000个字划分为一个子文本。

在本实施例的一些可选的实现方式中，执行主体可以按照目标文本中包括的段落数量，对目标文本进行划分。例如，可以按照各子文本中包括N个段落进行划分。或者，在划分时考虑网络带宽等参数，将划分后各子文本的数据量与上述参数适配。例如，划分后各子文本通过上述网络上传所需时长小于预设时长等等。

步骤404，为每个子文本生成第一标识。

执行主体可以为每个子文本生成第一标识。具体的，可以根据子文本在目标文本中的位置生成标识，例如第一标识可以为第一节、第二节等等。执行主体可以利用多种算法(例如MD5消息摘要算法)为每个子文本生成第一标识。

步骤405，确定各第一标识与目标文本的第二标识之间的第一映射关系。

执行主体还可以获取目标文本的标识，记为第二标识。这里，第二标识可以是目标文本的来源，也可以是利用算法生成的。执行主体可以确定各子文本的第一标识与上述第二标识之间的映射关系，记为第一映射关系。上述第一映射关系中包括各子文本在目标文本中的位置，即执行主体可以通过上述第一映射关系确定出在目标文本中排在特定位置的子文本。例如目标文本的标识为第三章，子文本的标识为第一节、第二节、第三节，则第一映射关系为第三章-第一节、第二节、第三节。

步骤406，根据各子文本的第一标识，依次将各子文本上传至服务端。

执行主体在上传各子文本时，可以根据第一标识依次将各子文本上传至服务端。具体的，执行主体可以将位于目标文本中较前的子文本首先上传。例如，可以先上传第一节，再上传第二节等等。

步骤407，响应于接收到来自服务端的至少一个音频数据，根据至少一个音频数据的第三标识，确定播放顺序。

本实施例中，服务端可以在生成音频数据后，将各音频数据发送给执行主体，也可以将音频数据的获取方式发送给执行主体。上述获取方式可以包括：链接、文件存储位置等。执行主体可以通过上述获取方式获取各音频数据并缓存至本地。

服务端还可以为各音频数据生成第三标识。具体的，上述第三标识可以与各子文本在目标文本中的位置相关。也就是说，执行主体可以通过对第三标识解析，来确定各音频数据对应的位置，从而进一步根据上述各位置，确定播放顺序。

在本实施例的一些可选的实现方式中，执行主体可以通过以下步骤确定播放顺序：根据第三标识与第一标识之间的对应关系以及第一映射关系，确定第三标识与第二标识之间的第二映射关系；根据第二映射关系，确定播放顺序。

本实现方式中，上述第三标识可以与各子文本一一对应。也就是说，第三标识与第一标识之间也存在对应关系。上述第三标识可以由服务端根据各子文本的上传时间、包括的文字等信息生成。执行主体可以根据上述对应关系以及第一映射关系，生成第三标识与第二标识之间的第二映射关系。执行主体可以根据上述第二映射关系中表示的各音频数据的相对位置，来确定播放顺序。

在本实施例的一些可选的实现方式中，执行主体可以根据各音频数据的第三标识和第二映射关系，将各音频数据进行合并。这样，得到的音频数据对应于目标文本。如果用户需要跟读，则可以直接输出上述合并后的音频数据。在一些具体的应用中，执行主体可以将合并后的音频数据缓存，这样可以方便用户多次跟读。

步骤408，响应于确定排在播放顺序首位的音频数据对应于排在目标文本的首位的子文本，播放排在播放顺序首位的音频数据。

在播放各音频数据之前，可以首先对位于播放顺序首位的音频数据进行判断，即判断该音频数据是否与排在目标文本首位的子文本相对应。如果二者相对应，则播放排在播放顺序首位的音频数据。这样可以保证第一个播放的音频对应目标文本的首个子文本。

在本实施例的一些可选的实现方式中，上述方法还可以包括图4中未示出的以下步骤：在播放过程中，确定至少一个音频数据的播放速度；根据播放速度以及各子文本，确定各音频数据的预估播放时长。

本实现方式中，执行主体可以在播放音频数据的过程中，确定各音频数据的播放速度。这里，播放速度可以理解为单位时间内播放的文字数量。执行主体可以根据各子文本中包括的文字数量以及上述播放速度，确定各音频数据的预估播放时长。

在本实施例的一些可选的实现方式中，上述方法还可以包括图4中未示出的以下步骤：根据各音频数据的预估播放时长，确定目标文本对应的总播放时长；根据已播放时长，更新总播放时长。

执行主体可以将各音频数据的预估播放时长相加，得到目标文本对应的总播放时长。这里的总播放时长是一个预估值，与实际的播放时长可能不相同。因此，为了提高用户的收听体验，可以在输出各音频数据的过程中，对预估得到的总播放时长更新。例如，第一节的预估播放时长为10分钟，第二节的预估播放时长为8分钟，第三节的预估播放时长为11分钟，则预估的总播放时长为29分钟。在第一节播放完成后，其实际播放时长为9分钟，则执行主体可以将总播放时长调整为28分钟。

在本实施例的一些可选的实现方式中，上述方法还可以包括图4中未示出的以下步骤：在播放过程中，根据当前播放音频数据在播放顺序中的位置，确定播放进度。

本实现方式中，执行主体可以在音频数据的播放过程中，根据当前播放的音频数据在播放顺序中的位置，确定播放进度。例如，播放顺序对应10个音频数据，当前播放的是第2个音频数据，则播放进度为20％。

本公开的上述实施例提供的用于播放音频的方法，可以在得到排在首位的音频数据后马上进行播放，从而可以减少用户的等待时长；并且在播放过程中按照播放顺序依次播放各子文本对应的音频数据，不会影响目标文本的收听体验；同时可以在播放过程中更新总播放时长，提升用户的收听体验。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种用于播放音频的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于播放音频的装置500包括：划分单元501、上传单元502、确定单元503和播放单元504。

划分单元501，被配置成响应于接收到用户发送的针对目标文本的音频请求指令，将目标文本进行划分，得到多个子文本。

上传单元502，被配置成将多个子文本上传至服务端。

确定单元503，被配置成响应于接收到来自服务端的至少一个音频数据，确定至少一个音频数据的播放顺序。

播放单元504，被配置成根据播放顺序，播放至少一个音频数据。

另外，在本申请的技术方案中，还提出了一种电子设备。

图6示出了本公开一实施例提供的一种电子设备的结构示意图。

如图6所示，该电子设备可以包括处理器601、存储器602、总线603以及存储在存储器602上并可在处理器601上运行的计算机程序，其中，处理器601和存储器602通过总线603完成相互间的通信。所述处理器601执行所述计算机程序时实现上述方法的步骤，例如包括：响应于接收到用户发送的针对目标文本的音频请求指令，将目标文本进行划分，得到多个子文本；确定多个子文本的第一标识以及确定各第一标识与目标文本的第二标识之间的第一映射关系；将多个子文本上传至服务端；响应于接收到来自服务端的关于多个子文本对应的音频数据的信息，根据信息以及第一映射关系，输出音频数据。

另外，本公开一实施例中还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤，例如包括：响应于接收到用户发送的针对目标文本的音频请求指令，将目标文本进行划分，得到多个子文本；确定多个子文本的第一标识以及确定各第一标识与目标文本的第二标识之间的第一映射关系；将多个子文本上传至服务端；响应于接收到来自服务端的关于多个子文本对应的音频数据的信息，根据信息以及第一映射关系，输出音频数据。

综上所述，在本公开的技术方案中，由于将目标文本划分为多个子文本，并将多个子文本上传至服务端。并从服务端接收合成的音频数据进行输出。从而不需要用户在收听电子书的长章节时等待过长时间。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：肖仕林;
专利申请人：北京字跳网络技术有限公司;

上一篇：一种煤炭码头电动料斗物料流量恒定智能控制方法及系统
下一篇：一体式护理操作演示装置