掌桥专利:专业的专利平台
掌桥专利
首页

TTS语音的处理方法、装置、设备及系统

文献发布时间:2023-06-19 11:06:50


TTS语音的处理方法、装置、设备及系统

技术领域

本申请涉及数据处理技术领域,尤其涉及一种TTS语音的处理方法、装置、设备及系统。

背景技术

在社区或工业园区的管理过程中,信息的有效传播至关重要。当前,社区或工业园区的信息传播方式主要包括两种:一种是管理人员挨家挨户逐一宣传,另一种是管理人员通过广播系统进行信息的宣读。然而,该两种方式中均需要占用较多的人力资源和时间成本,不仅信息的传播效率低,而且信息的传播次数受到很大限制。

发明内容

本申请实施例的目的是提供一种TTS语音的处理方法、装置、设备及系统,以实现信息的高效传播。

为解决上述技术问题,本申请实施例是这样实现的:

第一方面,本申请实施例提供了一种TTS语音的处理方法,包括:

获取待处理的文本信息;

根据预设的语音合成规则对所述文本信息进行离线语音合成处理,得到TTS语音;

若确定所述TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将所述TTS语音发送给所述智能设备,以使所述智能设备在确定符合预设的播放条件时播放所述TTS语音。

第二方面,本申请实施例提供了一种TTS语音的处理装置,包括:

存储器,用于存储语音合成规则;

处理器,用于获取待处理的文本信息,根据所述语音合成规则对所述文本信息进行离线语音合成处理,得到TTS语音;确定所述TTS语音的播放策略,若所述播放策略是通过所在分布式网络中的智能设备播放,则将所述TTS语音发送给所述智能设备,以使所述智能设备在确定符合预设的播放条件时播放所述TTS语音。

第三方面,本申请实施例提供了一种TTS语音的处理系统,包括:管理机设备和至少一个智能设备;

所述管理机设备,用于按照上述TTS语音的处理方法进行TTS语音的相关处理;

所述智能设备,接收所述管理机设备发送的所述TTS语音,若确定符合预设的播放条件,则播放所述TTS语音。

第四方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线;其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上述TTS语音的处理方法的步骤。

第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述TTS语音的处理方法的步骤。

本申请实施例中,管理机设备预先与至少一个智能设备组建分布式网络,当管理机设备在获取到待处理的文本信息时,根据预设的语音合成规则对文本信息进行离线语音合成处理,得到TTS语音;若确定该TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将该TTS语音发送给相应的智能设备,以使智能设备在确定符合预设的播放条件时播放TTS语音。由此,通过将文本信息转换为TTS语音,并基于分布式网络进行TTS语音的自动播放,而无需人为进行宣读,极大的提升了信息的传播效率;并且智能设备在确定满足播放条件时即可播放TTS语音,有效的解决了当前信息传播次数受限的问题;再者,通过对文本信息进行离线语音合成处理,不仅降低了信息的传播成本,而且避免了因没有布设用于进行在线语音合成的服务端而导致的无法进行语音合成等问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种TTS语音的处理方法的场景示意图;

图2为本申请实施例提供的一种TTS语音的处理方法的第一种流程示意图;

图3为本申请实施例提供的一种TTS语音的处理方法的第二种流程示意图;

图4为本申请实施例提供的一种TTS语音的处理方法的第三种流程示意图;

图5为本申请实施例提供的一种TTS语音的处理方法的第四种流程示意图;

图6为本申请实施例提供的一种TTS语音的处理方法的第五种流程示意图;

图7为本申请实施例提供的一种TTS语音的处理方法的第六种流程示意图;

图8为本申请实施例提供的一种TTS语音的处理方法的第七种流程示意图

图9为本申请实施例提供的一种TTS语音的处理装置的模块组成示意图;

图10为本申请实施例提供的一种TTS语音的处理系统的第一种组成示意图;

图11为本申请实施例提供的一种TTS语音的处理系统的第二种组成示意图;

图12为本申请实施例提供的一种电子设备的组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

图1为本申请一个或多个实施例提供的一种TTS语音的处理方法的应用场景示意图,如图1所示,该场景包括:管理机设备、路由设备和至少一个智能设备。其中,管理机设备通过路由设备与智能设备相连,以组建分布式网络。管理机设备具有TTS(Text To Speech文本转语音)语音的合成、管理、分发、播放等功能,还可以具有文本信息的输入、查询和显示等功能;在实际应用中,管理机设备可以是具有前述功能的门禁设备、可视对讲设备、考勤设备等。智能设备具有TTS语音的播放和查询等功能,还可以具有文本信息的查询和显示等功能;在实际应用中,智能设备可以是具有前述功能的门禁设备、可视对讲设备、考勤设备等。将上述分布式网络布设于社区、工业园区等,在实现相应的门禁、考勤等功能的同时,还可以实现信息的高效传播。

具体的,当管理机设备获取到待处理的文本信息时,根据预设的语音合成规则对获取的文本信息进行离线语音合成处理,得到TTS语音;确定该TTS语音的播放策略,若确定的播放策略是通过所在分布式网络中的智能设备播放,则通过路由设备将TTS语音发送给相应的智能设备;智能设备接收到TTS语音后,若确定符合预设的播放条件,则播放TTS语音。由此,通过将文本信息转换为TTS语音,并基于分布式网络进行TTS语音的自动播放,而无需人为进行宣读,极大的提升了信息的传播效率;并且智能设备在确定满足播放条件时即可播放TTS语音,有效的解决了当前信息传播次数受限的问题;再者,通过对文本信息进行离线语音合成处理,不仅降低了信息的传播成本,而且避免了因没有布设用于进行在线语音合成的服务端而导致的无法进行语音合成等问题。

需要指出的是,管理机设备和智能设备的设备类型不限为上述门禁设备、可视对讲设备、考勤设备等,可以在实际应用中根据需要自行设定。

基于上述应用场景架构,本申请一个或多个实施例提供了一种TTS语音的处理方法。图2为本申请一个或多个实施例提供的一种TTS语音的处理方法的流程示意图,图2中的方法能够由图1中的管理机设备执行。参见图2,该方法可以包括如下步骤:

步骤102,获取待处理的文本信息;

具体的,接收指定设备发送的信息处理请求,从该信息处理请求中获取待处理的文本信息;或者,响应于用户的信息处理操作获取信息处理请求,从信息处理请求中获取待处理的文本信息。

其中,指定设备可以是用户的终端设备,如手机、平台电脑、便携式笔记本等;还可以是与管理机设备通信连接的控制设备,如服务器或多个服务器组成的服务器集群等。具体而言,用户的终端设备中安装有管理机设备的控制程序,该控制程序可以是独立的应用程序(Application,简称App),还可以是嵌入到其他应用程序中的小程序。当用户需要进行信息广播时,可以操作其终端设备中的控制程序,编辑相应的文本信息,并在编辑完成后进行提交操作(如点击确定按钮等);终端设备响应于用户的提交操作,获取用户提交的文本信息,根据获取的文本信息向管理机设备发送信息处理请求;管理机设备接收用户的终端设备发送的信息处理请求,从接收到的信息处理请求中获取待处理的文本信息。或者,控制设备根据获取的文本信息向管理机设备发送信息处理请求,管理机设备接收控制设备发送的信息处理请求,从接收到的信息处理请求中获取待处理的文本信息。或者,当管理机设备设置有输入模块时,用户可以操作管理机设备的输入模块进行文本信息的输入,并在输入完成后点击确定或提交等按钮以向管理机设备发送信息处理请求,管理机设备响应于用户的信息处理操作获取信息处理请求,并从信息处理请求中获取待处理的文本信息。

步骤104,根据预设的语音合成规则对文本信息进行离线语音合成处理,得到TTS语音;

本申请实施例中的离线语音合成处理是指在管理机设备本地进行语音合成处理;与之相对应的,在线语音合成处理是指管理机设备通过网络将获取的待处理的文本信息发送给服务端,由服务端进行语音合成处理得到TTS语音,并将得到的TTS语音发送给管理机设备。考虑到在实际应用中,布设服务端的成本高昂,并不是每个社区或工业园区等都会布设服务端。基于此,本申请实施例中,管理机设备根据预设的语音合成规则对文本信息进行离线语音合成处理,不仅降低了信息的传播成本,而且避免了因没有布设用于进行在线语音合成的服务端而导致的无法进行语音合成等问题。

步骤106,若确定TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将TTS语音发送给相应的智能设备,以使智能设备在确定符合预设的播放条件时播放TTS语音。

其中,播放策略可以包括通过所在分布式网络中的智能设备播放、直接播放、暂缓播放等。通过所在分布式网络中的智能设备播放即将TTS语音发送给所在分布式网络中相应的智能设备,由该智能设备播放TTS语音;直接播放即管理机设备合成TTS语音之后直接自行播放;暂缓播放即满足播放条件时进行播放处理。需要指出的是,可以多个播放策略同时执行,如通过所在分布式网络中的智能设备播放和直接播放两个播放策略可以同时执行等。分布式网络的组网方式可参见前述相关描述,这里不再赘述。预设的播放条件可以在实际应用中根据需要自行设定,如每隔预设时间间隔进行播放、在到达指定时间时进行播放等。

本申请实施例中,管理机设备预先与至少一个智能设备组建分布式网络,当管理机设备在获取到待处理的文本信息时,根据预设的语音合成规则对文本信息进行离线语音合成处理,得到TTS语音;若确定该TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将该TTS语音发送给相应的智能设备,以使智能设备在确定符合预设的播放条件时播放TTS语音。由此,通过将文本信息转换为TTS语音,并基于分布式网络进行TTS语音的自动播放,而无需人为进行宣读,极大的提升了信息的传播效率;并且智能设备在确定满足播放条件时即可播放TTS语音,有效的解决了当前信息传播次数受限的问题;再者,通过对文本信息进行离线语音合成处理,不仅降低了信息的传播成本,而且避免了因没有布设用于进行在线语音合成的服务端而导致的无法进行语音合成等问题。

考虑到管理机设备的算力资源有限,并且语音合成处理所需消耗的算力资源与文本信息的长度成正相关;为了避免待处理的文本信息的长度过长,在语音合成过程中的算力资源消耗过大,而管理机设备无法支撑这种消耗,导致语音合成失败等问题,本申请一个或多个实施例中,对待处理的文本信息进行分段语音合成处理,具体的,如图3所示,步骤104可以包括以下步骤104-2至步骤104-6:

步骤104-2,若确定文本信息的长度大于第一预设长度,则根据预设的切分规则对文本信息进行切分处理得到多个子文本;

进一步的,若确定文本信息的长度不大于第一预设长度,则对文本信息进行离线语音合成处理,得到相应的TTS语音。其中,第一预设长度可以认为是管理机设备进行单次语音合成处理时所能处理的文本信息的最大长度。

进一步的,当播放策略是通过所在分布式网络中的智能设备播放时,考虑到智能设备的语音播放能力通常是有限的,当TTS语音的长度超过智能设备单次进行语音播放的最大语音播放长度时,存在TTS语音无法顺利播放的风险。基于此,本申请一个或多个实施例中,管理机设备结合自身的语音合成能力以及智能设备的语音播放能力进行分段语音合成处理。具体的,如图4所示,步骤104-2可以包括以下步骤104-22至步骤104-26:

步骤104-22,若确定待合成的TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则确定智能设备进行单次语音播放的最大语音播放长度所对应的目标文本长度;

由于不同智能设备的语音播放能力不同,为了使管理机设备能够快速的确定智能设备进行单次语音播放的最大语音播放长度所对应的文本长度,本申请一个或多个实施例中,可以预先建立智能设备的设备信息与智能设备所能播放的最大语音播放长度所对应的文本长度的对应关系。相应的,步骤104-22可以包括:管理机设备根据待发送TTS语音的智能设备的设备信息从预设的该对应关系中获取对应的文本长度,将获取的文本长度确定为智能设备进行单次语音播放的最大语音播放长度所对应的目标文本长度。进一步的,当存在多个待发送TTS语音的智能设备时,将获取的各文本长度中最小的文本长度确定为智能设备进行单次语音播放的最大语音播放长度所对应的目标文本长度。

本申请一个或多个实施例中,管理机设备还可以从智能设备处获取目标文本长度。具体的,步骤104-22可以包括:向待发送TTS语音的智能设备发送长度获取请求,接收智能设备发送的文本长度,将接收到的文本长度确定为智能设备进行单次语音播放的最大语音播放长度所对应的目标文本长度。进一步的,当存在多个待发送TTS语音的智能设备时,将接收的各文本长度中最小的文本长度确定为智能设备进行单次语音播放的最大语音播放长度所对应的目标文本长度。

步骤104-24,比对第一预设长度与目标文本长度的大小,将小的长度确定为标准长度;

步骤104-26,若确定文本信息的长度大于标准长度,则根据预设的切分规则对文本信息进行切分处理得到多个子文本。

由此,在文本信息的长度大于标准长度时,对文本信息进行切分处理,从而进行分段语音合成,既能满足管理机设备的语音合成能力,又能满足智能设备的语音播放能力。

与步骤104-22至步骤104-26对应的,如图4所示,步骤106可以包括以下步骤106-2:

步骤106-2,将TTS语音发送给相应的智能设备,以使智能设备在确定符合预设的播放条件时播放TTS语音。

步骤104-4,根据预设的合成条件将得到的子文本划分成多个子文本集合;

步骤104-6,对每个子文本集合中的子文本进行离线语音合成处理,得到相应的TTS语音。

考虑到在本本信息中,通常标点符号能够表征一个相对完整的语义,基于此,本申请一个或多个实施例中,基于文本信息中的标点符号进行切分处理。具体的,如图5所示,步骤104-26可以包括以下步骤104-262和步骤104-264:

步骤104-262,确定文本信息的长度是否大于标准长度,是则将文本信息确定为待切分文本,执行步骤104-264,否则对获取的文本信息进行离线语音合成处理,得到TTS语音,执行步骤106-2;

其中,第一预设长度可以在实际应用中根据需要自行设定,例如第一预设长度为25个字符等。

步骤104-264,按照从前向后的顺序检测待切分文本中的标点符号,确定检测到的标点符号是否为第一预设符号,若是,则在标点符号所在的位置进行切分处理,得到相应的子文本。

具体的,每检测到待切分文本中的一个标点符号,则确定检测到的标点符号是否为第一预设符号中的符号,若是,则在检测到的标点符号所在的位置进行切分处理,得到相应的子文本;若否,则继续进行标点符号的检测处理。其中,预设符号可以在实际应用中根据需要自行设定,例如第一预设符号包括句号、感叹号、分号等。

进一步的,考虑到在实际应用中,根据第一预设符号切分处理所得的子文本也存在过长的可能,基于此,步骤104-264中在标点符号所在的位置进行切分处理,得到相应的子文本,可以包括:

确定标点符号之前的待切分文本的长度是否超过标准长度;若是,则根据预设方式确定待切分文本中的切分位置,在确定的切分位置进行切分处理,以使得到的子文本的长度不超过标准长度;若否,则在标点符号所在的位置进行切分处理,得到相应的子文本。

具体的,当首次检测到第一预设符号时,将该第一预设符号之前的文本信息确定为待切分文本;当非首次检测到第一预设符号时,将当前检测到的第一预设符号与前一次检测到的第一预设符号之间的文本确定为待切分文本。为了满足文本长度的要求,本申请一个或多个实施例中,前述根据预设方式确定待切分文本中的切分位置可以包括:根据标准长度确定待切分文本中的切分位置;具体的,按照从前向后的顺序,确定待切分文本中长度为标准长度的目标文本信息,将目标文本信息的最后一个字符之后的位置确定为切分位置,在确定的切分位置进行切分处理,得到相应的子文本。

进一步的,考虑到根据标准长度确定待切分文本中的切分位置时,可能将某个词语切分为两部分,例如对于词语“今天”,其中,“今”字在当前所得的子文本中,而“天”字在下一个子文本中,导致在进行TTS语音播放时,听者的听感不佳。并且以第一预设符号是句号为例,在实际应用中,当相应的文本过长时,通常中间还会有逗号、顿号等标点符号。基于此,为了避免语义的拆分,本申请一个或多个实施例中,前述根据预设方式确定待切分文本中的切分位置可以包括:检测待切分文本中是否包括第二预设符号,若包括第二预设符号、且第二预设符号之前的待切分文本的长度未超过标准长度,则将第二预设符号所在的位置确定为切分位置。需要指出的是,确定待切分文本中的切分位置的方式不限为上述方式,可以在实际应用中根据需要自行设定,例如对待切分文本进行均分等。

进一步的,确定待切分文本中的切分位置,进行切分处理得到相应的子文本之后,可以将待切分文本对应的当前检测到的第一预设符号的位置确定为下一个切分位置;或者,当待切分文本切分处理后剩余的文本的长度小于第三预设长度(如3个字符)时,继续进行文本检测处理,并在检测到下一个第一预设符号时,继续按照前述方式进行处理。

考虑到切分所得的子文本可能存在仅有少量字符的情况,如某个子文本为“早上好”,为了避免存在太多的TTS语音,不利于进行TTS语音的管理,本申请一个或多个实施例中,根据预设的合成条件将得到的子文本划分成多个子文本集合。具体的,如图6所示,步骤104-4可以包括以下步骤104-42和步骤104-44:

步骤104-42,依次确定当前待划分的子文本;

步骤104-44,按照从前向后的顺序,确定当前待划分的子文本中总长度大于标准长度、且前N-1个子文本的总长度不大于标准长度的N个子文本,将前N-1个子文本划分为一个子文本集合;其中N是大于1的整数;

为了提升信息处理请求的响应速度,可选地,本申请一个或多个实施例中,可以一边进行切分处理,一边进行子文本集合的划分处理,一边进行TTS语音的合成处理;并即每得到一个子文本时,确定是否可以划分出相应的子文本集合,并在划分出相应的一个子文本集合时,进行相应TTS语音的离线合成处理。具体的,如图7所示,步骤104-42可以包括以下步骤104-422:

步骤104-422,将切分处理得到的相应的子文本确定为当前子文本,按照从前向后的顺序,确定当前子文本之前是否存在未划分的子文本,是则将当前子文本和未划分的子文本确定为当前待划分的子文本,否则将当前子文本确定为当前待划分的子文本;

与步骤104-422对应的,如图7所示,步骤104-44可以包括以下步骤104-44-2和步骤104-44-4:步骤104-6可以包括以下步骤104-62和步骤104-64:

步骤104-44-2,确定当前待划分的子文本的总长度是否大于标准长度,是则执行步骤104-44-4,否则返回步骤104-264;

需要指出的,若当前待划分的子文本只有一个子文本,其长度一定不大于标准长度,因此返回步骤104-264。

步骤104-44-4,将当前待划分的N个子文本中的前N-1个子文本划分为一个子文本集合;

例如,当前待划分的子文本是3个子文本(即N=3),按照从前向后的顺序,第一个待划分的子文本的长度是15个字符、第二个待划分的子文本的长度是8个字符,第三个待划分的子文本的长度是9个字符,标准长度是25个字符,则将第一个待划分的子文本和第二个待划分的子文本划分为一个子文本集合。

步骤104-62,对得到的子文本集合进行离线语音合成处理,得到相应的TTS语音,

步骤104-64,确定是否存在未切分的文本信息,是则将未切分的文本信息确定为待切分文本,返回步骤104-264;否则执行步骤106-2;

需要指出的,步骤104-264中在标点符号所在的位置进行切分处理,得到相应的子文本之后,还可以在标点符号所在的位置添加预设的待切分标记,从而在进行下一次切分处理时,可以将该待切分标记的位置确定为起始检测位置,并从起始检测位置向后检测文本信息中的标点符号。

以上是每切分处理得到一个子文本后,即确定是否可以划分得到一个子文本集合,并在划分得到一个子文本集合时进行离线语音合成处理的过程;由于得到一个子文本集合之后即进行离线语音合成处理得到相应的TTS语音,因此能够及时的进行TTS语音的播放处理,提升信息处理请求的响应速率。

本申请的一个或多个实施例中,当对于信息处理请求的响应速率的要求不是很高时,还可以在对获取到的文本信息进行切分处理得到所有子文本之后,对得到的各子文本进行集合的划分处理,并在每得到一个子文本集合时进行相应的离线语音合成处理。具体的,如图8所示,步骤104-42可以包括以下步骤104-424:

步骤104-424,确定是否为首次进行子文本集合的划分处理,是则将切分处理所得的各子文本确定为当前待划分的子文本;否则确定切分处理所得的各子文本中添加有预设的待划分标识的子文本,按照从前至后的顺序,将确定的子文本及其后的各子文本确定为当前待划分的子文本。

与步骤104-424对应的,步骤104-44可以包括以下步骤104-44-6至步骤104-44-12,步骤104-6可以包括以下步骤104-66:

步骤104-44-6,将当前待划分的子文本中的前两个子文本确定为当前子文本;

步骤104-44-8,确定当前子文本的长度是否大于标准长度,是则执行步骤104-44-10,否则执行步骤104-44-12;

步骤104-44-10,将确定的N个当前子文本中的前N-1个子文本划分为一个子集合,确定N个当前子文本中的第N个子文本之后是否还有待划分的子文本,是则将预设的待划分标识添加至第N个子文本,执行步骤104-66;否则将第N个子文本划分为一个子文本集合,并作为最后一个子文本集合,执行步骤104-66。

步骤104-44-12,确定N个当前子文本中的第N个子文本之后是否还有待划分的子文本,是则将N个当前子文本和第N个子文本的下一个子文本确定为当前子文本,返回步骤104-44-8;否则将N个当前子文本划分为一个子文本集合,并作为最后一个子文本集合,执行步骤104-66;

步骤104-66,对得到的子文本集合进行离线语音合成处理,得到相应的TTS语音,确定得到的子文本集合是否为最后一个子文本集合,是则执行步骤S106,否则返回步骤104-424;

以上是在切分处理全部完成之后,基于切分所得的各子文本进行子文本集合的划分处理,并在划分处理得到一个子文本集合时进行离线语音合成处理的过程。不仅实现了文本转语音,而且在信息处理请求的响应速率要求不是很高时,依然能够满足确保一定的TTS语音的合成速率。

进一步的,TTS语音的离线合成处理不限于上述在每得到一个子文本集合时执行,对于暂缓播放等播放策略,由于其对信息处理请求的响应速率的要求不高,因此还可以在对子文本进行子文本集合的划分处理得到所有的子文本集合之后,对得到的各子文本集合进行离线语音合成处理。具体的离线语音合成处理的时机可以在实际应用中根据需要自行设定。

由此,通过将待处理的文本信息划分为多个子文本,并将该子文本划分成子文本集合,以及对各子文本集合中的子文本进行离线语音合成处理,得到相应的TTS语音,在确保了文本能够准确的转换成语音的同时,能够满足高响应速率的需求。

进一步的,为了满足信息宣传需求,在适当的时间播放TTS语音,步骤S102之后还可以包括:确定待合成的TTS语音的播放策略。

具体的,在向管理机设备发送信息处理请求时,还可以指定播放信息;相应的,管理机设备确定是否获取到播放信息,若是,则根据播放信息确定待合成的TTS语音的播放策略;若否,则将默认的播放策略确定为待合成的TTS语音的播放策略。

其中,播放信息中可以包括播放策略信息、播放时间信息等。默认的播放策略可以在实际应用中根据需要自行设定,如默认的播放策略是通过所在分布式网络中的智能设备播放等。

进一步的,考虑到一个工业园区往往很大,可以分成多个区域,有些信息只需要在某个区域进行宣传;因此,用户还可以在播放信息中指定进行播放TTS语音的智能设备的设备信息。相应的,步骤106中将TTS语音发送给智能设备,可以包括:根据播放信息确定所在分布式网络中的待发送的目标智能设备,根据目标智能设备的设备信息和TTS语音向所在分布式网络中的路由设备发送信息发送请求,以使路由设备将TTS语音发送给目标智能设备。具体的,管理机设备从播放信息中获取目标智能设备的设备信息,根据获取的设备信息和TTS语音向所在分布式网络中的路由设备发送信息发送请求,路由设备根据接收到的信息发送请求,将TTS语音发送给设备信息所对应的智能设备。其中,设备信息如设备标识、设备的IP地址等。

考虑到智能设备在播放TTS语音时,一些用户可能不在现场,为了使该不在场的用户能够进行相关信息的查询,本申请一个或多个实施例中,方法还可以包括:将文本信息发送给智能设备,以使智能设备响应于用户对文本信息的查询请求,展示相应的文本信息。其中,文本信息可以与TTS语音同时发送给智能设备,还可以分别发送给智能设备。

进一步的,当智能设备接收到文本信息时,保存接收到的文本信息;当用户想要查询某个文本信息时,操作智能设备选择待查询的文本信息;智能设备响应于用户对文本信息的查询请求,展示相应的文本信息。

需要指出的是,由于智能设备的存储空间大小有限,而保存音频数据需要占用较大的存储空间,因此智能设备对管理机设备发送的TTS语音播放完成后,会删除该TTS语音。当智能设备具有语音合成能力时,用户可以在操作智能设备选择待查询的文本信息时,同时选择查询方式,如以文本信息的方式进行查询、以语音的方式进行查询等;相应的,智能设备响应于用户的查询操作,若确定以语音的方式进行查询,则基于相应的文本信息进行离线语音合成处理,得到TTS语音,播放得到的TTS语音。其中,智能设备进行离线语音合成处理的过程与前述管理机设备进行离线语音合成处理的过程相似,不同之处在于当智能设备确定文本信息的长度大于第三预设长度时,则根据预设的切分规则对文本信息进行切分处理得到多个子文本;其中,第三预设长度是智能设备单次进行语音合成处理时所能处理的文本信息的最大长度。

进一步的,考虑到当合成的TTS语音达到一定长度时,可以一边进行TTS语音的播放,一边进行剩余TTS语音的合成,以实现高响应速率,基于此,本申请一个或多个实施例中,步骤104-6之后还可以包括:确定当前已合成的TTS语音的长度,若确定已合成的TTS语音的长度不小于第二预设长度,则将当前已合成的TTS语音发送给智能设备。具体的,若确定已合成的TTS语音的长度不小于第二预设长度、且播放策略是通过所在分布式网络中的智能设备播放时,将当前已合成的TTS语音发送给相应的智能设备。

考虑到智能设备在播放语音时,往往会有格式要求,基于此,将TTS语音发送给智能设备,可以包括:对TTS语音进行编码处理得到第一预设格式的TTS语音,将第一预设格式的TTS语音发送给智能设备。其中第一预设格式可以在实际应用中根据需要自行设定,如MP3格式等。

由于播放策略还可以是直接播放、暂缓播放等,因此,方法还可以包括:

若确定TTS语音的播放策略是直接播放,则保存文本信息并播放TTS语音。

若确定TTS语音的播放策略是暂缓播放,则对TTS语音进行编码处理得到第二预设格式的TTS语音;保存第二预设格式的TTS语音;以及,若确定符合第二预设格式的TTS语音的播放条件,则对第二预设格式的TTS语音进行播放处理。其中,第二预设格式与前述第一预设格式可以相同也可以不同,其可以在实际应用中根据需要自行设定,如均为MP3格式等;播放条件如接收到指定设备发送的播放指示信息、到达指定的播放时间等。对第二预设格式的TTS语音进行播放处理,可以是直接播放,也可以是发送给通过所在分布式网络中的智能设备,使智能设备播放等。

需要指出的是,当播放策略是直接播放时,在分段语音合成的处理过程中,可以不考虑智能设备的语音合成能力,即将第一预设长度确定为目标文本长度。

进一步的,当管理机设备具有信息的查询和展示功能时,方法还可以包括:响应于用户对文本信息的查询请求,展示相应的文本信息。

本申请实施例中,管理机设备预先与至少一个智能设备组建分布式网络,当管理机设备在获取到待处理的文本信息时,根据预设的语音合成规则对文本信息进行离线语音合成处理,得到TTS语音;若确定该TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将该TTS语音发送给相应的智能设备,以使智能设备在确定符合预设的播放条件时播放TTS语音。由此,通过将文本信息转换为TTS语音,并基于分布式网络进行TTS语音的自动播放,而无需人为进行宣读,极大的提升了信息的传播效率;并且智能设备在确定满足播放条件时即可播放TTS语音,有效的解决了当前信息传播次数受限的问题;再者,通过对文本信息进行离线语音合成处理,不仅降低了信息的传播成本,而且避免了因没有布设用于进行在线语音合成的服务端而导致的无法进行语音合成等问题。

基于相同的技术构思,本申请一个或多个实施例还提供了一种TTS语音的处理装置,图9本申请一个或多个实施例还提供一种TTS语音的处理装置的模块组成示意图,如图9所示,该装置包括:

存储器201,用于存储语音合成规则;

处理器202,用于获取待处理的文本信息,根据所述语音合成规则对所述文本信息进行离线语音合成处理,得到TTS语音;若确定所述TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将所述TTS语音发送给所述智能设备,以使所述智能设备在确定符合预设的播放条件时播放所述TTS语音。

本申请实施例提供的TTS语音的处理装置,在获取到待处理的文本信息时,根据预设的语音合成规则对文本信息进行离线语音合成处理,得到TTS语音;若确定该TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将该TTS语音发送给相应的智能设备,以使智能设备在确定符合预设的播放条件时播放TTS语音。由此,通过将文本信息转换为TTS语音,并基于分布式网络进行TTS语音的自动播放,而无需人为进行宣读,极大的提升了信息的传播效率;并且智能设备在确定满足播放条件时即可播放TTS语音,有效的解决了当前信息传播次数受限的问题;再者,通过对文本信息进行离线语音合成处理,不仅降低了信息的传播成本,而且避免了因没有布设用于进行在线语音合成的服务端而导致的无法进行语音合成等问题。

可选地,处理器202,接收指定设备发送的信息处理请求,从所述信息处理请求中获取待处理的文本信息;或者,

响应于用户的信息处理操作获取信息处理请求,从所述信息处理请求中获取待处理的文本信息。

可选地,处理器202,若确定所述文本信息的长度大于第一预设长度,则根据预设的切分规则对所述文本信息进行切分处理得到多个子文本;

根据预设的合成条件将所述子文本划分成多个子文本集合;

对每个所述子文本集合中的子文本进行离线语音合成处理,得到相应的TTS语音。

可选地,处理器202,确定所述智能设备进行单次语音播放的最大语音播放长度所对应的目标文本长度;

比对所述第一预设长度与所述目标文本长度的大小,将小的长度确定为标准长度;

若确定所述文本信息的长度大于所述标准长度,则根据预设的切分规则对所述文本信息进行切分处理得到多个子文本。

可选地,处理器202,将所述文本信息确定为待切分文本,按照从前向后的顺序检测所述待切分文本中的标点符号;

确定检测到的所述标点符号是否为第一预设符号,若是,则在所述标点符号所在的位置进行切分处理,得到相应的子文本。

可选地,处理器202,确定所述标点符号之前的待切分文本的长度是否大于所述标准长度;

若是,则根据预设方式确定所述待切分文本中的切分位置,在所述切分位置进行切分处理,以使得到的子文本的长度不超过所述标准长度;

若否,则在所述标点符号所在的位置进行切分处理,得到相应的子文本。

可选地,处理器202,依次确定当前待划分的子文本;

按照从前向后的顺序,确定所述当前待划分的子文本中总长度大于所述标准长度、且前N-1个子文本的总长度不大于所述标准长度的N个子文本;其中N是大于1的整数;

将所述前N-1个子文本划分为一个子文本集合。

可选地,处理器202,将所述切分处理得到的所述相应的子文本确定为当前子文本;

按照从前向后的顺序,确定所述当前子文本之前是否存在未划分的子文本;

若是,则将所述当前子文本和所述未划分的子文本确定为当前待划分的子文本;

若否,则将所述当前子文本确定为所述待划分的子文本。

可选地,处理器202,确定是否为首次进行所述子文本集合的划分处理;

若是,则将所述切分处理所得的各子文本确定为当前待划分的子文本;

若否,则确定所述切分处理所得的各子文本中添加有预设的待划分标识的子文本,按照从前至后的顺序,将确定的所述子文本及其后的各子文本确定为当前待划分的子文本;

所述将所述前N-1个子文本划分为一个子文本集合之后,还包括:

若确定第N个子文本之后还有待划分的子文本,则将待划分标识添加至所述第N个子文本。

可选地,处理器202,确定当前已合成的TTS语音的长度;

若确定所述当前已合成的TTS语音的长度不小于第二预设长度,则将当前已合成的TTS语音发送给所述智能设备。

可选地,处理器202,对所述TTS语音进行编码处理得到第一预设格式的TTS语音;

将所述第一预设格式的TTS语音发送给所述智能设备。

可选地,处理器202,将所述文本信息发送给所述智能设备,使所述智能设备响应于用户对所述文本信息的查询请求,展示所述文本信息。

可选地,处理器202,确定是否获取到所述TTS语音的播放信息;

若是,则根据播放信息确定所述TTS语音的播放策略;

若否,则将默认的播放策略确定为所述TTS语音的播放策略。

可选地,处理器202,根据所述播放信息确定所在分布式网络中的待发送的目标智能设备;

根据所述目标智能设备的设备信息和所述TTS语音向所在分布式网络中的路由设备发送信息发送请求,以使所述路由设备将所述TTS语音发送给所述目标智能设备。

可选地,所述装置还包括:扬声器模块;

所述处理器模块,若确定所述播放策略是直接播放,则保存所述文本信息;

所述扬声器模块,播放所述TTS语音。

可选地,处理器202,若确定所述播放策略是暂缓播放,则对所述TTS语音进行编码处理得到第二预设格式的TTS语音;

所述存储器201,保存所述第二预设格式的TTS语音;

处理器202,若确定符合所述第二预设格式的TTS语音的播放条件,则对所述第二预设格式的TTS语音进行播放处理。

本申请实施例提供的TTS语音的处理装置,在获取到待处理的文本信息时,根据预设的语音合成规则对文本信息进行离线语音合成处理,得到TTS语音;若确定该TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将该TTS语音发送给相应的智能设备,以使智能设备在确定符合预设的播放条件时播放TTS语音。由此,通过将文本信息转换为TTS语音,并基于分布式网络进行TTS语音的自动播放,而无需人为进行宣读,极大的提升了信息的传播效率;并且智能设备在确定满足播放条件时即可播放TTS语音,有效的解决了当前信息传播次数受限的问题;再者,通过对文本信息进行离线语音合成处理,不仅降低了信息的传播成本,而且避免了因没有布设用于进行在线语音合成的服务端而导致的无法进行语音合成等问题。

另外,对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。而且,应当注意的是,本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。

基于相同的技术构思,本申请一个或多个实施例还提供了一种TTS语音的处理系统,图10本申请一个或多个实施例还提供一种TTS语音的处理系统的组成示意图,如图10所示,该系统包括:管理机设备301和至少一个智能设备302;

所述管理机设备301,用于按照前述TTS语音的处理方法进行TTS语音的相关处理;

所述智能设备302,接收所述管理机设备301发送的所述TTS语音,若确定符合预设的播放条件,则播放所述TTS语音。

可选地,如图11所示,所述系统还包括:路由设备303,所述管理机设备301,通过所述路由设备303与所述智能设备302相连,以组建分布式网络;

所述管理机设备301,具体用于将按照前述TTS语音的处理方法所得的TTS语音发送给所述路由设备303;

所述路由设备303,将接收到的TTS语音发送给所述智能设备302;

所述智能设备302,接收所述路由设备303发送的所述TTS语音。

本申请实施例提供的TTS语音的处理系统,在获取到待处理的文本信息时,根据预设的语音合成规则对文本信息进行离线语音合成处理,得到TTS语音;若确定该TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将该TTS语音发送给相应的智能设备,以使智能设备在确定符合预设的播放条件时播放TTS语音。由此,通过将文本信息转换为TTS语音,并基于分布式网络进行TTS语音的自动播放,而无需人为进行宣读,极大的提升了信息的传播效率;并且智能设备在确定满足播放条件时即可播放TTS语音,有效的解决了当前信息传播次数受限的问题;再者,通过对文本信息进行离线语音合成处理,不仅降低了信息的传播成本,而且避免了因没有布设用于进行在线语音合成的服务端而导致的无法进行语音合成等问题。

另外,对于上述系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

图12为本说明一实施例提供的一种电子设备的结构示意图,参见图12,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成TTS语音的处理装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

网络接口、处理器和存储器可以通过总线系统相互连接。总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器可能包含高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器。

处理器,用于执行所述存储器存放的程序,并具体执行:

获取待处理的文本信息;

根据预设的语音合成规则对所述文本信息进行离线语音合成处理,得到TTS语音;

若确定所述TTS语音的播放策略是通过所在分布式网络中的智能设备播放,则将所述TTS语音发送给所述智能设备,以使所述智能设备在确定符合预设的播放条件时播放所述TTS语音。

上述如本申请图9所示实施例揭示的TTS语音的处理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行图1至图8任一所对应的实施例提供的TTS语音的处理方法。

本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • TTS语音的处理方法、装置、设备及系统
  • 结合增强现实的TTS语音实时播报方法、装置、存储介质及设备
技术分类

06120112808159