掌桥专利:专业的专利平台
掌桥专利
首页

一种播报文本生成的方法、装置和电子设备

文献发布时间:2024-04-18 19:58:30


一种播报文本生成的方法、装置和电子设备

本申请要求于2021年06月30日提交中国专利局、申请号为202110741280.1、申请名称为“一种播报文本生成的方法、装置和电子设备”的中国专利申请,以及要求于2022年3月30日提交的申请号为PCT/CN2022/084068的国际申请的优先权。上述两申请的全部内容通过引用结合在本申请中。

本申请实施例涉及人工智能(artificial interlligence,AI)领域,尤其涉及一种播报文本生成的方法、装置和电子设备。

语音助手或虚拟助理是一种能代替个人执行任务或服务的代理软件,广泛应用于智能手机、智能音箱和智能车载终端(electronic control unit,ECU)等设备中。语音助手或虚拟助理提供语音用户界面(voice user interface,VUI),并根据用户的语音指令输入完成相应的任务或提供相关服务。语音助手执行用户发出的语音指令后,会生成播报文本并通过文字转语音(text-to-speech,TTS)模块生成对应的播报语音,告知用户播报内容并引导用户继续使用设备。

当前语音助手的播报文本一般采用固定的方式,与不同用户进行交互时,播报语音/播报文本无差异。如何为用户提供符合个人使用习惯的播报,提升用户交互的自然度,是亟待解决的问题。

发明内容

为了解决上述的问题,本申请的实施例提供了一种播报文本生成的方法、装置、终端设备和系统。

第一方面,本申请的实施例提供了一种播报文本生成方法,所述方法包括:接收用户的语音指令;获取所述语音指令对应的播报内容;根据播报长度参数和所述播报内容生成目标播报文本,所述播报长度参数指示历史收听时长信息。以此能够为用户提供符合个人历史使用习惯的语音助手播报,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述根据播报长度参数和所述播报内容生成目标播报文本,包括:将所述播报内容和所述播报长度参数作为模型的输入,所述模型输出目标播报文本,所述目标播报文本为时长与所述播报长度参数相匹配的播报文本。以此能够根据播报长度 参数通过模型为用户提供符合个人历史使用习惯的语音助手播报文本,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述模型为生成式模型或检索式模型;所述根据播报长度参数和所述播报内容生成目标播报文本,包括:将所述播报内容和所述播报长度参数作为生成式模型的输入,所述生成式模型输出目标播报文本,所述目标播报文本为时长与所述播报长度参数相匹配的播报文本。或

将所述播报内容和所述播报长度参数作为检索式模型的输入,所述检索式模型根据所述播报长度参数在预定义的模板库中检索限定长度的文本模板;通过检索到的所述限定长度的文本模板输出目标播报文本,所述目标播报文本为时长与所述历史收听时长信息相匹配的播报文本。以此能够根据播报长度参数通过生成式模型或检索式模型为用户提供符合个人历史使用习惯的语音助手播报文本,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述播报长度参数与设备信息关联,根据所述设备信息确定第一播报长度参数,所述根据播报长度参数和所述播报内容生成目标播报文本,具体包括:根据所述第一播报长度参数和所述播报内容生成第一目标播报文本;所述第一播报长度参数指示与所述设备信息关联的第一历史收听时长信息。以此能够为用户提供符合个人历史使用习惯的和适配设备的语音助手播报,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述播报长度参数与场景信息关联,根据所述场景信息确定第二播报长度参数,所述根据播报长度参数和所述播报内容生成目标播报文本,具体包括:根据所述第二播报长度参数和所述播报内容生成第二目标播报文本;所述第二播报长度参数指示与所述场景信息关联的第二历史收听时长信息。以此能够为用户提供符合个人历史使用习惯和当前场景的语音助手播报,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述播报长度参数与场设备信息和场景信息关联,根据所述设备信息和场景信息确定第三播报长度参数,所述根据播报长度参数和所述播报内容生成目标播报文本,具体包括:根据所述第三播报长度参数和所述播报内容生成第三目标播报文本;所述第三播报长度参数指示与所述设备信息和所述场景信息关联的第三历史收听时长信息。以此能够为用户提供符合个人历史使用习惯的、适配设备和当前场景的语音助手播报,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述播报长度参数与场设备信息和/或场景信息关联,所述根据播报长度参数和所述播报内容生成目标播报文本,包括:将所述历史收听时长信息、设备信息和/或场景信息输入分类模型;输出第四播报长度参数;所述第四播报长度参数为不同的长度类别;根据所述第四播报长度参数和所述播报内容生成第四目标播报文本。以此能够通过分类模型得到的播报长度参数符合个人历史使用习惯的、适配设备和/或当前场景的语音助手播报,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述播报长度参数与场设备信息和/或场景信息关联,所述根据播报长度参数和所述播报内容生成目标播报文本,包括:将所述历史收听时长信息、设备信息和/或场景信息输入所述回归模型;输出第五播报长度参数,所述第五播报长度参 数为长度限制值;根据所述第五播报长度参数和所述播报内容生成第五目标播报文本。以此能够通过回归模型生成符合个人历史使用习惯的、适配设备和/或当前场景的语音助手播报,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述播报长度参数与场设备信息和/或场景信息关联,所述根据播报长度参数和所述播报内容生成目标播报文本,包括:将设备信息、场景信息和/或所述历史收听时长信息分别进行线性编码后进行融合,获得第六播报长度参数;所述第六播报长度参数为播报长度参数的表征向量;将所述第六播报长度参数、所述播报内容和所述语音指令是可执行/不可执行作为预训练语言模型的输入,输出第六目标播报文本。以此能够通过预训练语言模型生成符合个人历史使用习惯的、适配设备和/或当前场景的语音助手播报,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述获取所述语音指令对应的播报内容,包括:根据所述语音指令获取意图和槽位信息;根据所述意图和槽位信息确定所述语音指令是否可执行;在所述所述语音指令不可执行的情况下,生成播报内容,所述播报内容为询问信息。以此在语音指令不可执行的情况下能够获得语音助手询问用户的播报内容。

在一种可能的实现方式中,所述根据所述对话状态确定所述播报内容,包括:根据所述语音指令获取意图和槽位信息;根据所述意图和槽位信息确定所述语音指令是否可执行;在所述所述语音指令可执行的情况下,确定执行所述意图的第三方服务;从所述第三方服务获取所述播报内容,所述播报内容为与所述语音指令对应的结果信息。以此在语音指令可执行的情况下获得第三方服务执行语音指令后返回的所述播报内容。

在一种可能的实现方式中,所述方法还包括:根据所述播报长度参数对所述目标播报文本的播报速度进行控制。以此能够生成符合个人历史使用习惯的、适配设备和/或当前场景的语音,提供千人千面的个性化播报体验,提升语音助手交互的自然度。

在一种可能的实现方式中,所述方法还包括:记录当前所述目标播报文本的播报时长,获得所述历史收听时长信息。以此能够获得符合个人历史使用习惯的个性化播报体验,提升语音助手交互的自然度。

第二方面,本申请的实施例提供了一种播报文本的方法,所述方法包括:接收用户的语音指令;生成所述语音指令对应的目标播报文本;根据播报长度参数对所述目标播报文本的播报速度进行控制,所述播报长度参数指示历史收听时长信息。根据播报长度参数对目标播报文本的播报速度进行控制的有益效果与本申请第一方面播报长度参数生成目标播报文本的各个实施例的有益效果雷同,以下文中不再赘述。

在一种可能的实现方式中,所述播报长度参数与设备信息关联,根据所述设备信息确定第一播报长度参数,所述根据播报长度参数对所述目标播报文本的播报速度进行控制,包括:根据所述第一播报长度参数对所述目标播报文本的播报速度进行控制;所述第一播报长度参数指示与所述设备信息关联的第一历史收听时长信息。

在一种可能的实现方式中,所述播报长度参数与场景信息关联,根据所述场景信息确定第二播报长度参数,所述根据播报长度参数对所述目标播报文本的播报速度进行控制,包括:根据所述第二播报长度参数对所述目标播报文本的播报速度进行控制;所述第二播报长度参数指示与所述设备信息关联的第二历史收听时长信息。

在一种可能的实现方式中,所述所述播报长度参数与场设备信息和场景信息关联,根据所述设备信息和场景信息确定第三播报长度参数,所述所述根据播报长度参数对所述目标播报文本的播报速度进行控制,包括:根据所述第三播报长度参数对所述目标播报文本的播报速度进行控制;所述第三播报长度参数指示与所述设备信息关联的第三历史收听时长信息。

在一种可能的实现方式中,所述根据播报长度参数对所述目标播报文本的播报速度进行控制,包括:将所述历史收听时长信息、设备信息和/或场景信息输入分类模型;输出第四播报长度参数;所述第四播报长度参数为不同的长度类别;根据所述第四播报长度参数对所述目标播报文本的播报速度进行控制。

在一种可能的实现方式中,所述根据播报长度参数对所述目标播报文本的播报速度进行控制,包括:将所述历史收听时长信息、设备信息和/或场景信息输入所述回归模型;输出第五播报长度参数,所述第五播报长度参数为长度限制值;根据所述第五播报长度参数对所述目标播报文本的播报速度进行控制。

第三方面,本申请的实施例提供了一种电子设备,包括:至少一个存储器,用于存储程序;和至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行上述任一实施例所述的方法。

第四方面,本申请的实施例一种存储介质,所述存储介质中存储有指令,当所述指令在终端上运行时,使得第一终端执行上述任一实施例所述的方法。

为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

下面对实施例或现有技术描述中所需使用的附图作简单地介绍。

图1为一种人工智能主体框架示意图;

图2为本申请实施例提出的语音助手的应用系统示意图;

图3为本申请实施例中的语音助手的功能架构图;

图4为本申请实施例一提出的播报文本生成的方法的流程图;

图5为本申请实施例一提出的播报文本生成的方法的应用示意图;

图6为本申请实施例三提出的播报文本生成的方法基于随机森林的机器学习模型的结构示意图;

图7为本申请实施例四提出的播报文本生成的方法基于典型预训练语言模型结构方式示意图。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一第二第三等”或模块A、模块B、模块C等,仅用于区别类似的对象,不代表针对对象的特定排序,可以理解地,在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中,所涉及的表示步骤的标号,如S110、S120……等,并不表示一定会按此步骤执行,在允许的情况下可以互换前后步骤的顺序,或同时执行。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

自然语言生成(natural language generation,NLG)是自然语言处理的一部分,是从知识库或逻辑形式等机器表述系统生成自然语言。NLG可以视为自然语言理解(natural language understand,NLU)的反向:NLU须要厘清输入语言的涵义,产生机器表述语言;而NLG须要决定如何把概念化的机器表述语言转化成用户能接收到的自然语言。

在一种可能的方案中,用户唤醒语音助手,发出与查询天气相关的语音指令,语音助手利用自然语言理解(NLU)能力,理解用户发出的与查询天气相关的语音指令,并将该语音指令按照类似表1的自然语言分类体系进行分类,根据分类的结果查询天气,根据天气查询结果选择对应的模板生成对应天气的播报文本,或生成对应于天气信息类别及其关联属性的播报文本,播报文本内容符合该语音指令所属的类别。

表1

该方案根据用户输入的不同语音指令生成不同类别的播报文本,但该播报文本的内容仅与用户输入的语音指令的类别有关,未考虑用户个人使用习惯、设备差异或所处场景的差异,无法提供千人千面的个性化天气播报体验。

本申请实施例提出一种播报文本生成的方法,涉及AI领域,适用于语音助手内,通过引入用户信息、设备信息和/或场景信息,语音助手能够根据用户个人使用习惯、设备差异和/或所处环境生成个性化时长的播报文本,并通过TTS生成对应语速的播报语音信息,告知用户播报内容并引导用户继续使用设备。

图1示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。下面基于图1示出的人工智能主体框架从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对人工智能主体框架进行说明。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人工智能的底层基础设施、信息提供和处理技术实现、到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。

(1)基础设施10:

基础设施10为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。其中,传感器用于与外部沟通获得数据流;智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)用于提供训练、计算和执行能力;基础平台用于进行云存储和云计算、网络互联互通等,包括分布式计算框架及网络等相关的平台保障和支持等。

(2)数据11

基础设施10的上一层的数据11用于表示人工智能领域的数据来源。

在本申请实施例提出的一种播报文本生成方法中,基础设施10的上一层的数据11来源于在终端侧获取的语音指令、所用终端的设备信息以及通过传感器与外部沟通获得的场景信息。

(3)数据处理12

数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。

其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。

在本申请实施例提出的一种播报文本生成方法中,数据处理过程包括对接收到的用户的语音指令进行前端处理、语音识别(ASR),语义理解(NLU)、对话管理(DM)、自然语言生成(NLG)、语音合成(TTS)等处理。

(4)通用能力13

数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统。

在本申请实施例中,用户输入的语音指令、所用终端的设备信息以及通过传感器与外部沟通获得的场景信息经过上述数据处理后,基于数据处理的结果可以生成个性化时长的播报文本,并生成对应语速的播报语音,提供千人千面的个性化播报体验。

(5)智能产品及行业应用14

智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,智能终端等。

本申请实施例提出的一种播报文本生成方法,可应用于智能终端、智能家居、智能安防、自动驾驶等领域智能设备的语音助手中,在智能手机、音箱、智能车载终端(electronic control unit,ECU)上提供语音用户界面(VUI),并根据用户输入的语音指令完成相应的任务或提供相关服务。

示例性地,智能设备包括智能电视、智能音箱、机器人、智能空调、智能烟雾警报器、智能灭火器、智能车载终端、手机、平板、笔记本电脑、台式电脑、一体机等。

图2为本申请实施例提出的语音助手的应用系统示意图。如图2所示,在系统示意图200中,数据采集设备260用于采集用户信息、设备信息、场景信息和/或历史收听时长等信息,并将这些信息存入数据库230。数据采集设备260对应于图1中基础设施的传感器,包括运动感应器、位移传感器、红外传感器等与智能设备通信连接的装置,用于收集用户当前场景信息,例如运动、开会、休息或聊天等。

数据采集设备260还包括摄像头设备、GPS等与智能设备通信连接的装置,用于收集用户当前所处的位置或场所的场景信息,例如在车辆、客厅或卧室内等。

数据采集设备260还包括计时器,用于记录播报语音的起始时刻、结束时刻及播报时长。将该播报时长作为用户的历史收听时长记录在用户信息中。

客户设备240对应于图1中基础设施的基础平台,用于与用户进行交互,获取用户发出的语音指令,播报语音指令的播报内容,向用户展示播报内容,并将这些信息存入数据库230;客户设备240包括提供语音用户界面(VUI)的智能手机、智能车载终端等的显示屏和传声器、扬声器、按键、蓝牙耳机麦克风等。

其中传声器可以是收音设备,包括集成的麦克风、与智能设备相连的麦克风或者麦克风阵列、或通过短距离连接技术与智能设备通信连接的麦克风或者麦克风阵列等,用于收集用户发出的语音指令。

训练设备220对应于图1中基础设施的智能芯片,基于数据库230中维护的用户信息、设备信息、场景信息和/或历史播报时长等数据训练语音助手201。语音助手201能够在用户与客户设备240进行语音对话场景中提供个性化时长的播报文本,并生成对应语速的播报语音,告知用户播报内容并引导用户继续使用客户设备240。

在图2中,执行设备210对应于图1中基础设施的智能芯片,配置有I/O接口212,与客户设备240进行数据交互,执行设备210通过I/O接口212获取用户通过客户设备240输入的语音指令信息;通过I/O接口212向客户设备240输出播报内容,例如,通过扬声器广播播报内容,或将播报内容通过语音用户界面(VUI)展示在智能手机、智能车载终端等的显示屏上。

执行设备210可以调用数据存储系统250中的数据、代码等,也可以将数据、代码指令等存入数据存储系统250中。

训练设备220和执行设备210可以是同一个智能芯片,也可以是不同的智能芯片。

数据库230为存储在存储介质上的用户信息、设备信息和/或场景信息的数据集合。

语音助手201是用于执行语音指令或服务的代理软件,执行设备210执行语音助手201,获取用户发出的语音指令后,会根据用户信息、设备信息和/或场景信息生成个性化长度的目标播报文本,并控制播报语音的语速,告知用户播报内容并引导用户继续使用设备。

最后,I/O接口212将语音助手201生成的个性化长度的目标播报文本作为输出数据返回给客户设备240,客户设备240展示该播报文本并以对应语速播报给用户。

更深层地,训练设备220获取数据库230中存储的训练数据和语料,基于获取历史记录的用户信息、设备信息和/或场景信息等数据,以输出与该用户历史收听历史记录相匹配的长度的播报文本为训练目标,训练语音助手201,以输出更佳的目标播报文本。

在附图2中所示情况下,用户可以向执行设备210输入语音指令信息,例如,可以在客户设备240提供的语音用户界面(VUI)中操作。另一种情况下,客户设备240可以自动地向I/O接口212输入指令并获得播报内容,如果客户设备240自动输入指令信息需要获得用户的授权,用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看或收听执行设备210输出的播报内容,具体的呈现形式可以是显示、唤醒音、广播等具体方式。客户设备240也可以作为语音数据采集端将采集到用户的唤醒音或声纹数据存入数据库230。

值得注意的,附图2仅是本申请实施例提供的一种系统应用的场景示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,附图2的一种系统可以对应一个或多个设备实体,例如,在附图2中,数据存储系统250相对执行设备210是外部存储器,在其它情况下,也可以将数据存储系统250置于执行设备210中。

图3为本申请实施例中语音助手的功能架构图。下面对于语音助手201中各个功能模块进行说明,如图3所示,语音助手201包括前端处理模块31、语音识别模块32、语义理解模块33、对话状态模块34、对话策略学习模块35、自然语言生成模块36、语音合成模块37和对话输出模块38。

其中,前端处理模块31用于将用户输入的语音指令处理获得网络模型需要的数据格式供语音识别模块32使用。

示例性地,前端处理模块31获取用户输入的opus压缩格式的语音指令,对该语音指令进行音频解码,解码成pcm格式的音频信号;利用声纹或其他特征对该音频信号进行分离、降噪、特征提取,并通过分帧、开窗、短时傅里叶变换等音频处理算法,得到梅尔频率倒谱分析(mel-frequency cepstral coefficients,MFCC)滤波器组(filter bank)的音频特征向量。前端处理模块31一般设置于终端侧。

语音识别(automatic speech recognition,ASR)模块32用于获取前端处理模块31处理得到的音频特征向量,通过声学模型和语言模型将音频特征向量转换为文本,供语义理解模块33进行理解。其中,声学模型用于把声学特征分类对应到(解码)音素或字词,语言模型用于把音素或字词解码成一个完整的句子。

示例性地,声学模型和语言模型通过串联的方式对音频特征向量进行处理,通过声学模型将音频特征向量转换为音素或字词,再通过语言模型将音素或字词转换为文字序列,输出用户语音对应的文本。

示例性地,ASR模块32可以采用端到端的实现方式,其中声学模型和语言模型采用神经网络结构,通过对声学模型和语言模型进行联合训练,使训练的结果是输出与用户语音相对应的汉字序列。例如声学模型可以采用隐马尔可夫模型(HMM)建模,语言模型可以是n-gram模型。

语义理解(natural language understanding,NLU)模块33用于将用户语音对应的文本或汉字序列转换为结构化信息,其中结构化信息包括机器可执行的意图信息和可识别的槽位信息。其目的是通过语法、语义和语用的分析,获取自然语言的语义表示。

可以理解的是,意图信息是指用户发出的语音指令需要执行的任务;槽位信息是指执行任务需要确定的参数信息。

示例性地,用户询问语音助手201“南京今天气温如何?”NLU模块33对该语音指令对应的文本进行理解,获得该语音指令的意图为“查天气”,槽位为“地点:南京”和“时间:今天”。

NLU模块33可以通过分类器将语音指令对应的文本分类为语音助手201可支持的意图信息,再使用序列标注模型标注文本中的槽位信息。

其中,分类器可以是传统机器学习算法中能用来分类的模型,例如,NB模型,随机森林模型(RF),SVM分类模型,KNN分类模型等;也可以是深度学习文本分类模型,例如,FastText模型,TextCNN等。

序列标注模型用于对文本信息或汉字序列中每个元素进行标记,输出标记序列,这些标记序列可以用来指示槽位的开始、结束和类型。序列标注模型可以是以下模型之一:线性模型、隐马尔可夫模型、最大熵马尔可夫模型、条件随机场等。

NLU模块33也可以采用端到端模型同时输出意图信息和槽位信息。

对话状态跟踪(dialog state tracking,DST)模块34用于对语音助手201的对话状态进行管理。DST模块34利用NLU模块33输出的当前轮对话的意图信息和槽位信息,维护多轮对话场景中的当前轮对话意图、已填充的槽位和对话状态。

DST模块34的输入是上一轮对话状态、上一轮第三方应用返回的播报内容和当前轮对话的意图信息和槽位信息,输出是当前轮的对话状态。

DST模块34模块记录了语音助手201的对话历史和对话状态,辅助语音助手201结合上下文管理器(即图2中的数据库230)记录的对话历史理解当前轮对话用户语音的指令,并给出合适的反馈。

示例性的,在第一轮对话中,用户A向语音助手201请求“预定南京的机票”;在第二轮对话中,用户A向语音助手201询问“那里天气怎么样?”。NLU模块33输出当前轮对话的意图为“查天气”,槽位为“地点:那里”和“时间:”由于DST模块34记录了第一轮对话状态,系统结合上下文管理器记录的对话历史理解到槽位“地点:那里”中的“那里”为“南京”,则将“南京”填充至地点槽位中。DST模块34输出当前轮的对话状态信息,包括意图信息(查天气)、已填充的槽位(南京)和未填充的槽位(时间:)。

对话策略学习(dialog policy learning,DPL)模块35用于决定语音助手201下一步执行的动作,包括询问用户、执行用户的指令、推荐用户其他的指令、生成回复等。

DPL模块35利用DST模块34输出的对话状态信息确定下一步的执行动作。

在一个可以实现的实施例中,DPL模块35可以根据当前轮对话状态确定下一步执行动作信息是生成询问用户的播报内容。

例如,针对上一示例中,DST模块34输出当前轮的对话状态信息有未填充的槽位(时间:),DPL模块35可以确定下一步执行动作是询问用户“哪一天?”以维护对话系统的控制逻辑,保障对话能继续执行下去。该执行动作信息为动作标签或结构化信息,例如“REQUEST-SLOT:date”,表示接下来要向用户询问的时间。

在一个可以实现的实施例中,DPL模块35可以根据当前轮对话状态,确定下一步执行动作是选择合适的第三方应用(app)执行该语音指令,将意图和槽位信息发送至选择的第 三方应用;获取第三方应用返回的执行结果,该执行结果为与所述语音指令对应的播报内容。

第三方应用(app)是能够根据槽位信息执行或满足该语音指令的意图并返回播报内容的应用,例如能够查询天气的app、能够提供商品信息的app、能够导提供航或定位信息的app等。

DPL模块35根据当前轮对话状态确定的播报内容或第三方应用(app)或服务器根据意图和槽位信息执行语音指令后返回的播报内容,可以作为DST模块34下一轮对话状态的输入参数,也可以作为NLG模块36的输入参数。

自然语言生成模块(natural language understanding,NLG)模块36是一种将结构化信息资料转换成自然语言表述的翻译器,当前被广泛应用在语音助手中。在生成语音助手播报语时由于不同设备、不同网页位置的布局和大小不同,需要引入时长限制参数来限制生成的文本的长度,以自适应地匹配不同用户、不同设备、不同场景下对播报内容和播报时长的要求。

在本申请的实施例中,NLG模块36用于获取DST模块34维护的当前对话状态、DPL模块35确定的下一步执行动作和/或第三方应用(app)返回的播报内容,结合用户信息、设备信息和/或场景信息生成个性化长度的目标播报文本。

示例性地,在DST模块34维护的当前对话状态是意图信息(查天气)、已填充的槽位(南京)和未填充的槽位(时间:)的情况下,DPL模块35确定的下一步执行动作是询问用户,则NLG模块36生成的播报文本为“请问您需要查询哪一天?”

示例性地,NLG模块36将当前对话状态和第三方应用返回的播报内容输入匹配当前意图、设备或场景的模板,输出该模板配置长度的目标播报文本。NLG模块36也可以采用基于模型的黑盒输出个性化长度的目标播报文本。

用户画像(user profile,UP)模块213,用于通过查询图2所示的数据库230中的数据获取用户信息,用户信息中记录用户收听语音助手播报的历史收听时长等信息。

用户信息,也称为用户画像,通过收集用户的社会属性、消费习惯、偏好特征、使用系统的行为等各个维度的数据,对用户使用习惯进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户信息的全貌,用于给用户推荐个性化的内容,或提供符合用户使用习惯的服务。

设备画像(device profile,DP)模块214,用于获取图2所示的客户设备240的设备信息,包括显示器分辨率、大小、类别、扬声器的音量、音色等。

场景感知(context awareness,CA)模块215,用于通过图2所示数据采集设备260获取当前的场景信息,场景信息包括房间类别、背景噪音大小、用户当前的运动状态等。

CA模块215、DP模块214、UP模块213相对于语音助手201也可以是外部模块,在此不做具体限定。

在本申请的实施例中,语音助手通过自然语言理解NLU模块35理解用户语音指令并发送至对应的第三方应用(app)执行后,可以获取第三方应用返回的结构化的播报内容,使用NLG模块36将返回的结构化的播报内容转换为播报文本,供TTS模块生成播报语音后告知用户播报内容。

语音合成(Text-to-Speech,TTS)模块37用于根据播报长度参数对所述目标播报文本的播报速度进行控制,所述播报长度参数指示历史收听时长信息。

本申请的实施例中TTS模块37在将目标播报文本转换为播报语音时,通过引入播报长度参数,结合用户信息、设备信息和/或场景信息控制播报的语速,从而限定目标播报文本的播报时长,在保证了语音生成的准确性的同时,还控制生成语音的语速、音色、音量等特征。

对话输出模块38,用于根据目标播报语音生成对应的播报卡片后,展示给用户。

实施例一

本申请实施例提出一种播报文本生成的方法,该方法应用于语音助手,通过接收用户的语音指令,获取语音指令对应的播报内容,根据播报长度参数和播报内容生成目标播报文本,其中,播报长度参数指示历史收听时长信息。

图4为本申请实施例一提出的一种播报文本生成的方法的流程图。如图4所示,语音助手执行以下S401-S404的步骤。

S401,接收用户的语音指令。

语音助手201接收用户的语音指令。

示例性地,用户A唤醒语音助手201后,向语音助手201发出语音指令“南京今天气温如何?”。

S402,获取语音指令对应的播报内容。

语音助手201对该语音指令“南京今天气温如何”进行前端处理,获得音频特征向量;通过声学模型和语言模型将音频特征向量识别为文本;对该文本进行理解,获取该语音指令对应的意图为“查天气”,槽位为“地点:南京”“时间:今天”;对话状态进行管理,根据上一轮对话状态、上一轮播报内容和当前语音指令对应的意图信息和槽位信息,获得当前的对话状态,包括意图信息、已填充的槽位和未填充的槽位,确定语音指令是否可执行。

在一个可以实现的实施方式中,语音助手201可以根据当前的对话状态为可执行的情况下确定执行意图信息的第三方应用;将语音指令对应的意图信息和槽位信息发送至该第三方应用;获取由第三方应用(app)或服务器返回的执行结果,该执行结果为与当前语音指令对应的播报内容。

示例性地,用户向语音助手201发出语音指令“南京今天气温如何”,语音助手201结合该与用户请求相关的意图信息和槽位信息选择合适的第三方应用(app)执行该语音指令,输出第三方应用(app)返回的与该用户请求相关的执行结果,该执行结果为结构化的播报内容“{“temperature”:“15-23”,“unit”:“C”,“location”:“Nanjing”}”。

在一个可以实现的实施方式中,在当前的对话状态中有未填充的槽位的情况下确定语音指令不可执行,语音助手201可以根据所述对话状态生成所述播报内容。

示例性地,在当前的对话状态中有未填充的槽位的情况下,语音助手201获取由DPL模块35确定的下一步的动作信息,该动作信息为动作标签或结构化信息,确定播报内容为“REQUEST-SLOT:date”,表示接下来要向用户询问的时间。

S403,根据播报长度参数和播报内容生成目标播报文本,其中播报长度参数指示历史收听时长信息。

在一个可以实现的实施方式中,NLG模块36可以为生成式模型,可以将播报内容作为该生成式模型的输入,将用户的播报长度参数作为额外参数,通过训练数据隐式限定输出播报文本的长度,生成目标播报文本,目标播报文本为时长与播报长度参数相匹配的播报文本。

在另一个可以实现的实施方式中,该生成式模型生成的文本长度或长度范围可以通过输入的播报长度参数限定,将播报内容和播报长度参数作为该模型的输入,输出限定长度的目标播报文本。

在一个可以实现的实施方式中,NLG模块36可以为检索式模型,将播报内容作为该检索式模型的输入,根据播报内容检索对应的模板,通过检索到的模板生成的目标播报文本。

在一个可以实现的实施方式中,将播报内容和用户的播报长度参数作为该检索式模型的输入,根据播报长度参数限定的长度在预定义的模板库中检索对应播报内容的模板,通过检索到的模板输出目标播报文本。

在一个可以实现的实施方式中,可以根据至少一条历史收听时长信息的平均值或加权平均值,确定播报长度参数。示例性地,设备画像模块213获取用户信息,获得用户每一次的收听语音播报的历史收听时长信息,根据用户每一次的收听语音播报的历史收听时长信息统计平均值或加权平均值,得到播报长度参数;也可以将历史收听时长的最小/大值、最近值做为播报长度参数。

例如,设备画像模块213获取用户的历史收听时长t=5s,经过映射表转换后确定生成的播报文本的字符长度为20,则播报长度参数为20。NLG模块36根据上述返回的播报内容的播报内容“{“temperature”:“15-23”,“unit”:“C”,“location”:“Nanjing”}”和播报长度参数20生成字符长度为20字左右目标播报文本“南京今天晴,最低15摄氏度,最高23摄氏度”。

在智能设备的语音助手启用之前,历史收听时长的数值可以为初始值。该值可以是一个精确的数值记录,如”5秒”、“20字”等,也可以是一个映射到一定时间段的标识,如“中”、“简洁”等;初始值还可以为通过智能设备厂家通过用户调研获得的用户平均收听时长的值,或者用户所属群体的平均收听时长的值。本申请实施例对历史收听时长的初始值不做限定。

在用户每一次的收听语音播报时,语音助手201会持续记录收听播报的收听时长,并将每一次收听播报的时长信息收集在用户画像中,获得多条历史收听时长信息。

在一个可以实现的实施方式中,收听时长的记录可以从开始播报的时刻开始计时,当以下情况之一发生时结束计时:播报完毕、打断播报、关闭或切换至其他程序。收听时长是从开始计时到结束计时之间的时间间隔。

S404,根据播报长度参数对目标播报文本的播报速度进行控制。

在一个可以实现的实施方式中,TTS模块37获取播报文本后,以播报长度参数作为播报语音的语速的限定条件控制播报语音的语速,将该播报文本转化为符合当前用户历史收听习惯的播报语音。

图5为本申请实施例一提出的播报文本生成的方法的应用示意图。如图5所示,用户A唤醒语音助手201,并询问“南京今天气温如何?”

前端处理模块31对用户A输入的语音指令“南京今天气温如何?”进行音频解码,解码成pcm格式的音频信号;利用声纹或其他特征对该音频信号进行分离、降噪、特征提取,并通过分帧、开窗、短时傅里叶变换等音频处理算法,获得音频特征向量。

ASR模块32通过声学模型和语言模型将音频特征向量转换为文本。具体地,通过声学模型将音频特征向量中的声学特征转换为音素或字词,再通过语言模型将音素或字词转换为文字序列,输出用户A的语音指令对应的文本。

NLU模块33对该文本进行理解,获得该用户的意图为“查天气”,槽位为“地点:南京”。

DST模块34利用NLU模块33输出的当前轮对话的“查天气”,槽位为“地点:南京”,输出当前轮的对话状态信息,包括意图信息(查天气)、已填充的槽位(南京)和(时间:今天)。

DPL模块35利用DST模块34输出的对话状态信息确定下一步的执行动作是执行指令,DPL模块35使用槽位信息作为参数,根据意图信息选择合适的第三方服务或应用(app)来执行用户的语音指令;发送至“查天气”至对应的第三方应用(服务提供方W)。

NLG模块36获取返回的播报内容为结构化信息“{“temperature”:“15-23”,“unit”:“C”,“location”:“Nanjing”}”。同时通过UP模块213获取用户A的历史收听时长t

NLG模块36根据上述返回的播报内容和播报长度参数生成字符长度为20字左右目标播报文本“南京今天晴,最低15摄氏度,最高23摄氏度”。

TTS模块37根据目标播报文本和收听时长t=5s,进行速度控制,生成长度在4.5s~5.5s的播报语音进行播报。

播报完成后,语音助手201将本次用户的收听时长发送给UP模块213,UP模块213记录用户A的本次收听播报的时长。

用户B唤醒语音助手201,用户B输入的语音指令同用户A,DPL模块35获得返回结果的过程同用户A,同时通过UP模块213获取用户B的历史收听时长t

从图5所示的实施例可以看出,针对不同的用户A和用户B,根据两人历史收听时长的个性化差异,本申请实施例提出的播报文本生成的方法对于同样的语音指令可以生成长度不同长度的播报文本,从而使语音助手能够根据用户的使用习惯生成的个性化的播报文本,进而根据个性化的播报文本进行个性化的播报。

本申请实施例提出的播报文本生成的方法在播报文本和播报语音的生成阶段引入了用户信息,根据用户信息中记录的用户的历史收听时长控制目标播报文本的详细程度,为用户与语音助手之间提供千人千面的性化交互体验。

实施例二

本申请实施例提出的一种播报文本生成的方法,在实施例一的基础上,通过引入的用户信息、设备信息和/或当前的场景信息的数据,将用户的语音指令与用户的历史收听时长、设备信息和/或当前场景信息相结合生成长度与该用户历史收听习惯相匹配的播报文本,并以对应的语速进行播报,提供个性化的播报体验。其中,用户信息包括用户的历史收听时 长;设备信息包括播报设备的显示器分辨率、大小、播报设备类别等配置信息;场景信息包括房间类别、背景噪音大小、用户当前的运动状态等信息。

语音助手通过通过DP模块214获得所用的播报设备的设备信息,通过CA模块213获得当前场景信息,UP模块213分别以设备信息和场景信息为索引在数据库213中检索,获得满足阈值要求的最细粒度的历史收听时长信息列表,如表2所示。

在语音助手201的对话系统中,用户的历史收听时长根据设备信息、当前场景分为三个层级分别进行计算。将根据当前可用的最细粒度层级计算的得到的收听时长作为播报长度参数,执行实施例一的步骤S403生成目标播报文本;执行实施例一的步骤S404进行速度控制,以符合当前用户收听历史习惯的语速播报该播报文本。

用户完成一次播报文本收听事件后,会基于三个层级索引结构更新相应层级的历史收听时长。三个层级历史收听时长信息列表如表2所示:

表2

示例性地,按照个三层级收听时长计算播报长度参数,根据表2,主要有以下所示的这些可用播报长度参数:整体收听时长t_total、手机收听时长t_d

t_total=average(all)=3.875s;

t_d

t_d

t_e

t_e

t_d

上述式中,average()为均值函数,括号内的索引值d

在一个可以实现的实施方式中,可以根据设备信息或场景信息确定多条所述历史收听时长信息;根据多条历史收听时长信息的平均值或加权平均值,确定播报长度参数。将根据设备信息确定的播报长度参数记为第一播报长度参数;将根据场景信息确定的播报长度参数记为第二播报长度参数。

示例性地,当在设备信息或场景信息下收集的历史收听时长记录的数量均小于阈值时,语音助手使用第一层级计算获得的播报长度参数。

第一层级的计算为计算整体收听时长t_total。整体收听时长t_total与实施例一中定义的用户的历史收听时长一致,为多条历史收听时长信息的平均值或加权平均值,将整体收听时长t_total作为播报长度参数。

例如阈值设置为3个记录以上才有效的时候,在用户的收听记录少于3个时,语音助手可以根据用户每一次的收听语音播报的历史时长信息统计平均值或加权平均值,确定用户的整体收听时长t_total,将整体收听时长t_total作为播报长度参数。

示例性地,当在设备信息或场景信息下收集的历史收听时长记录的数量大于阈值时,使用第二层级计算获得的历史收听时长信息,根据多条历史收听时长信息的平均值或加权平均值,确定播报长度参数。

第二层级的计算为根据在设备信息下收听时长t_d统计对应设备上的多条历史收听时长信息,或根据场景信息下收听时长t_e,统计对应场景下的多条历史收听时长,。

例如表2中设备信息对应的设备可以为手机或电视等智能终端;场景信息对应的场景可以为车辆、卧室或客厅等场所,以及运动、休息等运动状态。

示例性地,当用户A通过登录手机终端的语音助手收听天气播报的历史收听时长记录为5条,超过系统设定的阈值3条时,语音助手可以根据手机终端记录的每一条历史收听时长信息统计平均值或加权平均值,获得用户A在手机终端下的报播报长度参数。

示例性地,当用户B通过登录手机终端的语音助手在客厅收听天气播报的记录为1条,通过登录智能电视的语音助手在客厅收听天气播报的记录为2条,用户B通过语音助手在客厅收听天气播报的记录达到对话系统设定的阈值3条时,用户B登录的语音助手可以根据每一条在客厅收听播报的历史时长记录统计平均值或加权平均值,获得用户通过不同的智能终端在同一场景下的播报长度参数。

在一个可以实现的实施方式中,可以根据设备信息和场景信息确定至少一条所述历史收听时长信息;根据多条历史收听时长信息的平均值或加权平均值,确定播报长度参数。

示例性地,当该在设备信息和场景信息组合已收集的历史收听时长记录的数量大于阈值时,使用第三层级计算获得的历史收听时长信息。将根据设备信息和场景信息组合确定的播报长度参数记为第三播报长度参数。

第三层级的计算为根据设备场景收听时长t_de,统计当前设备d在当前场景e中的用户的历史收听时长。

示例性地,当用户C通过手机终端在车辆内收听天气播报的历史收听时长记录为3条,达到对话系统设定的阈值时,用户C登录的语音助手可以根据记录的每一条在车辆内收听播报的历史收听时长信息统计平均值或加权平均值,获得用户C通过手机终端在车辆内收听播报的播报长度参数。

同时,语音助手完成一次播报文本收听事件后,将本次用户的收听时长发送给UP模块213,UP模块213会在表2所示的三个层级历史收听时长信息列表上记录相应层级的历史收听时长及时刻。

本申请实施例二提出的播报文本生成方法,针对不同设备上、不同场景下历史收听时长不同的用户,对于同样的语音指令语音助手201可以生成长度不同目标播报文本,为用户提供更加精细的个性化的交互体验。本申请实施例二将用户历史收听时长按照设备类型、所处场景进行了精细化统计,提供更适配用户使用场景的个性化播报语音交互体验。

语音助手201的对话系统在播报文本生成流程中结合用户的历史收听时长信息、设备的相关参数和/或当前场景的信息,能够为用户提供播报长度和语速符合当前用户收听历史记录的、适配设备信息和场景信息的播报语音,从而提升语音交互的自然度,大大提升用户体验。

实施例三

本申请实施例提出的一种播报文本生成的方法,在实施例一和二的基础上,可以通过一个机器学习模型来获取播报长度参数,该机器学习模型可以基于随机森林(random forest)来实现,利用用户收听播报的历史收听时长、屏幕大小、屏幕分辨率和/或所处环境的噪声大小以及所处房间类别训练播报长度参数,将播报长度参数和播报内容输入机器学习模型,输出播报长度参数,根据播报长度参数和播报内容生成目标播报文本,并以对应的语速进行播报,提供个性化的播报体验。

图6为本申请实施例三提出的播报文本生成的方法基于随机森林的机器学习模型的结构示意图。如图6所示,图中x为机器学习模型的输入特征,输出播报长度参数y。

示例性地,输入特征x包括用户信息、设备信息和/或场景信息等数据;其中,用户信息包括用户的历史收听时长;设备信息包括当前播报设备的屏幕大小、屏幕分辨率等;场景信息相关数据包括环境噪音大小、所处房间类别等。

示例性地,播报长度参数y包括“简洁”、或“适中”等分类结果,或预测的播报文本的长度限制值L。

在一个可以实现的实施方式中,该机器学习模型为分类模型,输入用户信息、设备信息、和/或场景信息等特征数据,输出的播报长度参数y为目标播报文本的长度分类结果,记为第四播报长度参数;如简洁、适中、详细。该分类模型可以使用标准的随机森林分类学习器(random forest classifier)进行训练。

在一个可以实现的实施方式中,该机器学习模型可以是回归模型,输入用户信息、设备信息和/或场景信息等特征数据,输出播报长度参数y为目标播报文本的长度限制值L,记为第五播报长度参数;该回归模型模型可以使用标准的随机森林回归学习器为(random forest regressor)进行训练。

上述机器学习模型的每个初始模型是离线训练获取的,后续会持续收集用户在特定屏幕大小、屏幕分辨率和/或所处环境的噪声大小以及所处房间类别条件下的历史收听时长进行在线学习,提供适配用户历史收听习惯的播报长度参数。

该机器学习模型的训练数据包括用户历史收听时长和/或设备信息,例如当前播报设备的屏幕大小和/或屏幕分辨率等,以及场景信息,例如环境噪音大小和/或所处房间类别等,每条训练数据的标签为预期生成的播报长度参数。每条训练数据可以通过前述实施例一和实施例二对应的步骤中获得,或结合用户反馈从网络环境中收集,在此不做限定。

NLG模块36使用上述机器学习模型输出的播报长度参数来控制目标播报文本的生成长度。

TTS模块37使用机器学习该模型输出的播报长度参数来控制播报语音的语速,并以对应的语速进行播报。

相比实施例二,本申请实施例提出的播报文本生成的方法引入了机器学习模型,根据用户的历史收听时长、设备信息和/或场景信息获得播报长度参数,根据播报长度参数限制 播报文本以及播报语音的长度,并通过在线学习机制,保持机器学习模型持续学习,更新匹配用户个性化的播报长度参数。应用本申请实施例三的播报文本生成的方法语音助手201播报生成的个性化体验越用越准。

本申请实施例三提出的播报文本生成的方法通过机器学习模型学习用户的历史收听时长到期望的播报文本长度和播报语音时长的映射关系,并通过在线学习的方式提供越用越准的个性化体验。而实施例一是规则映射的方式。

实施例四

由于预训练语言模型的发展,当前很多NLP任务都可以通过该范式获取较大的指标提升,本申请实施例提出的一种播报文本生成的方法可以利用预训练语言模型,如BERT语言模型、GPT-2语言模型等,将播报长度参数融入可控NLG模块36/TTS模块37中去,端到端生成播报文本或语音。

图7为本申请实施例四提出的播报文本生成的方法基于典型预训练语言模型结构方式示意图。图7所示,该模块针对不同类别用户信息、设备信息和/或场景信息分别使用线性编码器(linear)进行编码后,通过融合模块(fusion)获取播报长度参数的表征向量,记为第六播报长度参数;该第六播报长度参数与DST模块34输出的当前轮对话状态和DPL模块35输出的当前用户语音指令的播报内容一起输入GPT-2语言模型,生成长度与该用户收听历史记录相匹配的目标播报文本。

在一个可以实现的实施方式中,NLG模块36先利用无标注的文本数据对GPT-2语言模型进行预训练,获取语言特征信息。再使用包括播报内容、对话状态、对应的用户信息、设备信息和/或场景信息和得到了用户正反馈的播报结果的播报内容信息进行微调,学习各参数对应的编码器参数,并调整预训练的GPT-2模型输出层的参数,以生成长度与该用户收听历史记录相匹配的目标播报文本,适应该生成任务。

本申请实施例提出的播报文本生成的方法,在播报文本生成时,引入用户信息之外,还引入设备信息和/或场景信息,生成长度不同的播报文本。通过用户信息收集用户收听播报文本的历史时长,并结合所处环境和/或使用的设备对该播报文本收听时长进行差异化存储,在特定场景下生成播报文本时,使用该场景下的播报长度参数指导播报文本生成,可生成匹配用户习惯的、适配设备信息和/或使用场景的目标播报文本,提升交互体验和效率,提供更懂用户的个性化的语音助手201。

除了根据用户请求生成播报文本或语音,语音助手201主动发出的欢迎语、系统开机或关机时生成播报文本或语音,以及在其他可能与用户个性化使用记录、设备信息和/或场景信息相匹配的情景下生成播报文本或语音,都可以采用本申请上述实施例的方法。

实施例五

本申请实施例提出一种播报文本的方法,可以根据用户请求生成播报语音,在播报语音的生成阶段引入用户信息,根据用户信息中记录的用户的历史收听时长控制目标播报语音的语速,为用户与语音助手之间提供千人千面的性化交互体验。

本申请实施例提出一种播报文本的方法,包括:接收用户的语音指令;生成语音指令对应的目标播报文本;根据播报长度参数对目标播报文本的播报速度进行控制,播报长度参数指示历史收听时长信息。

语音助手可以根据多条历史收听时长信息的平均值或加权平均值,确定播报长度参数。具体可以参考实施例一中与确定播报长度参数相关的实施方式,此处不再赘述。

在一些可以实现的实施方式中,播报长度参数与设备信息关联,可以根据设备信息确定第一播报长度参数,根据播报长度参数对目标播报文本的播报速度进行控制,包括:根据第一播报长度参数对目标播报文本的播报速度进行控制;第一播报长度参数指示与设备信息关联的第一历史收听时长信息。具体可以参考实施例二中的与第一播报长度参数相关的实施方式,此处不再赘述。

在一些可以实现的实施方式中,播报长度参数与场景信息关联,可以根据场景信息确定第二播报长度参数,根据播报长度参数对目标播报文本的播报速度进行控制,包括:根据第二播报长度参数对目标播报文本的播报速度进行控制;第二播报长度参数指示与场景信息关联的第二历史收听时长信息。具体可以参考实施例二中的与第二播报长度参数相关的实施方式,此处不再赘述。

在一些可以实现的实施方式中,播报长度参数与场设备信息和场景信息关联,可以根据设备信息和场景信息确定第三播报长度参数,根据播报长度参数对目标播报文本的播报速度进行控制,包括:根据第三播报长度参数对目标播报文本的播报速度进行控制;第三播报长度参数指示与设备信息和场景信息关联的第三历史收听时长信息,具体可以参考实施例二的与第三播报长度参数相关的实施方式,此处不再赘述。。

在一些可以实现的实施方式中,根据播报长度参数对目标播报文本的播报速度进行控制,可以包括:将历史收听时长信息、设备信息和/或场景信息输入分类模型;输出第四播报长度参数;第四播报长度参数为不同的长度类别;根据第四播报长度参数对目标播报文本的播报速度进行控制。具体可以参考实施例三的通过分类模型获得第四播报长度参数相关的实施方式,此处不再赘述。

在一种可能的实现方式中,根据播报长度参数对目标播报文本的播报速度进行控制,可以包括:将历史收听时长信息、设备信息和/或场景信息输入回归模型;输出第五播报长度参数,第五播报长度参数为长度限制值;根据第五播报长度参数对目标播报文本的播报速度进行控制。具体可以参考实施例三的通过回归模型获得第五播报长度参数相关的实施方式,此处不再赘述。

可以理解的是,本申请实施例中各实施例并非孤立的实施例,本领域技术人员可以对各实施例进行关联或组合,其关联和组合的方案均在本申请实施例的保护范围中。

本申请的实施例提供了一种电子设备,包括:至少一个存储器,用于存储程序;和至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行上述任一实施例的方法。

本申请的实施例一种存储介质,存储介质中存储有指令,当指令在终端上运行时,使得第一终端执行上述任一实施例的方法。

本申请实施例限定的播报文本收听时长在纯文本生成场景,也可以转换为用户查看播报文本的时间等等价指标。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。

此外,本申请实施例的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如,计算机可读介质可以包括,但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,压缩盘(compact disc,CD)、数字通用盘(digital versatile disc,DVD)等),智能卡和闪存器件(例如,可擦写可编程只读存储器(erasable programmable read-only memory,EPROM)、卡、棒或钥匙驱动器等)。另外,本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于,无线信道和能够存储、包括和/或承载指令和/或数据的各种其它介质。

应当理解的是,在本申请实施例的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以播报长度参数软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者接入网设备等)执行本申请实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 宫廷服饰文本主题生成方法、装置、电子设备及存储介质
  • 一种文本标识的方法、装置、电子设备及存储介质
  • 一种文本信息的过滤方法、装置和电子设备
  • 一种文本行区域检测方法、装置、介质和电子设备
  • 一种文本相似度计算方法、装置及电子设备
  • 文本生成方法、文本生成装置、电子设备及存储介质
  • 文本排序模型的攻击文本生成方法和装置、文本排序方法、存储介质和电子设备
技术分类

06120116499216