直播方法及装置、存储介质及电子设备

文献发布时间：2023-06-19 18:46:07

技术领域

本公开涉及计算机应用技术领域，具体涉及一种直播方法及装置、存储介质及电子设备。

背景技术

随着网络科技的发展，直播行业的热度不断上升。网络直播相较于传统媒体具备响应快、社交性强等优点，从而在不同领域具有广泛的应用。虚拟主播作为网络直播技术的新兴技术，通过真人演员的动作结合动作捕捉程序，利用预设虚拟形象，针对不同的直播主题，生成直播视频并输出。虚拟主播相较于传统的真人主播能够根据不同需求设置虚拟主播形象，对观众来说虚拟主播更加新颖和有趣，受众人群更加广泛，直播效果更加好。

然而，由于虚拟主播需要通过真人演员进行操作，虚拟主播与观众的互动依赖真人演员，虚拟主播无法单独对直播过程中观众提出的问题进行实时回答，而由于真人的特殊性，面对问题需要一定时间的思考，真人主播和虚拟主播都存在无法及时回复观众问题的情况，降低了直播过程中观众的互动体验，从而导致直播效果下降。

发明内容

有鉴于此，本公开提供一种直播方法及装置、存储介质及电子设备，以提高直播过程中观众的互动体验。

第一方面，本公开一实施例提供了一种直播方法，包括：在主播的直播过程中，获取观众问题；将观众问题与至少一个预设问题进行匹配，得到观众问题对应的预设问题；基于观众问题对应的预设问题、预设问题对应的预设答案，确定观众问题对应的预设答案；基于观众问题对应的预设答案，配合主播展示观众问题对应的预设答案。

结合第一方面，在第一方面的某些实现方式中，观众问题的数量为多个，每个观众问题对应一个预设答案，基于观众问题对应的预设答案，配合主播展示观众问题对应的预设答案，包括：确定多个观众问题各自对应的观众行为数据，其中，观众行为数据用于表征观众问题的重要程度；基于多个观众问题各自对应的观众行为数据，确定多个观众问题各自对应的预设答案的展示顺序；基于多个观众问题各自对应的预设答案、多个观众问题各自对应的预设答案的展示顺序，配合主播依次展示多个观众问题各自对应的预设答案。

结合第一方面，在第一方面的某些实现方式中，观众行为数据包括多位观众各自的观众行为数据，基于多个观众问题各自对应的观众行为数据，确定多个观众问题各自对应的预设答案的展示顺序，包括：针对多个观众问题中的每个观众问题，基于观众问题对应的观众行为数据，确定观众问题对应的多位观众各自的观众行为数据的权重和多位观众各自的发表观众问题的次数；基于观众问题对应的多位观众各自的观众行为数据的权重、多位观众各自的发表观众问题的次数，确定观众问题对应的总权重；基于多个观众问题各自对应的总权重，确定多个观众问题各自对应的预设答案的展示顺序。

结合第一方面，在第一方面的某些实现方式中，观众行为数据包括多种类型的行为数据，基于观众问题对应的观众行为数据，确定观众问题对应的多位观众各自的观众行为数据的权重，包括：针对多位观众中的每位观众，确定观众的观众行为数据包括的至少一种类型的行为数据；基于至少一种类型的行为数据，确定至少一种类型的行为数据各自对应的行为发生次数；确定至少一种类型的行为数据各自对应的行为权重；基于至少一种类型的行为数据各自对应的行为发生次数、至少一种类型的行为数据各自对应的行为权重，确定观众的观众行为数据的权重。

结合第一方面，在第一方面的某些实现方式中，确定至少一种类型的行为数据各自对应的行为权重，包括：确定至少一种类型的行为数据各自对应的行为发生时间节点；基于行为衰减函数、至少一种类型的行为数据各自对应的行为发生时间节点和当前时间节点，确定至少一种类型的行为数据各自对应的行为衰减系数，行为衰减系数能够表征至少一种类型的行为数据各自对应的行为权重随时间衰减的程度；基于至少一种类型的行为数据各自对应的预设权重和行为衰减系数，确定至少一种类型的行为数据各自对应的行为权重。

结合第一方面，在第一方面的某些实现方式中，基于多个观众问题各自对应的预设答案、多个观众问题各自对应的预设答案的展示顺序，配合主播依次展示多个观众问题各自对应的预设答案，包括：基于多个观众各自应对的预设答案、主播对应的动作数据和语音数据，生成多个观众问题各自对应的回答视频；基于多个观众问题各自对应的回答视频，依次展示多个观众问题各自对应的预设答案。

结合第一方面，在第一方面的某些实现方式中，在基于观众问题，与至少一个预设问题进行匹配，得到观众问题对应的预设问题之前，该直播方法还包括：基于直播内容，确定预设问答题库，其中，预设问答题库包括至少一个预设问题、至少一个预设问题各自对应的预设答案。

结合第一方面，在第一方面的某些实现方式中，在主播直播过程中，获取观众问题之前，该直播方法还包括：构建主播形象；基于主播形象，确定主播形象对应的动作库及语音库，动作库包括动作标签，语音库包括音色和语调；基于直播内容、主播形象、动作库和语音库，生成直播视频。

结合第一方面，在第一方面的某些实现方式中，基于直播内容、主播形象、动作库和所述语音库，生成直播视频，包括：基于直播内容，在直播内容中插入动作标签数据和情绪标签数据；基于直播内容、主播形象、动作标签数据和动作库，确定主播的动画部分；基于直播内容、情绪标签数据和语音库，确定主播的语音部分；基于主播的动画部分和主播的语音部分，生成直播视频。

第二方面，本公开一实施例提供一种直播装置，该装置包括：获取模块，用于在主播的直播过程中，获取观众问题；匹配模块，用于将观众问题与至少一个预设问题进行匹配，得到观众问题对应的预设问题；确定模块，用于基于观众问题对应的预设问题、预设问题对应的预设答案，确定观众问题对应的预设答案；展示模块，用于基于观众问题对应的预设答案，配合主播展示观众问题对应的预设答案。

第三方面，本公开一实施例提供一种电子设备，该电子设备包括：处理器；用于存储处理器可执行指令的存储器，其中，处理器用于执行第一方面所提及的方法。

第四方面，本公开一实施例提供一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行第一方面提及的方法。

本公开提供的直播方法，通过在主播的直播过程中，获取观众问题，并匹配观众问题对应的预设问题，基于预设问题、预设问题对应的预设答案，确定观众问题对应的预设答案，最终基于预设答案，配合主播展示观众问题对应的预设答案，实现了主播在直播过程及时地观众进行互动的目的，从而提高了直播过程中观众的互动体验。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。

图1所示为本公开的一实施例提供的应用场景示意图。

图2所示为本公开的一实施例提供的直播方法的流程示意图。

图3所示为本公开的一实施例提供的基于观众问题对应的预设答案，配合主播展示观众问题对应的预设答案的流程示意图。

图4所示为本公开的一实施例提供的基于多个观众问题各自对应的观众行为数据，确定多个观众问题各自对应的预设答案的展示顺序的流程示意图。

图5所示为本公开的一实施例提供的基于观众问题对应的观众行为数据，确定观众问题对应的多位观众各自的观众行为数据的权重的流程示意图。

图6所示为本公开的一实施例提供的确定至少一种类型的行为数据各自对应的行为权重的流程示意图。

图7所示为本公开的一实施例提供的基于多个观众问题各自对应的预设答案、多个观众问题各自对应的预设答案的展示顺序，配合主播依次展示多个观众问题各自对应的预设答案的流程示意图。

图8所示为本公开的一实施例提供的另一直播方法的流程示意图。

图9所示为本公开的一实施例提供的基于直播内容、主播形象、动作库和语音库，生成直播视频的流程示意图。

图10所示为本公开的一实施例提供的另一直播方法的流程示意图。

图11所示为本公开的一实施例提供的直播装置的结构示意图。

图12所示为本公开的一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本公开一部分实施例，而不是全部的实施例。

随着网络科技的发展，直播行业的热度不断上升。网络直播相较于传统纸质媒体、电视媒体等具备响应快、社交性强、受众广、传播速度快等优点，从而在不同领域有着广泛的应用，例如，新品发布技术领域、在线教育领域、电商领域、广电新媒体等领域。

虚拟主播作为直播技术的新兴技术，通过真人演员的动作结合动作捕捉程序，利用预设虚拟形象，针对不同的直播主题，生成直播视频并输出，具有可控性强、持续性高、新颖有趣等优点。虚拟主播相较于传统的真人主播能够根据不同需求设置虚拟主播形象，对观众来说更加新颖和有趣。此外，虚拟主播可以根据直播主题的受众人群进行预设虚拟主播形象，扩大了受众人群的范围，从而提高了直播效果。

然而，传统的虚拟主播需要结合专业的动作设备及相应的程序进行处理，直播过程需要专业的人员进行调试，易出现动作与真人演员不匹配的情况，降低了直播的观感。并且，由于虚拟主播与观众的互动依赖真人演员的操作，真人演员的特殊性无法长时间持续进行直播，在真人演员休息期间，虚拟主播无法与观众互动，无法单独对直播过程中观众提出的问题进行实时回答，并且由于真人的特殊性，面对问题需要一定时间的思考，真人主播和虚拟主播都存在无法及时回复观众问题的情况，降低了直播过程中观众的互动体验，从而导致直播效果下降，限制了直播行业进一步地发展。

下面结合图1对本公开一实施例的应用场景进行简单的介绍。

图1所示本公开一实施例的应用场景示意图。如图1所示，该场景为主播进行直播的场景。具体而言，主播进行直播的场景包括服务器110、分别与服务器110通信连接的观众端120和直播端130，服务器110用于执行本公开实施例提及的直播方法。

示例性地，在实际应用中，服务器110响应于直播端130的直播开始的指令，获取观众端120的观众问题，将观众问题与至少一个预设问题进行匹配，将观众问题与至少一个预设问题进行匹配，得到观众问题对应的预设问题，基于观众问题对应的预设问题、预设问题对应的预设答案，确定观众问题对应的预设答案；基于观众问题对应的预设答案，将预设答案发送至直播端130，在直播端130的主播对观众问题的预设答案进行展示，并将展示内容同步至服务器110，以便服务器110将展示内容同步至观众端120，观众可通过观众端120了解问题的答案。

示例性地，直播端130的主播可以是虚拟形象的主播，也可以是根据真人形象构建的虚拟真人形象的主播，也可以是真人主播。示例性地，上述提及的观众端120和直播端130包括但不限于台式电脑、笔记本电脑等计算机终端及平板电脑、手机等移动终端。服务器110可以指独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器等。

下面结合图2至图10对本公开的直播方法进行简单的介绍。

图2所示为本公开的一实施例提供的直播方法的流程示意图，如图2所示，本公开的实施例提供的直播方法包括如下步骤。

步骤S210，在主播的直播过程中，获取观众问题。

示例性地，主播可以是虚拟主播也可以是真人主播。示例性地，观众问题可以是直接获取的观众的评论、弹幕，也可以是通过关键字词对评论、弹幕的内容进行识别，获得相关的观众问题。

步骤S220，将观众问题与至少一个预设问题进行匹配，得到观众问题对应的预设问题。

示例性地，获得观众问题后，通过文本匹配算法或匹配模型，将观众问题与预设问题进行匹配。选取的匹配模型可以是BERT(Bidirectional Encoder Representation fromTransformers)模型。

示例性地，采用BERT模型进行观众问题和预设问题匹配时，首先需要采用大量文本数据对BERT模型进行训练，再通过训练用的观众问题文本直接输入模型来获得预设问题文本的语义向量或中间隐层向量，并将向量与预设问题进行余弦相似度计算，即可得到观众问题与预设问题的相似度。具体地，可以通过下述式1-1获得观众问题与预设问题的相似度。

在式1-1中，similarity为观众问题与预设问题的相似度，A与B分别为观众问题的文本上下文的嵌入向量与预设问题的嵌入向量。

在计算观众问题与预设问题的相似度时，首先需设置一个阈值t

在式1-2中，假设观众问题对应的预设问题仅为P

步骤S230，基于观众问题对应的预设问题、预设问题对应的预设答案，确定观众问题对应的预设答案。

示例性地，观众问题可以为多个，多个观众问题可应对同一预设问题，预设问题与直播内容对应。例如，直播内容内“人工智能发展史及未来展望”，则相应的预设问题主要包括人工智能领域发展历史，预设问题可以是“人工智能的定义是什么”，对应的观众问题可以是“人工智能是什么”“人工智能是作什么的”“人工智能能用来做什么”。多个问题观众问题是相关的，预设问题为同一个，相对应的问题答案也是同一个。

示例性地，若选取N个直播主题，则每个主题对应的预设问题列表，预设问题列表数量为1个到M个，可构建一个最大为N×M的问题矩阵，该主题的所有预设问题的条数可根据下式1-3确定。

在式1-3中，П表示所有预设问题的总条数，对应地，所有预设问题对应的答案条数为N。

示例性地，在实际应用中，问题分析引擎完成上述观众问题匹配预设问题的部分，具体地，通过匹配与观众问题最相似的问题，从而确定预设问题对应的答案。

步骤S240，基于观众问题对应的预设答案，配合主播展示观众问题对应的预设答案。

示例性地，基于观众问题对应的预设答案，虚拟主播通过对应的动作和语音，展示观众问题对应的预设答案，预设答案的展示可以通过虚拟主播语音播报，或显示在直播画面的固定位置，虚拟主播通过动作引导观众查看相关的答案内容，或者真人主播根据预设答案，播报问题对应的答案。

本公开实施例提供的直播方法，在主播的直播过程，获取观众问题，通过观众问题与预设问题匹配，获得观众问题对应的答案，并配合主播进行展示，能够实现主播与观众的互动的目的，解决了主播在直播过程中无法对观众提出的问题进行及时回答的问题。

图3所示为本公开的一实施例提供的基于观众问题对应的预设答案，配合主播展示观众问题对应的预设答案的流程示意图。如图3所示，本公开的实施例提供的基于观众问题对应的预设答案，配合主播展示观众问题对应的预设答案包括如下步骤。

步骤S310，确定多个观众问题各自对应的观众行为数据。

观众行为数据用于表征观众问题的重要程度。观众问题的数量为多个，每个观众问题对应一个预设答案。

示例性地，观众行为数据包括在直播过程中观众的操作数据，例如，观众的发言频率，点赞频率、打赏频率等行为，不同行为对该观众有着不同的重要性，观众行为的重要程度越高，该观众提出的问题重要性越高。

步骤S320，基于多个观众问题各自对应的观众行为数据，确定多个观众问题各自对应的预设答案的展示顺序。

示例性地，根据多个观众问题各自对应的观众行为数据，确定多个观众问题对应的多位观众的重要性，根据观众的重要程度，确定多个观众问题各自应对的预设答案的顺序，观众的重要程度越高，观众对应的观众问题顺序越靠前。

步骤S330，基于多个观众问题各自对应的预设答案、多个观众问题各自对应的预设答案的展示顺序，配合主播依次展示多个观众问题各自对应的预设答案。

示例性地，根据上述获得的观众问题的顺序，确定多个观众问题对应的预设答案的顺序，根据预设答案的顺序，配合主播依次展示多个观众问题各自应对的预设答案。

本公开实施例通过观众的行为数据，确定观众问题各自应对的预设答案的展示顺序，能够在直播过程中，对积极参加互动的观众的问题能够按照顺序优先回答，能够增加观众的互动体验，提高观众观看直播的兴趣，提高直播的效果。

图4所示为本公开的一实施例提供的基于多个观众问题各自对应的观众行为数据，确定多个观众问题各自对应的预设答案的展示顺序的流程示意图。如图4所示，本公开的实施例提供的基于多个观众问题各自对应的观众行为数据，确定多个观众问题各自对应的预设答案的展示顺序包括如下步骤。

步骤S410，针对多个观众问题中的每个观众问题，基于观众问题对应的观众行为数据，确定观众问题对应的多位观众各自的观众行为数据的权重和多位观众各自的发表观众问题的次数。

示例性地，观众行为数据可以包括观众点赞数据、观众发言频率数据、观众点赞数据、观众停留观看的时间数据。观众行为数据的权重可以通过运营人员和数据人员对不同行为赋予不同权值，从而确定观众数据的权重。多位观众各自的发表观众问题次数包括每位观众对同一观众问题发表的次数，一位观众对同一观众问题发表的次数。

步骤S420，基于观众问题对应的多位观众各自的观众行为数据的权重、多位观众各自的发表观众问题的次数，确定观众问题对应的总权重。

示例性地，观众问题对应的总权重可以通过下式1-4确定。

在式1-4中，R表示一观众问题对应的总权重，n表示匹配该问题的总的观众数量，Q

步骤S430，基于多个观众问题各自对应的总权重，确定多个观众问题各自对应的预设答案的展示顺序。

示例性地，基于多个观众问题各自应对的总权重，总权重越高的观众问题对应的预设答案展示的顺序越靠前。

本公开实施例通过观众问题对应的总权重，确定多个问题观众各自应对的预设答案的展示顺序，能够体现不同问题在直播过程中受关注的程度，可以使得受关注程度高的问题优先进行展示，进一步提高观众的互动体验，从而增加了直播趣味，能够提高直播的效果。

图5所示为本公开的一实施例提供的基于观众问题对应的观众行为数据，确定观众问题对应的多位观众各自的观众行为数据的权重的流程示意图。如图5所示，本公开的实施例提供的基于观众问题对应的观众行为数据，确定观众问题对应的多位观众各自的观众行为数据的权重的步骤如下。

步骤S510，针对多位观众中的每位观众，确定观众的观众行为数据包括的至少一种类型的行为数据。

示例性地，行为数据的类型可以是点赞行为、评论行为、打赏行为。

步骤S520，基于至少一种类型的行为数据，确定至少一种类型的行为数据各自对应的行为发生次数。

示例性地，针对每位观众包含的上述三种类型的行为数据，确定该观众的点赞行为的次数，评论行为的次数，打赏行为的次数。

步骤S530，确定至少一种类型的行为数据各自对应的行为权重。

示例性地，根据运营人员或数据人员定义的权值，确定上述点赞行为、评论行为、打赏行为各自的权重；或者，根据直播历史数据，确定每种行为的观众的重要性，从而确定上述点赞行为、评论行为、打赏行为各自的权重。

步骤S540，基于至少一种类型的行为数据各自对应的行为发生次数、至少一种类型的行为数据各自对应的行为权重，确定观众的观众行为数据的权重。

示例性地，观众的观众行为数据的权重可以通过下式1-5确定。

在式1-5中，Q表示观众的观众行为数据的权重，n表示行为数据对应的行为类型的总个数，T(t)

本公开实施例通过至少一种类型的行为数据各自对应的行为发生次数、至少一种类型的行为数据各自对应的行为权重，确定观众的观众行为数据的权重，能够根据实际直播过程中的需求，确定观众行为数据的权重，进一步确定直播过程中互动积极性高的观众，提高直播的互动效果。

图6所示为本公开的一实施例提供的确定至少一种类型的行为数据各自对应的行为权重的流程示意图。如图6所示为本公开的一实施例提供的确定至少一种类型的行为数据各自对应的行为权重包括如下步骤。

步骤S610，确定至少一种类型的行为数据各自对应的行为发生时间节点。

示例性地，以直播开始时间为时间节点起点，确定某一类型的行为数据各自对应的行为发生的时间节点；或者按照直播到固定内容的时间点为时间节点起点。

步骤S620，基于行为衰减函数、至少一种类型的行为数据各自对应的行为发生时间节点和当前时间节点，确定至少一种类型的行为数据各自对应的行为衰减系数。

行为衰减系数能够表征至少一种类型的行为数据各自对应的行为权重随时间衰减的程度。

示例性地，当直播时间较长时，根据直播内容观众的行为也会有所不同，需要考虑直播时间对观众行为的影响。直播过程中，可能会存在不同的主题，同时还需要考虑不同直播主题对观众行为的影响。在不同主题的时间段内，观众的初始行为受直播内容的影响不大，通过行为衰减函数，削弱观众初始行为的影响，能够最大程度衡量该观众在该主题的直播中的行为的权重。

步骤S630，基于至少一种类型的行为数据各自对应的预设权重和行为衰减系数，确定至少一种类型的行为数据各自对应的行为权重。

示例性地，行为衰减系数可以通过下式1-6确定，即式1-6为行为衰减函数，上述

式1-5中的β

在式1-6中，T(t)表示行为衰减系数，t

本公开实施例通过至少一种类型的行为数据各自对应的预设权重和行为衰减系数，确定至少一种类型的行为数据各自对应的行为权重，能够体现不同类型行为在直播时间的影响下的权重，行为权重能够更客观的表达观众的行为，削弱观众初始行为的影响，更客观的评价观众的行为，提高直播互动的效率。

图7所示为本公开的一实施例提供的基于多个观众问题各自对应的预设答案、多个观众问题各自对应的预设答案的展示顺序，配合主播依次展示多个观众问题各自对应的预设答案的流程示意图。如图7所示，本公开的实施例提供的基于多个观众问题各自对应的预设答案、多个观众问题各自对应的预设答案的展示顺序，配合主播依次展示多个观众问题各自对应的预设答案包括如下步骤。

步骤S710，基于多个观众各自应对的预设答案、主播对应的动作数据和语音数据，生成多个观众问题各自对应的回答视频。

示例性地，语音数据包括音调、音色等数据。主播对应的动作数据和语音数据，可以是与直播内容对应的，例如，选取直播内容虚拟主播对应的动作数据、音调和音色；也可以是根据实际需求，选取与问题对应的提前预设的虚拟主播对应的动作数据、音调和音色，生成多个观众问题各自对应的回答视频。真人主播的回答视频可以是根据真人主播主播的音调、音色和在固定直播内容部分预设的对应的动作数据，根据真人主播形象，生成多个观众问题各自对应的回答视频。

步骤S720，基于多个观众问题各自对应的回答视频，依次展示多个观众问题各自对应的预设答案。

示例性地，回答视频可以根据问题依次生成，并依次展示多个观众问题各自对应的预设答案；也可以是根据观众问题一次性生成，在直播的回答环节，依次展示多个观众问题各自对应的预设答案。

在一些实施例中，在直播过程设置的回答环节，可以根据需求，在回答环节设置问题个数限制或时间限制。若设置时间限制，则在固定时间内回答的问题个数由相应的算法计算获得。计算过程中，通过设置阈值t

在式1-7中，K表示是否回答问题列表中的下一个问题，K＝1时回答，K＝2时不回答，t

本公开实施例通过基于多个观众问题各自对应的回答视频，依次展示多个观众问题各自对应的预设答案，能够实现主播及时回答观众问题的目的，进一步增加观众的互动体验。

在一些实施例中，在基于观众问题，与至少一个预设问题进行匹配，得到观众问题对应的预设问题之前，该直播方法还包括：基于直播内容，确定预设问答题库，其中，预设问答题库包括至少一个预设问题、至少一个预设问题各自对应的预设答案。示例性地，针对直播主题生成对应的预设问题，和预设问题各自对应的答案，确定预设答题库。本公开实施例通过直播内容，确定预设答案题库，预设问题和预设问题各自对应的答案与直播主题贴合，能够使得主播回答问题的效率更高。

图8所示为本公开的一实施例提供的另一直播方法的流程示意图。在图2所示实施例基础上延伸出图8所示实施例，下面着重叙述图8所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图8所示为本公开的实施例提供的直播方法，在主播直播过程中，获取观众问题之前，该直播方法还包括如下步骤。

步骤S810，构建主播形象。

示例性地，主播形象可以是构建的2D或3D的虚拟主播形象或者真人形象。虚拟主播形象的构建包括人物建模、材质贴图和绑骨蒙皮等步骤。主播形象的建模可以采用3D建模软件，如Maya软件、Blender软件等制作基本模型，构建的基本模型包含人物三维数据。材质贴图步骤需构建人物模型表面颜色、阴影、亮度等特性。绑骨蒙皮步骤则基于3D模型构建骨骼系统，支持3D模型的肢体动作生成。

步骤S820，基于主播形象，确定主播形象对应的动作库及语音库。

动作库包括动作标签，语音库包括音色和语调。

示例性地，主播形象对应的动作库和语音库，可以根据需求专门定制，也可以根据真人主播的声音定制。语音库可以是选择已有的音色或音调，或者，定制专属的音色和语调，具体地，内部语音合成引擎通过深度学习模型将已有语音片段进行分析解构，从而获取相应语音片段音色、语调等特点，构建专属语音库。示例性地，语音库可以根据专用语音合成引擎生成，通过输入多条录音数据，由语音合成引擎生成匹配录音数据音色的发音数据，发音数据可根据需求配置语速、停顿、换气、停顿等多种参数。由动作生成引擎根据虚拟或真人形象结合可用动作列表生成动作库。

步骤S830，基于直播内容、主播形象、动作库和语音库，生成直播视频。

示例性地，直播内容包括主播直播过程的播报文本，是可供长期播报的文本，播报文本长度限制较小。基于播报文本，主播形象结合动作库中的动作和语音库中选取的音色和音调，生成直播视频。

本公开实施例通过直播内容、主播形象、动作库和语音库，生成直播视频，主播形象可以根据需求制作，主播对应的动作、音色和音调也可根据直播内容进行定制，生成的直播视频能满足不同的主题的直播需求。

图9所示为本公开的一实施例提供的基于直播内容、主播形象、动作库和语音库，生成直播视频的流程示意图。如图9所示，本公开的实施例提供的基于直播内容、主播形象、动作库和语音库，生成直播视频包括如下步骤。

步骤S910，基于直播内容，在直播内容中插入动作标签数据和情绪标签数据。

示例性地，在直播内容需要的位置，进行设置，插入动作标签数据和情绪标签数据。动作标签可以通过虚拟主播播报引擎识别，实现在对应的位置生成主播动作的目的。示例性地，在直播内容中插入动作标签数据和情绪标签数据，可以是“本产品包含多种功能，第一：[手势-标签一]语音播报，第二：[手势-标签二]2D播报，第三：[手势-标签三][emo_st情绪-高兴]真人播报”，该直播内容被后续播报引擎解析为对应真人或虚拟形象的播报视频，

步骤S920，基于直播内容、主播形象、动作标签数据和动作库，确定主播的动画部分。

示例性地，根据视频生成引擎，确定主播的动画部分。通过视频生成引擎，解析直播内容对应的位置动作库中的动作标签。在动作标签位同步展示真人或虚拟形象主播对应动作，确定主播的动画部分。

步骤S930，基于直播内容、情绪标签数据和语音库，确定主播的语音部分。

示例性地，通过语音合成引擎确定主播的语音部分，具体地，通过语音合成引擎，确定选定的语音库的发音数据以及直播内容对应的音频。语音合成引擎包含多种模块：语音特征编码模块、文本编码模块、语音生成模块。其中，语音特征编码模块集合发音人性别特征、年龄特征、地域特征等融合特征用于表征虚拟主播发音的音色。语音生成模块则由融合特征编码与文本编码集合输入语音生成模型从而输出虚拟主播直播的语音。语音生成模型包含语音频谱生成及语音声码器。语音频谱可由相应语音合成技术(Text To Speech，TTS)模型生成，如Tacotron2，deepvoice3，通过音频数据的读取，获取时域信号，并用短时傅里叶变换(short-time Fourier transform，STFT)算法等进行频谱计算。而声码器则用于分析音频信号音色特征并将直播内容输出。在情绪标签位展示真人或虚拟形象的对应的情绪，情绪标签还可以在指示语音合成时，指示直播内容的虚拟主播的语速、音调、重音、停顿等配置，根据配置要求，进行初始参数设置。情绪标签可以通过语音合成引擎添加，具体地，通过语音合成引擎中的文本编码模块，识别分析直播内容并在需要的位置添加情绪标签。

步骤S940，基于主播的动画部分和主播的语音部分，生成直播视频。

本公开实施例在直播内容中插入动作标签数据和情绪标签数据，通过动作库和动作标签生成主播的动画部分，通过语音库和情绪标签，确定主播的语音部分，能够使直播视频更加逼真，能够增加后续互动的真实性，从而提高观众的互动体验。

图10所示为本公开的一实施例提供的另一直播方法的流程示意图。如图10所示，本公开的实施例提供的另一直播方法包括如下步骤。

步骤S1010，构建主播形象。

步骤S1020，根据主播形象，确定动作库和语音库。

步骤S1030，准备直播内容以及与直播内容相关的问答库。

步骤S1040，根据直播内容和主播形象，利用播报引擎生成直播视频。

步骤S1050，在直播开始时，开始监控直播情况，并获取直播过程的观众问题。

步骤S1060，针对观众问题进行分析，确定观众问题对应的答案。

步骤S1070，基于观众问题对应的答案，配合主播进行展示观众问题的答案。

步骤S1010至步骤S1070的具体实现方式可参考上述实施例，在此不再赘述。

下面结合图11对本公开的直播装置进行简单的介绍。

图11所示为本公开的一实施例提供的直播装置的结构示意图。如图11所示，本公开的实施例提供的直播装置1100包括，获取模块1101，匹配模块1102，确定模块1103和展示模块1104。具体地，获取模块1101用于，在主播的直播过程中，获取观众问题；匹配模块1102用于，将观众问题与至少一个预设问题进行匹配，得到观众问题对应的预设问题；确定模块1103用于，基于观众问题对应的预设问题、预设问题对应的预设答案，确定观众问题对应的预设答案；展示模块1104用于，基于观众问题对应的预设答案，配合主播展示观众问题对应的预设答案。

在一些实施例中，展示模块1104还用于，确定多个观众问题各自对应的观众行为数据，其中，观众行为数据用于表征观众问题的重要程度；基于多个观众问题各自对应的观众行为数据，确定多个观众问题各自对应的预设答案的展示顺序；基于多个观众问题各自对应的预设答案、多个观众问题各自对应的预设答案的展示顺序，配合主播依次展示多个观众问题各自对应的预设答案。

在一些实施例中，展示模块1104还用于，针对多个观众问题中的每个观众问题，基于观众问题对应的观众行为数据，确定观众问题对应的多位观众各自的观众行为数据的权重和多位观众各自的发表观众问题的次数；基于观众问题对应的多位观众各自的观众行为数据的权重、多位观众各自的发表观众问题的次数，确定观众问题对应的总权重；基于多个观众问题各自对应的总权重，确定多个观众问题各自对应的预设答案的展示顺序。

在一些实施例中，展示模块1104还用于，针对多位观众中的每位观众，确定观众的观众行为数据包括的至少一种类型的行为数据；基于至少一种类型的行为数据，确定至少一种类型的行为数据各自对应的行为发生次数；确定至少一种类型的行为数据各自对应的行为权重；基于至少一种类型的行为数据各自对应的行为发生次数、至少一种类型的行为数据各自对应的行为权重，确定观众的观众行为数据的权重。

在一些实施例中，展示模块1104还用于，确定至少一种类型的行为数据各自对应的行为权重，包括：确定至少一种类型的行为数据各自对应的行为发生时间节点；基于行为衰减函数、至少一种类型的行为数据各自对应的行为发生时间节点和当前时间节点，确定至少一种类型的行为数据各自对应的行为衰减系数，行为衰减系数能够表征至少一种类型的行为数据各自对应的行为权重随时间衰减的程度；基于至少一种类型的行为数据各自对应的预设权重和行为衰减系数，确定至少一种类型的行为数据各自对应的行为权重。

在一些实施例中，展示模块1104还用于，基于多个观众各自应对的预设答案、主播对应的动作数据和语音数据，生成多个观众问题各自对应的回答视频；基于多个观众问题各自对应的回答视频，依次展示多个观众问题各自对应的预设答案。

在一些实施例中，获取模块1101还用于，基于直播内容，确定预设问答题库，其中，预设问答题库包括至少一个预设问题、至少一个预设问题各自对应的预设答案。

在一些实施例中，获取模块1101还用于，构建主播形象；基于主播形象，确定主播形象对应的动作库及语音库，动作库包括动作标签，语音库包括音色和语调；基于直播内容、主播形象、动作库和语音库，生成直播视频。

在一些实施例中，获取模块1101还用于，基于直播内容，在直播内容中插入动作标签数据和情绪标签数据；基于直播内容、主播形象、动作标签数据和动作库，确定主播的动画部分；基于直播内容、情绪标签数据和语音库，确定主播的语音部分；基于主播的动画部分和主播的语音部分，生成直播视频。

图12所示为本公开的一实施例提供的电子设备结构示意图。图12所示为本公开一实施例提供的电子设备的结构示意图。图12所示的电子设备1200(该电子设备1200具体可以是一种计算机设备)包括存储器1201、处理器1202、通信接口1203以及总线1204。其中，存储器1201、处理器1202、通信接口1203通过总线1204实现彼此之间的通信连接。

存储器1201可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器1201可以存储程序，当存储器1201中存储的程序被处理器1202执行时，处理器1202和通信接口1203用于执行本公开实施例的直播方法中的各个步骤。

处理器1202可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(Graphics Processing Unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本公开实施例的直播装置中的各个单元所需执行的功能。

处理器1202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本公开的直播方法的各个步骤可以通过处理器1202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1202还可以是通用处理器、数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(ASIC)、现场可编程门阵列(Field Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201，处理器1202读取存储器1201中的信息，结合其硬件完成本公开实施例的直播装置中包括的单元所需执行的功能，或者执行本公开方法实施例的直播方法。

通信接口1203使用例如但不限于收发器一类的收发装置，来实现电子设备1200与其他设备或通信网络之间的通信。例如，可以通过通信接口1203获取观众问题。

总线1204可包括在电子设备1200各个部件(例如，存储器1201、处理器1202、通信接口1203)之间传送信息的通路。

应注意，尽管图12所示的电子设备1200仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，电子设备1200还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，电子设备1200还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，电子设备1200也可仅仅包括实现本公开实施例所必须的器件，而不必包括图12中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本公开各种实施例的方法中的步骤。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。前述的存储介质的更具体的例子(非穷举的列表)包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质，或者上述的任意合适的组合。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：丁鑫;王雨露;郜静文;付新勇;张玉新;
专利申请人：科大讯飞股份有限公司;