场景渲染方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及虚拟数字人的合成渲染技术领域，尤其涉及一种场景渲染方法、装置、电子设备和存储介质。

背景技术

随着人工智能、元宇宙以及5G等技术的兴起，虚拟数字人作为一种全新的交互形态，不仅是元宇宙交互场景中的基石，同时也是虚拟主播、虚拟偶像以及数字员工等各类场景应用的核心载体。随着企业服务、传媒、游戏以及直播等各个行业对于虚拟数字人的需求日益旺盛，虚拟人已逐步成为下一代人际/人机交互的主要界面。

在进行虚拟人场景的合成和渲染时，通常是在内容展示端通过不同媒体控件控制不同内容的单向输出，而虚拟人物形象往往以透明通道和图层叠加的方式进行独立内容展示，使得在场景复杂且数据通道较多的环境下，会出现音、画，人、物等不同展示元素不同步的情况。

发明内容

本发明提供一种场景渲染方法、装置、电子设备和存储介质，用以解决现有技术中场景合成和渲染时出现内容信息的显示不同步的问题。

本发明提供一种场景渲染方法，包括：

确定渲染场景，并对所述渲染场景进行分区得到若干待渲染区域；

接收输入的控制指令数据，确定所述待渲染区域对应的流媒体数据，其中所述流媒体数据包括音频数据、视频数据、文本数据以及图片数据中的至少一种；

接收输入的文本驱动数据，根据所述控制指令数据将所述流媒体数据与所述文本驱动数据进行对齐规整；

将对齐规整后的所述文本驱动数据和所述流媒体数据进行通道数据合并，得到场景渲染视频。

根据本发明提供的一种场景渲染方法，所述接收输入的控制指令数据，确定所述待渲染区域对应的流媒体数据，包括：

对所述待渲染区域进行标识，得到所述待渲染区域对应的区域标识，并接收输入的控制指令数据；

根据所述控制指令数据、所述渲染场景和所述区域标识，确定与所述待渲染区域对应的流媒体数据。

根据本发明提供的一种场景渲染方法，所述根据所述控制指令数据、所述渲染场景和所述区域标识，确定与所述待渲染区域对应的流媒体数据，包括：

获取与所述渲染场景关联的流媒体数据，并识别所述流媒体数据对应的数据标识；

根据所述控制指令数据包含的关联关系和所述区域标识，确定所述待渲染区域对应的流媒体数据。

根据本发明提供的一种场景渲染方法，所述根据所述控制指令数据，将所述流媒体数据与所述文本驱动数据进行对齐规整，包括：

获取所述控制指令数据中包含的第一数据标识、第一区域标识和起始偏移；

根据所述起始偏移，将所述第一数据标识对应的第一流媒体数据与所述文本驱动数据进行对齐规整。

根据本发明提供的一种场景渲染方法，所述根据所述起始偏移，将所述第一数据标识对应的第一流媒体数据与所述文本驱动数据进行对齐规整，包括：

确定所述第一数据标识对应的第一流媒体数据，以及确定所述第一流媒体数据的数据类型；

确定所述数据类型对应的对齐规则；

根据所述对齐规则和所述起始偏移，将所述第一流媒体数据与所述文本驱动数据进行对齐规整。

根据本发明提供的一种场景渲染方法，所述接收输入的文本驱动数据和控制指令数据，根据所述控制指令数据，将所述流媒体数据与所述文本驱动数据进行对齐规整之后，还包括：

根据所述文本驱动数据得到合成音，并将所述合成音作为音频参照，对所述流媒体数据中的音频数据和视频数据进行降噪处理；

确定所述待渲染区域中进行文本展示的第二区域，并根据所述第二区域的区域特征对与所述第二区域对应的流媒体数据进行文本切分，得到在所述第二区域内进行展示的文本作为所述第二区域对应的流媒体数据。

根据本发明提供的一种场景渲染方法，所述将对齐规整后的所述文本驱动数据和所述流媒体数据进行通道数据合并，得到场景渲染视频，包括：

确定所述待渲染区域中各区域的数据属性，并根据所述数据属性对进行对齐规整后的所述流媒体数据进行调节；

将调节后的所述流媒体数据与所述文本驱动数据进行通道数据合并，得到场景渲染视频。

本发明还提供一种场景渲染装置，包括：

分区处理模块，用于确定渲染场景，并对所述渲染场景进行分区得到若干待渲染区域；

数据确定模块，用于接收输入的控制指令数据，确定所述待渲染区域对应的流媒体数据，其中所述流媒体数据包括音频数据、视频数据、文本数据以及图片数据中的至少一种；

对齐规整模块，用于接收输入的文本驱动数据，根据所述控制指令数据将所述流媒体数据与所述文本驱动数据进行对齐规整；

数据合并模块，用于将对齐规整后的所述文本驱动数据和所述流媒体数据进行通道数据合并，得到场景渲染视频。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述场景渲染方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述场景渲染方法的步骤。

本发明提供的场景渲染方法、装置、电子设备和存储介质，在进行场景渲染时，对渲染场景进行分区处理，得到渲染场景对应的若干待渲染区域，然后根据接收到的控制指令数据，确定待渲染区域所对应的流媒体数据，进而根据控制指令数据，结合输入的文本驱动数据将流媒体数据进行对齐规整，进而通过多通道的数据合并，得到渲染场景对应的视频信息。实现了在进行场景渲染时，实时对各通道的流媒体数据进行对齐规整，使得渲染后的场景可以实现数据信息的同步展示，实现了不同展示元素的内容一致性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图简要地说明，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的场景渲染方法的流程示意图；

图2是本发明提供的进行对齐规整的步骤的一流程示意图；

图3是本发明提供的进行对齐规整的步骤的另一流程示意图；

图4是本发明提供的场景渲染装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对上述问题，本发明实施例提供了一种场景渲染方法，图1是本发明提供的场景渲染方法的流程示意图，参照图1，该方法包括：

步骤101，确定渲染场景，并对渲染场景进行分区得到若干待渲染区域。

在进行场景渲染时，首先确定需要进行渲染的场景，进而根据相关的渲染方式对需要进行渲染的场景进行渲染处理。具体地，在进行渲染时，首先确定渲染场景，并且对所确定的渲染场景进行分区处理，得到若干个待渲染区域。

示例性地，对于一个需要进行渲染处理的场景，在进行内容信息的显示时，不同的区域根据显示各自对应的数据信息，如在显示的区域进行的显示，在显示文字的区域进行文字显示，在显示图片或者视频的区域进行图片或者视频的显示。由于不同区域所显示的内容信息不同，因此在确定了渲染区域之后，对渲染区域进行功能分区，以得到若干个待渲染区域，而每一个待渲染区域会用于显示不同的数据内容。

如在基于虚拟人的新闻播报场景中，所显示的界面的功能分区包括但不限于有虚拟主播功能区、新闻字幕功能区和媒体内容功能区，同时媒体内容功能区基于所显示的数据的类型的不同，还可以进行具体细分。

对于不同的功能区，在进行新闻播报时所显示的信息不同，但是会存在一定的关联，如虚拟主播所播报的语音信息会与其他区域所显示的信息相关联。因此在进行渲染时，需要保证同一时刻在各个待渲染区域上所显示的内容信息是具有关联关系的。

步骤102，接收输入的控制指令数据，确定待渲染区域对应的流媒体数据，其中流媒体数据包括音频数据、视频数据、文本数据以及图片数据中的至少一种。

在完成对渲染场景的分区处理得到若干待渲染区域之后，将确定每个待渲染区域在渲染完成时所展示的数据信息。具体地，接收输入的控制指令数据，确定待渲染区域所对应的流媒体数据，而对于与待渲染区域相对应的流媒体数据，可以是音频数据，还可以是视频数据、文本数据或者图片数据，至少是其中的一种。

示例性地，在对场景进行渲染时，首先确定待渲染区域所对应的流媒体数据，进而最终将流媒体数据显示在待渲染区域中。对于渲染场景所关联的流媒体数据，可以是预先进行上传存储的，也可以是在进行渲染时实时进行上传的。

在与渲染场景相对应的流媒体数据是预先进行上传和存储时，在确定待渲染区域对应的流媒体数据时，接收输入的控制指令数据，其中该控制指令数据中包含有待渲染区域与流媒体数据之间的对应关系。在根据所接收到的控制指令数据确定待渲染区域对应的流媒体数据时，包括：对待渲染区域中的各区域进行标识，得到待渲染区域中各区域对应的区域标识，并接收输入的控制指令数据；根据控制指令数据、渲染场景和区域标识，确定与待渲染区域对应的流媒体数据。

具体地，在确定待渲染区域所对应的流媒体数据时，对待渲染区域进行标识处理，得到待渲染区域对应的区域标识，然后接收相应的控制指令数据，进而根据控制指令数据、渲染场景和区域标识，确定与待渲染区域相对应的流媒体数据。

示例性地，在与渲染场景相对应的流媒体数据是预先进行上传和5存储时，为了确定待渲染区域所对应的流媒体数据，通过建立待渲染

区域与流媒体数据的关系，进而通过数据的获取，得到与待渲染区域相对应的流媒体数据。

在实际处理过程中，在完成对渲染场景的分区处理，得到了若干

个待渲染区域时，为了便于建立待渲染区域与流媒体数据之间的关系，0可以针对待渲染区域进行标识处理，使得每一个待渲染区域有唯一的一个区域标识，然后在确定待渲染区域对应的流媒体数据时，建立区域标识与流媒体数据之间的对应关系，通过识别控制指令数据中所记录的区域与流媒体数据之间的关系，可以得到待渲染区域所对应的流媒体数据。

5也就是，对于所输入的控制指令数据，其至少包含有区域标识、流媒体数据的数据标识以及区域标识和数据标识之间的对应关系，通过接收控制指令数据，便可以确定待渲染区域对应的流媒体数据。

另外，在流媒体数据在渲染过程中实时所上传的，也就是流媒体

数据没有预先进行相应的标识处理，在接收到输入的控制指令数据时，0还会接收到上传的流媒体数据，然后根据控制指令数据，建立待渲染

区域与此时所接收到的流媒体数据之间的对应关系。

此时在接收到流媒体数据时，针对每一个数据进行标识处理，确定每一个数据的数据标识，然后通过接收包含有区域与数据对应关系的控制指令数据，确定待渲染区域所对应的流媒体数据。

5需要说明的是，对于流媒体数据，无论是预先进行上传存储的，

还是在渲染过程中实时进行上传的，都需要对其进行标识处理，而在进行标识处理时，可以通过两类方式进行标识。第一种为面向全局媒体数据进行统一生成的全局唯一标识，第二种为面向用户及用户命名空间下的媒体数据，由用户自主控制定义的局部唯一标识。

示例性地，在按照第一种方式进行标识时，所得到的标识可以表示为res-Gid，可以通过uuid或ip、mac、timestamp等关联私有规则进行全局唯一标识的生成，数据作用域全局可用，无明确语义；在按照第二种方式进行标识时，所得到的标识可以表示为res-Uid，可以通过用户对数据自主定义及映射控制进行局部唯一标识生成，数据作用域限于该用户可用，可具备明确语义。

步骤103，接收输入的文本驱动数据，根据控制指令数据将流媒体数据与文本驱动数据进行对齐规整。

在确定了待渲染区域所对应的流媒体数据之后，由于流媒体数据是针对不同区域的，通过不同的数据通道将其展示在对应的待渲染区域内，使得在进行数据的播放时，需要保证数据之间具有同步性，也就是对于不同待渲染区域对应的流媒体数据，在进行展示时，由于数据之间的关联性，使得在进行展示时存在一定的同步性，因此需要对待渲染区域所对应的流媒体数据在播放层面上进行对齐规整。

具体地，在进行画面播放时，可以通过相关的语音信息进行画面的引导播放，以对画面的播放起到引导和驱动的作用，因此，在对流媒体数据进行对齐规整时，首先接收输入的文本驱动数据，以根据预先所接收到的控制指令数据，将待渲染区域对应的流媒体数据进行对齐规整。

需要说明的是，对于进行驱动的数据，除了可以是文本驱动数据，还可以是语音驱动数据，而在接收到语音驱动数据时，可以通过语音转换技术将语音驱动数据转换为对应的文本驱动数据。

示例性地，以新闻播报为例，在虚拟人进行新闻播报时，在画面的各功能区上会显示相关的内容信息，例如在虚拟主播功能区的虚拟人进行语音播报时，在新闻字幕功能区和媒体内容功能区上会进行相应的内容显示，如在新闻字幕功能区中显示相应的文本内容，再如在媒体内容功能区中显示相应的视频内容。若此时还存在有图片内容功能区时，还可以在图片内容功能区中显示相关的图片。

由于新闻播报时，在不同功能区所显示的内容具有一定的关联关系，因此在虚拟主播语音播报新闻时，会在各功能区中显示与该新闻相关的内容，若此时所显示的内容与该新闻不相关，或者各功能区中所显示的内容未同步，则存在新闻播报不准确的情况，因此在播报时需要保证内容的同步性。

而在建立待渲染区域对应的流媒体数据的同步性时，接收输入的文本驱动数据，其中文本驱动数据用于作为同步参考，然后将文本驱动数据作为对齐参考，将流媒体数据与文本驱动数据进行对齐规整。

在实际应用中，文本数据、视频数据和音频数据的形式有所差异，如文本数据通常以字符的形式表示，视频数据通常以视频帧数的形式表示，语音数据通常以语音帧的时刻的形式表示，因此在进行对齐规整时，首先需要统一对齐规则，通过使用统一的单位进行对齐规整。

在进行对齐规整时，不同类型的数据进行对齐规整的方式有所差异，因此需要选择合适且便捷的方式将流媒体数据与文本驱动数据进行对齐规整。

以文本与音频和音频与视频进行对齐规整为例。

在进行文本与音频的对齐规整时，文本驱动虚拟人和音频驱动虚拟人，分别对应文本输入合成音频和音频输入识别文本两类场景，两类场景除文本输入外，均存在音频数据通道，两个场景分别对应合成音素偏移和识别VAD偏移对齐方法。

以识别VAD(Voice Activity Detection，语音活动检测，又称语音端点检测和语音边界检测)偏移对齐方法为例，VAD可通过确认音频数据帧至文本字符的偏移位置，实现文本与音频之间的规整。常用有基于短时能量、基于频带方差、基于线性预测等多类方法，以短时能量检测为例，对于信号{x(n)}，窗口函数w(n),其短时能量值为

其中，h(n)＝w(n)

在进行音频与视频的对齐规整时，假设音频采样率为x，位深为y，通道数为z，则音频每秒音频数据为xyz/8。视频本质由图像流组成，假设视频数据帧率为m，则第k帧的时间偏移为k/m。以此进行对齐，可得k/m时刻的音频数据偏移即为kxyz/8m。由此即可实现单位时刻任意音视频数据的偏移对齐。

当然，在进行对齐规整时，所使用的方式不做限制，除了可以使用上述方式进行对齐规整，还可以使用其他可行性的方式进行处理。

在进行对齐规整时，可以参照图2，图2是本发明提供的进行对齐规整的步骤的流程示意图，其中该步骤包括步骤201至步骤202。

步骤201，获取控制指令数据中包含的第一数据标识、第一区域标识和起始偏移；

步骤202，根据起始偏移，将第一数据标识对应的第一流媒体数据与文本驱动数据进行对齐规整。

控制指令数据中除了可以用来确定待渲染区域对应的流媒体数据，还可以用来进行对齐规整，对于控制指令数据，其包含有区域标识、数据标识和起始偏移，其中区域表示和数据标识的对应关系，可以确定待渲染区域对应的流媒体数据，而起始偏移则是用来确定数据的偏移量，进而根据起始偏移实现对数据的对齐规整。

具体地，在进行对齐规整时，获取控制指令数据中包含的第一数据标识、第一区域标识和起始偏移，进而根据起始偏移，将第一数据表示对应的第一流媒体数据以文本驱动数据进行对齐规整。

示例性地，由于在进行对齐规整时，数据类型的差异会使得对齐的方式有所差异，如上描述的将文本与音频进行对齐规整的处理方式与将音频与视频进行对齐规整的处理方式会有所不同，因此在进行对齐规整时，需要根据进行对齐的流媒体数据的数据类型确定当前所对应的对齐规则，进而完成流媒体数据与文本驱动数据的对齐规整。

其中，在根据控制指令数据进行对齐规整时，参照图3，图3是本发明提供的进行对齐规整的步骤的另一流程示意图，其中该步骤包括步骤301至步骤303.

步骤301，确定第一数据标识对应的第一流媒体数据，以及确定第一流媒体数据的数据类型；

步骤302，确定数据类型对应的对齐规则；

步骤303，根据对齐规则和起始偏移，将第一流媒体数据与文本驱动数据进行对齐规整。

在进行对齐规整时，确定第一数据表示对应的第一流媒体数据，同时确定第一流媒体数据的数据类型，然后根据所得到的数据类型确定当前进行对齐规整的对齐规则，进而根据确定的对齐规则和起始偏移，将第一数据流媒体与文本确定数据进行对齐规整。

实际上，流媒体数据类型包括有文本类型、视频类型、音频类型和图片类型，由于图片类型的流媒体数据的特殊性，一个图片的展示是固定的，即在起始时间开始进行图片的显示，而在结束时间图片将会在显示界面上消失，可能在某一时间段内是固定不变的，因此在对图片类型的流媒体数据与文本驱动数据进行对齐时，根据起始偏移确定该流媒体数据的起始时刻，同时也会对结束时刻进行对齐。相较于图片类型的流媒体数据，音频数据、视频数据和文本数据会随着时间的推移实时发生变化。

在完成对流媒体数据与文本驱动数据的对齐之后，考虑到语音播报的实际情况，由于可能出现画中画的情况，也就会在播放界面上的一个功能区中播放另一个视频，使得会出现两个语音同时出现的情况，即播放的主语音与背景音或者画中画的声音重合，因此此时可以通过自适应的优化调整，进行相应的降噪处理，如将画中画中的声音或者背景音进行降噪处理。

具体地，包括：根据文本驱动数据得到虚拟人合成音，并将虚拟人合成音作为音频参照，对流媒体数据中的音频数据和视频数据进行降噪处理；确定待渲染区域中进行文本展示的第二区域，并根据第二区域的区域特征对与第二区域对应的流媒体数据进行文本切分，得到在第二区域内进行展示的文本作为第二区域对应的流媒体数据。

由于在界面上显示的数据是多样的，包括但不限于有视频数据、音频数据、文本数据和图片数据，因此为了突出主音频，需要对所播放的其他音频数据进行降噪处理，同时在进行数据显示时，保证内容的准确显示，也会对其他的数据进行合理的处理。

在对音频等进行降噪处理时，所针对的对象为包含有音频的数据，如视频数据、背景音和音频数据等，此时在进行降噪处理时，确定文本驱动数据所对应的合成音为主参考，对于其他的包含有音频的数据作为非主参照，此时将对非主参照的数据中的音频进行降噪处理，如对背景音、画中画视频音等数据的音高、频率等各属性进行自适应调整，以达到降噪的效果。

而具体所使用的降噪的方式，可以通过几类预处理方案实现频谱等音频属性的特征信号处理，如STFT(短时傅里叶变换)等方法，还可以通过在基于VAD方法进行能量值检测时，结合频谱等特征数值进行升频或降频等操作，也可以通过DCNN(深度卷积神经网络)等深度学习方法进行网络模型构建，该模型通过两个特征向量中给定其中非主参照特征的频谱变化，使得实时虚拟人场景下的画中画等音频内容完成频谱特征等内容的自适应调整。

另外，在对文本类型的数据进行降噪处理时，通过降噪处理，使得所显示的数据可以完整的将流媒体数据所表示的信息进行展示。具体在对文本数据进行降噪处理时，确定待渲染区域对应的第二区域，然后根据第二区域的区域特征，如区域大小，对待渲染区域对应的流媒体数据进行切分处理，以得到可以在第二区域中进行展示的流媒体数据。

在对文本数据进行切分时，通过对文本的分词处理，在确保语义完整的情况下，对文本进行缩短。如，完整句为：今天天气很好，绚丽多彩的晚霞让我想起了许多年前的那个傍晚。在进行切分之后，得到的初切句为：今天天气很好，绚丽多彩的晚霞让。细切句为：今天天气很好，绚丽多彩的晚霞。

对于切分后进行显示的文本，可以根据上述描述的对齐规整方式将其与文本驱动数据进行对齐，进而可以实现细切句与音视频内容的同步切屏。

步骤104，将对齐规整后的文本驱动数据和流媒体数据进行通道数据合并，得到场景渲染视频。

在完成对流媒体数据与文本确定数据的对齐规整之后，在进行渲染拟合得到场景渲染视频时，通过进行多通道的合并实现。具体地，将对齐规整后的文本确定数据与流媒体数据进行通道数据的合并，得到场景渲染视频。

示例性地，在对渲染场景进行分区时，所得到的待渲染区域的数量与进行通道合并的数据通道的数量相同，不同的数据通道对应不同的待渲染区域，在完成对各通道的数据的对齐规整之后，在进行渲染拟合时，通过将多通道的数据进行拟合编码，可以实现同步渲染，然后基于统一的流媒体通道进行解码输出，得到渲染之后对应的场景渲染视频。

在本发明提供的方法中，在进行场景渲染时，对渲染场景进行分区处理，得到渲染场景对应的若干待渲染区域，然后根据接收到的控制指令数据，确定待渲染区域所对应的流媒体数据，进而根据控制指令数据，结合输入的文本驱动数据将流媒体数据进行对齐规整，进而通过多通道的数据合并，得到渲染场景对应的视频信息。实现了在进行场景渲染时，实时对各通道的流媒体数据进行对齐规整，使得渲染后的场景可以实现数据信息的同步展示，实现了不同展示元素的内容一致性。

基于上述任一实施例，图4是本发明提供的场景渲染装置的结构示意图，如图4所示，该场景渲染装置400包括：

分区处理模块401，用于确定渲染场景，并对渲染场景进行分区得到若干待渲染区域；

数据确定模块402，用于接收输入的控制指令数据，确定待渲染区域对应的流媒体数据，其中流媒体数据包括音频数据、视频数据、文本数据以及图片数据中的至少一种；

对齐规整模块403，用于接收输入的文本驱动数据，根据控制指令数据将流媒体数据与文本驱动数据进行对齐规整；

数据合并模块404，用于将对齐规整后的文本驱动数据和流媒体数据进行通道数据合并，得到场景渲染视频。

本发明实施例提供的装置，在进行场景渲染时，对渲染场景进行分区处理，得到渲染场景对应的若干待渲染区域，然后根据接收到的控制指令数据，确定待渲染区域所对应的流媒体数据，进而根据控制指令数据，结合输入的文本驱动数据将流媒体数据进行对齐规整，进而通过多通道的数据合并，得到渲染场景对应的视频信息。实现了在进行场景渲染时，实时对各通道的流媒体数据进行对齐规整，使得渲染后的场景可以实现数据信息的同步展示，实现了不同展示元素的内容一致性。

基于上述任一实施例，数据确定模块402还用于：

对待渲染区域进行标识，得到待渲染区域对应的区域标识，并接收输入的控制指令数据；

根据控制指令数据、渲染场景和区域标识，确定与待渲染区域对应的流媒体数据。

基于上述任一实施例，数据确定模块402还用于：

获取与渲染场景关联的流媒体数据，并识别流媒体数据对应的数据标识；

根据控制指令数据包含的关联关系和区域标识，确定待渲染区域对应的流媒体数据。

基于上述任一实施例，对齐规整模块403还用于：

获取控制指令数据中包含的第一数据标识、第一区域标识和起始偏移；

根据起始偏移，将第一数据标识对应的第一流媒体数据与文本驱动数据进行对齐规整。

基于上述任一实施例，对齐规整模块403还用于：

确定第一数据标识对应的第一流媒体数据，以及确定第一流媒体数据的数据类型；

确定数据类型对应的对齐规则；

根据对齐规则和起始偏移，将第一流媒体数据与文本驱动数据进行对齐规整。

基于上述任一实施例，场景渲染装置400还包括自适应优化模块，用于：

根据文本驱动数据得到合成音，并将合成音作为音频参照，对流媒体数据中的音频数据和视频数据进行降噪处理；

确定待渲染区域中进行文本展示的第二区域，并根据第二区域的区域特征对与第二区域对应的流媒体数据进行文本切分，得到在第二区域内进行展示的文本作为第二区域对应的流媒体数据。

基于上述任一实施例，数据合并模块404还用于：

确定待渲染区域中各区域的数据属性，并根据数据属性对进行对齐规整后的流媒体数据进行调节；

将调节后的流媒体数据与文本驱动数据进行通道数据合并，得到场景渲染视频。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(CommunicationsInterface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行场景渲染方法，该方法包括：确定渲染场景，并对渲染场景进行分区得到若干待渲染区域；接收输入的控制指令数据，确定待渲染区域对应的流媒体数据，其中流媒体数据包括音频数据、视频数据、文本数据以及图片数据中的至少一种；接收输入的文本驱动数据，根据控制指令数据将流媒体数据与文本驱动数据进行对齐规整；将对齐规整后的文本驱动数据和流媒体数据进行通道数据合并，得到场景渲染视频。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法所提供的场景渲染方法，该方法包括：确定渲染场景，并对渲染场景进行分区得到若干待渲染区域；接收输入的控制指令数据，确定待渲染区域对应的流媒体数据，其中流媒体数据包括音频数据、视频数据、文本数据以及图片数据中的至少一种；接收输入的文本驱动数据，根据控制指令数据将流媒体数据与文本驱动数据进行对齐规整；将对齐规整后的文本驱动数据和流媒体数据进行通道数据合并，得到场景渲染视频。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的场景渲染方法，该方法包括：确定渲染场景，并对渲染场景进行分区得到若干待渲染区域；接收输入的控制指令数据，确定待渲染区域对应的流媒体数据，其中流媒体数据包括音频数据、视频数据、文本数据以及图片数据中的至少一种；接收输入的文本驱动数据，根据控制指令数据将流媒体数据与文本驱动数据进行对齐规整；将对齐规整后的文本驱动数据和流媒体数据进行通道数据合并，得到场景渲染视频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李珍松;刘坤;龙明康;
专利申请人：科大讯飞股份有限公司;

上一篇：一种有机电致发光化合物及其制备方法和应用
下一篇：一种利用微反应器提纯2-氟-3-氯-5-三氟甲基吡啶的方法