导航：首页> 输送；包装；贮存；搬运薄的或细丝状材料>一种基于音频的动作生成方法、装置、设备和介质

一种基于音频的动作生成方法、装置、设备和介质

文献发布时间：2023-06-19 19:04:00

技术领域

本公开涉及人工智能技术领域，尤其涉及虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域，具体涉及一种基于语音的动作生成方法、装置、设备和介质。

背景技术

基于人工智能(AI)的编舞技术，因其具有极大的应用潜力和商业价值，而受到越来越多的学者的关注。AI编舞技术，是通过输入一段音乐，通过人工智能模型直接输出一段与音乐相匹配的舞蹈动作，并可驱动虚拟形象的舞者演绎，形成舞蹈视频。

现有的AI编舞技术，可分别输入一段音乐音频，以及一段包括动作序列的种子动作，基于对种子动作和音乐的特征提取，再融合，能够迭代的输出与种子动作和音乐均关联的连续舞蹈动作。

但是，采用上述技术生成的舞蹈动作，不可控性较多，经常会出现音画差距大，动作奇异，不合常理的现象。

本公开提供了一种基于音频的动作生成方法、装置、设备和介质。

根据本公开的一方面，提供了一种基于音频的动作生成方法，包括：

确定当前种子动作；

从待处理的目标音频中截取音频片段，作为当前音频片段；

根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段；

对所述候选动作片段进行调整，以生成调整动作片段；

根据所述调整动作片段对当前种子动作进行更新，将更新后的当前种子动作作为所述当前种子动作，并从所述待处理的目标音频中获得截取的新音频片段，作为所述当前音频片段，并返回执行根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段的操作，直到满足处理结束条件，所述新音频片段对应的音频时间晚于所述音频片段的音频时间。

根据本公开的另一方面，提供了一种基于音频的动作生成装置，包括：

种子动作确定模块，用于确定当前种子动作；

音频片段确定模块，用于从待处理的目标音频中截取音频片段，作为当前音频片段；

候选动作生成模块，用于根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段；

调整动作生成模块，用于对所述候选动作片段进行调整，以生成调整动作片段；

第一种子更新模块，用于根据所述调整动作片段对当前种子动作进行更新，将更新后的当前种子动作作为所述当前种子动作，并从所述待处理的目标音频中获得截取的新音频片段，作为所述当前音频片段，并返回执行根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段的操作，直到满足处理结束条件，所述新音频片段对应的音频时间晚于所述音频片段的音频时间。

根据本公开的另一方面，提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例提供的基于音频的动作生成方法。

根据本公开的另一方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任意实施例提供的基于音频的动作生成方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任意实施例所提供的基于音频的动作生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例提供的一种基于音频的动作生成方法的流程图；

图2A是根据本公开又一实施例提供的一种基于音频的动作生成方法的流程图；

图2B是根据本公开又一实施例提供的一种编舞系统框图；

图3是根据本公开又一实施例提供的一种基于音频的动作生成装置的结构示意图；

图4是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例可适用于基于动作生成模型，根据待处理的目标音频和种子动作，迭代输出各动作片段，以形成与目标音频匹配的动作的技术方案。

在相关技术中，用户向电子设备输入目标音频并选择目标音频的初始种子动作，设备会对目标音频按照时间顺序进行截取得到初始音频片段。将初始种子动作和初始音频片段作为第一迭代周期的当前种子动作和当前音频片段，通过动作生成模型分别提取两者的音频特征和动作特征，并根据音频特征和动作特征预测当前种子动作的下一时刻动作，输出候选动作片段。第一迭代周期完成，例如以目标音频(100s)的前4s音频片段作为当前音频片段，与选择的2s当前种子动作一并输入动作生成模型，预测得到第2-4s目标音频对应的候选动作片段。将第一迭代周期生成的候选动作片段作为第二迭代周期的当前种子动作，并对应更新当前音频片段的音频内容得到第二迭代周期的当前音频动作，将第二迭代周期的当前种子动作和当前音频片段输入动作生成模型，输出第二迭代周期的候选动作片段，例如将第2-4s的候选动作片段作为新的当前种子动作，将当前音频片段对应更新为第2-6s的音频片段，将2-4s的当前种子动作和2-6s的当前音频片段输入动作生成模型，预测得到第4-6s的候选动作片段。重复上述迭代过程，直至完成整个目标音频对应候选动作片段的生成，例如直至最后一个迭代周期中通过第96-100s的当前音频片段和第96-98s的当前种子动作，预测得到第98-100s的候选动作片段，完成0-100s连续舞蹈动作的生成。将时长均为100s目标音频和连续舞蹈动作输入渲染模型，得到目标音频的舞蹈视频。

在舞蹈动作连续迭代生成的过程中，如果初始种子动作不合适，就会导致整体的崩盘，体现在舞蹈上就是音画差距大，动作奇异，不合常理；即便初始种子动作选取合适，模型也会有编舞上限，体现在舞蹈上就是在某些较难的编舞情况下，会出现原地不动，甚至跌倒。且随着时间的推移，初始种子影响越来越小，模型输出误差不断累积，模型不可控度就会越来越大。

本公开实施例的技术方案，为提高编舞动作的稳定性，在迭代生成编舞动作之前，预先部署动作库来对迭代过程中生成的候选动作片段进行调整修正，具体实施方案介绍如下。

图1为本公开一实施例提供的一种基于音频的动作生成方法的流程图，本实施例可适用于基于动作生成模型，根据输入音频预测输出编舞动作的情况，输出的动作可用于渲染相应音乐视频。该动作生成模型为机器学习模型，尤其适用于跨模态Transformer模型，跨模态Transformer模型可分别提取音乐和种子动作的特征，再融合进行预测输出。该方法可以由基于音频的动作生成装置来执行，该装置可以采用硬件和/或软件的形式实现，该装置可配置于具备相应数据处理能力的电子设备中。如图1所示，该方法包括：

S110、确定当前种子动作；

S120、从待处理的目标音频中截取音频片段，作为当前音频片段；

S130、根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段；

S140、对所述候选动作片段进行调整，以生成调整动作片段；

S150、根据所述调整动作片段对当前种子动作进行更新，将更新后的当前种子动作作为所述当前种子动作，并从所述待处理的目标音频中获得截取的新音频片段，作为所述当前音频片段，并返回执行根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段的操作，直到满足处理结束条件，所述新音频片段对应的音频时间晚于所述音频片段的音频时间。

其中，对于生成的候选动作片段，其数据形式可是动作参数，即人体关节参数。动作参数可用于被网格化后形成动作模型，或用于驱动虚拟形象最终形成虚拟动作图像等。处理结束条件可以是目标音频被完全处理，也可以是目标音频的处理进度达到设定进度。音频片段可以在迭代的过程中，边迭代边从目标音频实时截取；也可以在迭代开始前就从目标音频中预先截取出迭代过程中所需的全部音频片段。

具体的，初始时，用户输入一段音频，作为需生成对应连续舞蹈动作的待处理的目标音频。在每次迭代周期内，都会按照音频的时间顺序，按照设定音频片段的时长，从目标音频中顺序获取一段被截取的新音频片段，作为当前音频片段。初始的种子动作可以由用户设定，也可以用其他方式进行设定。在每次迭代周期内，均会再次确定一个种子动作，更新作为当前种子动作。

将当前种子动作和当前音频片段，输入动作生成模型得到与种子动作时长相同的候选动作片段，将当前输出的候选动作片段衔接在已输出的候选动作片段之后，逐步迭代，形成当前音频片段的连续舞蹈动作。

与相关技术所不同，本公开实施例在输出候选动作片段之后，需先判断当前输出的候选动作片段或当前已输出的多个候选动作片段是否满足设定条件。如果满足设定条件，说明该候选动作片段、或包括该候选动作片段在内的多个已输出候选动作片段有调整精修的需要，此时可以将候选动作片段与动作库中的动作进行匹配，并利用匹配到的标准动作对这一个或多个候选动作片段进行调整精修，生成调整动作片段。根据调整精修过后的调整动作片段产生新的当前种子动作，再进行后续迭代。在后续迭代时如果候选动作片段再次满足设定条件，则会重复上述精修调整过程，直至完成目标音频的完全处理。

在迭代更新为当前种子动作前，通过动作库中的标准动作先对候选动作片段进行精修调整，再根据精修调整后的调整动作片段来生成新的当前种子动作，来输入模型做后续时刻舞蹈动作的预测，可以大大降低模型对初始种子动作的依赖程度，从而降低不可控度，提高编舞的稳定性。

可选的，根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段包括:

将所述当前音频片段和所述当前种子动作，输入动作生成模型,以输出与所述当前音频片段对应的候选动作片段。

其中，动作生成模型可包括音频特征提取模块，动作特征提取模块和特征融合模块，用来分别提取当前音频片段的音频特征和当前种子动作的动作特征，并根据音频特征和动作特征来预测下一时刻动作，生成并输出候选动作片段，可通过注意力机制(Full-Attention)的跨模态Transformer方案，简称FACT方式来构建实现。当前音频片段的时长相对当前种子动作较长，例如可设置为当前种子动作时长的两倍。

具体的，将当前音频片段和当前种子动作输完成训练的动作生成模型，动作生成模型提取音频特征和动作特征，完成对下一时刻舞蹈动作的预测，输出候选动作片段。通过动作生成模型来生成候选动作片段，提高候选动作片段的生成效率。

可选的，对所述候选动作片段进行调整，以生成调整动作片段包括：

在确定已输出的一个或多个候选动作片段满足设定条件的情况下，对所述候选动作片段进行调整，以生成调整动作片段。

具体的，对候选动作片段进行精修调整应具备相应的设定条件，每次动作生成模型输出后，都需要判断已输出的一个或多个候选动作片段是否满足设定条件。满足设定条件时，将候选动作片段精修调整为调整动作片段；不满足设定条件时，无需对候选动作片段进行精修调整。通过设定对候选动作片段的精修调整处理条件，避免频繁精修影响目标音频的处理效率。

可选的，对所述候选动作片段进行调整，以生成调整动作片段包括：

对所述候选动作片段，基于动作库中的动作进行调整，以生成调整动作片段。

具体的，动作库可预先设置，将不同风格的动作存入动作库，这些动作是经过人工筛选或预设规则筛选过的符合标准的动作，可称为标准动作。优选是，可对应动作一并存储对应的音频，形成音频动作对。这些标准动作通常是现实生活中的真实舞蹈动作，可以通过这些真实舞蹈动作对动作生成模型输出的虚拟的候选动作片段进行精修调整，得到更为真实的调整动作片段。

可选的，根据所述当前音频片段和当前种子动作，获取与所述当前音频片段对应的候选动作片段之后，还包括：

在确定已输出的一个或多个候选动作片段不满足设定条件的情况下，根据所述候选动作片段对当前种子动作进行更新，将更新后的当前种子动作作为所述当前种子动作，并从所述待处理的目标音频中获得截取的新音频片段，作为所述当前音频片段，并返回执行根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段的操作。

具体的，如果不满足设定条件，说明该候选动作片段、或包括该候选动作片段在内的多个已输出候选动作片段没有调整精修的需要。此时无需对候选动作片段进行精修调整，直接将候选动作片段作为新的当前种子动作，并对应更新当前音频片段，返回执行步骤S120-S150，开始下一周期的迭代。通过设定条件来确定是否需要对候选动作片段进行调整，避免过度精修调整影响动作片段生成效率。

精修调整的操作，可以高频率的对每个候选动作片段均执行，也可以在较长周期内，对连续的多个候选动作片段进行精修处理。

可选的，确定已输出的一个或多个候选动作片段满足设定条件包括：

确定已输出的候选动作片段的数量达到设定数量阈值；或确定已输出的候选动作片段的累计时长达到设定时长阈值；或确定已输出的候选动作片段中出现设定异常动作。

具体的，对于触发对候选动作片段进行精修调整的设定条件，可以是已经输出设定数量阈值的候选动作片段，例如已输出10个候选动作片段后，暂停对当前种子动作的更新，先对10个候选动作片段进行精修调整，在精修调整后再通过调整动作片段对当前种子动作进行更新；也可以是已经输出累计时长的候选动作片段，例如输出总长20s的候选动作片段后，暂停对当前种子动作的更新，先对这20s的候选动作片段进行精修调整，在精修调整后再通过调整动作片段对当前种子动作进行更新；还可以对输出的候选动作片段进行实时检查，如果确定其与正常动作相比明显属于异常动作，则可直接触发对候选动作片段的调整精修，无需等待生成设定数量或累计时长的候选动作片段再去调整精修。通过设定不同情况的触发条件来对候选动作片段进行精修调整，兼顾了对精修调整的准确性和及时性。通常，人类的一个完整、独立的舞蹈动作，可能是3-5秒的时间，较长的可能是十几秒的时间。例如，一个抬腿又放下的动作，就是一个独立的，可以与其他动作进行组合的标准动作。与此类似的还有如转体一周、挥动手臂等动作。在动作库中，可以预先存储有这些标准动作。可以是一个标准动作独立存储，也可以是几个标准动作的连续动作集合一起存储。由于动作生成模型所输出的候选动作片段的时长，可能比一个标准动作的时长要短，所以优选是选择几个候选动作片段，一起与标准动作进行匹配，以便能够保证匹配到完整的一个或多个标准动作。当然，若进行匹配的时长过长，也可能导致匹配的计算量较大，而影响处理速度。

可选的，根据所述调整动作片段对当前种子动作进行更新包括：

从最后一个生成的调整动作片段的尾部，截取第一设定时长的动作片段，更新为所述当前种子动作；相应的，根据所述候选动作片段对当前种子动作进行更新：从最后一个生成的候选动作片段的尾部，截取第二设定时长的动作片段，更新为所述当前种子动作。

其中，第一设定时长和第二设定时长可以相同，并与当前种子动作的动作时长保持一致，例如第一设定时长、第二设定时长和当前种子动作的动作时长均为2s；也可以不同，例如分别为3s和2s。

具体的，无论是否对候选动作片段进行精修调整，后一迭代周期的当前种子动作，可基于为前一迭代周期所生成的候选动作片段确定。在未对候选动作片段进行修正调整的情况下，可将之前已输出候选动作片段尾部的第二设定时长的动作片段，确定为后一迭代周期的当前种子动作；在对候选动作片段进行修正调整的情况下，由于该候选动作片段已被替换为调整动作片段，需从对调整动作片段的尾部进行截取，得到第一设定时长的动作片段，作为后一迭代周期的当前种子动作。在进行动作匹配和精修调整后，对于连续的几个候选动作片段，可能其中的几个动作会替换为标准动作，其中的间隙或未匹配上的动作可继续保留。

图2A为本公开又一实施例提供的一种基于音频的动作生成方法的流程图，本实施例在上述实施例的基础上进行了优化改进。如图2A所示，该方法包括：

S210、根据所述待处理的目标音频，在所述动作库中进行匹配，以获取满足条件的种子动作，作为初始种子动作。

其中，所述初始种子动作为第一次输入所述动作生成模型用于生成候选动作片段的当前种子动作。

具体的，将用户输入的目标音频，以设定时长按照时间先后顺序进行提取，得到初始音频片段，以初始音频片段为待匹配的对象，从动作库中确定与初始音频片段达到匹配度要求的动作库音频，并将该动作库音频对应的音频动作确定为初始种子动作。通过对目标音频进行提取匹配，避免了目标音频时长较长带来的匹配难问题，提高初始种子动作的确定效率。

可选的，根据所述待处理的目标音频，在所述动作库中进行匹配，以获取满足条件的种子动作包括：

从所述待处理的目标音频中，按照时间顺序截取初始的音频片段；

将所述初始的音频片段，分别与所述动作库中至少一个音频动作对中的音频进行匹配；

在所述动作库中存在与所述初始的音频片段匹配度达到设定阈值的音频片段的情况下，获取匹配的音频片段所对应的动作片段，作为满足条件的种子动作。

其中，所述动作库中包括多个音频动作对，每一音频动作对均包括可与音频片段进行匹配的动作库音频片段，以及该动作库音频的动作片段，两者一一对应且风格一致。

具体的，将初始音频片段与动作库音频片段逐一匹配，确定各动作库音频与初始音频片段的匹配度，匹配度高于设定阈值的动作库音频片段可用于确定初始种子动作。如果动作库存在多个匹配度高于设定阈值的动作库音频片段，则将匹配度最高的动作库音频片段所对应的动作片段，作为满足条件的初始种子动作。通过为匹配度达到设定阈值，高于该设定阈值的动作库音频片段才能用来确定初始种子动作，避免初始种子动作与目标音频不匹配而影响后续迭代。

S220、按照时间顺序，从待处理的目标音频中截取音频片段，作为当前音频片段；

S230、将所述当前音频片段和当前种子动作，输入动作生成模型，以输出与所述当前音频片段对应的候选动作片段。

S240、将所述候选动作片段中的动作与所述动作库中的标准动作进行匹配；将从所述动作库中匹配到的标准动作，替换所述候选动作片段中对应的被匹配的动作，以生成所述调整动作片段。

具体的，若未被调整过的候选动作片段的时长较长(如20s)，则可对其进行提取或截取来得到多个待匹配动作序列，将任一待匹配动作序列与动作库中动作逐个匹配，将匹配度满足修正要求的动作确定为该待匹配动作序列的标准动作，并将该候选动作片段替换为标准动作，重复上述匹配修正过程，直至完成全部待匹配动作序列的处理。若未被调整过的候选动作片段的时长较短(如2s)，则无需提取或截取，直接整个将候选动作片段作为唯一的待匹配动作序列，并进行上述匹配修正过程。通过从动作库中获取标准动作来对候选动作片段进行匹配修正，提高了精修调整的准确性和可靠性。

可选的，将从所述动作库中匹配到的标准动作，替换所述候选动作片段中对应的被匹配的动作之后，所述生成所述调整动作片段还包括：

根据所述标准动作，按照设定平滑策略对所述候选动作片段中未进行标准动作替换的动作进行平滑处理，以生成所述调整动作片段。

具体的，当存在多个待匹配动作序列时，可能存在部分待匹配动作序列未被替换处理，例如动作库不存在对应匹配的标准动作，或动作生成模型的预测效果较好无需替换。有可能是几个标准动作之间的间隙。此时基

于标准动作，可对未被替换的动作和被替换的动作之间做平滑处理，使动5作序列整体流畅，减少由于动作替换带来的卡顿感。

可选的，将所述候选动作片段中的动作与所述动作库中的标准动作进行匹配包括：

通过滑动窗口，从所述候选动作片段中提取动作序列，作为待匹配动

作序列；将所述待匹配动作序列与所述动作库中的标准动作进行动作序列0的匹配。

具体的，未被调整过的候选动作片段，可通过截取的方式得到多个待匹配动作序列，例如20s的候选动作片段，以2s为截取单位，可以得到0-2s、2s-4s、……、18s-20s共10个待匹配动作序列；也可通过设定时长的滑

动窗口对候选动作片段进行滑动提取得到多个待匹配动作序列，例如20s5的候选动作片段，以2s为窗口长度，可以得到0-2s，1s-3s、……、17s-19s、

18-20s共19个待匹配动作序列。相对截取获取待匹配动作序列，通过滑动窗口提取待匹配动作序列，可生成更多可进行修正调整的待匹配动作序列，实现对候选动作片段更细微和有效的调整。当然，也可以先用滑动窗口提

取首个待匹配动作序列，根据匹配结果，再确定后续如何截取新的待匹配0动作序列。

可选的，通过滑动窗口，从所述候选动作片段中提取动作序列包括：

通过滑动窗口，从所述候选动作片段中提取动作序列；将所述待匹配动作序列与所述动作库中的标准动作进行动作序列的匹配之后，还包括：

根据所述第一动作序列与所述动作库中的标准动作的匹配结果，调整5所述滑动窗口，并根据调整后的滑动窗口，从所述候选动作片段中提取第

二动作序列，作为所述待匹配动作序列，并返回执行将所述待匹配动作序列与所述动作库中的标准动作进行动作序列的匹配的操作，直到满足匹配结束条件。

具体的，候选动作片段的多个待匹配动作序列提取并非是一次性的，0各待匹配动作序列的时长也并非一定是相同的，而是边提取匹配，边根据匹配结果对窗口长度进行调整，并以调整过后的窗口长度对后续候选动作片段进行滑动提取，具体为：以原始的滑动窗口宽度从候选动作片段中提取第一动作序列进行匹配，如果匹配结果为第一动作序列可以匹配到较多的标准动作，则缩短滑动窗口宽度，以缩短后的滑动窗口宽度从所述候选动作片段中顺序提取第二动作序列进行匹配；如果匹配结果为第一动作序列只能匹配到较少的标准动作，则延长滑动窗口宽度，以延长后的滑动窗口宽度从所述候选动作片段中顺序提取第二动作序列进行匹配。根据第二动作序列的匹配结果，再次调整滑动窗口宽度。在候选动作片段的精修调整过程中，反复执行上述流程，直至整个候选动作片段完成精修调整。即如果当前待匹配动作序列的在动作库中匹配的标准动作较多，可适当延长滑动窗口，来提高后续匹配过程的效率；如果当前待匹配动作序列的在动作库中匹配的标准动作较少或完全没有，可适当缩短滑动窗口，来提高后续匹配过程的准确性。通过根据匹配结果对滑动窗口进行反馈调整，实现对匹配准确性和效率的有效兼顾。

示例性的，图2B是根据本公开又一实施例提供的一种编舞系统框图。

其中，第一步初始化，用户输入一段音频(长时长的目标音频)，基于自动化种子选取模块，在种子库中自动选取初始的种子动作作为当前动作，仅在最初生成种子动作时使用；第二步将当前动作和用户音频，输入编舞模块(动作生成模型)完成编舞序列(候选动作片段)的输出；第三步利用动作匹配模块，对生成的序列进行精修调整，替换奇异与不连贯的动作帧，得到精修调整后的序列(调整动作片段)；第四步利用精修后的序列作为当前动作，与下一帧的音频一起继续迭代第2、3步；第五步将与目标音频时长相同的完整精修序列输入渲染模块，完成整个的音视频输出。本公开不同于现有方案直接将模型当前时刻输出序列作为下一时刻的输入动作序列，而是将输出序列先基于动作匹配(motion matching)做动作精修调整，然后才输入模型做下一时刻动作序列的预测。

S250、根据所述调整动作片段对当前种子动作进行更新，将更新后的当前种子动作作为所述当前种子动作，并从所述待处理的目标音频中获得截取的新音频片段，作为所述当前音频片段，并返回执行根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段的操作，直到满足处理结束条件，所述新音频片段对应的音频时间晚于所述音频片段的音频时间。

本公开实施例通过从动作库中获取标准动作来对候选动作片段进行精修调整，提高了精修调整的准确性和可靠性。

图3为本公开又一实施例提供的一种基于音频的动作生成装置的结构示意图。如图3所示，该装置包括：

种子动作确定模块，用于确定当前种子动作；

音频片段确定模块，用于从待处理的目标音频中截取音频片段，作为当前音频片段；

候选动作生成模块，用于根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段；

调整动作生成模块，用于对所述候选动作片段进行调整，以生成调整动作片段；

本公开实施例所提供的基于音频的动作生成装置可执行本公开任意实施例所提供的基于音频的动作生成方法，具备执行方法相应的功能模块和有益效果。

可选的，所述候选动作生成模块具体用于：

将所述当前音频片段和所述当前种子动作，输入动作生成模型,以输出与所述当前音频片段对应的候选动作片段。

可选的，所述调整动作生成模块具体用于：

在确定已输出的一个或多个候选动作片段满足设定条件的情况下，对所述候选动作片段进行调整，以生成调整动作片段。

可选的，所述调整动作生成模块具体用于：

对所述候选动作片段，基于动作库中的动作进行调整，以生成调整动作片段。

可选的，所述装置还包括：

第二种子更新模块，用于在确定已输出的一个或多个候选动作片段不满足设定条件的情况下，根据所述候选动作片段对当前种子动作进行更新，将更新后的当前种子动作作为所述当前种子动作，并从所述待处理的目标音频中获得截取的新音频片段，作为所述当前音频片段，并返回执行根据所述当前音频片段和所述当前种子动作，获取与所述当前音频片段对应的候选动作片段的操作。

可选的，所述种子动作确定模块包括：

初始种子确定单元，用于根据所述待处理的目标音频，在所述动作库中进行匹配，以获取满足条件的种子动作，作为初始种子动作；其中，所述初始种子动作为第一次用于生成候选动作片段的当前种子动作。

可选的，所述初始种子确定单元包括：

初始音频获取子单元，用于从所述待处理的目标音频中，按照时间顺序截取初始的音频片段；

初始音频匹配子单元，用于将所述初始的音频片段，分别与所述动作库中至少一个音频动作对中的音频进行匹配；

初始种子确定子单元，用于在所述动作库中存在与所述初始的音频片段匹配度达到设定阈值的音频片段的情况下，获取匹配的音频片段所对应的动作片段，作为满足条件的种子动作。

可选的，所述第一种子更新模块包括：

第一种子更新单元，用于从最后一个生成的调整动作片段的尾部，截取第一设定时长的动作片段，更新为所述当前种子动作。

相应的，所述第二种子更新模块包括：

第二种子更新单元，用于从最后一个生成的候选动作片段的尾部，截取第二设定时长的动作片段，更新为所述当前种子动作。

可选的，所述调整动作生成模块包括下述至少一个：

第一条件满足单元，用于确定已输出的候选动作片段的数量达到设定数量阈值；

第二条件满足单元，用于确定已输出的候选动作片段的累计时长达到设定时长阈值；

第三条件满足单元，用于确定已输出的候选动作片段中出现设定异常动作。

可选的，所述调整动作生成模块包括：

候选动作匹配单元，用于将所述候选动作片段中的动作与所述动作库中的标准动作进行匹配；

调整动作生成单元，用于将从所述动作库中匹配到的标准动作，替换所述候选动作片段中对应的被匹配的动作，以生成所述调整动作片段。

可选的，所述调整动作生成模块，还包括：

调整动作平滑单元，用于将从所述动作库中匹配到的标准动作，替换所述候选动作片段中对应的被匹配的动作之后，根据所述标准动作，按照设定平滑策略对所述候选动作片段中未进行标准动作替换的动作进行平滑处理，以生成所述调整动作片段。

可选的，所述动作序列提取单元具体用于：

通过滑动窗口，从所述候选动作片段中提取第一动作序列；

所述候选动作匹配单元还包括：

滑动窗口调整子单元，用于在将所述待匹配动作序列与所述动作库中的标准动作进行动作序列的匹配之后，根据所述第一动作序列与所述动作库中的标准动作的匹配结果，调整所述滑动窗口，并根据调整后的滑动窗口，从所述候选动作片段中提取第二动作序列，作为所述待匹配动作序列，并返回执行将所述待匹配动作序列与所述动作库中的标准动作进行动作序列的匹配的操作，直到满足匹配结束条件。

进一步说明的基于音频的动作生成装置也可执行本公开任意实施例所提供的基于音频的动作生成方法，具备执行方法相应的功能模块和有益效果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如基于音频的动作生成方法。例如，在一些实施例中，基于音频的动作生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元404。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的基于音频的动作生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于音频的动作生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)

来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，5作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务

器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中

间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或0者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通

信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

5应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或

删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术0人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈毅;郭紫垣;赵亚飞;范锡睿;张世昌;王志强;杜宗财;
专利申请人：北京百度网讯科技有限公司;