掌桥专利:专业的专利平台
掌桥专利
首页

基于静态方案生成动态视频的方法、装置及计算机设备

文献发布时间:2023-06-19 16:06:26



技术领域

本申请涉及人工智能领域,特别涉及一种基于静态方案生成动态视频的方法、装置及计算机设备。

背景技术

业务员在销售过程中,会有较多的重复讲解,将这些静态内容转化成动态讲解视频形式,让客户进行观看,以使客户更容易理解业务员的讲解内容。然而,传统通过人工进行素材整理并排序之后,手动制作观看视频,这种方式既费时又费力。

发明内容

本申请的旨在至少一定程度解决现有技术的问题,提供一种基于静态方案生成动态视频的方法、装置及计算机设备,能够自动生成动态视频,节省了人力、物力和财力资源。

本申请实施例的技术方案如下:

第一方面,本申请提供了一种基于静态方案生成动态视频的方法,所述方法包括:

获取待处理的方案图片数据集,所述方案图片数据集包括多个方案图片;

对各个所述方案图片进行图片内容识别,得到与各个所述方案图片对应的内容特征;

获取预设的讲解音频集,所述讲解音频集包括多个讲解音频;

对每个讲解音频进行语音识别,得到与所述讲解音频对应的知识点;

根据所述讲解音频对应的知识点,确定所述多个讲解音频的讲解顺序;

基于所述方案图片对应的内容特征和所述讲解音频对应的知识点,确定每个所述讲解音频对应的方案图片;

按照所述讲解顺序,依次呈现各个所述讲解音频对应的方案图片,得到目标动态视频流。

根据本申请的一些实施例,所述基于所述方案图片对应的内容特征和所述讲解音频对应的知识点,确定每个所述讲解音频对应的方案图片,包括:

对于每个所述讲解音频,计算所述讲解音频对应的知识点与各个所述方案图片对应的内容特征的关联值;

在所述关联值符合预设的条件情况下,将符合条件的所述关联值进行倒序排序,获取位于第一位置所述关联值对应的所述内容特征;

从所述方案图片数据集中获取与所述内容特征对应的所述方案图片作为所述讲解音频对应的方案图片。

根据本申请的一些实施例,所述基于所述方案图片对应的内容特征和所述讲解音频对应的知识点,确定每个所述讲解音频对应的方案图片,还包括:

在所有所述关联值皆不符合预设的条件情况下,向所述方案图片数据集中补充与所述知识点对应的关联方案图片,并将所述关联方案图片作为所述讲解音频对应的方案图片;

其中,所述关联方案图片的获取过程如下:通过预设的搜索模型对所述知识点进行搜索,得到与所述知识点对应的所述关联方案图片。

根据本申请的一些实施例,所述按照所述讲解顺序,依次呈现各个所述讲解音频对应的方案图片,得到目标动态视频流,包括:

对每个所述讲解音频与所述讲解音频对应的所述方案图片建立关联索引,以使所述讲解音频与所述方案图片之间联系;

根据所述讲解顺序,设置各个所述讲解音频对应的所述方案图片的显示时长;

按照所述讲解顺序、所述关联索引和所述显示时长,依次呈现所述方案图片,得到所述目标动态视频流。

根据本申请的一些实施例,所述对每个讲解音频进行语音识别,得到与所述讲解音频对应的知识点,包括:

对每个讲解音频进行语音识别,生成每个所述讲解音频对应的文本信息;

识别所述文本信息中的名词词汇,并统计所述名词词汇的出现次数;

若所述出现次数大于预设的次数,则将所有所述出现次数对应的所述名词词汇作为所述知识点。

根据本申请的一些实施例,所述按照所述讲解顺序,依次呈现各个所述讲解音频对应的方案图片,得到目标动态视频流之后,所述方法还包括:

根据所述文本信息,生成与所述知识点对应的语句字幕,其中,所述语句字幕经过预设的显示长度进行划分,以使所述语句字幕和与所述知识点对应的所述方案图片相对应;

根据所述讲解顺序,在所述方案图片位于所述目标动态视频流中的位置作为起点,依次添加所述语句字幕。

根据本申请的一些实施例,所述对各个所述方案图片进行图片内容识别,得到与各个所述方案图片对应的内容特征,包括:利用光学字符识别对每一个所述方案图片进行图片内容识别,得到所述内容特征。

第二方面,本申请提供了基于静态方案生成动态视频的装置,包括:

图像获取模块,用于获取待处理的方案图片数据集,所述方案图片数据集包括多个方案图片;

图像处理模块,用于对各个所述方案图片进行图片内容识别,得到与各个所述方案图片对应的内容特征;

语音获取模块,用于获取预设的讲解音频集,所述讲解音频集包括多个讲解音频;

语音处理模块,用于对每个讲解音频进行语音识别,得到与所述讲解音频对应的知识点;

语音处理模块还用于根据所述讲解音频对应的知识点,确定所述多个讲解音频的讲解顺序;

第一处理模块,用于基于所述方案图片对应的内容特征和所述讲解音频对应的知识点,确定每个所述讲解音频对应的方案图片;

第二处理模块,用于按照所述讲解顺序,依次呈现各个所述讲解音频对应的方案图片,得到目标动态视频流。

第三方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如上第一方面描述的任一项所述方法的步骤。

第四方面,本申请还提供了一种计算机可读存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上第一方面描述的任一项所述方法的步骤。

本申请实施例所提供的技术方案具有如下的有益效果:

本申请实施例,通过获取待处理的方案图片数据集,方案图片数据集包括多个方案图片;然后对各个方案图片进行图片内容识别,得到与各个方案图片对应的内容特征;获取预设的讲解音频集,讲解音频集包括多个讲解音频;然后对每个讲解音频进行语音识别,得到与讲解音频对应的知识点;随后根据讲解音频对应的知识点,确定多个讲解音频的讲解顺序;基于方案图片对应的内容特征和讲解音频对应的知识点,确定每个讲解音频对应的方案图片;最后按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流。通过将讲解音频与方案图片相对应,按照讲解顺序,能够依次呈现各个讲解音频对应的方案图片,从而实现由静态的方案图片自动生成动态的视频流,节省了人力、物力和财力资源。

附图说明

图1是本申请的一个实施例提供的基于静态方案生成动态视频的方法的流程示意图;

图2是图1中步骤S160的子步骤流程示意图;

图3是图1中步骤S160的另一子步骤流程示意图;

图4是图2中步骤S170的子步骤流程示意图;

图5是图1中步骤S140的子步骤流程示意图;

图6是本申请的另一个实施例提供的基于静态方案生成动态视频的方法的流程示意图;

图7是图1中步骤S120的子步骤流程示意图;

图8是本申请的另一个实施例提供的基于静态方案生成动态视频的方法的流程示意图;

图9是本申请的一个实施例提供的基于静态方案生成动态视频的装置的结构示意图;

图10是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

本申请实施例提供了一种基于静态方案生成动态视频的方法、装置及计算机设备,基于静态方案生成动态视频的方法包括通过获取待处理的方案图片数据集,方案图片数据集包括多个方案图片;然后对各个方案图片进行图片内容识别,得到与各个方案图片对应的内容特征;获取预设的讲解音频集,讲解音频集包括多个讲解音频;然后对每个讲解音频进行语音识别,得到与讲解音频对应的知识点;根据讲解音频对应的知识点,确定多个讲解音频的讲解顺序;基于方案图片对应的内容特征和讲解音频对应的知识点,确定每个讲解音频对应的方案图片;按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流。通过将讲解音频与方案图片相对应,按照讲解顺序,能够依次呈现各个讲解音频对应的方案图片,从而实现由静态的方案图片自动生成动态的视频流,节省了人力、物力和财力资源。

需要说明的是,本申请基于静态方案生成动态视频的方法不仅可以用于业务员销售场景,还可以用于教育、医疗和培训等领域。示例性地,在业务员销售场景中,业务员在进行同类产品销售时也会有很多重复讲解,针对相应的物品图片,根据上述方法自动生成动态视频,不仅能够使购买者全面了解商品的各种属性,而且节省销售员的时间。

本申请实施例提供的基于静态方案生成动态视频的方法可以基于人工智能技术(ArtificialIntelligence,AI)对相关的数据进行获取和处理。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步,人工智能技术已经在多个领域广泛展开研究和应用,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本申请实施例可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

下面结合附图对本申请实施例提供的一种基于静态方案生成动态视频的方法、装置及计算机设备进行说明。

参见图1,图1示出了本申请实施例提供的一种基于静态方案生成动态视频的方法的流程示意图。上述方法包括但不限于有步骤S110、步骤S120、步骤S130、步骤S140、步骤S150、步骤S160和步骤S170。

步骤S110,获取待处理的方案图片数据集,方案图片数据集包括多个方案图片。

可以理解的是,方案图片数据集包括多个方案图片,多个方案图片可以为人工通过经验沉淀积累的方案图片,该多个方案图片可以为一种主题的图片,也可以为多种主题的图片。当该多个方案图片为多种主题的图片时,对该多个方案图片进行分类处理,将属于一种类别的方案图片归为一类。示例性地,该多个方案图片涵盖业务销售、教育、医疗和培训等多种主题,将各自属于对应主题的方案图片归为一类,方便后续自动生成动态视频。

需要说明的是,对该多个方案图片进行分类处理可以人工进行手动分类,也可以通过预训练的机器学习模型进行分类。其中,预训练的机器学习模型为支持向量机,也可以为全连接网络模型,还可以为卷积神经网络模型,这里不作赘述。本实施例中,采用预训练的机器学习模型进行自动分类,能够提高分类效率,节省时间。

步骤S120,对各个方案图片进行图片内容识别,得到与各个方案图片对应的内容特征。

可以理解的是,对多个方案图片进行图片内容识别,可以为光学字符识别(Optical Character Recognition,OCR),也可以为神经网络识别,得到与每一个方案图片对应的内容特征。通过进行图片内容识别得到对应的内容特征,方便后续计算求解。

参考图7,对各个方案图片进行图片内容识别,得到与各个方案图片对应的内容特征,包括但不限于有如下步骤:

步骤S121,利用光学字符识别对每一个方案图片进行图片内容识别,得到内容特征。

可以理解的是,OCR识别是指电子设备检查图片上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,通过识别软件可将图像中的文字转换成文本格式,得到内容特征,方便后续计算求解。示例性地,利用OCR识别方案图片,能够提取方案图片对应的对个特征点,采用a、b和c表示。

步骤S130,获取预设的讲解音频集,讲解音频集包括多个讲解音频。

可以理解的是,上述讲解音频可以为通过经验积累的讲解内容,也可以为通过网络下载相关内容的讲解音频,其中,通过网络下载的相关内容的讲解音频需要进行预处理,示例性地,通过人工对讲解音频进行截取,只保留与主题相关的讲解音频。

步骤S140,对每个讲解音频进行语音识别,得到与讲解音频对应的知识点。

可以理解的是,对获取的讲解音频进行语音识别,得到讲解音频相对应的知识点。其中,语音识别可以采用人工智能技术进行识别,示例性地,利用循环神经网络对讲解音频进行识别,能够对讲解音频进行文字提取,从而得到知识点信息,通过循环神经网络进行语音识别,识别的准确率较高,方便后续计算求解。示例性地,对于其中某一个讲解音频,得到讲解音频对应的知识点可能有多个,多个知识点可以表示为A、B和C。

需要说明的是,上述多个方案图片也可以为通过网络下载相关内容的方案图片。若为通过网络下载相关内容的方案图片,可以通过人工搜索相应的知识点的方式,下载相关方案图片,还可以根据讲解音频对应的知识点,通过预设的检索模型获取相关内容的方案图片。示例性地,若为根据知识点获取方案图片,预设的检索模型结合知识点和网络爬虫模型在网络中进行扫描检索,获取与知识点对应的图片信息,预设的检索模型可以采用网络爬虫模型,也可以为图文跨模态检索模型,当采用图文跨模态检索模型需预先建立图文数据库,最后通过比对图片和知识点文本的相似度矩阵来获得最终的方案图片,这种模型比对的结果比较准确。

参考图5,对每个讲解音频进行语音识别,得到与讲解音频对应的知识点,包括但不限于有以下步骤:

步骤S141,对每个讲解音频进行语音识别,生成每个讲解音频对应的文本信息。

可以理解的是,采用人工智能技术对获取的讲解音频进行语音识别,得到讲解音频相对应的文本信息。其中,文本信息为上述讲解音频的文字表达形式,通过文字表达形式,能够对该文本信息进行特征向量映射,方便后续计算相对应的知识点信息。

步骤S142,识别文本信息中的名词词汇,并统计名词词汇的出现次数。

可以理解的是,对上述文本信息进行解析,从而提取出主要信息,表示为,通过计算文本信息中的名词词汇,该名词词汇表示一种实体,能够较为准确地反映文本信息展现的内容,通过统计名词词汇的出现次数,得到文本信息主要表示的内容,并且通过对文本信息中的关键词汇进行提取,能够减少计算量。

示例性地,对于培训主题的讲解音频,根据上述步骤S141将讲解音频进行语音识别,得到对应的文本信息,然后提取文本信息中的名词词汇,得到名词词汇为“二叉树”、“根节点”、“叶子节点”、“空树”和“叶子节点数”等,统计上述名词词汇出现的次数,得到“二叉树”对应为8次、“根节点”对应为6次、“叶子节点”对应为5次、“空树”对应为1次和“叶子节点数”对应为2次。

步骤S143,若出现次数大于预设的次数,则将所有出现次数对应的名词词汇作为知识点。

可以理解的是,在一段讲解音频中,若名词词汇出现次数大于预设的次数,则将所有出现次数对应的名词词汇作为知识点;若名词词汇出现次数皆小于预设的次数,则选取最接近预设的次数对应的名词词汇作为知识点,其中,预设的次数可以为4次,也可以为5次,能够按照实际需求进行修改。通过上述方法得到知识点,能够减少后续计算量,节省匹配时间。

示例性地,将预设的次数设置为4次,根据上述培训主题的讲解音频统计的名词词汇以及名词词汇出现的次数,计算得到“二叉树”、“叶子节点”和“根节点”大于预设的次数,将“二叉树”、“叶子节点”和“根节点”作为知识点,能够得到该培训主题为关于二叉树的培训,以及得出二叉树的叶子节点数。

步骤S150,根据讲解音频对应的知识点,确定多个讲解音频的讲解顺序。

可以理解的是,根据步骤S143得到知识点,按照知识点确定该讲解音频对应的主题内容,在相同的主题下,按照各个知识点之间的联系,并结合文本信息的顺序和一般逻辑关系,从而确定多个讲解音频的讲解顺序,通过获得的讲解顺序,方便后续自动生成动态视频。示例性地,根据上述确定的知识点“二叉树”、“叶子节点”和“根节点”,能够得到该培训主题为关于二叉树的培训,以及计算二叉树的叶子节点数,可得,首先是一颗二叉树,随后为得出二叉树中叶子节点的个数。另一个讲解音频按照上述步骤S141至步骤S143得到该讲解音频对应的知识点为“平衡二叉树”、“叶子节点”和“叶子节点数”,该过程与上述步骤类似,这里不作赘述。根据一般逻辑关系,并且两个讲解音频都是对二叉树的描述,可得先讲解二叉树的基本结构,然后紧接着讲述二叉树中一种特征的树,即平衡二叉树的叶子节点数的计算,从而确定了讲解音频的讲解顺序。

步骤S160,基于方案图片对应的内容特征和讲解音频对应的知识点,确定每个讲解音频对应的方案图片。

参考图2,基于方案图片对应的内容特征和讲解音频对应的知识点,确定每个讲解音频对应的方案图片,包括但不限于有以下步骤:

步骤S161,对于每个讲解音频,计算讲解音频对应的知识点与各个方案图片对应的内容特征的关联值。

可以理解的是,建立方案图片与讲解音频之间的联系,通过构建知识点和内容特征之间的联系得到。对于任意的一个讲解音频,可以通过相似性算法计算讲解音频对应的知识点与各个方案图片对应的内容特征的关联值。通过上述步骤得到知识点,该知识点通过语音识别等一系列步骤获得,其表示形式为特征向量,内容特征的表示形式也为特征向量,两者的数据类型相同,通过相似性算法计算这两个向量是否相似,得到相似性值作为关联值;也可以通过距离算法计算这两个向量直接的距离,得到的距离值作为关联值。通过计算得到关联值,方便后续求解计算。

步骤S162,在关联值符合预设的条件情况下,将符合条件的关联值进行倒序排序,获取位于第一位置关联值对应的内容特征。

可以理解的是,根据步骤S161计算的关联值,在关联值符合预设的条件下,将符合条件的关联值进行倒序排序,根据排序后的关联值,得到第一位置关联值对应的内容特征;也可以将符合条件的关联值进行升序排序,根据排序后的关联值,得到最后位置关联值对应的内容特征。将内容特征与知识点相关联,方便实现方案图片与讲解音频之间的联系,从而实现自动生成动态视频。示例性地,预设的条件为关联值大于1的条件,根据需求能够修改预设的条件。

步骤S163,从方案图片数据集中获取与内容特征对应的方案图片作为讲解音频对应的方案图片。

可以理解的是,该方案图片数据集中包括多个方案图片,方案图片为人工通过经验沉淀积累的方案图片,讲解音频也为人工通过经验沉淀积累的讲解音频,上述可以理解为方案图片和讲解音频为预处理过的,方案图片数据集中存在与讲解音频对应的方案图片的概率较高,结合知识点与内容特征相对应,对应关系可以表示为A对应a、B对应b和C对应c,而知识点与讲解音频对应,内容特征与方案图片对应,因此从方案图片数据集中得到讲解音频对应的方案图片。经过上述步骤得到音频对应的方案图片有利于自动生成动态视频,从而节省资源。

参考图3,基于方案图片对应的内容特征和讲解音频对应的知识点,确定每个讲解音频对应的方案图片,还包括但不限于有以下步骤:

步骤S164,在所有关联值皆不符合预设的条件情况下,向方案图片数据集中补充与知识点对应的关联方案图片,并将关联方案图片作为讲解音频对应的方案图片。

步骤S165,其中,关联方案图片的获取过程如下:通过预设的搜索模型对知识点进行搜索,得到与知识点对应的关联方案图片。

可以理解的是,虽然方案图片数据集中存在与讲解音频对应的方案图片的概率较高,但是还有小概率出现所有关联值皆不符合预设的条件,当出现该情况时,通过预设的搜索模型对知识点进行搜索,得到与知识点对应的关联方案图片。其中,预设的检索模型结合知识点和网络爬虫模型在网络中进行扫描检索,获取与知识点对应的图片信息,预设的检索模型可以采用网络爬虫模型,也可以为图文跨模态检索模型,当采用图文跨模态检索模型需预先建立图文数据库,最后通过比对图片和知识点文本的相似度矩阵来获得最终的方案图片,这种模型比对的结果比较准确。将上述关联方案图片加入到方案图片数据集中,并将关联方案图片作为讲解音频对应的方案图片。经过上述步骤得到音频对应的方案图片有利于自动生成动态视频,从而节省资源。

步骤S170,按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流。

参考图4,按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流,包括但不限于有以下步骤:

步骤S171,对每个讲解音频与讲解音频对应的方案图片建立关联索引,以使讲解音频与方案图片之间联系。

可以理解的是,根据上述步骤得到讲解音频对应的方案图片,然后对每个讲解音频与讲解音频对应的方案图片建立关联索引,该索引能够使一个讲解音频快速找到与该讲解音频对应的方案图片,加快查询速度,使生成的动态视频较流畅。

步骤S172,根据讲解顺序,设置各个讲解音频对应的方案图片的显示时长。

可以理解的是,在视频播放过程中,不同的人对讲解时的语速接受程度不同,对讲解的内容不甚了解,在本实施例中,根据经验值设置对于多数人可接受的时长,方便听者理解。除此之外,设置显示时长还可以将音频的播放进度与方案图片显示相契合,实现了听讲解与看视频的同步,体验性较好。

步骤S173,按照讲解顺序、关联索引和显示时长,依次呈现方案图片,得到目标动态视频流。

可以理解的是,按照讲解顺序,得到各个讲解音频的顺序,通过关联索引快速查询与讲解音频对应的方案图片,并按照设置的时长依次呈现方案图片,得到目标动态视频流。按照讲解顺序,依次呈现方案图片能够自动生成动态视频,得到的目标动态视频流。

在一实施例中,按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流之后,参考图6,基于静态方案生成动态视频的方法还包括但不限于有以下步骤:

步骤S210,根据文本信息,生成与知识点对应的语句字幕,其中,语句字幕经过预设的显示长度进行划分,以使语句字幕和与知识点对应的方案图片相对应。

可以理解的是,根据文本信息,生成与知识点对应的语句字幕可能出现字幕较长的现象,在目标动态视频流中全部呈现会导致视频中的某一帧中文字遮盖了视频的内容,将语句字幕按照预设的显示长度进行划分,使视频中的一帧显示合适的字数,还能够使字幕与方案图片相对应,增加观看者对内容的理解。其中,预设的显示长度可以为一帧显示15个字,该15个字包括标点符合,也可以为显示10个字,该预设的显示长度能够按照需求进行修改。

步骤S220,根据讲解顺序,在方案图片位于目标动态视频流中的位置作为起点,依次添加语句字幕。

可以理解的是,根据步骤S173可得,根据讲解顺序,依次显示方案图片,其中,目标动态视频流中的一帧可以为一张方案图片,由于语句字幕通过知识点得到,并且方案图片与知识点相对应,可得方案图片与语句字幕是对应的,在方案图片位于目标动态视频流中的位置作为起点,依次添加语句字幕,该语句字幕构成对方案图片的解释,有利于观看者理解。

参考图8,图8示出了本申请另一个实施例提供的基于静态方案生成动态视频的方法的流程示意图,通过OCR识别对各个方案图片进行图片内容识别,得到与各个方案图片对应的内容特征;通过语音识别对每个讲解音频进行语音识别,得到与讲解音频对应的知识点;将知识点与内容特征相互关联,得到关联值;在关联值满足条件的情况下,得到符合条件的关联值,按照讲解顺序,依次呈现方案图片数据库中各个讲解音频对应的方案图片,得到目标动态视频流;若关联值皆不符合条件,则将方案图片数据库中补充讲解音频对应的关联方案图片,将关联方案图片作为方案图片,按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流。通过将讲解音频与方案图片相对应,按照讲解顺序,能够依次呈现各个讲解音频对应的方案图片,从而实现由静态的方案图片自动生成动态的视频流,节省了人力、物力和财力资源。

参考图9,图9示出了本申请的一个实施例提供的基于静态方案生成动态视频的装置100的结构示意图,该装置100包括:

图像获取模块110,用于获取待处理的方案图片数据集,方案图片数据集包括多个方案图片;

图像处理模块120,用于对各个方案图片进行图片内容识别,得到与各个方案图片对应的内容特征;

语音获取模块130,用于获取预设的讲解音频集,讲解音频集包括多个讲解音频;

语音处理模块140,用于对每个讲解音频进行语音识别,得到与讲解音频对应的知识点;

语音处理模块140还用于根据讲解音频对应的知识点,确定多个讲解音频的讲解顺序;

第一处理模块150,用于基于方案图片对应的内容特征和讲解音频对应的知识点,确定每个讲解音频对应的方案图片;

第二处理模块160,用于按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流。

可以理解的是,基于静态方案生成动态视频的装置100通过图像获取模块110获取方案图片数据集,方案图片数据集包括多个方案图片;然后通过图像处理模块120对各个方案图片进行图片内容识别,得到与各个方案图片对应的内容特征;通过语音获取模块130获取预设的讲解音频集,讲解音频集包括多个讲解音频;然后通过语音处理模块140对每个讲解音频进行语音识别,得到与讲解音频对应的知识点;随后语音处理模块140根据讲解音频对应的知识点,确定多个讲解音频的讲解顺序;再通过第一处理模块150基于方案图片对应的内容特征和讲解音频对应的知识点,确定每个讲解音频对应的方案图片;最后通过第二处理模块160按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流。通过将讲解音频与方案图片相对应,按照讲解顺序,能够依次呈现各个讲解音频对应的方案图片,从而实现由静态的方案图片自动生成动态的视频流,节省了人力、物力和财力资源。

需要说明的是,第一处理模块150和第二处理模块160皆为中央处理器,中央处理器一般由逻辑运算单元、控制单元和存储单元组成。根据运算单元接收到的输入不同,对基于方案图片对应的内容特征和讲解音频对应的知识点,确定每个讲解音频对应的方案图片进行计算,以及按照讲解顺序,依次呈现各个讲解音频对应的方案图片,得到目标动态视频流进行计算。通过计算机中的运算器进行计算,节省大量人力资源。

还需要说明的是,该基于静态方案生成动态视频的装置100不仅可以用于业务员销售场景,还可以用于教育、医疗和培训等领域,示例性地,在医疗场景中,医生对患者进行病情讲解,根据患者所做检查的医疗图像,对患者病情进行介绍,其中,对于不同患者的讲解可能会涉及到重复的医学介绍,根据上述装置100自动生成视频,不仅能够使患者更容易了解病情,而且节省医生的时间。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

图10示出了本申请实施例提供的计算机设备500。该计算机设备500可以是服务器或者终端,该计算机设备500的内部结构包括但不限于:

存储器510,用于存储程序;

处理器520,用于执行存储器510存储的程序,当处理器520执行存储器510存储的程序时,处理器520用于执行上述的基于静态方案生成动态视频的方法。

处理器520和存储器510可以通过总线或者其他方式连接。

存储器510作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本发明任意实施例描述的基于静态方案生成动态视频的方法。处理器520通过运行存储在存储器510中的非暂态软件程序以及指令,从而实现上述的基于静态方案生成动态视频的方法。

存储器510可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述的基于静态方案生成动态视频的方法。此外,存储器510可以包括高速随机存取存储器,还可以包括非暂态存储器,比如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器510可选包括相对于处理器520远程设置的存储器,这些远程存储器可以通过网络连接至该处理器520。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述的基于静态方案生成动态视频的方法所需的非暂态软件程序以及指令存储在存储器510中,当被一个或者多个处理器520执行时,执行本发明任意实施例提供的基于静态方案生成动态视频的方法。

本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行上述的基于静态方案生成动态视频的方法。

在一实施例中,该存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器520执行,比如,被上述计算机设备500中的一个处理器520执行,可使得上述一个或多个处理器520执行本发明任意实施例提供的基于静态方案生成动态视频的方法。

以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本申请的说明书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的。共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

技术分类

06120114702113