掌桥专利:专业的专利平台
掌桥专利
首页

简图与语音指令结合生成图像的方法、计算机可读存储介质及显示设备

文献发布时间:2023-06-19 11:21:00


简图与语音指令结合生成图像的方法、计算机可读存储介质及显示设备

技术领域

本发明涉及图像生成技术领域,尤其涉及简图与语音指令结合生成图像的方法、计算机可读存储介质及显示设备,计算机可读存储介质被处理器执行时能实现简图与语音指令结合生成图像的方法。

背景技术

随着网络技术的发展,视频会议等远程通讯方式越来越受到人们的欢迎。视频会议的一个方便之处在于可以通过实时的媒体流进行可视化展示来进行沟通,比如将文本转化成动画进行播放等,但该方法主要是根据文本人工制作动画或录制视频,需要用户消耗较多的人力、物力进行多媒体的制作,而且一般不能即时显现用户所表达的内容,媒体流从制作到展示有一定的滞后性,不能实现实时的展示。

发明内容

本发明要解决的技术问题是:如何实现图像变化的实时展示。

本发明第一方面公开了一种简图与语音指令结合生成图像的方法,包括图像生成步骤如下:

简图处理步骤.获取简图,提取简图中的标志特征;

语音指令处理步骤.包括获取语音指令,以及对获取的语音指令进行处理的字段提取步骤,其提取所获取的语音指令中的特征字段和动作字段;

关联步骤.按照预设的对应关系对所提取的简图中的标志特征和所提取的语音指令中的特征字段进行关联;

图像变化步骤.对于在关联步骤中与特征字段进行关联了的标志特征,根据与所述特征字段一起提取的动作字段控制该标志特征做相应的变化,从而生成图像。

优选地,所述语音指令具体是预设有特征字段格式和动作字段格式的语句。

优选地,在所述字段提取步骤中,通过自然语言处理方法实现所述的提取特征字段和动作字段。

优选地,预设的对应关系是通过关联学习步骤习得的,所述关联学习步骤具体地,把特征字段和标志特征一起输入到已训练好的人工神经网络,由该人工神经网络据此判断特征字段与标志特征是否关联。

优选地,在执行所述简图处理步骤的同时、和/或过往的时间段内和/或未来的时间段内执行所述语音指令处理步骤。

优选地,所述简图具体是实时生成的简笔画和/或轮廓图。

优选地,包括动画生成步骤:重复执行所述图像生成步骤从而生成多张图像,连续放映这些图像从而生成动画。

优选地,所述连续放映具体地,对所述多张图像按照生成的时间顺序排序后依次播出。

本发明的第二方面公开了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时能够实现上述简图与语音指令结合生成图像的方法。

本发明的第三方面公开了一种显示设备,包括显示装置、触控输入装置和语音输入装置以及处理器,处理器接收触控输入装置和语音输入装置输入的信号并控制显示装置进行显示,还包括上述计算机可读存储介质,该计算机可读存储介质上的计算机程序可被处理器执行而实现简图与语音指令结合生成图像的方法。

与现有技术相比,本发明实施例具有以下有益效果:

本发明方法具有实时性,将获取的简图中的标志特征和语音指令中的特征字段进行关联,并通过语音指令中的动作字段控制简图中的标志特征的变化,从而实时生成图像,具有转换过程快速、低成本等优点。

说明书附图

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是简图与语音指令结合生成图像的方法的总体流程图;

图2是简图处理过程第一实施例的示意图;

图3是简图处理过程第二实施例的示意图;

图4是两张图像的对比示意图。

具体实施方式

以下结合具体实施方式对本发明创造作进一步详细说明。

本实施例的显示设备包括显示装置、触控输入装置和语音输入装置以及控制系统(处理器),控制系统采用简图与语音指令结合生成图像的方法,具体执行图像生成步骤从而实现:接收触控输入装置和语音输入装置输入的信号并控制显示装置进行显示。用户使用该显示设备进行实时的简图输入和语音指令输入,控制系统根据接收的简图与语音指令结合生成图像。图像生成步骤包括同步或不同步执行的简图处理步骤和语音指令处理步骤,以及在上述两个步骤执行完之后执行的关联步骤和图像变化步骤,各个步骤具体如下(见图1)。

(1)简图处理步骤。

用户通过触控输入装置实时绘制轮廓图或者简笔画作为简图。控制系统收到用户开始绘制的信号后,先执行图像预处理步骤,将不清晰的简图调整为清晰并进行适应性修补。见图2左侧,用户绘制简图(一条闭合的曲线);控制系统对用户绘制的这一简图进行识别,认为其近似一个圆,就执行图像预处理步骤,对曲线进行圆滑化、修补凹陷等处理操作(此处的图像处理操作采用现有技术实现,在此不做赘述),得到图2中间的预处理后图像(接近圆),控制系统将识别到的“圆”作为其标志特征,这个标志特征“圆”对应系统中预设的所有符合圆形的图像,如太阳、满月、盘子。本实施例中标志特征分为两种:一种是轮廓形状,如上文中的“圆”;另一种是简易的简笔画,如鱼、花。

显示设备还具有图像导入功能,用户可以不实时绘制简图,而是把已经绘制好的简图传输给显示设备,显示设备的控制系统直接提取收到的简图中的标志特征,或者也可以对收到的简图进行上述的图像预处理后再提取标志特征。

(2)语音指令处理步骤。

语音指令处理步骤可以在执行所述简图处理步骤的同时、之前一小段时间内(过往的时间段)或之后一小段时间内(未来的时间段)执行。控制系统可以在接收到其中一者的信号后等待接收另一者的信号,也可以在接收到其中一者的信号后往前追溯是否已经收到了另一者的信号。

本实施例以先执行简图处理步骤,后执行语音指令处理步骤为例进行说明。控制系统在收到经过图像预处理步骤处理后的简图后,执行简图处理步骤,提取简图中的标志特征然后执行语音指令处理步骤,获取从语音输入装置接收到的用户输入的语音指令,并通过字段提取步骤对获取的语音指令进行处理,从而提取该语音指令中的特征字段和动作字段。

用户输入语音指令的方式有标准语句输入和自然语言输入两种,这两者可以分别单独使用或者一起使用。

一、标准语句输入方式:用户按照预设有特征字段格式和动作字段格式的标准语句说出语音指令。例如,标准语句为“画+动词/形容词(A动作字段格式)+名词(B特征字段格式)”,用户按照标准语句说出语音指令:“画一个红色(A1)的发光(A2)的太阳(B)”。控制系统获取这一语音指令并执行字段提取步骤来对其进行处理:控制系统识别到该语音指令中B特征字段格式处为“太阳”,就将“太阳”提取为特征字段,表示类圆形的轮廓;控制系统识别到该语音指令中A动作字段格式处为“红色(A1)”和发光(A2),就将“红色”和“发光”都提取为动作字段,“红色”表示给对象填充“红色”的颜色这一动作,“发光”表示增加“发光”的特效这一动作。

本实施例中,语音指令中的“画”是触发控制系统执行标准语句输入方式中的字段提取步骤的关键词。其他实施例中,字段提取步骤可以不采用关键词触发,而是直接在获取语音指令后执行;字段提取步骤也可以采用在显示设备上设置启动键供用户确认启动的方式来触发。

二、自然语言输入方式:用户使用自然语言说出语音指令。例如,用户说出语音指令:“这是一个红色的发光的太阳”。控制系统获取这一语音指令并执行字段提取步骤来对其进行处理。自然语言输入方式的字段提取步骤采用自然语言处理方法提取特征字段和动作字段,首先直接以语音指令的完整语句“这是一个红色的发光的太阳”为单位进行语义识别,若成功识别到属于特征字段(太阳)和/或动作字段(红色、发光)的语义则直接将语义提取为特征字段或动作字段。若没有识别到或者仅识别到特征字段和动作字段中的一者,就把语音指令“这是一个红色的发光的太阳”拆分为短语(如“红色的、发光的太阳”)后再次进行语义识别,拆分为短语的语音指令还可再细化拆分为词语或字后再次进行语义识别。

控制系统在已经识别到的语义中既有特征字段又有动作字段后停止识别,并询问用户是否已经识别完成,若用户反馈未识别完成,则继续识别,若用户反馈识别完成,则把识别到的语义提取为特征字段和动作字段。或者控制系统在语音指令不可拆分的状态下才停止识别,若把语音指令拆分为词、字后依然没有识别到一组特征字段和动作字段,则控制系统再次执行语音指令处理步骤,重新获取语音指令后对其执行字段提取步骤。本实施例中的自然语言处理方法具体采用现有技术中的常规语义识别或者神经网络训练等方式实现,在此不做赘述。

(3)关联步骤。

控制系统按照预设的对应关系把(1)简图处理步骤中所提取的简图中的标志特征和(2)语音指令处理步骤中所提取的语音指令中的特征字段进行关联。预设的对应关系是通过关联学习步骤习得的,关联学习步骤具体地,把特征字段和标志特征一起输入到已训练好的人工神经网络,由该人工神经网络据此判断特征字段与标志特征是否关联。图2所示的,控制系统就是把从用户的语音指令中识别的特征字段“太阳”与用户绘制后处理得到的标志特征“圆”进行关联处理。

(4)图像变形步骤。

对于在关联步骤中与特征字段“太阳”进行关联了的标志特征“圆”(见图2中间预处理后图像),控制系统控制其做与特征字段“太阳”一起提取的动作字段“红色”和“发光”相应的变化,具体地,控制系统获取与动作字段“红色”相应的变化为给对象填充“红色”的颜色,与动作字段“发光”相应的变化为给对象增加“发光”的特效,控制系统就把圆内部填充为红色,并在圆外周生成“发光”的特效,得到图2中右侧的变化后的图像。

优选地,控制系统通过不断训练的神经网络得到大量简图的标志特征所对应的图像选择,并且形成对应图像的风格特性。如图3,用户在绘图区绘制鱼型简笔画,控制系统自动生成多个与该鱼型简笔画对应的图像并显示到最上方的选择区,用户选择实际想要表达的图像为第一个海豚图像,控制系统在中间的图像展示区展示该海豚图像,并根据该被选择的海豚图像的轮廓/特征对用户绘制的鱼型简笔画进行风格特性的调整后显示到图像生成区。如此则在图像生成区显示的图像是根据用户的绘制生成的,与用户有较强的互动性。非优选地,控制系统直接将图库中的图像作为执行图像预处理步骤后的标志特征进行输出,该非优选方案处理速度更快,但降低了与用户的互动性。

其中,控制系统自动生成多个与该鱼型简笔画对应的图像,可以是直接调用存储在智能数据库中的图像,也可以是调用图像生成神经网络得到新的图像,上述两种方案均可通过现有技术实现,在此不做赘述。

用户对显示设备的不同用途将影响用户绘制简图的内容和风格。以生物和物理两门课程的教学为例:生物教学中经常绘制生物形态的简图,往往属于不规则形态;而物理教学则一般绘制球体、方形等演示模型,属于规则形态。因此,对不同风格的用户分别建立智能数据库或者神经网络训练模型,能够快速、准确地生成用户实际需要的图形。

优选地,包括动画生成步骤。重复执行图像生成步骤从而生成多张图像,对多张图像按照生成的时间顺序排序后依次播出,以连续放映这些图像的方式生成动画。如图4,在第一次图像生成步骤中得到左边的竖耳朵兔子;在第二次图像生成步骤中,用户增加绘制了兔子脸颊的红晕,得到中间的害羞兔子;在第三次图像生成步骤中,用户输入语音指令兔子垂下耳朵,控制系统自动得到并输出右边的垂耳朵兔子。这三张图连续播放就能得到兔子变化的动画。

优选地,在(1)简图处理步骤中,对于用户实时绘制简图的情况,图像预处理步骤具体地,通过识别时机的区别和不同识别方法对正在绘制的简图进行处理。

1.识别时机。

a)暂停即反馈,即在每输入一条笔画后立即识别。

b)用户画完单个图形对象后通过显式触发或系统检测到明显间隔(如预设无输入停顿时间阈值或笔尖位移阈值)来启动识别算法。

c)在整幅简图绘制完成后,进行整体的分割和识别。

2.识别方法

单个简图符号识别方法:将简图看做组合的图像,提取图像的形状特征,采用统计方法分类将简图图像分解为多个方向子图,然后通过平滑、降采样处理将每幅子图生成简图特征描述,最后通过图像变形模型进行模板匹配。

基于轨迹的方法:充分利用简图的时间信息,将简图线条看做时序上的一条轨迹,用来识别线条走势,如弧还是直线,从而识别图元。

优选地,语音指令处理步骤中,获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间。通过在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间,可以提高语音录入过程对不同用户的适应度,获取多个语音指令样本创建样本集,其音频信息包括任两个相邻指令词之间的时间差、幅值和音频等,可以根据音频信息学习用户的说话习惯,比如用户的语速和音色,进而确定后续录入语音指令的过程中的等待时间,一方面,可以提高录入语音指令的准确性,另一方面,对于语速较快的用户的语音指令,可以及时结束待机时间,再一方面,对于语速较慢的用户的语音指令,可以延长等待时间以保证全部语音指令成功录入。

如上所述仅为本发明创造的实施方式,不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换,仍落入专利保护范围。

相关技术
  • 简图与语音指令结合生成图像的方法、计算机可读存储介质及显示设备
  • 图像生成装置、图像生成方法以及用于图像生成的非暂时性的计算机可读存储介质
技术分类

06120112898879