掌桥专利:专业的专利平台
掌桥专利
首页

一种语音信息的处理方法、装置及电子设备

文献发布时间:2023-06-19 09:30:39


一种语音信息的处理方法、装置及电子设备

技术领域

本发明涉及互联网技术领域,更具体地,涉及一种语音信息的处理方法、一种语音信息的处理装置、一种电子设备、及一种计算机可读存储介质。

背景技术

随着电子技术的飞速发展,越来越多的电子设备可以提供语音控制和/或语音编辑等功能。

现有的语音类应用软件提供的语音编辑功能很弱,在没有屏幕的电子设备上,例如智能音箱或无线耳机等,均没有语音编辑功能。因此,需要通过电脑、手机等具有屏幕的电子设备重新录制语音以进行编辑,或者是将通过智能音箱或无线耳机等有屏幕的电子设备录制的语音拷贝到电脑、手机等具有屏幕的电子设备上进行编辑处理。

这些方式都限制了语音信息的处理能力和处理速度,影响用户体验。

发明内容

本发明的一个目的是提供一种通过控制语音来处理语音信息的新技术方案。

根据本发明的第一方面,提供了一种语音信息的处理方法,包括:

接收用户输入的控制语音;

根据所述控制语音获取待处理的目标语音信息和对应的目标处理指令;

根据所述目标处理指令对所述目标语音信息进行相应的处理,得到处理后的目标语音信息。

可选的,获取所述目标语音信息的步骤包括:

将所述控制语音转换为对应的控制文本,根据预先构建的属性词库从所述控制文本中提取属性关键词;其中,所述属性关键词至少包括名称和/或时间;

根据所述属性关键词获取所述目标语音信息。

可选的,获取所述目标处理指令的步骤包括:

将所述控制语音转换为对应的控制文本,根据预先构建的指令词库从所述目标语音文本中提取指令关键词,通过结构化模型,对所述指令关键词进行结构化分析,得到所述指令关键词对应的处理指令,作为所述目标处理指令;

其中,所述结构化模型是通过对采集的与处理指令相关的指令词汇进行结构化组织得到处理指令的模型。

可选的,所述根据所述目标处理指令对所述目标语音信息进行相应的处理,得到处理后的目标语音信息的步骤包括:

根据所述控制语音,确定所述目标语音信息中待处理的语音片段,作为目标语音片段;

根据所述目标处理指令对所述目标语音片段进行相应的处理,得到所述处理后的目标语音信息。

可选的,所述根据所述控制语音,确定所述目标语音信息中待处理的语音片段,作为目标语音片段的步骤包括:

获取所述目标语音信息对应的第一语音波形图;

获取所述控制语音对应的第二语音波形图,并根据预先构建的波形图库从所述控制语音中提取出定位波形图;

根据所述定位波形图,确定所述第一语音波形图中待处理的波形片段作为所述目标波形片段;

根据所述目标波形片段,得到所述目标语音片段。

可选的,所述定位波形图包括第一个定位波形图和第二个定位波形图;

所述根据所述定位波形图,确定所述第一语音波形图中待处理的波形片段作为所述目标波形片段的步骤包括:

确定所述第一语音波形图中与所述第一个定位波形图匹配的波形片段,作为第一波形片段;确定所述第一语音波形图中与所述第二个定位波形图匹配的波形片段,作为第二波形片段;

将所述第一波形片段和所述第二波形片段之间的波形片段,作为所述目标波形片段。

可选的,所述根据所述控制语音,确定所述目标语音信息中待处理的语音片段,作为目标语音片段的步骤包括:

将所述控制语音的内容转换为对应的控制文本,并根据预先构建的时间词库从所述控制文本中提取时间关键词;

根据所述时间关键词确定所述目标语音信息中的所述目标语音片段。

可选的,所述目标处理指令对应的处理方式至少包括:降噪处理、音量调节处理、马赛克处理、播放速度调节处理、和/或删除处理。

可选的,所述目标处理指令对应的处理方式为插入处理,

根据所述目标处理指令对所述目标语音信息进行相应的处理,得到处理后的目标语音信息的步骤包括:

根据所述控制语音确定所述目标语音信息中的插入节点;

响应于重新录制语音的操作,采集新的语音信息;

根据所述插入节点,将所述新的语音信息插入到所述目标语音信息中,得到所述处理后的目标语音信息。

可选的,所述处理方法还包括:

响应于语音信息的播放请求,播放所述处理后的目标语音信息。

可选的,所述响应于语音信息的播放请求,播放所述处理后的目标语音信息的步骤包括:

响应于所述播放请求,从所述处理后的目标语音信息中选取符合设定要求的语音片段,作为推荐语音片段;

播放所述推荐语音片段。

可选的,所述处理方法还包括:

保存所述处理后的目标语音信息。

可选的,所述根据所述目标处理指令对所述目标语音信息进行相应的处理,得到处理后的目标语音信息之后还包括:

响应于用户输入的撤回处理请求,将保存的所述处理后的目标语音信息替换为处理前的所述目标语音信息。

根据本发明的第二方面,提供了一种语音信息的处理装置,包括:

控制语音接收模块,用于接收用户输入的控制语音;

信息指令获取模块,用于根据所述控制语音获取待处理的目标语音信息和对应的目标处理指令;

信息处理模块,用于根据所述目标处理指令对所述目标语音信息进行相应的处理,得到处理后的目标语音信息。

根据本发明的第三方面,提供了一种电子设备,包括:

根据本发明第二方面所述的处理装置;或者,

处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据本发明第一方面所述的处理方法。

根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本发明第一方面所述的处理方法。

在本发明的实施例中,通过用户输入的控制语音获取待处理的目标语音信息和对应的目标处理指令,并根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息。这样,可以仅通过控制语音对目标语音信息进行处理。可以无需将未设置显示屏的智能音箱、耳机等电子设备录制的目标语音信息拷贝到具有显示屏的手机、电脑等其他电子设备上进行处理,可以便于用户操作,提升用户体验。

通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的电子设备的硬件配置的例子的框图。

图2示出了本发明的第一实施例的语音信息的处理方法的流程图。

图3示出了本发明的实施例的语音信息的处理方法的步骤的示意图。

图4示出了本发明的第二实施例的语音信息的处理方法的流程图。

图5a示出了本发明第二实施例的展示界面的其中一个例子的示意图。

图5b示出了本发明第二实施例的展示界面的其中一个例子的示意图。

图5c示出了本发明第二实施例的展示界面的其中一个例子的示意图。

图6示出了本发明的实施例的语音信息的处理装置的框图。

图7示出了本发明的实施例的电子设备的一个例子的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。

电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑、音箱、耳机等。如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项语音信息的处理方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。

<方法实施例>

<第一实施例>

在本实施例的总体构思,提供一种语音信息的处理方案,通过用户输入的控制语音获取待处理的目标语音信息和对应的目标处理指令,并根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息。这样,可以无需显示屏的参与,就可以对语音信息进行处理。这样,可以仅通过控制语音对目标语音信息进行处理。可以无需将未设置显示屏的智能音箱、耳机等电子设备录制的目标语音信息拷贝到具有显示屏的手机、电脑等其他电子设备上进行处理,可以便于用户操作,提升用户体验。

在本实施例中,提供一种语音信息的处理方法。该语音信息的处理方法可以是由电子设备实施。该电子设备可以是如图1所示的电子设备1000。

根据图2所示,本实施例的语音信息的处理方法可以包括如下步骤S1000~S3000:

步骤S1000,接收用户输入的控制语音。

在一个实施例中,用户通过设置在执行本发明实施例的电子设备上的麦克风来输入控制语音。

执行本发明实施例的电子设备可以是在开机的情况下接收用户输入的控制语音,也可以是在启动控制语音的采集功能的情况下接收用户输入的控制语音。具体的,可以是在用户输入指定唤醒语音的情况下,触发电子设备启动采集控制语音的功能;还可以是在用户按压电子设备上的指定按钮的情况下,触发电子设备启动采集控制语音的功能。

步骤S2000,根据控制语音获取待处理的目标语音信息和对应的目标处理指令。

在一个实施例中,待处理的目标语音信息可以是在执行步骤S1000之前或之后,通过自身录制的语音信息、或从其他设备中获取的语音信息。

具体的,根据控制语音获取待处理的目标语音信息的步骤可以包括如下所示的步骤S2110~S2120:

步骤S2110,将控制语音转换为对应的控制文本,根据预先构建的属性词库从控制文本中提取属性关键词。

在本例中,可以将控制语音的内容通过语音识别引擎或者语音转文本的工具、插件等,得到对应的控制文本。

对于存储在执行本实施例的电子设备中的语音信息、及存储在其他设备中的语音信息,均具有各自唯一的属性,可以根据属性唯一确定对应的语音信息。该属性可以是名称和/或存储时间。那么,在用户输入的控制语音中就可以包含需要处理的语音信息的属性,以供电子设备能够准确获取对应的目标语音信息。

本实施例的属性词库中可以包括多个分别体现不同语音信息的属性的词汇。在本例中,可以通过人工或者机器挖掘这些属性词汇,预先构建属性词库。

根据该属性词库,可以将控制文本进行分词得到的词汇与属性词库中包括的属性词汇通过余弦相似度等方法进行相似度分析,提取相似度高于预设的相似度阈值的属性词汇、或者是相似度最高的属性词汇,作为属性关键词。

其中,属性关键词可以包括名称和/或时间。本实施例中的时间属性关键词可以是具体时间,例如9点等,也可以是模糊时间,例如之前、之后、刚刚等。

步骤S2120,根据属性关键词获取目标语音信息。

具体的,可以是从预先存储在执行本实施例的电子设备中的语音信息中,选取与该属性关键词匹配的一个,作为目标语音信息。也可以是从存储在其他电子设备中的语音信息中,通过下载、或复制粘贴等方式获取与该属性关键词匹配的一个,作为目标语音信息。还可以是通过设置在执行本实施例的电子设备上的麦克风录制语音信息,作为目标语音信息。

例如,通过步骤S2110所提取到的属性关键词仅为“之后”,可以是启动语音录制功能来录制语音信息,作为目标语音信息。

再例如,通过步骤S2110所提取到的属性关键词为“aaaa”,那么,可以是在其他电子设备、和/或执行本发明实施例的电子设备上获取名称为“aaaa”的音频信息,作为目标语音信息。

在一个实施例中,可以是在该电子设备中每存储或录制一个新的语音信息,就会将该新的语音信息的属性更新到属性词库中,以便于后续可以根据新的语音信息的属性关键词获取到该新的语音信息进行处理。

在一个实施例中,根据控制语音获取对应的目标处理指令的步骤可以包括:

将控制语音转换为对应的控制文本,根据预先构建的指令词库从目标语音文本中提取指令关键词,通过结构化模型,对指令关键词进行结构化分析,得到指令关键词对应的处理指令,作为目标处理指令。

本实施例的指令词库中可以包括多个分别体现不同处理指令的指令词汇。在本例中,可以通过人工或者机器挖掘这些指令词汇,预先构建指令词库。

根据该指令词库,可以将控制文本进行分词得到的词汇与指令词库中包括的指令词汇通过余弦相似度等方法进行相似度分析,提取相似度高于预设的相似度阈值的指令词汇、或者是相似度最高的指令词汇,作为指令关键词。

其中,结构化模型是通过对采集的与处理指令相关的词汇进行结构化组织得到处理指令的模型。结构化模型中包括的每个指令词汇都具有对应的处理指令。

在本例中,可以对预先通过人工或者机器挖掘得到的指令词汇,对指令词汇和处理指令进行对应。通过该结构化模型,对指令关键词进行结构化分析,可以得到与指令关键词对应的处理指令。

这样,通过预设的指令词库从与语音信息的内容对应的文本信息中提取指令关键词,再通过本实施例中的结构化模型,对指令关键词进行结构化分析,得到对应的目标处理指令,可以无需采集大量语音样本,通过较为简单的结构化分析手段,快速、有效地获取控制语音的内容体现的目标处理指令。

步骤S3000,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息。

对目标语音信息进行处理的方式可以是由目标处理指令确定的。针对目标语音信息执行目标处理指令,就可以得到处理后的目标语音信息。

目标处理指令所对应的处理方式至少包括:降噪处理、音量调节处理、马赛克处理、播放速度调节处理、和/或删除处理。

如果目标处理指令对应的处理方式为降噪处理,则可以是对目标语音信息进行降噪处理。如果目标处理指令对应的处理方式为音量增大(或降低)处理,则可以是对目标语音信息的音量进行增大(或降低)处理。如果目标处理指令对应的处理方式为加快(或放慢)播放速度处理,则可以是对应目标语音信息的播放速度进行加快(或放慢)处理。如果目标处理指令对应的处理方式为删除处理,则可以是对目标语音信息进行删除处理。如果目标处理指令对应的处理方式为马赛克处理,则可以是对目标语音信息进行消音、或者是替换为指定语音的处理。

目标处理指令所对应的处理方式还可以包括:调整目标语音信息的质量、和/或对目标语音信息中的声音进行美化或者是滤镜处理。

在一个实施例中,可以是根据目标处理指令对目标语音信息整体进行相应的处理。

在另一个实施例中,还可以是根据目标处理指令对目标语音信息中的片段进行相应的处理。

在本例中,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息的步骤可以包括如下所示的步骤S3100~S3200:

步骤S3100,根据该控制语音,确定目标语音信息中待处理的语音片段,作为目标语音片段。

在一个例子中,确定目标语音片段的步骤可以包括如下所示的步骤S3111~S3114:

步骤S3111,获取目标语音信息对应的第一语音波形图。

获取目标语音信息对应的第一语音波形图的步骤可以包括:

解压缩该目标语音信息,并将该目标语音信息随机分为多个数据块;在每个数据块中按照预设的采样方式获取采样点以及所述采样点的振幅值;将采样点按照时间进行排序后根据每个采样点的振幅值生成第一语音波形图。

在本实施例获取目标语音信息对应的第一语音波形图的过程中,可以按照时间获取采样点,只选取采样点的数据来生成第一语音波形图,这样可以降低计算量。进一步地,可以先解压缩该目标语音信息,将解压缩后的目标语音信息随机分为多个数据块,每个数据块的大小并不固定,然后在每个数据块中按照预设的采样方式获取采样点,由于预先分的数据块是按照随机的方式来划分,而在每个数据块中又按照固定的方式进行采样,所以,这种既有随机性又有规律性的采样方式使得获得的采样点更能代表目标语音信息,得到每个数据块的采样点后,还要将采样点按照在目标语音信息中的时间进行排序,这样相当于在语音信息样本中按照既包含了随机,又包含了规律性的采样方式进行采样,获得采样点后,再获取采样点对应的数据,例如振幅值,生成第一语音波形图。

本实施例的语音波形图中可以包含对应语音的响度、音色、频率等信息,例如,在语音波形图中,上下的振幅代表了响度,频率的组合代表了音色,周期间隔代表了频率。

步骤S3112,获取控制语音对应的第二语音波形图,并根据预先构建的波形图库从控制语音中提取出定位波形图。

在本实施例中,获取第二语音波形图的方式可以参照前述的获取第一语音波形图的方式,在此不再赘述。

本实施例的波形图库中可以包括多个分别体现语音文字或词汇的波形图。在本例中,可以预先通过人工或者机器挖掘这些语音文字或词汇的波形图,构建波形图库。

根据该波形图库,可以将波形图库中包括的波形图与第二语音波形图通过余弦相似度等方法进行相似度分析,提取第二语音波形图中与波形图库中包含的波形图的相似度高于预设的相似度阈值的部分、或者是相似度最高的部分,作为定位波形图。

通过该步骤S3112提取的定位波形图可以是一个,也可以是多个。

步骤S3113,根据定位波形图,确定第一语音波形图中待处理的波形片段作为目标波形片段。

在一个例子中,定位波形图包括第一个定位波形图和第二个定位波形图,根据目标波形片段,得到目标语音片段的步骤包括:

确定第一语音波形图中与第一个定位波形图匹配的波形片段,作为第一波形片段;确定第一语音波形图中与第二个定位波形图匹配的波形片段,作为第二波形片段;将第一波形片段和第二波形片段之间的波形片段,作为目标波形片段。

具体的,目标波形片段可以包括第一波形片段和/或第二波形片段,也可以不包括第一波形片段和第二波形片段。

步骤S3114,根据目标波形片段,得到目标语音片段。

具体的,由于波形图中的每个采样点具有对应的时间属性,因此,得到的目标波形片段也具有时间属性。例如,目标波形片段对应的时间属性可以为第12s至13s。那么,根据目标波形片段的时间属性,就可以确定目标语音信息中相同时间属性的语音片段,即为目标语音片段。

在另一个例子中,确定目标语音片段的步骤可以包括如下所示的步骤S3121~S3122:

步骤S3121,将控制语音的内容转换为对应的控制文本,并根据预先构建的时间词库从控制文本中提取时间关键词。

在本例中,可以将控制语音的内容通过语音识别引擎或者语音转文本的工具、插件等,得到对应的控制文本。

本实施例的时间词库中可以包括多个分别体现不同时间的词汇。在本例中,可以通过人工或者机器挖掘这些时间词汇,预先构建时间词库。

根据该时间词库,可以将控制文本进行分词得到的词汇与时间词库中包括的时间词汇通过余弦相似度等方法进行相似度分析,提取相似度高于预设的相似度阈值的时间词汇、或者是相似度最高的时间词汇,作为时间关键词。

本实施例中提取的时间关键词可以是一个,也可以是多个。例如,提取的时间关键词可以是第12s、之后、之前、至、和/或第15s等。

步骤S3122,根据时间关键字确定目标语音信息中的目标语音片段。

例如,通过步骤S3121提取的时间关键词包括“第12s”、“至”、“第15s”,那么,可以是将目标语音信息中第12-15s的内容片段,作为目标语音片段。

再例如,通过步骤S3121提取的时间关键词包括“第12s”、“之后”,那么,可以是将目标语音信息中第12s之后的所有内容片段,均作为目标语音片段。

步骤S3200,根据目标处理指令对目标语音片段进行相应的处理,得到处理后的目标语音信息。

对目标语音片段进行处理的方式与前述的对目标语音信息进行处理的方式类似,在此不再赘述。

在本发明的实施例中,通过用户输入的控制语音获取待处理的目标语音信息和对应的目标处理指令,并根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息。这样,可以仅通过控制语音对目标语音信息进行处理。可以无需将未设置显示屏的智能音箱、耳机等电子设备录制的目标语音信息拷贝到具有显示屏的手机、电脑等其他电子设备上进行处理,可以便于用户操作,提升用户体验。

在一个实施例中,该处理方法还可以包括:

响应于语音信息的播放请求,播放处理后的目标语音信息。

在本例中,响应于语音信息的播放请求,播放处理后的目标语音信息的步骤可以包括:

响应于该播放请求,播放完整的处理后的目标语音信息;或者,

响应于该播放请求,从处理后的目标语音信息中选取符合设定要求的语音片段,作为推荐语音片段;播放推荐语音片段。

设定要求可以是预先根据应用场景或具体需求设定的。例如,设定要求可以是指定的时段、指定关键词之间、和/或音量大于阈值等。

在一个实施例中,该处理方法还可以包括:保存处理后的目标语音信息。

在此基础上,在执行完步骤S3000之后,该处理方法还可以包括:

响应于用户输入的撤回处理请求,将保存的处理后的目标语音信息替换为处理前的目标语音信息。

在一个实施例中,该处理方法还可以包括:在接收到用户输入的控制语音、和/或得到处理后的目标语音的情况下,控制电子设备振动以提示用户。

<例子1>

以下将结合图3进一步说明本实施例中提供的语音信息的处理方法。

如图3所示,语音信息的处理方法包括:步骤S3001~S3006。

步骤S3001,接收用户输入的控制语音。

步骤S3002,将控制语音转换为对应的控制文本,根据预先构建的属性词库从控制文本中提取属性关键词,根据属性关键词获取目标语音信息。

步骤S3003,将控制语音转换为对应的控制文本,根据预先构建的指令词库从目标语音文本中提取指令关键词,通过结构化模型,对指令关键词进行结构化分析,得到指令关键词对应的处理指令,作为目标处理指令。

步骤S3002和S3003可以同时进行,也可以是不同时进行,在此不做具体限定。

步骤S3004,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息。

步骤S3005,响应于该播放请求,从处理后的目标语音信息中选取符合设定要求的语音片段,作为推荐语音片段。

步骤S3006,播放该推荐语音片段。

<例子2>

在上述例子1的基础上,目标处理指令为插入指令,那么,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息的步骤包括:

根据控制语音确定目标语音信息中的插入节点;响应于重新录制语音的操作,采集新的语音信息;根据插入节点,将新的语音信息插入到目标语音信息中,得到处理后的目标语音信息。

确定插入节点的方式可以为:获取目标语音信息对应的第一语音波形图;获取控制语音对应的第二语音波形图,并根据预先构建的波形图库从控制语音中提取出定位波形图和方向波形图,其中方向波形图可以是预先设置的词汇“前”、“后”所对应的波形图;根据定位波形图和方向波形图得到目标语音信息中的插入节点。

例如,在定位波形图所对应的词汇为“我的”,方向波形图对应的词汇为“前”,那么,目标语音信息中的插入节点可以是词汇“我的”所对应的位置之前的节点。

确定插入节点的方式还可以为:将控制语音的内容转换为对应的控制文本,并根据预先构建的时间词库从控制文本中提取时间关键词;根据时间关键字确定目标语音信息中的插入节点。

例如,提取的时间关键词包括“第12s”、“之后”,那么,可以是将目标语音信息中第12s之后的节点,作为插入节点。

本实施例中,重新录制语音的操作,可以是获取到对应的处理方式为插入处理的目标处理指令的操作,也可以是用户通过按压电子设备上的对应按钮的操作,还可以是用户输入指定唤醒语音的操作。

响应于重新录制语音的操作,通过设置在电子设备上的麦克风采集新的语音信息,并将新的语音信息插入到目标语音信息中的插入节点,得到处理后的目标语音信息。

<例子3>

在上述例子1的基础上,目标处理指令为隐私处理指令,那么,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息的步骤包括:

获取目标语音信息对应的第一语音波形图;根据预先构建的隐私图库确定目标语音信息中包含的隐私信息,对该隐私信息进行消音或替换为指定语音的处理,得到处理后的目标语音信息。

本例中的隐私图库中可以包括多个分别体现隐私信息的波形图。在本例中,可以预先通过人工或者机器挖掘这些隐私信息的波形图,构建隐私图库。

根据该波形图库,可以将隐私图库中包括的波形图与第一语音波形图通过余弦相似度等方法进行相似度分析,第一语音波形图中与波形图库中包含的波形图的相似度高于预设的相似度阈值的部分,作为隐私波形图;确定目标语音信息中隐私波形图所对应的隐私语音信息,并对隐私语音信息进行消音或替换为指定语音的处理,得到处理后的目标语音信息。

例如,该指定语音可以是“哔~”。

<第二实施例>

在本实施例中,提供一种语音信息的处理方法。该语音信息的处理方法可以是由电子设备实施。该电子设备可以是任意具有语音采集功能和显示功能的电子设备,例如,可以是如图1所示的电子设备1000。

根据图4所示,本实施例的语音信息的处理方法可以包括如下步骤S4100~S4300:

步骤S4100,接收用户输入的控制语音。

在本实施例中,接收用户输入的控制语音步骤可以参考第一实施例中的步骤S1000,在此不再赘述。

在一个例子中,在执行步骤S4100之前,该处理方法还可以包括:在展示界面中提供语音输入入口,响应于点击该语音输入入口的操作,执行接收用户输入的控制语音的步骤。展示界面中语音输入入口可以是如图5a~图5c所示。

步骤S4200,根据控制语音获取待处理的目标语音信息和对应的目标处理指令,并在展示界面中展示目标语音信息和目标处理指令。

在本实施例中,根据控制语音获取待处理的目标语音信息和对应的目标处理指令步骤可以参考第一实施例中的步骤S1000,在此不再赘述。

在一个例子中,如图5a~图5c所示的展示界面中所展示的目标语音信息可以包括目标语音信息的名称和/或第一时间轴等。

在用户通过触摸屏或鼠标等执行点击目标语音信息的名称的操作时,可以播放该目标语音信息。

在用户通过触摸屏或鼠标等执行点击目标语音信息的第一时间轴时,可以根据点击点在第一时间轴中的位置,从对应的节点开始播放目标语音信息。

在一个例子中,在展示界面中可以预先展示多个预设的处理指令,其中,多个预设的处理指令包括目标处理指令。展示处理指令的方式可以是展示每个处理指令的名称。那么,展示目标处理指令的步骤可以包括:将目标处理指令进行高亮展示。

例如,可以是在执行步骤S4200之前,在展示界面中展示的多个预设的处理指令均为第一颜色,在执行展示目标处理指令的操作时,可以将目标处理指令修改为第二颜色。

再例如,可以是在执行步骤S4200之前,在展示界面中展示的多个预设的处理指令的名称的字体均为五号字,在执行展示目标处理指令的操作时,可以将目标处理指令的名称的字体修改为四号字。具体可以参照图5a~图5c所示。

步骤S4300,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息,并在展示界面中展示处理后的目标语音信息。

在本实施例中,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息步骤可以参考第一实施例中的步骤S3000,在此不再赘述。

在一个例子中,展示界面中所展示的处理后的目标语音信息可以包括处理后的目标语音信息的名称和/或第二时间轴等。

在用户通过触摸屏或鼠标等执行点击处理后的目标语音信息的名称的操作时,可以播放该处理后的目标语音信息。

在用户通过触摸屏或鼠标等执行点击处理后的目标语音信息的第二时间轴时,可以根据点击点在第二时间轴中的位置,从对应的节点开始播放处理后的目标语音信息。

在一个例子中,展示界面中还可以提供对应目标语音信息和处理后的目标语音信息的播放按钮,响应于点击与目标语音信息对应的播放按钮的操作,播放目标语音信息,或者,响应于点击与处理后的目标语音信息对应的播放按钮的操作,播放处理后的目标语音信息。

在展示目标语音信息的步骤包括:展示目标语音信息所对应的第一时间轴;展示处理后的目标语音信息的步骤包括:展示处理后的目标语音信息所对应的第二时间轴的实施例中,该展示方法还可以包括:

确定目标语音信息和处理后的目标语音信息之间的重叠部分和差异部分,并在第一时间轴和/或第二时间轴中标示出重叠部分和/或差异部分。

如果目标处理指令所对应的处理方式为删除处理,那么,目标语音信息中需要删除的部分可以为差异部分,其他部分可以为重叠部分;处理后的目标语音信息整体为重叠部分。展示效果可以是如图5a所示,时间轴的灰色部分用于标示差异部分。

如果目标处理指令所对应的处理方式为插入处理,那么,处理后的目标语音信息中插入的部分可以为差异部分,其他部分可以为重叠部分;目标语音信息整体为重叠部分。展示效果可以是如图5b所示,时间轴的灰色部分用于标示差异部分。

在本例中,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息,并在展示界面中展示处理后的目标语音信息的步骤包括:根据控制语音确定目标语音信息中的插入节点;并在第一时间轴中标示出插入节点;响应于重新录制语音的操作,采集新的语音信息;并在展示界面中展示新的语音信息所对应的第三时间轴;根据插入节点,将新的语音信息插入到目标语音信息中,得到处理后的目标语音信息,并在展示界面中展示处理后的目标语音信息。

根据控制语音确定目标语音信息中的插入节点;并在第一时间轴中标示出插入节点;响应于重新录制语音的操作,采集新的语音信息;根据插入节点,将新的语音信息插入到目标语音信息中,得到处理后的目标语音信息的步骤可以参照第一实施例中的例子2,在此不再赘述。

其中,重新录制语音的操作可以是点击语音输入入口的操作。

新的语音信息所对应的第三时间轴的展示效果可以是如图5b所示,时间轴的灰色部分用于标示差异部分。

如果目标处理指令所对应的处理方式为减慢播放速度,那么,目标语音信息中播放速度需要被调节的部分为差异部分,其他部分可以为重叠部分;处理后的目标语音信息中播放速度被调节的部分为差异部分,其他部分可以为重叠部分,展示效果可以是如图5c所示。

在本发明的一个实施例中,根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息,并在展示界面中展示处理后的目标语音信息的步骤可以包括:根据控制语音,确定目标语音信息中待处理的语音片段,作为目标语音片段;在第一时间轴中展示目标语音片段所对应的时间区间;根据目标处理指令对目标语音片段进行相应的处理,得到处理后的目标语音信息,并在展示界面中展示处理后的目标语音信息。

根据控制语音,确定目标语音信息中待处理的语音片段,作为目标语音片段;根据目标处理指令对目标语音片段进行相应的处理,得到处理后的目标语音信息的步骤可以参考第一实施例中的步骤S3100~S3200,在此不再赘述。

目标语音片段可以是相当于目标语音信息和处理后的目标语音信息之间的差异部分,那么,在第一时间轴中展示目标语音片段所对应的时间区间的效果,可以是如图5a和图5c所示时间轴中的灰度部分所示。

在本发明的一个实施例中,该处理方法还可以包括:响应于语音信息的播放请求,播放处理后的目标语音信息。

其中,语音信息的播放请求可以是由用户点击处理后的目标语音信息的名称或者时间轴触发的,也可以是由用户输入的对应于播放处理后的目标语音信息的语音指令触发的,还可以是在得到处理后的目标语音信息的情况下自动触发的。

在本实施例中,响应于语音信息的播放请求,播放处理后的目标语音信息的步骤可以包括:响应于播放请求,从处理后的目标语音信息中选取符合设定要求的语音片段,作为推荐语音片段;在第二时间轴中展示推荐语音片段所对应的时间区间;播放推荐语音片段。

设定要求可以是预先根据应用场景或具体需求设定的。例如,设定要求可以是指定的时段、指定关键词之间、和/或音量大于阈值等。

在一个例子中,在第二时间轴中展示推荐语音片段所对应的时间区间的方式,可以参照前述的展示差异部分的方式,在此不再赘述。

例如,可以使得推荐语音片段所对应的时间区间与差异部分在对应的时间轴中的展示颜色不同。

<第三实施例>

在本实施例中,提供一种语音信息的处理方法。该语音信息的处理方法可以是由终端设备实施。该终端设备可以是任意具有语音采集功能的电子产品,例如,可以是智能音箱、智能电视、录音笔、或摄录机等。

本实施例的语音信息的处理方法可以包括:

响应于用户输入的控制语音,播放根据控制语音得到的处理后的目标语音信息。

其中,处理后的目标语音信息可以是终端设备根据用户输入的控制语音获取待处理的目标语音信息和对应的目标处理指令,并根据目标处理指令对目标语音信息进行相应的处理所得到的语音信息。

<装置实施例>

在本实施例中,提供一种语音信息的处理装置6000,如图6所示,包括控制语音接收模块6100、信息指令获取模块6200和信息处理模块6300。该控制语音接收模块6100用于接收用户输入的控制语音;该信息指令获取模块6200用于根据控制语音获取待处理的目标语音信息和对应的目标处理指令;该信息处理模块6300用于根据目标处理指令对目标语音信息进行相应的处理,得到处理后的目标语音信息。

在一个实施例中,获取目标语音信息包括:

将控制语音转换为对应的控制文本,根据预先构建的属性词库从控制文本中提取属性关键词;其中,属性关键词至少包括名称和/或时间;

根据属性关键词获取目标语音信息。

在一个实施例中,获取目标处理指令包括:

将控制语音转换为对应的控制文本,根据预先构建的指令词库从目标语音文本中提取指令关键词,通过结构化模型,对指令关键词进行结构化分析,得到指令关键词对应的处理指令,作为目标处理指令;

其中,结构化模型是通过对采集的与处理指令相关的指令词汇进行结构化组织得到处理指令的模型。

在一个实施例中,信息处理模块6300还可以用于:

根据控制语音,确定目标语音信息中待处理的语音片段,作为目标语音片段;

根据目标处理指令对目标语音片段进行相应的处理,得到处理后的目标语音信息。

在一个实施例中,根据控制语音,确定目标语音信息中待处理的语音片段,作为目标语音片段包括:

获取目标语音信息对应的第一语音波形图;

获取控制语音对应的第二语音波形图,并根据预先构建的波形图库从控制语音中提取出定位波形图;

根据定位波形图,确定第一语音波形图中待处理的波形片段作为目标波形片段;

根据目标波形片段,得到目标语音片段。

在一个实施例中,定位波形图包括第一个定位波形图和第二个定位波形图;

根据定位波形图,确定第一语音波形图中待处理的波形片段作为目标波形片段包括:

确定第一语音波形图中与第一个定位波形图匹配的波形片段,作为第一波形片段;确定第一语音波形图中与第二个定位波形图匹配的波形片段,作为第二波形片段;

将第一波形片段和第二波形片段之间的波形片段,作为目标波形片段。

在一个实施例中,根据控制语音,确定目标语音信息中待处理的语音片段,作为目标语音片段包括:

将控制语音的内容转换为对应的控制文本,并根据预先构建的时间词库从控制文本中提取时间关键词;

根据时间关键词确定目标语音信息中的目标语音片段。

在一个实施例中,目标处理指令对应的处理方式至少包括:降噪处理、音量调节处理、马赛克处理、播放速度调节处理、和/或删除处理。

在一个实施例中,目标处理指令对应的处理方式为插入处理,信息处理模块6300还可以用于:

根据控制语音确定插入节点;

响应于重新录制语音的操作,采集新的语音信息;

根据插入节点,将新的语音信息插入到目标语音信息中,得到处理后的目标语音信息。

在一个实施例中,该处理装置6000还可以包括:

用于响应于语音信息的播放请求,播放处理后的目标语音信息的模块。

在一个实施例中,该用于响应于语音信息的播放请求,播放处理后的目标语音信息的模块还可以用于:

响应于播放请求,从处理后的目标语音信息中选取符合设定要求的语音片段,作为推荐语音片段;

播放推荐语音片段。

在一个实施例中,该处理装置还可以包括:

用于保存处理后的目标语音信息的模块。

在一个实施例中,该处理装置还可以包括:

用于响应于用户输入的撤回处理请求,将保存的处理后的目标语音信息替换为处理前的目标语音信息的模块。

本领域技术人员应当明白,可以通过各种方式来实现语音信息的处理装置6000。例如,可以通过指令配置处理器来实现语音信息的处理装置6000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现语音信息的处理装置6000。例如,可以将语音信息的处理装置6000固化到专用器件(例如ASIC)中。可以将语音信息的处理装置6000分成相互独立的单元,或者可以将它们合并在一起实现。语音信息的处理装置6000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中,语音信息的处理装置6000可以具有多种实现形式,例如,语音信息的处理装置6000可以是任何的提供网络访问服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。

<电子设备>

在本实施例中,还提供一种电子设备7000。该电子设备7000可以是图1所示的电子设备1000。

在一方面,该电子设备7000可以包括前述的语音信息的处理装置4000,用于实施本发明任意实施例的语音信息的处理方法。

在另一方面,如图7所示,电子设备7000还可以包括处理器7100和存储器7200,该存储器7200用于存储可执行的指令;该处理器7100用于根据指令的控制运行电子设备7000执行根据本发明任意实施例的语音信息的处理方法。

在本实施例中,该电子设备7000可以是智能音箱、耳机、手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机等设备。例如,电子设备7000可以是具有语音控制功能的电子产品。

<计算机可读存储介质>

在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本发明任意实施例的语音信息的处理方法。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

相关技术
  • 一种语音信息处理方法、装置及电子设备
  • 一种语音信息处理方法、装置及电子设备
技术分类

06120112197561