掌桥专利:专业的专利平台
掌桥专利
首页

一种声纹鉴定语音重组方法和系统

文献发布时间:2023-06-19 11:21:00


一种声纹鉴定语音重组方法和系统

技术领域

本发明涉及语音信号处理、语音识别技术、语音同一性鉴定技术,尤其涉及一种声纹鉴定语音重组方法和系统。

背景技术

语音识别技术研究具有悠久的历史并形成了丰富的研究技术成果,包括语言识别、声纹识别、语音分离等技术;其中,语言识别技术主要是通过结合语音声学模型和语言模型实现语音到文字的转换;声纹识别技术主要是判断需检语音是否系特定人员所说或者需检语音与样本语音的相似性程度;语音分离技术类似于多分类问题,主要指把目标说话人语音从其它不相关的录音信号中分离提取。此外,语音同一性鉴定,又称声纹鉴定,指通过比较、分析,对声像资料记载的语音的同一性问题所进行的科学判断。当前,法庭科学和司法鉴定领域的声纹鉴定技术更多的依赖于鉴定专家的听觉检验和频谱检验的专家检验方法,语音识别技术中的自动声纹识别技术由于技术发展阶段限制,其识别准确性尚无法满足法庭科学领域中对技术和证据的准确性要求,较难替代声纹鉴定的专家检验方法。然而,语音识别技术的长足发展,相关的技术方法可以有效应用于声纹鉴定领域中,实现声纹鉴定的人工智能技术赋能。

发明内容

针对法庭科学和司法鉴定等领域对语音同一性鉴定新技术新方法的需求,本发明提供一种声纹鉴定语音重组方法和系统,以解决现有的声纹鉴定专家听觉比较检验和频谱比较检验方法中对语音进行重组操作存在的纯手工检验实施、工作量巨大和效率低下的问题,通过语音识别等人工智能技术辅助声纹鉴定中的语音重组,提高声纹鉴定效率。

本发明是通过如下技术方案实现的:

一种声纹鉴定语音重组方法,包括如下步骤:

步骤a、通过语音分离技术中的说话人分离方法将检材录音中的目标语音和样本录音中的目标语音分别进行提取和合并,形成检材语音和样本语音;

步骤b、通过语音识别技术中的语音转写方法将所述的检材语音和所述的样本语音分别转换成检材语音文本和样本语音文本;

步骤c、将所述的检材语音文本逐字在所述的检材语音中进行起止位置点定位和文本标记,同时,将所述的样本语音文本逐字在所述的样本语音中进行起止位置点定位和文本标记,得到检材语音文本和样本语音文本中的各字的起止位置点定位和文本标记信息;

步骤d、对所述的检材语音文本和所述的样本语音文本中的文本对象进行统计分析,并对所述的检材语音文本和所述的样本语音文本间的相同文本对象进行统计分析,得到统计分析结果;

步骤e、依据所述统计分析结果,对所述的检材语音和所述的样本语音根据选定的文本对象内容、文本对象排列顺序和文本对象排列方法进行语音重组合成。

进一步地,所述文本对象包括:字、多字词、短语和句子。

进一步地,所述统计分析的内容包括:文本对象提取、文本对象编号、文本对象字数、文本对象、文本对象出现位置和相同文本对象的文本对象编号。

进一步地,所述选定的文本对象内容包括:检材语音文本对象中的字、多字词、短语、句子对象中的至少一个;或者样本语音文本对象中的字、多字词、短语、句子对象中的至少一个;或者检材语音文本对象和样本语音文本对象集合中对应的字、多字词、短语、句子对象中的至少一个。

进一步地,所述文本对象排列顺序包括:文本对象在文本中的出现顺序;文本对象中句子、短语、多字词、字对象间的排列组合顺序;检材语音文本对象和样本语音文本对象间的先后排列顺序。

进一步地,所述文本对象排列方法包括:选择前至少一项或全部项的相同的文本对象合并排列;检材语音文本对象和样本语音文本对象内单独排列,然后再合并排列;仅相同的检材语音文本对象与样本语音文本对象交叉组合排列;检材语音文本对象与样本语音文本对象交叉组合排列。

一种声纹鉴定语音重组系统,包括:

语音提取模块,用于通过语音分离技术中的说话人分离方法将检材录音中的目标语音和样本录音中的目标语音分别进行提取和合并,形成检材语音和样本语音;

语音转写模块,用于通过语音识别技术中的语音转写方法将所述的检材语音和所述的样本语音分别转换成检材语音文本和样本语音文本;

文本语音定位模块,用于将所述的检材语音文本逐字在所述的检材语音中进行起止位置点定位和文本标记,同时,将所述的样本语音文本逐字在所述的样本语音中进行起止位置点定位和文本标记,得到检材语音文本和样本语音文本中的各字的起止位置点定位和文本标记信息;

文本对象统计模块,用于对所述的检材语音文本和所述的样本语音文本中的文本对象进行统计分析,并对所述的检材语音文本和所述的样本语音文本间的相同文本对象进行统计分析,得到统计分析结果;

语音重组模块,用于依据所述统计分析结果,对所述的检材语音和所述的样本语音根据选定的文本对象内容、文本对象排列顺序和文本对象排列方法进行语音重组合成。

进一步地,所述文本对象包括:字、多字词、短语和句子。

进一步地,所述统计分析的内容包括:文本对象提取、文本对象编号、文本对象字数、文本对象、文本对象出现位置和相同文本对象的文本对象编号。

进一步地,所述选定的文本对象内容包括:检材语音文本对象中的字、多字词、短语、句子对象中的至少一个;或者样本语音文本对象中的字、多字词、短语、句子对象中的至少一个;或者检材语音文本对象和样本语音文本对象集合中对应的字、多字词、短语、句子对象中的至少一个。

进一步地,所述文本对象排列顺序包括:文本对象在文本中的出现顺序;文本对象中句子、短语、多字词、字对象间的排列组合顺序;检材语音文本对象和样本语音文本对象间的先后排列顺序。

进一步地,所述文本对象排列方法包括:选择前至少一项或全部项的相同的文本对象合并排列;检材语音文本对象和样本语音文本对象内单独排列,然后再合并排列;仅相同的检材语音文本对象与样本语音文本对象交叉组合排列;检材语音文本对象与样本语音文本对象交叉组合排列。

与现有技术相比,本发明提供的一种声纹鉴定语音重组方法和系统,通过语音识别技术中的语音分离技术、语言识别技术辅助实现检材语音和样本语音的提取和语音文本转换,并通过语音文本对象的统计分析和重排列,实现检材语音和样本语音根据语音文本对象进行语音自动重组,最终,为声纹鉴定语音重组中的听觉比较检验和频谱比较检验提供关键检验语音数据和重要内容。

附图说明

图1是本发明一种声纹鉴定语音重组方法的流程示意图。

图2是本发明一种声纹鉴定语音重组系统的组成原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步详细说明。

本实施例提供了一种声纹鉴定语音重组方法。整个工作流程如图1所示,包括如下步骤:

步骤a、通过语音分离技术中的说话人分离方法将检材录音中的目标语音和样本录音中的目标语音分别进行提取和合并,形成检材语音和样本语音。本实施例中检材录音和样本录音均为两人间的谈话录音,通过语音分离技术获取的检材语音和样本语音时长分别为8.58秒和7.31秒,采样率均为44100HZ,位深度32位。

步骤b、通过语音识别技术中的语音转写方法将所述的检材语音和所述的样本语音分别转换成检材语音文本和样本语音文本。本实施例中,检材语音识别的文本为“本发明是一种声纹专家鉴定方法和系统,可以有效提高声纹专家鉴定效能。”样本录音识别的文本为“通过结合语音识别技术,可以有效辅助声纹专家鉴定实施效能。”

步骤c、将所述的检材语音文本逐字在所述的检材语音中进行起止位置点定位和文本标记,同时,将所述的样本语音文本逐字在所述的样本语音中进行起止位置点定位和文本标记,得到检材语音文本和样本语音文本中的各字的起止位置点定位和文本标记信息。例如,本实施例中,检材语音文本中“本”、“发”、“明”、“是”字起止位置点分别为“0.00-0.43秒”、“0.49-0.69秒”、“0.69-1.20秒”、“1.23-1.46秒”,检材语音文本中其余字以及样本语音文本中字的起止位置点定位信息类似。在计算机程序实施中,语音信号通常是以一维向量形式存储,则起止位置点信息可以为向量元素的起止位置编号。

步骤d、对所述的检材语音文本和所述的样本语音文本中的文本对象进行统计分析,并对所述的检材语音文本和所述的样本语音文本间的相同文本对象进行统计分析,得到统计分析结果。本实施例中,检材语音文本对象的统计分析中文本对象提取结果包括31个字“本”、“发”、“明”、“是”、“一”、“种”、“声”、“纹”、“专”、“家”、“鉴”、“定”、“方”、“法”、“和”、“系”、“统”、“可”、“以”、“有”、“效”、“提”、“高”、“声”、“纹”、“专”、“家”、“鉴”、“定”、“效”、“能”,14个双字词“发明”、“一种”、“声纹”、“专家”、“鉴定”、“方法”、“系统”、“可以”、“有效”、“提高”、“声纹”、“专家”、“鉴定”、“效能”,6个短语“本发明”、“是一种”、“声纹专家鉴定”、“方法和系统”、“可以有效提高”、“声纹专家鉴定”,2个句子“本发明是一种声纹专家鉴定方法和系统”、“可以有效提高声纹专家鉴定效能”。又例如,样本语音文本对象的统计分析结果中包括26个字“通”、“过”、“结”、“合”、“语”、“音”、“识”、“别”、“技”、“术”、“可”、“以”、“有”、“效”、“辅”、“助”、“声”、“纹”、“专”、“家”、“鉴”、“定”、“实”、“施”、“效”、“能”,13个双字词“通过”、“结合”、“语音”、“识别”、“技术”、“可以”、“有效”、“辅助”、“声纹”、“专家”、“鉴定”、“实施”、“效能”,5个短语“通过结合”、“语音识别技术”、“可以有效辅助”、“声纹专家鉴定”、“实施效能”,2个句子“通过结合语音识别技术”、“可以有效辅助声纹专家鉴定实施效能”,其中,文本对象中多字词、短语对象的拆分方法可通过词汇表等公用数据库检索或者自然语言处理研究中的成熟的句子分词(比如中文分词、英文分词)和短语识别/抽取方法实现。此外,检材语音文本对象中提取的“本”字的其余统计分析的内容包括:(1)文本对象编号:111,其中第一位“1”表示该文本对象来源的语音文本文件编号,第二位“1”表示文本对象类别(1表示字,2表示词,3表示短语,4表示句子),第三位“1”表示该文本对象在所有该类别文本对象中的序号编号,每一个文本对象编号具有唯一性;(2)文本对象字数:1;(3)文本对象:本;(4)文本对象出现位置:在检材语音文本中出现位置序号为1,在检材语音中出现位置为“0.00-0.43秒”,其中,文本对象在语音中出现位置信息通过步骤c中起止位置点定位信息换算获取;(5)相同文本对象的文本对象编号:无。又例如,检材语音文本对象中提取的“声纹”双字词的其余统计分析的内容包括:(1)文本对象编号:123,其中第一位“1”表示该文本对象来源的语音文本文件编号,第二位“2”表示文本对象类别,第三位“3”表示该文本对象在所有该类别文本对象中的序号编号;(2)文本对象字数:2;(3)文本对象:声纹;(4)文本对象出现位置:在检材语音文本中出现位置序号为7,在检材语音中出现位置为“2.07-2.52秒”,这里多个字的文本对象位置仅记录其第一个字所在的文本对象字中的序号,在语音中出现的起止位置信息为第一个字的开始位置和最后一个字的结束位置;(5)相同文本对象的文本对象编号:与编号为1211的文本对象内容相同。又例如,样本语音文本对象中提取的“声纹”双字词的其余统计分析的内容包括:(1)文本对象编号:229,其中第一位“2”表示该文本对象来源的语音文本文件编号,第二位“2”表示文本对象类别,第三位“9”表示该文本对象在所有该类别文本对象中的序号编号;(2)文本对象字数:2;(3)文本对象:声纹;(4)文本对象出现位置:在样本语音文本中出现位置序号为17,在样本语音中出现位置为“4.71-5.03秒”;(5)相同文本对象的文本对象编号:无。所有统计分析的文本对象信息可以使用数据库或XML等可扩展标记语音方式予以组织和存储。

步骤e、依据所述统计分析结果,对所述的检材语音和所述的样本语音根据选定的文本对象内容、文本对象排列顺序和文本对象排列方法进行语音重组合成。本实施例中,选定的文本对象内容为检材语音和样本语音文本对象集合中的双字词,选定的文本对象排列顺序为按文本对象位置顺序排序,且检材语音文本在前、样本语音文本在后,选定的文本对象排列方法为选择前一项的相同的文本对象合并排列,即相同的文本对象仅列出第一项文本对象,且仅相同的检材语音文本对象与样本语音文本对象交叉组合排列,则重组的语音文本为“1声纹;2声纹;3专家;4专家;5鉴定;6鉴定;7可以;8可以;9有效;10有效;11效能;12效能”;为本说明书描述和区分方便,上述重组的语音文本中增加了数字编号,且不同语音文本对象间用分号分隔,具体内容说明如下:奇数编号的语音文本来源于检材语音文本对象,偶数编号的语音文本来源于样本语音文本对象;“1声纹”文本对象编号为“123”、在检材语音中出现位置为“2.07-2.52秒”,“2声纹”文本对象编号为“229”、在样本语音中出现位置为“4.71-5.03秒”,以此类推;依据重组的语音文本信息对检材语音和样本语音中的语音信号片段进行提取,并重组合成与“声纹;声纹;专家;专家;鉴定;鉴定;可以;可以;有效;有效;效能;效能”对应的重组语音,语音重组中不改变提取的检材语音和样本语音信号,但两语音片段过渡间可适当增加空白信号或无意义背景噪声信息,提高听觉分辨性和过渡效果。又例如,选定的文本对象内容为检材语音和样本语音文本对象集合中的句子,选定的文本对象排列顺序为按文本对象位置顺序排序,且检材语音文本在前、样本语音文本在后,选定的文本对象排列方法为选择前一项的相同的文本对象合并排列,且检材语音文本对象和样本语音文本对象内单独排列,然后再合并排列,则重组的语音文本结果为“1本发明是一种声纹专家鉴定方法和系统;2可以有效提高声纹专家鉴定效能;3通过结合语音识别技术;4可以有效辅助声纹专家鉴定实施效能”为本说明书描述和区分方便,上述重组的语音文本中增加了数字编号,具体内容说明如下:编号1和2的语音文本来源于检材语音文本对象,编号3和4的语音文本来源于样本语音文本对象;“1本发明是一种声纹专家鉴定方法和系统”文本对象编号为“141”、在检材语音中出现位置为“0.00-4.91秒”,“3通过结合语音识别技术”文本对象编号为“241”、在样本语音中出现位置为“0.00-2.74秒”,以此类推;依据重组的语音文本信息对检材语音和样本语音中的语音信号片段进行提取,并重组合成与重组的语音文本“本发明是一种声纹专家鉴定方法和系统;可以有效提高声纹专家鉴定效能;通过结合语音识别技术;可以有效辅助声纹专家鉴定实施效能”对应的重组语音。又例如,选定的文本对象内容为检材语音文本对象中的字和句子,则检材语音文本对象中的31个字和2个句子对象被选定。又例如,选定的文本对象内容为样本语音文本对象中的字、多字词、短语、句子,则样本语音文本对象中的26个字、13个双字词、5个短语和2个句子对象均被选定。又例如,选定的文本对象内容为检材语音文本对象中的字、双字词、短语和句子,文本对象排列顺序为文本对象在文本中出现顺序的逆序,且文本对象中按“句子-短语-多字词-字”的顺序排列,则重组的语音文本结果为“可以有效提高声纹专家鉴定效能;本发明是一种声纹专家鉴定方法和系统;声纹专家鉴定;可以有效提高;方法和系统;声纹专家鉴定;是一种;本发明;效能;鉴定;专家;声纹;提高;有效;可以;系统;方法;鉴定;专家;声纹;一种;发明;能;效;定;鉴;家;专;纹;声;高;提;效;有;以;可;统;系;和;法;方;定;鉴;家;专;纹;声;种;一;是;名;发;本”,为描述方便,上述文本对象间使用分号区分。又例如,选定的文本对象内容为检材语音文本对象和样本语音文本对象集合中的句子,文本对象在文本中的出现顺序为文本对象在文本中的出现顺序,且样本语音文本在前,检材语音文本在后,则重组的语音文本结果为“通过结合语音识别技术;可以有效辅助声纹专家鉴定实施效能;本发明是一种声纹专家鉴定方法和系统;可以有效提高声纹专家鉴定效能”,为描述方便,上述文本对象间使用分号区分。在文本对象排列顺序中,文本对象在文本中的出现顺序包括顺序和逆序;文本对象中句子、短语、多字词、字对象间的排列组合顺序指的是句子、短语、多字词、字对象间的相互出现优先顺序,比如,可以是“句子-短语-多字词-字”、“句子-多字词-短语-字”、“短语-句子-多字词-字”等组合顺序。在文本对象排列方法中,选择前至少一项或全部项的相同的文本对象指的是比如本实施例中,检材语音文本中相同的文本对象重复数量最多为2项,比如“声”字、“声纹”词等,则相同的文本对象的全部项最多为2,前一项包括相同文本对象的第一项,前两项包括相同文本对象的第一项和第二项,也即本实施例中的全部项。假设全部项最多为N,前M项包括第一项、第二项,...,直至第M项,其中M小于等于N。“检材语音文本对象和样本语音文本对象内单独排列,然后再合并排列”指的是检材语音文本对象依据选定的文本对象内容和文本对象排列方法进行重组,这里形成的文本标记为A,然后样本语音文本对象依据选定的文本对象内容和文本对象排列方法进行重组,形成的文本标记为B,最后把文本对象再合并,形成“AB”排列的重组文本。“检材语音文本对象与样本语音文本对象交叉组合排列”指的是比如检材语音文本为“ABC”、样本语音文本为“DEF”,则针对选定的文本对象内容为检材语音文本对象和样本语音文本对象集合中的字,且文本对象排列顺序为依据文本对象在文本中的出现顺序、检材语音文本对象在前、样本语音文本对象在后的情况,交叉组合排列的重组文本为“A;D;B;E;C;F”。

基于上述声纹鉴定语音重组方法,本发明另一实施例还提供了一种声纹鉴定语音重组系统。如图2所示,该声纹鉴定语音重组系统包括:

语音提取模块1,用于通过语音分离技术中的说话人分离方法将检材录音中的目标语音和样本录音中的目标语音分别进行提取和合并,形成检材语音和样本语音;

语音转写模块2,用于通过语音识别技术中的语音转写方法将所述的检材语音和所述的样本语音分别转换成检材语音文本和样本语音文本;

文本语音定位模块3,用于将所述的检材语音文本逐字在所述的检材语音中进行起止位置点定位和文本标记,同时,将所述的样本语音文本逐字在所述的样本语音中进行起止位置点定位和文本标记,得到检材语音文本和样本语音文本中的各字的起止位置点定位和文本标记信息;

文本对象统计模块4,用于对所述的检材语音文本和所述的样本语音文本中的文本对象进行统计分析,并对所述的检材语音文本和所述的样本语音文本间的相同文本对象进行统计分析,得到统计分析结果;

语音重组模块5,用于依据所述统计分析结果,对所述的检材语音和所述的样本语音根据选定的文本对象内容、文本对象排列顺序和文本对象排列方法进行语音重组合成。

其中,所述文本对象包括:字、多字词、短语和句子。所述统计分析的内容包括:文本对象提取、文本对象编号、文本对象字数、文本对象、文本对象出现位置和相同文本对象的文本对象编号。所述选定的文本对象内容包括:检材语音文本对象中的字、多字词、短语、句子对象中的至少一个;或者样本语音文本对象中的字、多字词、短语、句子对象中的至少一个;或者检材语音文本对象和样本语音文本对象集合中对应的字、多字词、短语、句子对象中的至少一个。所述文本对象排列顺序包括:文本对象在文本中的出现顺序;文本对象中句子、短语、多字词、字对象间的排列组合顺序;检材语音文本对象和样本语音文本对象间的先后排列顺序。所述文本对象排列方法包括:选择前至少一项或全部项的相同的文本对象合并排列;检材语音文本对象和样本语音文本对象内单独排列,然后再合并排列;仅相同的检材语音文本对象与样本语音文本对象交叉组合排列;检材语音文本对象与样本语音文本对象交叉组合排列。

该声纹鉴定语音重组系统中的各模块与上述声纹鉴定语音重组方法中的各步骤对应,用于执行上述声纹鉴定语音重组方法中的各步骤,各模块具体执行的动作可参见上述声纹鉴定语音重组方法中的各步骤。

上述实施例仅为优选实施例,并不用以限制本发明的保护范围,在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种声纹鉴定语音重组方法和系统
  • 一种基于声纹识别的声纹鉴定方法及系统
技术分类

06120112898409