语音识别的方法、装置、终端设备及存储介质

文献发布时间：2024-07-23 01:35:21

技术领域

本申请涉及金融科技技术领域，尤其涉及一种语音识别的方法、装置、终端设备及存储介质。

背景技术

随着人工智能的发展，语音识别已经参与到到人们生活的各个方面。例如，语音识别结果可以用于在保险销售过程中，当业务员和客户在进行产品介绍时，可以获得客户对产品介绍的反馈信息，进而根据反馈信息向业务员推荐合适的话术，以提高产品的交易率，或者收集医生和患者交流的内容，进而将收集患者语言根据患者语言推荐相应的内容给医生，以使得医生能够快速的了解患者情况，及时诊断等等。

虽然目前语音识别在通用语音中已经达到很高的水平，但是，在对一些特定语境或者具有较为专业的专业术语行业中，如保险销售行业、医疗诊断服务等，在该领域中时进行语音识别时，识别的效果差强人意，往往无法识别出专业术语，现有技术中往往通过增量训练的方式对特定需求增加训练数据进行增量训练，该方法可以提升语音识别在该需求下的识别效果，但是该方法不够灵活而且需要人工标注大大增大了成本，因此，如何提高语音识别的灵活性以及降低开发成本是目前亟需解决的问题。

发明内容

本申请实施例的主要目的在于提供一种语音识别的方法、装置、终端设备以及存储介质，旨在解决现有语音识别技术中提高语音识别准确性时使用方法不够灵活，人工成本较高的问题。

第一方面，本申请实施例提供一种语音识别的方法，包括：

获得目标用户的第一热词词集以及目标用户的历史文本数据，其中，所述历史文本数据包括音频以及音频对应的文本数据；

根据所述语音识别的声学模型获得所述音频对应的声学信息，并根据所述声学信息获得所述文本数据对应的第一目标声学信息；

根据所述文本数据从所述第一热词词集中确定第二热词词集，并根据所述第一目标声学信息确定所述第二热词词集对应的热词映射表；

获得目标用户的目标音频，并根据所述语音识别的声学模型对所述目标音频进行识别获得第二目标声学信息；

根据所述热词映射表对所述第二目标声学信息进行识别获得第一目标文本和第三目标声学信息；

根据所述语音识别的语言模型对所述第三目标声学信息进行识别，获得第二目标文本；

将所述第一目标文本和所述第二目标文本进行融合获得第三目标文本，并将所述第三目标文本作为所述目标音频的语音识别结果。

第二方面，本申请实施例还提供一种语音识别的装置，包括：

数据获取模块，用于获得目标用户的第一热词词集以及目标用户的历史文本数据，其中，所述历史文本数据包括音频以及音频对应的文本数据；

数据处理模块，用于根据所述语音识别的声学模型获得所述音频对应的声学信息，并根据所述声学信息获得所述文本数据对应的第一目标声学信息；

数据生成模块，用于根据所述文本数据从所述第一热词词集中确定第二热词词集，并根据所述第一目标声学信息确定所述第二热词词集对应的热词映射表；

音频获取模块，用于获得目标用户的目标音频，并根据所述语音识别的声学模型对所述目标音频进行识别获得第二目标声学信息；

数据识别模块，用于根据所述热词映射表对所述第二目标声学信息进行识别获得第一目标文本和第三目标声学信息；

文本识别模块，用于根据所述语音识别的语言模型对所述第三目标声学信息进行识别，获得第二目标文本；

文本生成模块，用于将所述第一目标文本和所述第二目标文本进行融合获得第三目标文本，并将所述第三目标文本作为所述目标音频的语音识别结果。

第三方面，本申请实施例还提供一种终端设备，终端设备包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线，其中计算机程序被处理器执行时，实现如本申请说明书提供的任一项语音识别的方法的步骤。

第四方面，本申请实施例还提供一种存储介质，用于计算机可读存储，其特征在于，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书提供的任一项的语音识别的方法的步骤。

本申请实施例提供一种语音识别的方法、装置、终端设备及存储介质，其中，该方法通过获得目标用户的第一热词词集以及目标用户的历史文本数据，其中，历史文本数据包括音频以及音频对应的文本数据；根据语音识别的声学模型获得音频对应的声学信息，并根据声学信息获得文本数据对应的第一目标声学信息；根据文本数据从第一热词词集中确定第二热词词集，并根据第一目标声学信息确定第二热词词集对应的热词映射表；获得目标用户的目标音频，并根据语音识别的声学模型对目标音频进行识别获得第二目标声学信息；根据热词映射表对第二目标声学信息进行识别获得第一目标文本和第三目标声学信息；根据语音识别的语言模型对第三目标声学信息进行识别，获得第二目标文本；将第一目标文本和第二目标文本进行融合获得第三目标文本，并将第三目标文本作为所述目标音频的语音识别结果。从而可以利用目标用户的第一热词词集和历史文本数据获得热词映射表，通过热词映射表对音频识别进行辅助识别提高了语音识别的准确性，并通过对第一热词词集的灵活设置为提高语音识别的灵活性提供了支撑，从而可以在保险推荐领域中能够精准的识别出业务员和客户之间的沟通语句，进而为业务员推荐出更加有效的话术，提高了产品的交易量，此外，本申请有效的解决了现有语音识别技术中提高语音识别准确性时使用方法不够灵活，人工成本较高的问题。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音识别的方法的流程示意图；

图2是图1中步骤S3的一种具体实施方式对应的步骤流程图；

图3是图1中步骤S5的一种具体实施方式对应的步骤流程图；

图4为本申请实施例提供的一种语音识别装置的模块结构示意图；

图5为本申请实施例提供的一种终端设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

本申请实施例提供一种语音识别的方法、装置、终端设备以及存储介质。其中，该语音识别的方法可应用于终端设备，该终端设备可以为手机、平板电脑、笔记本电脑、个人数字助理、穿戴式设备。

其中，本申请实施例提供一种语音识别的方法、装置、终端设备及存储介质，其中，该方法通过获得目标用户的第一热词词集以及目标用户的历史文本数据，其中，历史文本数据包括音频以及音频对应的文本数据；根据语音识别的声学模型获得音频对应的声学信息，并根据声学信息获得文本数据对应的第一目标声学信息；根据文本数据从第一热词词集中确定第二热词词集，并根据第一目标声学信息确定第二热词词集对应的热词映射表；获得目标用户的目标音频，并根据语音识别的声学模型对目标音频进行识别获得第二目标声学信息；根据热词映射表对第二目标声学信息进行识别获得第一目标文本和第三目标声学信息；根据语音识别的语言模型对第三目标声学信息进行识别，获得第二目标文本；将第一目标文本和第二目标文本进行融合获得第三目标文本，并将第三目标文本作为所述目标音频的语音识别结果。从而可以利用目标用户的第一热词词集和历史文本数据获得热词映射表，通过热词映射表对音频识别进行辅助识别提高了语音识别的准确性，并通过对第一热词词集的灵活设置为提高语音识别的灵活性提供了支撑，从而可以在保险推荐领域中能够精准的识别出业务员和客户之间的沟通语句，进而为业务员推荐出更加有效的话术，提高了产品的交易量，此外，本申请有效的解决了现有语音识别技术中提高语音识别准确性时使用方法不够灵活，人工成本较高的问题。

下面结合附图，对本申请的一些实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

随着自然语言处理在各大领域的应用落地，越来越多的业务场景离不开语音识别技术，常见的业务场景有音视频会议、企业客服人机对话、录音笔功能、教培机构的口语测评、医疗系统电子病例录入、金融行业语音导航、金融行业业务办理等等，但是语音识别的训练是一个长久的工作并不能一蹴而就，针对不同的业务获得不同的语音识别模型虽然能获得较为满意的语音识别效果，但是由于语音识别模型训练时间较长的问题，导致长时间不能上线，严重影响业务效率，因此，亟需一种能够灵活设置的语音识别方法，使得语音识别在保证语音识别准确率的同时，能快速响应相应的业务需求。

请参照图1，图1为本申请实施例提供的一种语音识别的方法的流程示意图。

如图1所示，该语音识别的方法包括步骤S1至步骤S7。

步骤S1：获得目标用户的第一热词词集以及目标用户的历史文本数据，其中，历史文本数据包括音频以及音频对应的文本数据。

示例性地，不同的目标用户面对着不同的业务场景，因此，不同的目标用户在相应的业务场景中的需求不同，因此，可以获取目标用户对应的业务场景下的第一热词词集以及历史文本数据，历史文本数据可用于表征目标用户在相应的业务场景下的业务数据。

例如，目标用户A和目标用户B分别销售不同的保险类型为保险A和保险B，若保险A和保险B应对的保险类型不同，则目标用户A和目标用户B在相应的业务场景下的热词不同，因此，目标用户A和目标用户B可以根据自身的需求进行设置，此外，若目标用户A的工作场景发生变化则可以根据自身需求重新设置第一热词词集。故而，第一热词词集可以根据目标用户自身的场景需求进行灵活设置。

在一些实施方式中，获得目标用户的第一热词词集，包括：根据目标用户进行热词定制获得第一热词词集或者根据目标终端进行设置获得第一热词词集。

示例性地，目标用户根据当前的业务需求进行热词设置获得第一热词词集，或者根据利用与目标用户对应的用户终端通信连接的目标终端进行统一设置获得第一热词词集。

例如，第一热词词集中的热词设置可以是目标用户根据用户角色定制设置，也可以是在业务系统对应的中台中进行统一设置进而限制至与业务系统相关联的目标用户中，比如若业务系统是针对整个寿险双录业务系统需要设置十个热词，则可以在中台统一设置，进而将中台设置的第一热词词集作为目标用户的热词词集。例如，若目标用户是为某个业务系统中的客户，则可以使客户在对应的客户账号中进行热词设置，进而实现客户在该客户账号下进行定制化设置，等等。

步骤S2：根据语音识别的声学模型获得音频对应的声学信息，并根据声学信息获得文本数据对应的第一目标声学信息。

示例性地，语音识别模型包括声学模型和语言模型，其中，声学模型就是将每个发音与基本的发音单元进行对应，语言模型是针对某种语言建立的概率模型,目的是针对声学模型获得声学信息建立一个能够描述给定词序列在语言中的出现的概率的分布。

示例性地，在获得历史文本数据后，对历史文本数据中的音频利用声学模型进行识别获得声学信息，进而将声学信息和音频对应的文本数据进行对应获得文本数据与声学信息对应的第一目标声学信息。

例如，历史文本数据中包括音频1以及音频1对应的文本数据1，若音频1经过声学模型后得到的声学信息为：“gukehenganxieningoumaibaoxiana”，音频1对应的文本数据1为“顾客很感谢您购买保险A”，则第一目标声学信息为：{gu:顾,ke:客,hen:很,gan:感,xie:谢,nin:您,gou:购,mai:买,bao:保,xian:险,a:A},或者，当语速过快时，则在获得声学信息时可能会出现吞音的情况，则声学模型在识别音频1获得的声学信息为：“gukehnganxieningomaiboxiana”，则第一目标声学信息为：{guke:顾客,hnganxie:很感谢,nin:您,gomai:购买,boxiana:保险A}。

步骤S3：根据文本数据从第一热词词集中确定第二热词词集，并根据第一目标声学信息确定第二热词词集对应的热词映射表。

示例性地，在获取第一热词词集之后，从文本数据中进行筛选，将第一热词词集中未出现在文本数据中的词语进行删除，进而获得第二热词词集；或者从文本数据中进行进一步挑选获得新的热词，添加至第一热词词集中获得更新后的第二热词词集。

例如，将文本数据进行分词、去停用词等操作之后，获得文本数据中的关键词，进而将关键词添加至第一热词词集中获得第二热词词集。

示例性地，在获得第二热词词集之后，从第一目标声学信息中确定第二热词词集中每个热词对应的声学样式，进而形成热词映射表。

请参阅图2，在一些实施方式中，步骤S3包括步骤S31至步骤S33。

步骤S31、根据所述第一热词词集从所述文本数据中确定所述第一热词词集中每个第一热词的词频。

示例性地，获取第一热词词集中每个第一热词在文本数据中的词频，进而通过第一热词在文本数据中的词频进行筛选。

例如，在保险A的业务场景中涉及看病险，获取的目标用户的第一热词词集为[意外、身故、赔付、理赔、终身、生病]，则分别计算第一热词词集中的每一个第一热词如意外，在文本数据中的词频。

步骤S32、根据所述词频和预设阈值从所述第一热词词集中筛选获得所述第二热词词集。

示例性地，在获取第一热词词集中每个第一热词对应的词频后，将词频与预设阈值进行比较，当词频低于预设阈值时，该词频对应的第一热词从第一热词词集中进行剔除，进而获得第二热词词集。

步骤S33、根据所述第二热词词集从所述第一目标声学信息中确定所述第二热词词集中每个第二热词对应的热词声学信息，进而根据所述热词声学信息和所述第二热词确定所述热词映射表。

示例性地，将第二热词词集中每个第二热词从第一目标声学信息中确定对应的热词声学信息，进而将第二热词和热词声学信息进行对应进而建立热词映射表。

例如，第二热词为保险业务场景中的意外身故，则当第一目标声学信息中为{yiwaishengu:意外身故，yiwaisengu：意外身故，yiwaisngu：意外身故，guke：顾客，xiansheng：先生，nueshi：女士，nvshi：女士}，则当第二热词为意外身故时，则可以获得对应的热词声学信息为[yiwaishengu、yiwaisengu、yiwaisngu],进而根据第二热词和第二热词对应的热词声学信息建立的热词映射表为{意外身故:[yiwaishengu、yiwaisengu、yiwaisngu]}。

步骤S4：获得目标用户的目标音频，并根据所述语音识别的声学模型对所述目标音频进行识别获得第二目标声学信息。

示例性地，获取目标用户在真实业务场景下的目标音频，进而利用声学模型对该目标音频进行识别获得第二目标声学信息。其中，在获取目标音频时会对用户进行声明通话或者视频时有录音，进而使得在采集个人信息、使用等是符合相关法律规定的，经过相关各方授权的。

例如，目标用户当前没有其他音频或者视频流正在采集，可以选择启动业务场景中相应的录音功能进行音频流的采集，例如业务场景中适配的麦克风和蓝牙耳机等多种输入进而获得相应的目标视频。

在一些实施方式中，获得目标用户的目标音频，包括：当目标用户使用视频通话时，将所述视频通话的语音信息从视频信息中进行剥离并转换为语音识别支持的音频格式，从而获得目标用户的目标音频。

示例性地，目标用户正在进行视频通话，为了防止硬件资源抢夺，可以将视频通话的音视频流里剥离出音频流转成语音识别支持的音频格式，如pcm、aac等，进而获得目标用户的目标音频。

步骤S5：根据所述热词映射表对所述第二目标声学信息进行识别获得第一目标文本和第三目标声学信息。

示例性地，根据热词映射表从第二目标声学信息中进行查询获得第一目标文本以及将第一目标文本对应的声学信息从第二目标声学信息中进行剔除或者标注获得的第三目标声学信息。

例如，在保险业务场景中，目标音频进行声学模型识别后获得的第二目标声学信息为baoxinazaiyiwaisenguhouhuiyicixingpeifusisiwan，则经过热词映射表后可以得到第一目标文本为意外身故，对应的声学信息为yiwaisengu，则可以获得的第三目标声学信息为baoxinazai和houhuiyicixingpeifusisiwan。

请参阅图3，在一些实施方式中，步骤S5包括步骤S51至步骤S52。

步骤S51、根据热词声学信息从所述第二目标声学信息中进行识别获得目标热词声学信息，进而根据所述目标热词声学信息从所述热词映射表中确定目标热词。

步骤S52、根据所述目标热词确定第一目标文本，并将所述目标热词声学信息从所述第二目标声学信息中进行标识，获得所述第三目标声学信息。

示例性地，从第二目标声学信息中确定目标热词声学信息，进而根据热词映射表确定目标热词声学信息对应地目标热词，进而将目标热词声学信息从第二目标声学信息中进行标识，以得到第三目标声学信息。

例如，在保险业务场景中，目标音频进行声学模型识别后获得的第二目标声学信息为baoxinazaiyiwaisenguhouhuiyicixingpeifusisiwan，则经过热词映射表后可以得到第一目标文本为意外身故，对应的声学信息为yiwaisengu，为保证后续语言模型识别的精度将yiwaisengu还保留，但是新增一个信息用于标注yiwaisengu表示意外身故，则第三目标声学信息可以为baoxinazaiyiwaisenguhou huiyicixingpeifusisiwan，并且第10位到第20位表示意外身故。

步骤S6：根据语音识别的语言模型对第三目标声学信息进行识别，获得第二目标文本。

示例性地，在获得第三目标声学信息之后，利用语言模型对第三目标声学信息进行识别，进而获得识别后的第二目标文本。

例如，利用N-Gram实现对第三目标声学信息的识别，该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。根据上述内容可知，在第三目标声学信息中可以得到在一段位置中对应的文本信息是已知的，如第三目标声学信息可以为baoxinazaiyiwaisenguhouhuiyicixingpeifu sisiwan，并且第10位到第20位表示意外身故，则在根据N-Gram进行语言识别时可以利用该信息来反向推理剩余声学信息对应的文本，进而提高语音识别的质量。

例如，第三目标声学信息中baoxina，由于语速过快等问题出现在声学模型进行识别时出现丢字的问题，本应识别为baoxiana，现识别为baoxina，则可以根据第10位到第20位表示意外身故，由于意外身故在保险A中出现的频率较高，则在语言模型进行识别时由于意外身故和保险A同时出现的概率较高，进而弥补了吞字的问题，提高了语音识别的准确率，进而获得识别后的第二目标文本。

步骤S7：将第一目标文本和第二目标文本进行融合获得第三目标文本，并将第三目标文本作为目标音频的语音识别结果。

示例性地，将第一目标文本和第二目标文本进行融合获得目标音频对应的语音识别结果。

例如，在语音模型进行识别时，可能会获得多个第二目标文本，并且获得每个第二目标文本对应的概率，可以将概率最大的第二目标文本作为第三目标文本，也可以结合第一目标文本从多个第二目标文本中进行筛选，当第一目标文本存在于第二目标文本时，则将第二目标文本作为候选目标文本，进而从候选目标文本中筛选概率最大的作为第三目标文本，进而将第三目标文本作为语音识别结果。

在一些实施方式中，将所述第一目标文本和所述第二目标文本进行融合获得第三目标文本，包括：将所述第一目标文本和所述第二目标文本根据所述第二目标声学信息中的声学顺序进行文本融合，进而获得所述第三目标文本。

示例性地，第一目标文本和第二目标文本分别对应不同的声学信息，进而根据目标音频对应的声学信息的顺序，将第一目标文本和第二目标文本进行填充融合，进而获得融合后目标音频对应的第三目标文本。

例如，声学信息为：baoxinazaiyiwaisenguhouhuiyicixingpeifusisiwan，其中，第一目标文本为意外身故，对应的声学信息为yiwaisengu，赔付四十万，对应的声学信息为peifusisiwan，第二目标文本为：保险A在对应的声学信息为baoxinazai、会一次性对应的声学信息为huiyicixing，则根据全部声学信息中的顺序，将第一目标文本和第二目标文本依次进行填充可以获得第三目标文本为保险A在意外身故后会一次性赔付四十万。

在一些实施方式中，获得第三目标文本之后，方法还包括：根据所述文本数据获得所述第二热词词集的相邻关键词，并根据所述相邻关键词确定所述第二热词词集对应的概率信息；根据所述概率信息修正所述第三目标文本确定修正后的第四目标文本。

示例性地，根据文本数据获得第二热词词集中每个热词对应的相邻关键词，进而在获得第三目标文本之后，当第三目标文本中未出现第二热词词集中的热词时，可以根据第二热词词集中每个热词对应的相邻关键词进行计算每个热词词集出现的概率，若该概率满足预设阈值时，则可以将第三目标文本中预设位置对应的词语更新至相应热词，进而获得第四目标文本。

例如，第二热词词集中包括意外身故，根据文本数据进行分析后发现意外身故的相邻关键词包括保险A、四十万、一次性、信用卡，因此，当目标音频识别得到的第三目标文本为保险A的保险是在当发生意外出现一万身故时会一次性赔付四十万，此时在第三目标文本中并未出现热词意外身故，但是意外身故相邻的关键词保险A、四十万、一次性均出现，而且此时目标音频的场景也为保险A，则可知意外身故出现的概率为3/4＝75％，若设置预设阈值为70％时，则此时可以将与意外身故的相似度最为接近的位置替换为意外身故，其中计算相似度的方法可以利用余弦相似度。进而获得待替换的位置信息，从而获得第四目标文本为保险A的保险是在当发生意外出现意外身故时会一次性赔付四十万。

请参阅图4，图4为本申请实施例提供的一种语音识别的装置200，该语音识别的装置200包括：数据获取模块201、数据处理模块202、数据生成模块203、音频获取模块204、数据识别模块205、文本识别模块206、文本生成模块207，其中，数据获取模块201，用于获得目标用户的第一热词词集以及目标用户的历史文本数据，其中，所述历史文本数据包括音频以及音频对应的文本数据；数据处理模块202，用于根据所述语音识别的声学模型获得所述音频对应的声学信息，并根据所述声学信息获得所述文本数据对应的第一目标声学信息；数据生成模块203，用于根据所述文本数据从所述第一热词词集中确定第二热词词集，并根据所述第一目标声学信息确定所述第二热词词集对应的热词映射表；音频获取模块204，用于获得目标用户的目标音频，并根据所述语音识别的声学模型对所述目标音频进行识别获得第二目标声学信息；数据识别模块205，用于根据所述热词映射表对所述第二目标声学信息进行识别获得第一目标文本和第三目标声学信息；文本识别模块206，用于根据所述语音识别的语言模型对所述第三目标声学信息进行识别，获得第二目标文本；文本生成模块207，用于将所述第一目标文本和所述第二目标文本进行融合获得第三目标文本，并将所述第三目标文本作为所述目标音频的语音识别结果。

在一些实施方式中，数据获取模块201在获得目标用户的第一热词词集的过程中，执行：根据目标用户进行热词定制获得第一热词词集或者根据目标终端进行设置获得第一热词词集。

在一些实施方式中，数据生成模块203在所述根据所述文本数据从所述第一热词词集中确定第二热词词集，并根据所述第一目标声学信息确定所述第二热词词集对应的热词映射表的过程中，执行：

根据所述第一热词词集从所述文本数据中确定所述第一热词词集中每个第一热词的词频；

根据所述词频和预设阈值从所述第一热词词集中筛选获得所述第二热词词集；

根据所述第二热词词集从所述第一目标声学信息中确定所述第二热词词集中每个第二热词对应的热词声学信息，进而根据所述热词声学信息和所述第二热词确定所述热词映射表。

在一些实施方式中，数据识别模块205在所述根据所述热词映射表对所述第二目标声学信息进行识别获得第一目标文本和第三目标声学信息的过程中，执行：

根据所述热词声学信息从所述第二目标声学信息中进行识别获得目标热词声学信息，进而根据所述目标热词声学信息从所述热词映射表中确定目标热词；

根据所述目标热词确定第一目标文本，并将所述目标热词声学信息从所述第二目标声学信息中进行标识，获得所述第三目标声学信息。

在一些实施方式中，文本生成模块207在所述将所述第一目标文本和所述第二目标文本进行融合获得第三目标文本的过程中，执行：

将所述第一目标文本和所述第二目标文本根据所述第二目标声学信息中的声学顺序进行文本融合，进而获得所述第三目标文本。

在一些实施方式中，音频获取模块204在所述获得目标用户的目标音频的过程中，执行：

当目标用户使用视频通话时，将所述视频通话的语音信息从视频信息中进行剥离并转换为语音识别支持的音频格式，从而获得目标用户的目标音频。

在一些实施方式中，文本生成模块207在获得第三目标文本之后的过程中，还执行：

根据所述文本数据获得所述第二热词词集的相邻关键词，并根据所述相邻关键词确定所述第二热词词集对应的概率信息；

根据所述概率信息修正所述第三目标文本确定修正后的第四目标文本。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述语音识别的方法实施例中的对应过程，在此不再赘述。

请参阅图5，图5为本申请实施例提供的终端设备的结构示意性框图。

如图5所示，终端设备300包括处理器301和存储器302，处理器301和存储器302通过总线303连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301用于提供计算和控制能力，支撑整个服务器的运行。处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请实施例方案相关的部分结构的框图，并不构成对本申请实施例方案所应用于其上的终端设备的限定，具体的终端设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器301用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现本申请任一实施例提供的语音识别的方法。

在一些实施方式中，处理器301用于运行存储在存储器中的计算机程序，应用于终端设备，并在执行计算机程序时实现如下步骤：

获得目标用户的第一热词词集以及目标用户的历史文本数据，其中，所述历史文本数据包括音频以及音频对应的文本数据；

根据所述语音识别的声学模型获得所述音频对应的声学信息，并根据所述声学信息获得所述文本数据对应的第一目标声学信息；

根据所述文本数据从所述第一热词词集中确定第二热词词集，并根据所述第一目标声学信息确定所述第二热词词集对应的热词映射表；

获得目标用户的目标音频，并根据所述语音识别的声学模型对所述目标音频进行识别获得第二目标声学信息；

根据所述热词映射表对所述第二目标声学信息进行识别获得第一目标文本和第三目标声学信息；

根据所述语音识别的语言模型对所述第三目标声学信息进行识别，获得第二目标文本；

将所述第一目标文本和所述第二目标文本进行融合获得第三目标文本，并将所述第三目标文本作为所述目标音频的语音识别结果。

在一些实施方式中，处理器301在获得目标用户的第一热词词集的过程中，执行：根据目标用户进行热词定制获得第一热词词集或者根据目标终端进行设置获得第一热词词集。

在一些实施方式中，处理器301在根据所述文本数据从所述第一热词词集中确定第二热词词集，并根据所述第一目标声学信息确定所述第二热词词集对应的热词映射表过程中，执行：

根据所述第一热词词集从所述文本数据中确定所述第一热词词集中每个第一热词的词频；

根据所述词频和预设阈值从所述第一热词词集中筛选获得所述第二热词词集；

在一些实施方式中，处理器301在根据所述热词映射表对所述第二目标声学信息进行识别获得第一目标文本和第三目标声学信息过程中，执行：

根据所述目标热词确定第一目标文本，并将所述目标热词声学信息从所述第二目标声学信息中进行标识，获得所述第三目标声学信息。

在一些实施方式中，处理器301在将所述第一目标文本和所述第二目标文本进行融合获得第三目标文本过程中，执行：

将所述第一目标文本和所述第二目标文本根据所述第二目标声学信息中的声学顺序进行文本融合，进而获得所述第三目标文本。

在一些实施方式中，处理器301在获得目标用户的目标音频过程中，执行：

当目标用户使用视频通话时，将所述视频通话的语音信息从视频信息中进行剥离并转换为语音识别支持的音频格式，从而获得目标用户的目标音频。

在一些实施方式中，处理器301在获得第三目标文本之后的过程中，还执行：

根据所述文本数据获得所述第二热词词集的相邻关键词，并根据所述相邻关键词确定所述第二热词词集对应的概率信息；

根据所述概率信息修正所述第三目标文本确定修正后的第四目标文本。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端设备的具体工作过程，可以参考前述语音识别的方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书实施例提供的任一项语音识别的方法的步骤。

其中，存储介质可以是前述实施例的终端设备的内部存储单元，例如终端设备内存。存储介质也可以是终端设备的外部存储设备，例如终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：平安科技(深圳)有限公司;

上一篇：一种意图识别模型的确定方法、装置、设备及介质
下一篇：智能设备语音控制方法、智能设备及可读介质