掌桥专利:专业的专利平台
掌桥专利
首页

基于在线会议的沟通辅助方法、装置、设备及介质

文献发布时间:2023-06-19 10:21:15


基于在线会议的沟通辅助方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于在线会议的沟通辅助方法、装置、设备及介质。

背景技术

很多服务网点(如银行服务网点)的洽谈室内都设有多个电视大屏,可以由网点工作人员(如理财经理)呼叫其他人(如远程投资顾问)给客户提供更专业的服务(如投资服务),并进行多方的在线音视频通话。

而在目前的在线会议中,通常还存在如下弊端:

1.常规的音视频会议没有进行实时的音频转文字,对听力较弱的用户,及在接听方不方便开较大音量的场景下,体验不佳。

2.常规使用公网语音云进行实时语音转文字,语音流需要实时上传至公网服务器解析成文字再回传至本地,需要频繁地与第三方网络请求交互,不仅容易卡顿,且存在一定的风险泄露问题,频繁的网络请求也容易使字幕显示延迟。

发明内容

鉴于以上内容,有必要提供一种基于在线会议的沟通辅助方法、装置、设备及介质,能够首先最大限度地通过本地模型进行语音识别转文字,具有流畅性和安全性,进一步将识别的不够准确或者识别率不高的音频筛选出来进行二次识别,以保证语音识别的效果更佳,具有兜底的可靠性,以基于人工智能手段实现对在线会议的辅助沟通。

一种基于在线会议的沟通辅助方法,所述基于在线会议的沟通辅助方法包括:

响应于沟通辅助指令,根据所述沟通辅助指令确定目标语音采集设备,并启动所述目标语音采集设备采集语音;

对采集的语音进行预处理,得到第一待识别音频;

将所述第一待识别音频输入至本地语音识别模型,得到本地识别结果;

从所述本地识别结果中获取匹配度及识别率;

根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频,并从所述本地识别结果中获取所述已识别音频对应的文字识别结果作为第一文字序列;

连接目标服务器,将所述第二待识别音频输入至所述目标服务器中的目标语音识别模型,并从所述目标语音识别模型的输出中获取文字识别结果作为第二文字序列;

拼接所述第一文字序列及所述第二文字序列,得到目标文本;

实时显示所述目标文本。

根据本发明优选实施例,所述根据所述沟通辅助指令确定目标语音采集设备包括:

解析所述沟通辅助指令的方法体,得到所述沟通辅助指令所携带的信息;

获取预设标签;

根据所述预设标签构建正则表达式;

利用所述正则表达式在所述沟通辅助指令所携带的信息中进行遍历,并将遍历到的数据确定为会议标识;

与所述会议标识对应的目标会议室建立连接,并获取所述目标会议室的语音采集设备作为所述目标语音采集设备;及/或

当检测到有终端设备远程连接至所述目标会议室时,将所述终端设备的语音采集设备确定为所述目标语音采集设备。

根据本发明优选实施例,所述根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频包括:

从所述第一待识别音频中获取所述匹配度小于或者等于配置匹配度的文字识别结果对应的音频作为第一音频;

从所述第一待识别音频中获取所述识别率小于或者等于配置识别率的音频作为第二音频;

整合所述第一音频及所述第二音频,得到所述第二待识别音频;

从所述第一待识别音频中删除所述第二待识别音频,得到所述已识别音频。

根据本发明优选实施例,所述方法还包括:

定期检测所述目标服务器的资源占用率;

当检测到所述目标服务器的资源占用率小于或者等于配置资源占用率时,获取新增数据;

对所述新增数据进行词频采样,得到采样结果;

获取历史数据;

当所述采样结果与所述历史数据的相似度小于或者等于配置相似度时,利用所述新增数据对所述目标语音识别模型进行优化训练。

根据本发明优选实施例,所述方法还包括:

当满足更新条件时,连接至所述目标服务器,并获取所述目标服务器中存储的所有语音识别模型;

获取所述所有语音识别模型的更新时间,并根据所述更新时间识别最新的语音识别模型;

利用WebAssembly模式对识别到的语音识别模型进行转换,并将转换后的模型确定为所述本地语音识别模型;

部署所述本地语音识别模型。

根据本发明优选实施例,所述拼接所述第一文字序列及所述第二文字序列,得到目标文本包括:

获取所述第一文字序列的第一语序,及获取所述第二文字序列的第二语序;

根据所述第一语序及所述第二语序拼接所述第一文字序列及所述第二文字序列,得到所述目标文本。

根据本发明优选实施例,所述实时显示所述目标文本包括:

获取所述目标会议室的显示器对应的文本格式,及/或获取所述终端设备的显示器对应的文本格式;

将所述目标文本转换为所述目标会议室的显示器对应的文本格式,及/或将所述目标文本转换为所述终端设备的显示器对应的文本格式;

将转换后的所述目标文本实时显示在对应的显示器上。

一种基于在线会议的沟通辅助装置,所述基于在线会议的沟通辅助装置包括:

采集单元,用于响应于沟通辅助指令,根据所述沟通辅助指令确定目标语音采集设备,并启动所述目标语音采集设备采集语音;

预处理单元,用于对采集的语音进行预处理,得到第一待识别音频;

输入单元,用于将所述第一待识别音频输入至本地语音识别模型,得到本地识别结果;

获取单元,用于从所述本地识别结果中获取匹配度及识别率;

获取单元,用于根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频,并从所述本地识别结果中获取所述已识别音频对应的文字识别结果作为第一文字序列;

所述输入单元,还用于连接目标服务器,将所述第二待识别音频输入至所述目标服务器中的目标语音识别模型,并从所述目标语音识别模型的输出中获取文字识别结果作为第二文字序列;

拼接单元,用于拼接所述第一文字序列及所述第二文字序列,得到目标文本;

显示单元,用于实时显示所述目标文本。

一种电子设备,所述电子设备包括:

存储器,存储至少一个指令;及

处理器,执行所述存储器中存储的指令以实现所述基于在线会议的沟通辅助方法。

一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述基于在线会议的沟通辅助方法。

由以上技术方案可以看出,本发明能够响应于沟通辅助指令,根据所述沟通辅助指令确定目标语音采集设备,并启动所述目标语音采集设备采集语音,对采集的语音进行预处理,得到第一待识别音频,将所述第一待识别音频输入至本地语音识别模型,得到本地识别结果,首先最大限度地通过本地模型进行语音识别转文字,具有流畅性和安全性,从所述本地识别结果中获取匹配度及识别率,根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频,并从所述本地识别结果中获取所述已识别音频对应的文字识别结果作为第一文字序列,连接目标服务器,将所述第二待识别音频输入至所述目标服务器中的目标语音识别模型,并从所述目标语音识别模型的输出中获取文字识别结果作为第二文字序列,进而将识别的不够准确或者识别率不高的音频筛选出来进行二次识别,以保证语音识别的效果更佳,具有兜底的可靠性,拼接所述第一文字序列及所述第二文字序列,得到目标文本,实时显示所述目标文本,以便基于人工智能手段实现对在线会议的辅助沟通。

附图说明

图1是本发明基于在线会议的沟通辅助方法的较佳实施例的流程图。

图2是本发明基于在线会议的沟通辅助装置的较佳实施例的功能模块图。

图3是本发明实现基于在线会议的沟通辅助方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

如图1所示,是本发明基于在线会议的沟通辅助方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

所述基于在线会议的沟通辅助方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(DigitalSignal Processor,DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。

S10,响应于沟通辅助指令,根据所述沟通辅助指令确定目标语音采集设备,并启动所述目标语音采集设备采集语音。

在本发明的至少一个实施例中,所述沟通辅助指令可以由网点理财经理或者投资顾问等相关工作人员触发,本发明不限制。

在本发明的至少一个实施例中,所述根据所述沟通辅助指令确定目标语音采集设备包括:

解析所述沟通辅助指令的方法体,得到所述沟通辅助指令所携带的信息;

获取预设标签;

根据所述预设标签构建正则表达式;

利用所述正则表达式在所述沟通辅助指令所携带的信息中进行遍历,并将遍历到的数据确定为会议标识;

与所述会议标识对应的目标会议室建立连接,并获取所述目标会议室的语音采集设备作为所述目标语音采集设备;及/或

当检测到有终端设备远程连接至所述目标会议室时,将所述终端设备的语音采集设备确定为所述目标语音采集设备。

具体地,所述沟通辅助指令实质上是一条代码,在所述沟通辅助指令中,根据代码的编写原则,{}之间的内容被称之为所述方法体。

所述预设标签可以进行自定义配置,所述预设标签与地址具有一一对应的关系,例如:所述预设标签可以是ID,进一步以所述预设标签建立正则表达式ID(),并以ID()进行遍历。

通过上实施方式,能够基于正则表达式及预设标签快速确定目标语音采集设备,以便利用所述目标语音采集设备进行实时的语音采集。

例如:当客户经理与客户进行在线会议时,所述目标语音采集设备可以分别是客户经理及客户的终端设备上的语音采集设备,此时,如果所述客户经理在某个会议室开会,那么所述目标语音采集设备还可以包括该会议室的语音采集设备。

S11,对采集的语音进行预处理,得到第一待识别音频。

可以理解的是,由于采集的语音可能存在噪音,因此,首先要对采集的语音进行预处理,以提高识别的效率及准确度。

具体地,所述预处理可以包括,但不限于:预加重和加窗分帧。

S12,将所述第一待识别音频输入至本地语音识别模型,得到本地识别结果。

其中,所述本地语音识别模型是一种部署于客户端的识别模型,在利用所述本地识别模型进行语音识别时,无需频繁的进行网络连接,因此能够有效避免语音识别发生延迟。

另外,所述本地语音识别模型部署于本地客户端,无需连接外部服务器或者网络,避免了卡顿现象的发生,不仅降低了语音识别的成本,还能有效避免信息的泄露,提高了语音识别过程的安全性。

通过上述实施方式,能够最大限度地通过本地模型进行语音识别转文字,具有流畅性和安全性。

S13,从所述本地识别结果中获取匹配度及识别率。

具体地,所述本地识别结果中可以包括:语音识别后所得到的文字(即文字识别结果)、语音识别后所得到的文字与原有语音的匹配度、语音识别的识别率。

S14,根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频,并从所述本地识别结果中获取所述已识别音频对应的文字识别结果作为第一文字序列。

可以理解的是,由于所述本地语音识别模型部署于本地客户端,不便于实时更新,因此在识别效果上可能受到一定的限制,为了保证语音识别的全面性及准确性,需要进一步根据本地识别结果的匹配度及识别率对所述第一待识别音频进行拆分,以筛选出需要进行二次语音识别的音频。

具体地,所述根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频包括:

从所述第一待识别音频中获取所述匹配度小于或者等于配置匹配度的文字识别结果对应的音频作为第一音频;

从所述第一待识别音频中获取所述识别率小于或者等于配置识别率的音频作为第二音频;

整合所述第一音频及所述第二音频,得到所述第二待识别音频;

从所述第一待识别音频中删除所述第二待识别音频,得到所述已识别音频。

其中,所述配置匹配度及所述配置识别率可以根据具体的识别需求进行配置。

例如:当一段音频的识别结果显示最终输出的文字与原始语音的匹配度为85%,低于配置匹配度95%时,说明识别的并不准确,则需要对这段音频进行重新识别。

或者,当一段音频未识别成功,或者仅有几个字被识别出来时,说明这段音频的识别率较低,则也需要对这段音频进行重新识别。

通过上述实施方式,能够将识别的不够准确或者识别率不高的音频筛选出来进行二次识别,以保证语音识别的效果更佳。

S15,连接目标服务器,将所述第二待识别音频输入至所述目标服务器中的目标语音识别模型,并从所述目标语音识别模型的输出中获取文字识别结果作为第二文字序列。

其中,所述目标服务器可以是私有的服务器,以避免在连接至所述目标服务器进行语音识别时发生信息泄露。

其中,所述目标语音识别模型可以采用专业词条进行训练,以提升专业场景下语音识别的准确率。

通过上述实施方式,能够将本地无法识别或者识别不准确的音频传输至服务器进行识别,在返回识别结果,具有兜底的可靠性。

在本发明的至少一个实施例中,所述方法还包括:

定期检测所述目标服务器的资源占用率;

当检测到所述目标服务器的资源占用率小于或者等于配置资源占用率时,获取新增数据;

对所述新增数据进行词频采样,得到采样结果;

获取历史数据;

当所述采样结果与所述历史数据的相似度小于或者等于配置相似度时,利用所述新增数据对所述目标语音识别模型进行优化训练。

其中,所述配置资源占用率及所述配置相似度可以进行自定义配置。

通过与所述配置资源占用率进行比较,能够避免在业务时段进行模型的优化,影响正常业务的执行。

通过与所述配置相似度进行比较,能够避免利用相似的数据反复训练。

通过上述实施方式,能够在闲时利用新增数据不断对语音识别模型进行优化训练,以不断提高模型的识别效果及覆盖率。

进一步地,所述方法还包括:

当满足更新条件时,连接至所述目标服务器,并获取所述目标服务器中存储的所有语音识别模型;

获取所述所有语音识别模型的更新时间,并根据所述更新时间识别最新的语音识别模型;

利用WebAssembly模式对识别到的语音识别模型进行转换,并将转换后的模型确定为所述本地语音识别模型;

部署所述本地语音识别模型。

其中,所述更新条件可以是检测到满足预先配置的触发周期,以实现对本地模型的定期更新,也可以是检测到预先配置的更新控件被触发,以根据实际需求进行更新,本发明不限制。

通过上述实施方式,能够每次从服务器中获取最新的语音识别模型,并利用WebAssembly模式进行转化部署,解决了现有技术中由于离线语音识别方案主要基于ios或者安卓App,没有适配的PC(personal computer,个人计算机)浏览器且识别的场景比较单一,导致识别率不高的问题。

S16,拼接所述第一文字序列及所述第二文字序列,得到目标文本。

可以理解的是,所述第一文字序列及所述第二文字序列相当于识别后得到的文字片段,因此,要想形成完整的文本,还需要对所述第一文字序列及所述第二文字序列进行拼接。

具体地,所述拼接所述第一文字序列及所述第二文字序列,得到目标文本包括:

获取所述第一文字序列的第一语序,及获取所述第二文字序列的第二语序;

根据所述第一语序及所述第二语序拼接所述第一文字序列及所述第二文字序列,得到所述目标文本。

例如:所述第一文字序列为“周末”“玩”,所述第二文字序列为“去哪里”,根据语序进行拼接,最终得到的目标文本为“周末去哪里玩”。

S17,实时显示所述目标文本。

具体地,所述实时显示所述目标文本包括:

获取所述目标会议室的显示器对应的文本格式,及/或获取所述终端设备的显示器对应的文本格式;

将所述目标文本转换为所述目标会议室的显示器对应的文本格式,及/或将所述目标文本转换为所述终端设备的显示器对应的文本格式;

将转换后的所述目标文本实时显示在对应的显示器上。

通过上述实施方式,能够在识别出目标文本后,根据不同的显示器对文字格式的要求进行个性化的显示,提高了文本显示的适配性。

例如:在目标会议时的显示器上以“宋体、高亮”进行显示,在终端设备上以“仿宋体、4号”进行显示。

需要说明的是,为了进一步保证数据的安全性,可以将本地语音识别模型及目标语音识别模型存储于区块链,以避免数据被恶意篡改。

由以上技术方案可以看出,本发明能够响应于沟通辅助指令,根据所述沟通辅助指令确定目标语音采集设备,并启动所述目标语音采集设备采集语音,对采集的语音进行预处理,得到第一待识别音频,将所述第一待识别音频输入至本地语音识别模型,得到本地识别结果,首先最大限度地通过本地模型进行语音识别转文字,具有流畅性和安全性,从所述本地识别结果中获取匹配度及识别率,根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频,并从所述本地识别结果中获取所述已识别音频对应的文字识别结果作为第一文字序列,连接目标服务器,将所述第二待识别音频输入至所述目标服务器中的目标语音识别模型,并从所述目标语音识别模型的输出中获取文字识别结果作为第二文字序列,进而将识别的不够准确或者识别率不高的音频筛选出来进行二次识别,以保证语音识别的效果更佳,具有兜底的可靠性,拼接所述第一文字序列及所述第二文字序列,得到目标文本,实时显示所述目标文本,以便基于人工智能手段实现对在线会议的辅助沟通。

如图2所示,是本发明基于在线会议的沟通辅助装置的较佳实施例的功能模块图。所述基于在线会议的沟通辅助装置11包括采集单元110、预处理单元111、输入单元112、获取单元113、拼接单元114、显示单元115。本发明所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。

响应于沟通辅助指令,采集单元110根据所述沟通辅助指令确定目标语音采集设备,并启动所述目标语音采集设备采集语音。

在本发明的至少一个实施例中,所述沟通辅助指令可以由网点理财经理或者投资顾问等相关工作人员触发,本发明不限制。

在本发明的至少一个实施例中,所述采集单元110根据所述沟通辅助指令确定目标语音采集设备包括:

解析所述沟通辅助指令的方法体,得到所述沟通辅助指令所携带的信息;

获取预设标签;

根据所述预设标签构建正则表达式;

利用所述正则表达式在所述沟通辅助指令所携带的信息中进行遍历,并将遍历到的数据确定为会议标识;

与所述会议标识对应的目标会议室建立连接,并获取所述目标会议室的语音采集设备作为所述目标语音采集设备;及/或

当检测到有终端设备远程连接至所述目标会议室时,将所述终端设备的语音采集设备确定为所述目标语音采集设备。

具体地,所述沟通辅助指令实质上是一条代码,在所述沟通辅助指令中,根据代码的编写原则,{}之间的内容被称之为所述方法体。

所述预设标签可以进行自定义配置,所述预设标签与地址具有一一对应的关系,例如:所述预设标签可以是ID,进一步以所述预设标签建立正则表达式ID(),并以ID()进行遍历。

通过上实施方式,能够基于正则表达式及预设标签快速确定目标语音采集设备,以便利用所述目标语音采集设备进行实时的语音采集。

例如:当客户经理与客户进行在线会议时,所述目标语音采集设备可以分别是客户经理及客户的终端设备上的语音采集设备,此时,如果所述客户经理在某个会议室开会,那么所述目标语音采集设备还可以包括该会议室的语音采集设备。

预处理单元111对采集的语音进行预处理,得到第一待识别音频。

可以理解的是,由于采集的语音可能存在噪音,因此,首先要对采集的语音进行预处理,以提高识别的效率及准确度。

具体地,所述预处理可以包括,但不限于:预加重和加窗分帧。

输入单元112将所述第一待识别音频输入至本地语音识别模型,得到本地识别结果。

其中,所述本地语音识别模型是一种部署于客户端的识别模型,在利用所述本地识别模型进行语音识别时,无需频繁的进行网络连接,因此能够有效避免语音识别发生延迟。

另外,所述本地语音识别模型部署于本地客户端,无需连接外部服务器或者网络,避免了卡顿现象的发生,不仅降低了语音识别的成本,还能有效避免信息的泄露,提高了语音识别过程的安全性。

通过上述实施方式,能够最大限度地通过本地模型进行语音识别转文字,具有流畅性和安全性。

获取单元113从所述本地识别结果中获取匹配度及识别率。

具体地,所述本地识别结果中可以包括:语音识别后所得到的文字(即文字识别结果)、语音识别后所得到的文字与原有语音的匹配度、语音识别的识别率。

所述获取单元113根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频,并从所述本地识别结果中获取所述已识别音频对应的文字识别结果作为第一文字序列。

可以理解的是,由于所述本地语音识别模型部署于本地客户端,不便于实时更新,因此在识别效果上可能受到一定的限制,为了保证语音识别的全面性及准确性,需要进一步根据本地识别结果的匹配度及识别率对所述第一待识别音频进行拆分,以筛选出需要进行二次语音识别的音频。

具体地,所述获取单元113根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频包括:

从所述第一待识别音频中获取所述匹配度小于或者等于配置匹配度的文字识别结果对应的音频作为第一音频;

从所述第一待识别音频中获取所述识别率小于或者等于配置识别率的音频作为第二音频;

整合所述第一音频及所述第二音频,得到所述第二待识别音频;

从所述第一待识别音频中删除所述第二待识别音频,得到所述已识别音频。

其中,所述配置匹配度及所述配置识别率可以根据具体的识别需求进行配置。

例如:当一段音频的识别结果显示最终输出的文字与原始语音的匹配度为85%,低于配置匹配度95%时,说明识别的并不准确,则需要对这段音频进行重新识别。

或者,当一段音频未识别成功,或者仅有几个字被识别出来时,说明这段音频的识别率较低,则也需要对这段音频进行重新识别。

通过上述实施方式,能够将识别的不够准确或者识别率不高的音频筛选出来进行二次识别,以保证语音识别的效果更佳。

所述输入单元112连接目标服务器,将所述第二待识别音频输入至所述目标服务器中的目标语音识别模型,并从所述目标语音识别模型的输出中获取文字识别结果作为第二文字序列。

其中,所述目标服务器可以是私有的服务器,以避免在连接至所述目标服务器进行语音识别时发生信息泄露。

其中,所述目标语音识别模型可以采用专业词条进行训练,以提升专业场景下语音识别的准确率。

通过上述实施方式,能够将本地无法识别或者识别不准确的音频传输至服务器进行识别,在返回识别结果,具有兜底的可靠性。

在本发明的至少一个实施例中,定期检测所述目标服务器的资源占用率;

当检测到所述目标服务器的资源占用率小于或者等于配置资源占用率时,获取新增数据;

对所述新增数据进行词频采样,得到采样结果;

获取历史数据;

当所述采样结果与所述历史数据的相似度小于或者等于配置相似度时,利用所述新增数据对所述目标语音识别模型进行优化训练。

其中,所述配置资源占用率及所述配置相似度可以进行自定义配置。

通过与所述配置资源占用率进行比较,能够避免在业务时段进行模型的优化,影响正常业务的执行。

通过与所述配置相似度进行比较,能够避免利用相似的数据反复训练。

通过上述实施方式,能够在闲时利用新增数据不断对语音识别模型进行优化训练,以不断提高模型的识别效果及覆盖率。

进一步地,当满足更新条件时,连接至所述目标服务器,并获取所述目标服务器中存储的所有语音识别模型;

获取所述所有语音识别模型的更新时间,并根据所述更新时间识别最新的语音识别模型;

利用WebAssembly模式对识别到的语音识别模型进行转换,并将转换后的模型确定为所述本地语音识别模型;

部署所述本地语音识别模型。

其中,所述更新条件可以是检测到满足预先配置的触发周期,以实现对本地模型的定期更新,也可以是检测到预先配置的更新控件被触发,以根据实际需求进行更新,本发明不限制。

通过上述实施方式,能够每次从服务器中获取最新的语音识别模型,并利用WebAssembly模式进行转化部署,解决了现有技术中由于离线语音识别方案主要基于ios或者安卓App,没有适配的PC(personal computer,个人计算机)浏览器且识别的场景比较单一,导致识别率不高的问题。

拼接单元114拼接所述第一文字序列及所述第二文字序列,得到目标文本。

可以理解的是,所述第一文字序列及所述第二文字序列相当于识别后得到的文字片段,因此,要想形成完整的文本,还需要对所述第一文字序列及所述第二文字序列进行拼接。

具体地,所述拼接单元114拼接所述第一文字序列及所述第二文字序列,得到目标文本包括:

获取所述第一文字序列的第一语序,及获取所述第二文字序列的第二语序;

根据所述第一语序及所述第二语序拼接所述第一文字序列及所述第二文字序列,得到所述目标文本。

例如:所述第一文字序列为“周末”“玩”,所述第二文字序列为“去哪里”,根据语序进行拼接,最终得到的目标文本为“周末去哪里玩”。

显示单元115实时显示所述目标文本。

具体地,所述显示单元115实时显示所述目标文本包括:

获取所述目标会议室的显示器对应的文本格式,及/或获取所述终端设备的显示器对应的文本格式;

将所述目标文本转换为所述目标会议室的显示器对应的文本格式,及/或将所述目标文本转换为所述终端设备的显示器对应的文本格式;

将转换后的所述目标文本实时显示在对应的显示器上。

通过上述实施方式,能够在识别出目标文本后,根据不同的显示器对文字格式的要求进行个性化的显示,提高了文本显示的适配性。

例如:在目标会议时的显示器上以“宋体、高亮”进行显示,在终端设备上以“仿宋体、4号”进行显示。

需要说明的是,为了进一步保证数据的安全性,可以将本地语音识别模型及目标语音识别模型存储于区块链,以避免数据被恶意篡改。

由以上技术方案可以看出,本发明能够响应于沟通辅助指令,根据所述沟通辅助指令确定目标语音采集设备,并启动所述目标语音采集设备采集语音,对采集的语音进行预处理,得到第一待识别音频,将所述第一待识别音频输入至本地语音识别模型,得到本地识别结果,首先最大限度地通过本地模型进行语音识别转文字,具有流畅性和安全性,从所述本地识别结果中获取匹配度及识别率,根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频,并从所述本地识别结果中获取所述已识别音频对应的文字识别结果作为第一文字序列,连接目标服务器,将所述第二待识别音频输入至所述目标服务器中的目标语音识别模型,并从所述目标语音识别模型的输出中获取文字识别结果作为第二文字序列,进而将识别的不够准确或者识别率不高的音频筛选出来进行二次识别,以保证语音识别的效果更佳,具有兜底的可靠性,拼接所述第一文字序列及所述第二文字序列,得到目标文本,实时显示所述目标文本,以便基于人工智能手段实现对在线会议的辅助沟通。

如图3所示,是本发明实现基于在线会议的沟通辅助方法的较佳实施例的电子设备的结构示意图。

所述电子设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如基于在线会议的沟通辅助程序。

本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,所述电子设备1既可以是总线型结构,也可以是星形结构,所述电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如所述电子设备1还可以包括输入输出设备、网络接入设备等。

需要说明的是,所述电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于在线会议的沟通辅助程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于在线会议的沟通辅助程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于在线会议的沟通辅助方法实施例中的步骤,例如图1所示的步骤。

示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成采集单元110、预处理单元111、输入单元112、获取单元113、拼接单元114、显示单元115。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述基于在线会议的沟通辅助方法的部分。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。

其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器等。

进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图3中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。

尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器13逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

图3仅示出了具有组件12-13的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

结合图1,所述电子设备1中的所述存储器12存储多个指令以实现一种基于在线会议的沟通辅助方法,所述处理器13可执行所述多个指令从而实现:

响应于沟通辅助指令,根据所述沟通辅助指令确定目标语音采集设备,并启动所述目标语音采集设备采集语音;

对采集的语音进行预处理,得到第一待识别音频;

将所述第一待识别音频输入至本地语音识别模型,得到本地识别结果;

从所述本地识别结果中获取匹配度及识别率;

根据所述匹配度及所述识别率将所述第一待识别音频拆分为已识别音频及第二待识别音频,并从所述本地识别结果中获取所述已识别音频对应的文字识别结果作为第一文字序列;

连接目标服务器,将所述第二待识别音频输入至所述目标服务器中的目标语音识别模型,并从所述目标语音识别模型的输出中获取文字识别结果作为第二文字序列;

拼接所述第一文字序列及所述第二文字序列,得到目标文本;

实时显示所述目标文本。

具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统实施例中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 基于在线会议的沟通辅助方法、装置、设备及介质
  • 基于在线会议的身份识别方法、装置、设备及介质
技术分类

06120112517725