一种基于LLM大模型及RPA的语音智能控制系统及方法

文献发布时间：2024-04-18 19:58:53

技术领域

本发明属于人工智能行业产品领域，涉及语音智能控制技术，具体是一种基于LLM大模型及RPA的语音智能控制系统及方法。

背景技术

目前，对话式人机交互产品的形态日益丰富，应用场景及实现功能逐步增多，例如对话机器人(chatbot)以及搭载AI语音助手的各类智能语音交互硬件；同时，语音识别、语音转写、语音合成等智能语音能力在教育、医疗、司法、公安、互联网等垂直领域的应用也不断拓宽加厚。同时随着视频图像识别技术的突破和成熟，多模态智能语音的应用场景越来越广泛和丰富。

目前语音交互多集中在智慧家庭，在办公以及工控领域尚处于起步阶段，亦未有轻量级、即插即用型产品平台的大规模应用，本多模态语音智能控制方法，适应在办公、日常会议、大型活动或演讲现场、指挥中心大屏、数字展馆等场景下无缝对接，实现即插即用，应用范围广、实施周期短、运维成本低，能快速满足客户对已有软硬件平台的语音控制接入的要求。

目前市面上有点一些语音控制技术，存在以下不足：

1、必须要和第三方应用系统通过接口调用的方式实现，无法实现快捷无缝的方式接入。

2、仅仅支持简单命令词的交互和控制，无法实现更自然的语言交互。

3、缺少自动演示控制页面联动的功能。

为此，本发明提出一种基于LLM大模型及RPA的语音智能控制系统及方法。

发明内容

本申请的目的是提供一种基于LLM大模型及RPA的语音智能控制系统及方法。

为实现上述目的，本申请提供了一种基于LLM大模型及RPA的语音智能控制系统，包括：

语音采集终端，用于进行语音片段采集并发送至语音控制客户端；

语音控制客户端，用于接收所述语音采集终端发送的语音片段；并将接收到的所述语音片段发送至中央控制单元；

中央控制单元，用于接收语音控制客户端发送的语音片段；并将将语音控制客户端发送的语音片段转载至语音识别单元、将接收到的语音文本发送至LLM大模型算法服务单元以及将语音播报内容文本传递给语音合成服务单元；

语音识别单元，基于语音识别技术将语音片段实时转化为语音文本，将转化后的语音文本反馈回中央控制单元；

LLM大模型算法服务单元，用于根据语音文本获取说话人的意图；且中央控制单元根据LLM大模型算法服务单元反馈的意图，根据预置规则获得控制指令以及对应语音播报内容文本；预置规则为key value键值对，key为意图代码，value包含控制指令和指令动作脚本；

语音合成服务单元，用于将语音播报内容文本转换为音频流并返回中央控制单元；

中央控制单元还用于将语音播报内容文本转换的音频流返回至语音控制客户端，语音控制客户端通过扬声器实时播放音频流以及

中央控制单元将控制指令和指令动作脚本传递给语音智控客户端；语音智控客户端将控制指令和指令动作脚本共享至RPA客户端控制组件；

RPA客户端控制组件，用于接收语音智控客户端发送的控制指令，并通过集成屏幕抓取和业务流程自动化管理技术，模拟用户鼠标点击、键盘输入操作以及

根据指令动作脚本按需执行。

优选地，语音采集终端为麦克风，通过麦克风采集说话人的声音，即语音片段。

优选地，所述语音识别单元基于语音识别技术将语音片段实时转化为语音文本的过程包括：

步骤S101：预处理：

语音识别单元对语音片段进行预处理；预处理包括去除噪音、降低回声；

步骤S102：特征提取：

将语音片段转化为表示语音特征的数字特征向量；

步骤S103：建模与训练：

使用训练数据集进行建模和训练；

步骤S104：建模与训练：

基于训练好的模型，对提取到的特征向量序列进行解码，寻找最可能的语音文本序列；

步骤S105：后处理与输出：

对解码得到的语音文本序列进行后处理，将解码得到的语音文本输出为文字形式。

优选地，特征提取方法包括短时能量、短时平均过零率、梅尔频率倒谱系数。

优选地，模型包括隐马尔可夫模型(HMM)、深度神经网络(DNN)和循环神经网络(RNN)。

优选地，所述LLM大模型算法服务单元获取说话人的意图的过程包括：

LLM通过GPT模型，使用自注意力机制和残差连接，将输入的语音文本映射到一个固定长度的特征向量；

特征向量包含输入文本的语义信息；

将固定长度的特征向量输入到意图分类器，从而识别出说话人的意图。

优选地，一种基于LLM大模型及RPA的语音智能控制方法，该方法包括：

步骤T1：语音采集终端获取语音片段，并发送至语音控制客户端；

步骤T2：语音控制客户端将接收到的语音片段发送至中央控制单元；

步骤T3：中央控制单元将语音控制客户端发送的语音片段转载至语音识别单元，所述语音识别单元基于语音识别技术将语音片段实时转化为语音文本，语音识别单元将转化后的语音文本反馈回中央控制单元；

步骤T4：所述中央控制单元将接收到的语音文本发送至LLM大模型算法服务单元，所述LLM大模型算法服务单元用于根据语音文本获取说话人的意图；并反馈至中央控制单元；

步骤T5：中央控制单元根据LLM大模型算法服务单元反馈的意图，根据预置规则获得控制指令以及对应语音播报内容文本；

步骤T6：所述中央控制单元将语音播报内容文本传递给语音合成服务单元，语音合成服务单元将语音播报内容文本转换为音频流并返回中央控制单元；

步骤T7：中央控制单元将语音播报内容文本转换的音频流返回至语音控制客户端，语音控制客户端通过扬声器实时播放音频流；

中央控制单元将控制指令和指令动作脚本传递给语音智控客户端；

步骤T8：RPA客户端控制组件，用于接收语音智控客户端发送的控制指令，并通过集成屏幕抓取和业务流程自动化管理技术，模拟用户鼠标点击、键盘输入操作。

与现有技术相比，本发明的有益效果是：

本发明基于RPA客户端组件和语音智控客户端有机协同的方式，实现了对第三方系统的无侵入性操控，无需第三方系统进行代码方面的改造和调整。通过低代码方式实现指令配置，即可实现windows应用或网页程序的控制，无需修改原系统，实现无缝对接。且实现流程自动化控制，针对某些展览和演示场景，支持通过提前预置场景流程的方式，通过录音直接播报操控，减少人为重复、繁琐、大批量的工作任务，充分释放人力，以最少的人工干预高效高质地完成处理任务，带来业务流程自动化的良性循环场景控制。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于LLM大模型及RPA的语音智能控制系统的结构框图；

图2为本发明一种基于LLM大模型及RPA的语音智能控制方法的流程框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

具体请参照图1，本发明的一个实施例提出一种基于LLM大模型及RPA的语音智能控制系统，该系统包括：

语音采集终端，所述语音采集终端用于进行声音采集，获取说话人的语音片段；并发送至语音控制客户端；

在一个具体的实施例中，所述语音采集终端可以为麦克风，通过麦克风采集说话人的声音即语音片段；

语音控制客户端，所述语音控制客户端与所述语音采集终端通过有线和/或无线远程连接，所述语音控制客户端用于接收所述语音采集终端发送的语音片段；并将接收到的所述语音片段发送至中央控制单元；

中央控制单元，用于接收语音控制客户端发送的语音片段；

其中，所述中央控制单元还连接有语音识别单元、LLM大模型算法服务单元以及语音合成单元；

所述中央控制单元将语音控制客户端发送的语音片段转载至语音识别单元，所述语音识别单元基于语音识别技术将语音片段实时转化为语音文本，语音识别单元将转化后的语音文本反馈回中央控制单元；

所述中央控制单元将接收到的语音文本发送至LLM大模型算法服务单元，所述LLM大模型算法服务单元用于根据语音文本获取说话人的意图；

需要进行说明的是，所述LLM大模型算法服务单元将获取的说话人的意图反馈至中央控制单元；

中央控制单元根据LLM大模型算法服务单元反馈的意图，根据预置规则获得控制指令以及对应语音播报内容文本。

其中的预置规则为key value键值对，key为意图代码，value包含控制指令和指令动作脚本。

所述中央控制单元将语音播报内容文本传递给语音合成服务单元，语音合成服务单元将语音播报内容文本转换为音频流并返回中央控制单元。

中央控制单元将语音播报内容文本转换的音频流返回至语音控制客户端，语音控制客户端通过扬声器实时播放音频流。

同时，所述中央控制单元将控制指令和指令动作脚本传递给语音智控客户端；所述语音智控客户端将控制指令发送至RPA客户端控制组件；

RPA客户端控制组件，用于接收语音智控客户端发送的控制指令，并通过集成屏幕抓取和业务流程自动化管理技术，模拟用户鼠标点击、键盘输入等操作。

比如打开网页、应用程序、处理Excel表格、登录管理系统等。

语音智控客户端将获取的指令动作脚本发送给RPA客户端控制组件并按需执行；

其中，RPA客户端控制组件主要实现两种方式的控制：

针对web网页，会根据HTML解析网页元素，获取它们的位置、内容、索引和层次关系，从而实现点击按钮、输入搜索词、移动到图片等功能；

针对一般性的windows应用，无法通过系统指令或代码解析来定位元素，基于计算机视觉(Computer Vision,简称CV)技术进行元素拾取。CV可以将界面上的各类元素识别为图像中的一个个目标，借助目标检测技术和光学字符识别(Optical CharacterRecognition,简称OCR)技术来定位和识别每个元素的位置和类型，可以支持一系列的移动、点击、输入等操作；

通过RPA客户端控制组件，调用中央控制单元中预置的控制脚本，实现应用的控制和对应音频内容的播报。

其中，所述语音识别单元基于语音识别技术将语音片段实时转化为语音文本的过程包括：

步骤S101：预处理：

语音识别单元对语音片段进行预处理；预处理包括去除噪音、降低回声等环境干扰，用以提高识别准确度；

步骤S102：特征提取：

将语音片段转化为表示语音特征的数字特征向量；其中，常见的特征提取方法包括短时能量、短时平均过零率、梅尔频率倒谱系数等。

步骤S103：建模与训练：

使用训练数据集进行建模和训练，常用的模型包括隐马尔可夫模型(HMM)、深度神经网络(DNN)和循环神经网络(RNN)等；

步骤S104：建模与训练：

基于训练好的模型，对提取到的特征向量序列进行解码，寻找最可能的语音文本序列。

步骤S105：后处理与输出：

对解码得到的语音文本序列进行后处理，例如文本纠错、标点符号添加等。将解码得到的语音文本输出为文字形式。

且具体的，所述LLM大模型算法服务单元获取说话人的意图的过程包括：

LLM通过GPT模型，使用自注意力机制和残差连接，实现高效的并行计算和信息流动，将输入的语音文本映射到一个固定长度的特征向量；需要进行说明的是，这个特征向量包含了输入文本的语义信息；

将固定长度的特征向量输入到意图分类器，从而识别出说话人的意图。

本系统基于RPA客户端组件和语音智控客户端有机协同的方式，实现了对第三方系统的无侵入性操控，无需第三方系统进行代码方面的改造和调整。通过低代码方式实现指令配置，即可实现windows应用或网页程序的控制，无需修改原系统，实现无缝对接。且实现流程自动化控制，针对某些展览和演示场景，支持通过提前预置场景流程的方式，通过录音直接播报操控，减少人为重复、繁琐、大批量的工作任务，充分释放人力，以最少的人工干预高效高质地完成处理任务，带来业务流程自动化的良性循环场景控制。

具体请参照图2，本发明的另一个实施例提出一种基于LLM大模型及RPA的语音智能控制方法，该方法包括：

步骤T1：语音采集终端获取语音片段，并发送至语音控制客户端；

步骤T2：语音控制客户端将接收到的语音片段发送至中央控制单元；

步骤T5：中央控制单元根据LLM大模型算法服务单元反馈的意图，根据预置规则获得控制指令以及对应语音播报内容文本；

步骤T6：所述中央控制单元将语音播报内容文本传递给语音合成服务单元，语音合成服务单元将语音播报内容文本转换为音频流并返回中央控制单元；

步骤T7：中央控制单元将语音播报内容文本转换的音频流返回至语音控制客户端，语音控制客户端通过扬声器实时播放音频流；

中央控制单元将控制指令和指令动作脚本传递给语音智控客户端；

步骤T8：RPA客户端控制组件，用于接收语音智控客户端发送的控制指令，并通过集成屏幕抓取和业务流程自动化管理技术，模拟用户鼠标点击、键盘输入等操作。

本方法基于RPA客户端组件和语音智控客户端有机协同的方式，实现了对第三方系统的无侵入性操控，无需第三方系统进行代码方面的改造和调整。通过低代码方式实现指令配置，即可实现windows应用或网页程序的控制，无需修改原系统，实现无缝对接。且实现流程自动化控制，针对某些展览和演示场景，支持通过提前预置场景流程的方式，通过录音直接播报操控，减少人为重复、繁琐、大批量的工作任务，充分释放人力，以最少的人工干预高效高质地完成处理任务，带来业务流程自动化的良性循环场景控制。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：合肥善达信息科技有限公司;

上一篇：一种功能测试方法、装置、电子设备及存储介质
下一篇：一种包装袋翻转站立装置及二维码采集系统