一种基于智能语音实训平台的远程巡检机器人接口

文献发布时间：2024-04-29 00:47:01

技术领域

本发明涉及一种接口技术，尤其涉及一种基于智能语音实训平台的远程巡检机器人接口，以实现智能语音实训平台与远程巡检机器人的交互。

背景技术

现今信息时代，随着科技的飞速进步和人工智能技术的崛起，智能化的培训和教学方式正在蓬勃发展。智能语音实训平台源自人工智能领域的语音识别与合成、实时反馈技术，是一种基于语音识别与合成、实时反馈技术的培训软件。它能够通过语音进行教学，允许用户通过语音进行互动并进行自我学习，进而转化为具有实时交互功能的智能教学工具，以助力用户的自我学习活动。

与此同时，远程巡检机器人是一款遥控设备或机器人，能进行设备或场地的巡查，通常在无人值守或环境恶劣的情况下工作。以远程巡检机器人人为代表的无人化设备具有在恶劣环境下工作的能力，其能够独立完成巡查任务，并通过集成感知设备，如摄像头、麦克风和温度传感器等，对环境进行全方位感知，并实时汇报工作状态。

在现有的技术中，虽然智能语音识别和生成技术已经相当成熟，并被广泛应用于诸如智能音箱、智能助手等多种设备上。然而，这些设备主要依赖于直接网络连接和远程云端服务器的处理和反馈，终端设备的智能化程度仍然有限。

另一方面，虽然远程巡检机器人如无人机和机器人已经能够在多种情况下，如危险环境或无人值守场所，进行自动化的环境巡检和设备检测。但这些机器通常需要进行复杂的预设程序编写和实时手动控制，对用户的技术和操作能力有较高要求。

此外，尽管在一些特定应用中，如无人驾驶汽车，已经有将语音控制和机器人控制模块结合在一起的尝试。但这种结合通常局限于单一的设备和特定的应用场景，缺乏足够的灵活性和广泛的适用性。

这些问题为本发明提供了创新的契机和挑战，即如何将已成熟的智能语音识别和生成技术、远程巡检机器人技术融合，催生出一种易用、智能化程度更高的接口技术，减轻用户的使用负担，提高远程巡检的工作效率，同时增强用户的使用体验。

发明内容

本发明的目的在于提供一种基于智能语音实训平台的远程巡检机器人接口，其将智能语音实训平台与远程巡检机器人接口技术结合，旨在为用户提供一个全新的、智能化的巡检体验。

为此，本发明提供了一种基于智能语音实训平台的远程巡检机器人接口，包括：用于智能语音实训平台和远程巡检机器人之间的通信协议VARP和用于人与巡检机器人之间的自然交互的接口组件。

所述通信协议VARP包括：错误处理协议，用于设定可能出现的错误和异常情况的响应策略，其使用检验和checksum机制来检测数据在传输过程中是否出现错误；意图理解协议，用于理解并执行非标准的、模糊的或是省略部分信息的命令，其训练一个基于多模态深度学习的神经网络，将接收到的模糊指令作为输入，预设的默认指令值作为输出；加密认证机制，用于传输的信息安全，包括数据加密和授权访问；以及节点同步机制，用于巡检机器人节点在执行指令时保持同步，其使用时间戳算法，对分布式系统中的时间进行全局排序，其中，在通讯协议的实时反馈消息类型中包括反馈机器人运行情况的多个消息类型。

所述接口组件包括：阵列麦克风以及远场识别模块，用于在吵闹的环境中捕捉语音指令；多模态输入模块，包括智能语音识别模型，用于将用户的语音指令转换成文本；自然语言处理模块，包括自然语言理解模型DistilBERT，用于将文本转化为有意义的符号和结构，其使用MLM训练方法对预训练模型进行训练，还包括知识图谱和规则引擎，其中，所述知识图谱用于存储符号和结构所对应的指令，所述规则引擎用于根据预设的规则理解和处理一些复杂或者模糊的指令。

与现有技术相比，本发明具有以下技术特点/优势：

(1)通信协议设计

设计了一种新型的通信协议，Voice Activated Robotic Patrol(VARP),旨在实现快速，实时且一致的共享信息，防止数据丢失，实现数据的高效，可靠传输。改协议支持加密和认证机制，保证数据的安全性。此外，协议还包含了错误处理和修复机制，对于可能的错误和异常定义了严格的响应策略，以保证系统的稳定性。

(2)接口设计

设计了一种新型的Voice Activated Interface(VAI)。VAI接口旨在实现人与巡检机器人间的自然交互，将自然语言理解与语音反馈进行集成，实现多模态输入交互方式。通过阵列麦克风以及远场识别技术，准确捕捉到用户指令，实现对设备的准确控制。

(3)应用深度学习技术

在语音识别和解析过程中，采用多模态深度学习搭建意图理解协议，同时采用端到端的深度学习框架Listen,Attend and Spell(LAS)用于语音识别。同时使用DistilBERT模型进行自然语言理解，以提高准确性和鲁棒性。

(4)集成知识图谱与规则引擎

在自然语言处理的过程中，我们结合知识图谱和规则引擎技术，让机器理解具有复杂关系和知识的语音指令，提高了巡检机器人课执行命令的准确率和灵活性，同时将整个智能语音农业巡检的流程清晰展示，做到了流程可视化和规则透明化。

本发明适用于实现语音指令控制的远程巡检机器人任务，有效的减小了人力物力，实现智能化、自动化，提高了操作效率和准确性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明的基于智能语音实训平台的远程巡检机器人接口的结构示意图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。

本发明实现了一种智能语音实训平台与远程巡检机器人接口技术。当用户发出语音指令时，智能语音实训平台会接收并解析这个指令。解析后的指令会被传输到远程巡检机器人控制模块，并被转换为机器可以理解的指令。然后机器会根据接收到的指令执行相应的动作。系统会收集机器的反馈信息，并将其中的关键信息转化为日志信息反馈给用户。这样用户不仅可以通过语音指令控制远程巡检机器人以执行巡检任务，同时还能实时获得巡检反馈，提升了智能语音实训平台的实用性和用户体验。

本发明的基于智能语音实训平台的远程巡检机器人接口由通讯协议VARP和接口VAI组成。其中通信协议VARP是VAI的前置任务，它规定了系统之间数据传输的规则和格式，为接口VAI提供了有效的通信框架。

1、通讯协议

在本发明中，我们提出了一种具有创新性的通信协议：“Voice ActivatedRobotic Patrol(VARP)”协议。这种协议专门设计用于智能语音实训平台与远程巡检机器人之间的通信。首先，通信协议是确保语音实训软件和巡检机器人之间成功有效交流的关键。通过确定数据交换的规则，格式，时间顺序，错误处理等，通信协议帮助系统高效，可靠地运行。VARP协议的主旨是实现快速，实时且一致的共享信息。该协议定义了一系列的消息类型，包括但不限于：“MOVEMENT”命令用于监控巡检机器人的物理移动(例如前进，后退，转向等)，“SYSTEMSTATUS”获取巡检机器人的当前状态，“ANALYZE”命令用于操控巡检机器人分析特定对象或区域，以及“SENSORDATA”用于获取巡检机器人的传感器数据等。VARP协议使用JSON格式来组织和交换数据。

2、错误处理协议

VARP协议还规定了一套错误处理和修复机制，对于任何可能的错误和异常，协议都定义了严格的响应策略，例如，当巡检机器人接收到未知或无法执行的指令时，将返回一个错误信息：此信息将被发送回智能语音实训平台，使其能及时进行必要的修复操作。

使用检验和checksum机制来检测数据在传输过程中是否出现错误。

在发送数据包时，发送方会先计算数据包的检验和，然后附加在数据包后面一起发送出去。接收方在收到数据包后，将同样计算这个数据包的检验和。如果两边的检验和一致，意味着数据在传输过程中没有出现错误。否则，通信协议可以规定需要对数据进行重传。检验和可以通过如下公式来计算：

其中，Data_i是数据包中的第i个数据位，⊕是异或运算

1.2意图理解协议

为了增强系统的鲁棒性，我们可以引入一种“意图理解”机制，该机制能够解释并执行非标准的、模糊的或是省略部分信息的命令。例如，如果接收到一个指示"向前移动"的命令，但并未给出具体的距离和速度信息，机器将使用预设的默认值执行此命令。我们使用数学模型来描述如何从模糊的指令中提取关键信息。我们使用多模态深度学习的方法来理解和解析这种指令。

在多模态深度学习中，训练一个神经网络，接收到的模糊指令作为输入，预设的默认值作为输出，通过训练，当接收到模糊指令时，神经网络能够预测出预设的默认值。这个过程可以通过以下数学公式描述：

y＝f(x)

其中，y是神经网络的输出，即预设的默认值，x是输入的模糊指令，f是神经网络模型。

1.3加密认证机制

为了确保传输的信息安全，我们需要在通信协议中集成加密和认证机制。使用AES,RSA等密钥算法，实现数据的加密，从而确保私密的或者关键的信息在传输过程中不会被窃取或篡改。同时,使用证书或其他的身份验证方法，可以保护系统免受未经授权的访问和攻击。

1.4节点同步机制

为了实现多节点同时工作，我们在协议中定义了一种同步机制。这种机制能够确保所有的机器人节点在执行指令时保持同步，无论是在速度，方向，还是在对环境的理解方面。

我们使用Lamport时间戳的算法，对分布式系统中的事件进行全局排序，从而确定事件的顺序。Lamport算法可以通过以下公式来更新时间戳：

如果节点i在本地发生一个事件，更新本地时间戳：

TimeStamp[i]＝TimeStamp[i]+1

如果节点i发送了一个消息到节点j,将标有时间戳的消息发送出去：

Message.TimeStamp＝TimeStamp[i]

如果节点j收到了一个来自节点i的消息，它将更新时间戳：

TimeStamp[j]＝max(Message.TimeStamp，TimeStamp[j](+1

通过这种方式，所有的节点都将保持同步，无论是在执行任务的速度，方向，还是对环境的理解等方面，都可以在没有中央协调的情况下达成一致。

1.5实时反馈

除了接收命令，机器人还需要提供实时反馈，例如当前的位置，任务执行的状态，遇到的问题等。我们在协议中添加了一种反馈消息类型，方便操作者了解机器人的运行情况。

2.接口设计

在本发明中，我们提出了一种新颖且富有成效的接口设计方案，我们将其称为“Voice Activated Interface(VAI)”。这种接口设计理念专为在农业领域的自动化而设计。

2.1VAI接口的特性

VAI接口旨在实现人与巡检机器人间的自然交互，该接口通过将人的语音指令转化为机器可理解的命令，从而实现对机器的控制。VAI接口有以下几个关键的特性：

自然语言理解：VAI接口可以理解并解析自然语言，借助深度学习技术，能够理解人的意图并按照指令执行任务。

语音反馈：VAI接口通过语音反馈预期的结果、状态更改或错误信息，使得用户能够了解设备的运行状态。

多模态输入：除了语音，VAI接口还支持其他形式的输入，例如手势，触摸手写等。

阵列麦克风和远场语音识别：为了在吵闹的环境中准确捕捉指令，VAI接口采用阵列麦克风和远场语音识别技术。

2.2VAI接口的实现

VAI接口的实现依赖于一系列硬件和软件组件。我们采用一些先进的云端或者本地的语音识别引擎如Google Speech-to-Text或者Microsoft Cortana之类的工具来完成人声到文本的初步处理工作。引擎可以将用户的语音转换成文本，在经过自然语言处理(NLP)后，我们可以把这个文本转换成指令，然后传给机器或设备执行。

对于VAI接口的硬件实现，我们使用传统智能手机来实现此VAI接口。

为了提高用户体验，除了上述所述的基本功能，我们还添加一种错误处理机制，使得当用户的指令不能被正确理解或者执行时，系统可以通过自然且友好的方式向用户请求更多的信息，或者提供一种备选的操作方法。

总的来说，VAI接口对于現代智能设备实训系统而言是一种强大且便捷的控制方式，因为它允许用户自然地交互，并在各种复杂的环境和场景中执行精确的指令。

2.3自然语言处理方法

自然语言理解(NLU)主要任务是理解和解释人类语言。NLU可将文本转化为有意义的符号和结构，例如，转化为标准化的查询，或者用于对话系统中的间隔标签。

当涉及到深度学习，Transformers模型，尤其是BERT(Bidirectional EncoderRepresentations from Transformers)已经变得相当流行。BERT引入了一种新的训练方法，即"Masked Language Model"(MLM)，在训练过程中，随机选择输入的一部分并将其替换为特殊的"[MASK]"标记，然后训练模型以预测原始的词。这种方式学习到的表示同时考虑了左右两侧的上下文信息，因此具有强大的语义理解能力。

综合考虑技术的成熟度、社区支持、内存和处理器资源需求、预训练模型的可用性等多种因素，综合性能、时间复杂度和精度的解决方案，我们选择DistilBERT的预训练模型并在我们的在具体任务上进行Fine-tuning，以实现我们的需求。

BERT引入了一种新的训练方法，即"Masked Language Model"(MLM)，在训练过程中，随机选择输入的一部分并将其替换为特殊的"[MASK]"标记，然后训练模型以预测原始的词。这种方式学习到的表示同时考虑了左右两侧的上下文信息，因此具有强大的语义理解能力。

在BERT中，输入序列首先通过词嵌入层转化为连续的向量表示，然后这些向量通过多层Transformer编码器进行处理。核心的自注意力机制可以表示为：

其中，QKV分别表示查询、键和值，dk是键的维度。这个机制使模型能够关注输入序列中的不同部分，达到"自顾"的效应。

对于预训练任务，BERT使用了Masked Language Model(MLM)和Next SentencePrediction(NSP)。MLM中的目标函数可以表述为：

其中，w是被mask的单词，c是上下文，D是数据分布。模型试图最大化给定上下文的被加掩码词的概率。

DistilBERT是BERT的一个轻量级版本，结构上去除了NSP任务和一些Transformer层，维持了MLM任务。DistilBERT创新性地使用知识蒸馏方法来从BERT转移知识，通过匹配BERT和DistilBERT的隐藏状态激活来训练DistilBERT：

这里，T是一个温度缩放的softmax函数，HBERT HDistilBERT分别是BERT和DistilBERT的隐藏状态。

2.4语音识别方法

在智能语音实训模块中，语音识别部分采用的是端到端(End-to-End)的深度学习Listen,Attend and Spell(LAS)框架。LAS框架采用了序列到序列(Sequence-to-Sequence,Seq2Seq)的结构，可以直接将音频序列映射到文本序列，没有中间状态的表示，大大简化了语音识别的过程。

LAS模型主要包含三个部分：Listener(监听者)、Attender(关注者)和Speller(拼写者)。这三部分分别对应了特征提取，对齐和解码三个过程：

undefined Listener(监听者)：这是模型的编码器(encoder)，通常使用深度循环神经网络(deep RNN)或者是长短期记忆网络(LSTM)来实现。它将输入的音频数据转换为隐藏特征表示。

undefined Attender(关注者)：这部分主要通过关注机制(AttentionMechanism)将编码器转换得到的隐藏特征表示中的重要信息进行挑选和对齐。

undefined Speller(拼写者)：这是模型的解码器(decoder)，通常也由深度循环神经网络或者是长短期记忆网络实现。它根据关注机制选取的特征生成语音识别的最终结果，即文本序列。

2.5知识图谱与规则引擎

为了自然语言处理方法的准确性和灵活性机器的语音理解能力，在自然语言处理模块中集成知识图谱和规则引擎。

知识图谱是一种特殊的数据库，用于存储复杂的实体关系和知识。知识图谱中的数据通常以图(graph)的形式组织，每个节点表示一个实体，每条边表示实体之间的关系。通过整合知识图谱，NLP模块就可以理解和执行涉及到具体对象和关系的语音指令。

例如，如果接收到一个“巡查玉米地的空气湿度”的指令，NLP模块可以通过查询知识图谱，识别出"玉米地"为一个实体,它有一个属性是"空气湿度"。然后,NLP模块就知道应该查询"玉米地"的"空气湿度"数据，并生成相应的控制指令。

规则引擎是一种计算模型，它使用一组预先定义的规则来推理和做决定。在自然语言处理中，规则引擎可以帮助系统理解和处理一些复杂或者模糊的指令。例如，如果接收到一个“巡查水肥设施”这样的模糊指令，规则引擎可以根据预设的规则，解释这条指令为将巡查工作区域内的所有水肥一体化设施的运行情况。

本发明适用于实现语音指令控制的远程巡检机器人任务，有效的减小了人力物力，实现智能化、自动化，提高了操作效率和准确性。

以上所述仅为本发明的实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国科学院合肥物质科学研究院;安徽中科德技智能科技有限公司;

上一篇：一种光电传感器、制备方法及光电传感扫描装置
下一篇：一种基于异步时空扭曲降低AR物体展示延迟的方法和系统