导航：首页> 机床；其他类目中不包括的金属加工>3D语义地图构建方法和模块、机器人交互方法和系统

3D语义地图构建方法和模块、机器人交互方法和系统

文献发布时间：2023-06-19 10:08:35

技术领域

本发明属于机器人和图像处理技术领域，具体地讲，涉及一种3D语义地图构建方法和模块、机器人交互方法和系统。

背景技术

随着科技的发展，技术的进步，机器人已逐渐进入人类社会的各个领域。在公共场所也可以看到各种服务机器人，可以通过语音交互的方式查询各种信息。然而，目前的移动服务机器人功能简单，仅仅停留在一问一答的状态，机器人还无法实现真正的智能化，无法理解其所处的周围环境，从而无法充分高水平的为人类提供服务。

移动机器人想要实现智能化的应用，一个关键问题在于实现自主定位和环境感知。在许多涉及到机器人应用的场景中，比如路径规划、环境感知、避障等，定位与建图的过程被视作是先决条件。传统的定位与建图方法构建的地图只是栅格地图或拓扑地图，这些地图无法提供周围环境中物体的语义信息。语义信息在此处泛指机器人对周围环境内容的理解，例如了解环境中的物体类别以及它们的关系等。同时，传统的定位与建图方法只适用于静态环境，当环境中出现运动物体时，运动物体会对算法的精度与鲁棒性造成较大影响，但场景中的运动物体常常不可避免，需对其加以处理。

发明内容

为了解决上述现有技术存在的技术问题，本发明提供了一种能够根据语义信息理解周围环境中的内容，并在周围环境中出现运动物体时也能够具有较高的算法精度和鲁棒性的3D语义地图构建方法、3D语义地图构建模块、机器人交互方法以及机器人交互系统。

根据本发明的实施例的一方面提供的用于机器人交互中的3D语义地图构建方法，其包括：接收输入的序列图像，并识别出所述序列图像的图像帧中的动态对象和语义信息；将识别出的所述动态对象从所述序列图像的图像帧中去除；根据所述动态对象被去除的所述序列图像的图像帧构建3D地图并获取机器人位姿信息；通过所述机器人位姿信息将与所述语义信息相应的语义图映射到所述3D地图上；根据映射有所述语义图的所述3D地图构建得到3D语义地图。

根据本发明的实施例的另一方面提供的用于机器人交互中的3D语义地图构建模块，其包括：序列图像接收单元，用于接收输入的序列图像；动态对象识别单元，用于识别出所述序列图像的图像帧中的动态对象；动态对象去除图像帧单元，用于将识别出的所述动态对象从所述序列图像的图像帧中去除；3D地图构建单元，用于根据所述动态对象被去除的所述序列图像的图像帧构建3D地图；机器人位姿信息输出单元，用于根据所述动态对象被去除的所述序列图像的图像帧获取并输出机器人位姿信息；语义识别单元，用于识别出所述序列图像的图像帧中的语义信息；语义地图映射单元，用于通过所述机器人位姿信息将所述语义信息相应的语义图映射到所述3D地图上；3D语义地图构建单元，用于根据映射有所述语义图的所述3D地图得到3D语义地图。

根据本发明的实施例的又一方面提供的机器人交互方法，其包括：根据接收到的语音信号获取相应的语音语义信息；根据所述语音语义信息，并利用上述的3D语义地图构建方法构建3D语义地图；根据所述语音语义信息以及所述3D语义地图控制完成与所述语音语义信息相应的操作。

在上述又一方面提供的机器人交互方法中，所述根据所述语音语义信息以及所述3D语义地图完成与所述语音语义信息相应的操作，包括：在3D语义地图中检测到与所述语音语义信息相应的语义图的情况下，获取所述语义图在所述3D语义地图中的第一位置坐标；根据所述第一位置坐标控制完成对与所述语义图相应的对象的操作。

在上述又一方面提供的机器人交互方法中，所述根据所述第一位置坐标完成对与所述语义图相应的对象的操作，包括：根据所述第一位置坐标移动到所述对象位置的特定范围内，并获取机器人当前所在的第二位置坐标；根据手眼标定信息和所述第一位置坐标完成对所述对象的操作；根据所述第二位置坐标和初始位置坐标在所述3D语义地图上规划路径，所述初始位置坐标是机器人在接收所述语音信号时的位置坐标；根据规划的所述路径从所述第二位置坐标返回所述初始位置坐标。

在上述又一方面提供的机器人交互方法中，在所述根据规划的所述路径从所述第二位置坐标返回所述初始位置坐标之后，所述机器人交互方法还包括：产生并发出操作已完成的语音信息。

根据本发明的实施例的再一方面提供的机器人交互系统，其包括：传感器装置、控制装置，所述控制装置包括：语音识别模块、3D语义地图构建模块以及决策模块；所述传感器装置用于接收语音信号，并获取序列图像；所述语音识别模块用于根据接收到的语音信号获取相应的语音信息；所述决策模块用于根据所述语音信息获取相应的语音语义信息；所述3D语义地图构建模块用于根据所述语音语义信息，并利用上述的3D语义地图构建方法构建3D语义地图；所述决策模块还用于根据所述语音语义信息以及所述3D语义地图控制完成与所述语音语义信息相应的操作。

在上述再一方面提供的机器人交互系统中，所述3D语义地图构建模块还用于在3D语义地图中检测到与所述语音语义信息相应的语义图的情况下，获取所述语义图在所述3D语义地图中的第一位置坐标；所述决策模块还用于根据所述第一位置坐标控制完成对与所述语义图相应的对象的操作。

在上述再一方面提供的机器人交互系统中，所述机器人交互系统还包括：移动驱动装置、万向轮移动装置、机械驱动装置、机械装置；所述决策模块还用于根据所述第一位置坐标控制所述移动驱动装置驱动所述万向轮移动装置移动到所述对象位置的特定范围内，并获取机器人当前所在的第二位置坐标；所述决策模块还用于根据手眼标定信息和所述第一位置坐标控制所述机械驱动装置驱动所述机械装置完成对所述对象的操作；所述决策模块还用于根据所述第二位置坐标和初始位置坐标在所述3D语义地图上规划路径，所述初始位置坐标是机器人在接收所述语音信号时的位置坐标；所述决策模块还用于根据规划的所述路径控制所述移动驱动装置驱动所述万向轮移动装置从所述第二位置坐标移动返回所述初始位置坐标。

在上述再一方面提供的机器人交互系统中，所述3D语义地图构建模块包括：序列图像接收单元，用于接收输入的序列图像；动态对象识别单元，用于识别出所述序列图像的图像帧中的动态对象；动态对象去除图像帧单元，用于将识别出的所述动态对象从所述序列图像的图像帧中去除；3D地图构建单元，用于根据所述动态对象被去除的所述序列图像的图像帧构建3D地图；机器人位姿信息输出单元，用于根据所述动态对象被去除的所述序列图像的图像帧获取并输出机器人位姿信息；语义识别单元，用于识别出所述序列图像的图像帧中的语义信息；语义地图映射单元，用于通过所述机器人位姿信息将所述语义信息相应的语义图映射到所述3D地图上；3D语义地图构建单元，用于根据映射有所述语义图的所述3D地图得到3D语义地图。

有益效果：本发明提供的方法、模块和系统，能够使机器人根据语义信息理解周围环境中的内容，并在周围环境中出现运动物体时也能够具有较高的算法精度和鲁棒性，从而能够实现真正的智能化，并且能够充分高水平的为人类提供服务。

附图说明

通过结合附图进行的以下描述，本发明的实施例的上述和其它方面、特点和优点将变得更加清楚，附图中：

图1是根据本发明的实施例的3D语义地图构建方法的流程图；

图2是根据本发明的实施例的3D语义地图构建模块的单元方框图；

图3是根据本发明的实施例的3D语义地图构建方法的流程图；

图4是根据本发明的实施例的3D语义地图构建系统的原理方框图；

图5是根据本发明的实施例的控制装置的模块方框图。

具体实施方式

以下，将参照附图来详细描述本发明的具体实施例。然而，可以以许多不同的形式来实施本发明，并且本发明不应该被解释为限制于这里阐述的具体实施例。相反，提供这些实施例是为了解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够理解本发明的各种实施例和适合于特定预期应用的各种修改。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”、“根据”等表示“至少部分地基于”、“至少部分地根据”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

如背景技术中所述，传统的应用于机器人中的定位与建图方法构建的地图只是栅格地图或拓扑地图，这些地图无法提供周围环境中物体的语义信息，从而无法使机器人根据语义信息理解周围环境内容；同时，传统的定位与建图方法只适用于静态环境，当环境中出现运动物体时，运动物体会对算法的精度与鲁棒性造成较大影响。

为了使机器人能够根据语义信息理解周围环境中的内容，并在周围环境中出现运动物体时也能够具有较高的算法精度和鲁棒性，根据本发明的实施例提供了一种用于机器人交互中的3D语义地图构建方法，其包括：接收输入的序列图像，并识别出所述序列图像的图像帧中的动态对象和语义信息；将识别出的所述动态对象从所述序列图像的图像帧中去除；根据所述动态对象被去除的所述序列图像的图像帧构建3D地图并获取机器人位姿信息；通过所述机器人位姿信息将与所述语义信息相应的语义图映射到所述3D地图上；根据映射有所述语义图的所述3D地图构建得到3D语义地图。

因此，在该3D语义地图构建方法中，构建的3D语义地图能够提供周围环境中物体的语义信息，从而使机器人能够根据语义信息理解周围环境中的内容；并且在构建3D语义地图的过程中将序列图像的图像帧中的动态对象(即动态物体)去除，从而不会影响算法的精度和鲁棒性。

以下将结合附图来详细描述根据本发明的实施例的3D语义地图构建方法和3D语义地图构建模块。

根据本发明的实施例的3D语义地图构建方法和3D语义地图构建模块应用于机器人的交互中。

图1是根据本发明的实施例的3D语义地图构建方法的流程图。

参照图1，在框101，接收输入的序列图像，并识别出所述序列图像的图像帧中的动态对象和语义信息。

在一个示例中，序列图像可以是RGB-D序列图像。在这种情况下，可以通过RGB-D深度相机获取RGB-D序列图像。

在一个示例中，可以采用光流法识别出序列图像的图像帧中的动态对象。

在一个示例中，语义信息泛指机器人对周围环境内容的理解，例如了解环境中的物体类别以及它们的关系等。

在一个示例中，可以采用例如YOLOv3等的深度学习方法作为语义识别方法来识别出图像帧中的语义信息。例如，可以根据图像中的椅子图像(或称语义图)识别出语义信息“椅子”。

在框103，将识别出的所述动态对象从所述序列图像的图像帧中去除。

在框105，根据所述动态对象被去除的所述序列图像的图像帧构建3D地图并获取机器人位姿信息。

在一个示例中，可以通过ORB-SLAM2等方法实现3D地图的构建和机器人位姿信息的获取输出。

在框107，通过所述机器人位姿信息将与所述语义信息相应的语义图映射到所述3D地图上。

在框109，根据映射有所述语义图的所述3D地图构建得到3D语义地图。

图2是根据本发明的实施例的3D语义地图构建模块的单元方框图。

参照图2，根据本发明的实施例的3D语义地图构建模块200包括：序列图像接收单元202、动态对象识别单元204、动态对象去除图像帧单元206、3D地图构建单元208、机器人位姿信息输出单元210、语义识别单元212、语义地图映射单元214、3D语义地图构建单元261。

序列图像接收单元202用于接收输入的序列图像。在一个示例中，序列图像可以是RGB-D序列图像。在这种情况下，序列图像接收单元202可以接收通过RGB-D深度相机获取的RGB-D序列图像。

动态对象识别单元204用于识别出所述序列图像的图像帧中的动态对象。在一个事例中，动态对象识别单元204可以采用光流法识别出序列图像的图像帧中的动态对象。

动态对象去除图像帧单元206用于将识别出的所述动态对象从所述序列图像的图像帧中去除。

3D地图构建单元208用于根据所述动态对象被去除的所述序列图像的图像帧构建3D地图。在一个示例中，3D地图构建单元208用于根据所述动态对象被去除的所述序列图像的图像帧，并通过ORB-SLAM2方法实现3D地图的构建。

机器人位姿信息输出单元210用于根据所述动态对象被去除的所述序列图像的图像帧获取并输出机器人位姿信息。在一个示例中，机器人位姿信息输出单元210用于根据所述动态对象被去除的所述序列图像的图像帧，并通过ORB-SLAM2方法实现机器人位姿信息的获取输出。

语义识别单元212用于识别出所述序列图像的图像帧中的语义信息。在一个示例中，语义信息泛指机器人对周围环境内容的理解，例如了解环境中的物体类别以及它们的关系等。在一个示例中，语义识别单元212可以采用例如YOLOv3等的深度学习方法作为语义识别方法来识别出图像帧中的语义信息。例如，可以根据图像中的椅子图像(或称语义图)识别出语义信息“椅子”。

语义地图映射单元214用于通过所述机器人位姿信息将所述语义信息相应的语义图映射到所述3D地图上。

3D语义地图构建单元216用于根据映射有所述语义图的所述3D地图得到3D语义地图。

以下对应用了根据本发明的实施例的3D语义地图构建方法的机器人交互方法以及应用了根据本发明的实施例的3D语义地图构建模块的机器人交互系统进行详细的描述。

图3是根据本发明的实施例的3D语义地图构建方法的流程图。

参照图3，在框301，根据接收到的语音信号获取相应的语音语义信息。

在一个示例中，例如，当一个人向机器人说道：“帮我把杯子拿过来”(即语音信号)，相当于这个人向机器人发出一个语音信号。在这种情况下，根据语音信号“帮我把杯子拿过来”可以识别出相应的语音信息(即语音信号所携带的信息)，即“帮我把杯子拿过来”。根据“帮我把杯子拿过来”的语音信息，可以理解并获取相应的语音语义信息，即可以包括：“寻找杯子”，“确认杯子在3D语义地图中的位置坐标”，“抓取杯子”，“返回当前位置坐标”等的语音语义信息。

在框303，根据所述语音语义信息，并利用图1所示的3D语义地图构建方法构建3D语义地图。

在一个示例中，在构建3D语义地图之前，机器人可以先获取并记录初始位置坐标。在一个示例中，根据语音语义信息，机器人出发移动来寻找杯子，并且在机器人移动过程中，根据语音语义信息并利用图1所示的3D语义地图构建方法构建3D语义地图。

在框305，根据所述语音语义信息以及所述3D语义地图控制完成与所述语音语义信息相应的操作。

在一个示例中，实现框305的方法包括：首先，在3D语义地图中检测到与所述语音语义信息相应的语义图的情况下，获取所述语义图在所述3D语义地图中的第一位置坐标。在一个示例中，当在3D语义地图中检测到中检测到杯子(即语义图)时，获取杯子在3D语义地图中的第一位置坐标。其次，根据所述第一位置坐标控制完成对与所述语义图相应的对象的操作。

在一个示例中，所述根据所述第一位置坐标完成对与所述语义图相应的对象的操作，包括：

第一，根据所述第一位置坐标移动到所述对象位置的特定范围内，并获取机器人当前所在的第二位置坐标。

在一个示例中，机器人移动以靠近第一位置坐标对应的对象(即环境中的杯子)位置的特定范围内，并且获取此时机器人当前所在的第二位置坐标。

第二，根据手眼标定信息和所述第一位置坐标完成对所述对象的操作。

例如，根据手眼标定信息和所述第一位置坐标完成对杯子的抓取。

第三，根据所述第二位置坐标和初始位置坐标在所述3D语义地图上规划路径。如上所述，所述初始位置坐标是机器人在接收所述语音信号时的位置坐标。

第四，根据规划的所述路径从所述第二位置坐标返回所述初始位置坐标。

在一个示例中，机器人根据规划的路径从所述第二位置坐标返回所述初始位置坐标。

在一个示例中，根据本发明的实施例的3D语义地图构建方法还包括：产生并发出操作已完成的语音信息。在一个示例中，机器人在返回初始位置坐标之后，机器人发出语音信息“这是您的杯子”。

图4是根据本发明的实施例的3D语义地图构建系统的原理方框图。图5是根据本发明的实施例的控制装置的模块方框图。

参照图4和图5，根据本发明的实施例的3D语义地图构建系统包括：传感器装置410、控制装置420、移动驱动装置430、万向轮移动装置440、机械驱动装置450、机械装置460、音响装置470、电源装置480以及无线通信装置490。控制装置420包括：语音识别模块100、图2所示的3D语义地图构建模块200以及决策模块300。

传感器装置410用于接收语音信号，并获取序列图像。

在一个示例中，例如，当一个人向机器人说道：“帮我把杯子拿过来”(即语音信号)，相当于这个人向机器人发出一个语音信号，此时由机器人的传感器装置410接收此语音信号。

在一个示例中，在一个示例中，序列图像可以是RGB-D序列图像。在这种情况下，传感器装置410中还具有RGB-D深度相机，以获取RGB-D序列图像。

控制装置420的语音识别模块100用于根据接收到的语音信号获取相应的语音信息。

在一个示例中，语音识别模块100根据语音信号“帮我把杯子拿过来”可以识别出相应的语音信息(即语音信号所携带的信息)，也就是“帮我把杯子拿过来”。

控制装置420的决策模块300用于根据所述语音信息获取相应的语音语义信息。

在一个示例中，决策模块300根据“帮我把杯子拿过来”的语音信息，可以理解并获取相应的语音语义信息，即可以包括：“寻找杯子”，“确认杯子在3D语义地图中的位置坐标”，“抓取杯子”，“返回当前位置坐标”等的语音语义信息。

控制装置420的3D语义地图构建模块200根据所述语音语义信息，并利用图1所示的3D语义地图构建方法构建3D语义地图。3D语义地图构建模块200的构造可以参照图2所示。

控制装置420的决策模块300还用于根据所述语音语义信息以及所述3D语义地图控制完成与所述语音语义信息相应的操作。

在一个示例中，控制装置420的3D语义地图构建模块200还用于在3D语义地图中检测到与所述语音语义信息相应的语义图的情况下，获取所述语义图在所述3D语义地图中的第一位置坐标。在一个示例中，当控制装置420的3D语义地图构建模块200在3D语义地图中检测到中检测到杯子(即语义图)时，获取杯子在3D语义地图中的第一位置坐标。控制装置420的决策模块300还用于根据所述第一位置坐标控制完成对与所述语义图相应的对象的操作。

在一个示例中，决策模块300还用于根据所述第一位置坐标控制移动驱动装置430驱动万向轮移动装置440移动到所述对象位置的特定范围内，并获取机器人当前所在的第二位置坐标。

在一个示例中，万向轮移动装置440移动以靠近第一位置坐标对应的对象(即环境中的杯子)位置的特定范围内，决策模块300获取此时机器人当前所在的第二位置坐标。

在一个示例中，万向轮移动装置440由可以自由转动的万向轮组成，负责带动机器人平移和旋转。

在一个示例中，移动驱动装置430是向万向轮移动装置440提供动力的装置。移动驱动装置430的移动驱动电机可以采用步进电机或伺服电机。移动驱动装置430利用电机产生的力矩和力，直接或间接地驱动万向轮移动装置440来获得各种运动。

决策模块300还用于根据手眼标定信息和所述第一位置坐标控制机械驱动装置450驱动机械装置460完成对所述对象的操作。

例如，决策模块300根据手眼标定信息和所述第一位置坐标控制机械驱动装置450驱动机械装置460完成对杯子的抓取。

在一个示例中，机械装置460由机身、手臂、末端操作器三部分组成。每一部分都有若干自由度，构成一个多自由度的机械系统。

在一个示例中，机械驱动装置450是向机械装置460提供动力的装置。机械驱动装置450的传动方式有三种：液压式、气压式和机械齿轮式。机械驱动装置450的驱动电机可以采用步进电机或伺服电机。机械驱动装置450利用电机产生的力矩和力，直接或间接地驱动机械装置460来获得各种运动。

决策模块300还用于根据所述第二位置坐标和初始位置坐标在所述3D语义地图上规划路径，所述初始位置坐标是机器人在接收所述语音信号时的位置坐标。

决策模块300还用于根据规划的所述路径控制移动驱动装置430驱动万向轮移动装置440从所述第二位置坐标移动返回所述初始位置坐标。

在一个示例中，机器人在返回初始位置坐标之后，决策模块300控制音响装置470发出语音信息“这是您的杯子”。

电源装置480与其他装置电连接，并向它们提供电力能源。在一个示例中，电源装置480由12V和36V电池组成。

无线通讯装置490是将传感器装置410获取的信息传送给控制装置420，并将控制装置420远程发来的指令传输给移动驱动装置430、机械驱动装置450和音响装置470。

上述对本发明的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”、“示例”等意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本发明的实施例的可选实施方式，但是，本发明的实施例并不限于上述实施方式中的具体细节，在本发明的实施例的技术构思范围内，可以对本发明的实施例的技术方案进行多种简单变型，这些简单变型均属于本发明的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：宋呈群;程俊;
专利申请人：中国科学院深圳先进技术研究院;