掌桥专利:专业的专利平台
掌桥专利
首页

信息处理装置、信息处理方法和程序

文献发布时间:2024-04-18 19:58:53


信息处理装置、信息处理方法和程序

技术领域

本公开内容涉及信息处理装置、信息处理方法和程序。具体地,本发明涉及执行用于使机器人执行预定操作的学习处理和机器人控制处理的信息处理装置、信息处理方法和程序。

背景技术

近年来,机器人在各个领域中的使用越来越多。

例如,在工厂中,机器人完成了传统上由人完成的大部分工作。

在工厂中存在由机器人执行的各种类型的处理,并且作为其示例,存在对象抓握处理。作为使用对象保持处理的处理的具体示例,例如,存在从部件盒保持一个部件a,将部件a移动至预定位置,并且将部件a安装在另一部件b上的处理。

为了使机器人精确地执行上述处理,有必要以高精度控制机器人的移动。学习处理被用作构建该控制算法的一种方法。

例如,通过执行对由安装在机器人上或固定到工作场所的特定位置的摄像装置捕获的图像进行分析的学习处理,例如,可以构建用于实现如上所述的处理(任务)的自动化的算法。

然而,在学习处理中,需要输入大量的样本数据,例如,具有各种不同设置的捕获图像,并分析大量的图像,这需要大量的时间和精力。

例如,在获取待获取的部件a时存在与假定位置和姿势的大量偏差模式,并且与部件a一起安装的部件b的位置和姿势也存在大量偏差模式的情况下,为了生成与各种偏差模式对应的控制信息,需要非常大量的样本数据(摄像装置捕获的图像),并且学习处理也需要相当长的时间。

作为解决这样的问题的方法之一,已经提出了模仿学习处理,其中,人创建指示机器人的各种运动的教导数据,并使机器人学习类似于教导数据的运动。

作为使用教导数据的模仿学习处理的示例,例如,存在这样的处理,其中,人直接移动机器人以学习与各种部件位置对应的机器人的理想移动。

当人直接移动机器人时,机器人可以学习动作。

注意,例如,专利文献1(日本专利申请特开第2005-135095号)等是公开使用教导数据的学习处理的常规技术。

使用教导数据的学习具有优点,例如,可以使机器人直接记忆高度通用的运动,例如,抵抗对象位置变化的运动,而无需人设计详细的规则。

然而,在使用这样的教导数据执行学习处理的情况下,例如,执行深度学习的情况下,通过学习处理获得的机器人的性能很大程度上取决于所使用的教导数据。

为了提高机器人的性能,需要创建高质量的教导数据集,即覆盖多个区域的教导数据集。

例如,在执行抓握某个部件的处理的情况下,机器人的理想操作取决于要抓握的部件的位置、部件的方向等而变化。

已经根据多个不同部件的位置和部件的取向学习了理想移动的机器人可以使用学习结果来抓握部件。

在部件位置和部件方向的设置与学习处理中使用的教导数据相似的情况下,机器人可以基于通过学习处理获得的知识来执行理想的移动。然而,在部件位置和部件取向的设置与教导数据不同的情况下,机器人仅利用通过学习处理得到的知识不能执行理想的移动。

因此,为了提高机器人的性能,需要创建大量高质量(即覆盖大量区域)的教导数据,并使机器人记忆教导数据。

然而,当人创建没有任何索引的教导数据时,就会出现偏差或生成不能覆盖的区域。因此,即使使用深度学习,通用性也会降低,并且在许多情况下无法获得预期的性能。

在这种情况下,有必要通过进一步添加新的教导数据来执行学习。然而,即使在没有任何索引的情况下执行基于新的教导数据的学习处理,也存在可能无用的处理,诸如执行与已经使用的教导数据相似的数据的学习。因此,要使机器人获得目标性能需要大量的时间。

这个问题被称为协变量移位,长期以来一直在寻找解决方案。

例如,作为显示这种协变量移位的解的方法之一,有以下方法。

存在以下方法:使机器人在实际环境中执行所学习的行为规则,并且作为结果,人将教导数据标记到已经发生问题的状态,例如,已经发生问题的状态,并且使教导数据被标记以作为新的教导数据学习等。

然而,这种方法需要大量的工作和时间来找到所需的教导数据。

此外,还提出了大量增加教导数据集的技术。

大量增加教导数据集的数量使得防止数据集偏差和覆盖大范围的移动成为可能。

如果人直接创建大量的教导数据集,不需要移动实际系统,因此创建多种类型数据集的效率很高。然而,探索性地创建多种类型的教导数据集的必要性没有改变,并且存在工作和时间不能大大减少的问题。

引文列表

专利文献

专利文献1:日本专利申请特开第2005-135095号。

发明内容

发明要解决的问题

例如,鉴于上述问题而提出了本公开内容,并且本公开内容的目的是提供信息处理装置、信息处理方法和程序,其使得在机器人使用教导数据学习运动的配置中,机器人能够有效地创建各种类型的有效教导数据并学习教导数据,并且有效地提高机器人性能。

问题的解决方案

本公开内容的第一方面是信息处理装置,包括:

教导数据执行单元,其生成与通过基于教导数据的用户操作的机器人的动作对应的摄像装置捕获图像和机器人的移动位置信息,作为学习数据;

学习处理单元,其通过输入由所述教导数据执行单元生成的学习数据来执行机器学习处理,并且生成包括图像与机器人的行为规则之间的对应关系数据的教导数据集作为学习结果数据;以及

反馈信息生成单元,其输入由教导数据执行单元生成的学习数据和由学习处理单元生成的学习结果数据,执行对应用于在所述教导数据执行单元中执行的用户操作的教导数据的评估,生成基于评估结果的反馈信息,并且将反馈信息输出至输出单元。

此外,本公开内容的第二方面是在信息处理装置中执行的信息处理方法,该方法包括:

教导数据执行步骤,由教导数据执行单元基于教导数据和机器人的移动位置信息,生成与由用户操作的机器人的移动对应的摄像装置捕获图像作为学习数据;

教导数据执行步骤:由教导数据执行单元生成与通过基于教导数据的用户操作的机器人的动作对应的摄像装置捕获图像和机器人的移动位置信息,作为学习数据;

学习处理步骤:由学习处理单元通过输入由教导数据执行单元生成的学习数据来执行机器学习处理,并且生成包括图像与机器人的行为规则之间的对应关系数据的教导数据集作为学习结果数据;以及

反馈信息生成步骤:由反馈信息生成单元通过输入由教导数据执行单元生成的学习数据和由学习处理单元生成的学习结果数据,执行对应用于在所述教导数据执行单元中执行的用户操作的教导数据的评估,生成基于评估结果的反馈信息,并且将反馈信息输出至输出单元。

此外,本公开内容的第三方面是用于使信息处理装置执行信息处理的程序,包括:

教导数据执行步骤:使教导数据执行单元生成与通过基于教导数据的用户操作的机器人的动作对应的摄像装置捕获图像和机器人的移动位置信息,作为学习数据;

学习处理步骤:使学习处理单元通过输入由教导数据执行单元生成的学习数据来执行机器学习处理,并且生成包括图像与机器人的行为规则之间的对应关系数据的教导数据集作为学习结果数据;以及

反馈信息生成步骤:使反馈信息生成单元通过输入由教导数据执行单元生成的学习数据和由学习处理单元生成的学习结果数据来执行对应用于在所述教导数据执行单元中执行的用户操作的教导数据的评估,生成基于评估结果的反馈信息,并且将反馈信息输出至输出单元。

注意,本公开内容的程序是可以由例如以计算机可读格式提供的存储介质或通信介质提供给可以执行各种程序代码的信息处理装置或计算机系统的程序。通过以计算机可读格式提供这样的程序,在信息处理装置或计算机系统上实现与该程序对应的处理。

根据基于以下描述的本公开内容的实施方式和附图的更详细的描述,本公开内容的其他目的、特征和优点将变得明显。注意,本说明书中的系统是多个装置的逻辑集合配置,并且不限于其中具有相应配置的装置在同一壳体中的系统。

根据本公开内容的一个实施方式的配置,在使用教导数据执行学习处理的配置中,实现了以易于理解的方式向用户呈现教导数据的评估分数和必要的教导数据的装置和方法,并且可以执行高效的学习处理和机器人性能的改进。

具体地,例如,教导数据执行单元生成与通过基于教导数据的用户操作的机器人的动作对应的摄像装置捕获图像和机器人的移动位置信息,作为学习数据,学习处理单元输入由教导数据执行单元生成的学习数据来执行机器学习处理,并且生成包括图像与机器人的行为规则的教导数据集作为学习结果数据,反馈信息生成单元输入由教导数据执行单元生成的学习数据和由学习处理单元生成的学习结果数据,执行对教导数据的评估,基于评估结果生成并输出数值反馈信息和视觉反馈信息。

根据该配置,在使用教导数据执行学习处理的配置中,实现了以易于理解的方式向用户呈现教导数据的评估分数和必要的教导数据的装置和方法,并且可以执行高效的学习处理和机器人性能的改进。

注意,本文中描述的效果仅是示例,并不限于此,还可以存在额外的效果。

附图说明

图1是用于说明机器人的操作和控制处理的示例的图。

图2是用于说明机器人的操作和控制处理的示例的图。

图3是用于说明通过用户对机器人的操作使用教导数据的学习处理的示例的图。

图4是用于说明通过用户对机器人的操作使用教导数据的学习处理的示例的图。

图5是用于说明不能创建与特定部件位置或部件姿势对应的教导数据的示例的图。

图6是用于说明由根据本公开内容的信息处理装置执行的处理的概要的图。

图7是用于说明教导数据执行单元的配置和处理的图。

图8是用于说明学习处理单元的配置和处理的图。

图9是用于说明反馈信息生成单元的配置和处理的图。

图10是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图11是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图12是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图13是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图14是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图15是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图16是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图17是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图18是用于说明由反馈信息生成单元生成的反馈信息的具体示例的图。

图19是用于说明由反馈信息生成单元生成并输出至输出单元的反馈信息的具体示例的图。

图20是用于说明根据本公开内容的信息处理装置的配置示例的图。

图21是示出用于说明由本公开内容的信息处理装置执行的处理序列的流程图的图。

图22是示出用于说明由本公开内容的信息处理装置执行的处理序列的流程图的图。

图23是用于说明根据本公开内容的信息处理装置的硬件配置示例的图。

具体实施方式

在下文中,将参照附图详细描述根据本公开内容的信息处理装置、信息处理方法和程序。请注意,描述将根据以下项目给出。

1.机器人控制处理示例

2.使用用于构建机器人控制算法的教导数据的学习处理

3.由根据本公开内容的信息处理装置执行的处理的概述

4.由本公开内容的信息处理装置执行的处理的具体示例

5.输出单元中的显示数据的示例

6.根据本公开内容的信息处理装置的配置示例

7.由根据本公开内容的信息处理装置执行的处理序列

8.本公开内容的信息处理装置的硬件配置示例

9.本公开内容的配置的概要

[1.机器人控制处理示例]

首先,将参照图1和随后的附图描述机器人控制处理的示例。

图1是示出由机器人100执行的处理的示例的图。

盒子包含大量部件。机器人100执行用位于机器人远端的抓握部101从盒子a抓握一个部件,通过旋转臂部102将抓握部101移动至盒子b的位置,并且将所抓握的部件放置在盒子b中的处理。

将参照图2描述机器人100以这种方式执行从盒子a中取出部件并且将该部件放置在盒子b中的处理的情况下的处理序列。

机器人100按照图2所示的步骤S01至S04的顺序执行以下处理。

(步骤S01)

首先,在步骤S01中,机器人100从盒子a中选择一个要抓握的部件,并且将抓握部101移动至可以抓握所选择的部件的位置。

(步骤S102)

接下来,在步骤S02中,机器人100驱动抓握部101来抓握并提升所选择的部件。

(步骤S03)

此后,在步骤S03中,机器人100在通过抓握部101抓握部件的同时旋转臂部102,并且将抓握部101移动至盒子b的上方。

(步骤S04)

此后,在步骤S04中,机器人100降低抓握部件的抓握部101以接近盒子b,释放抓握部101的部件抓握状态,将部件从抓握部101分离,并且将部件放入盒子b中。

然而,在机器人100根据这些序列执行抓握和移动部件的操作的情况下,机器人100需要对每个部件执行不同的操作。

例如,在执行从盒子a获取一个部件的部件拾取处理的情况下,机器人100需要根据部件的位置和取向以不同模式执行移动和抓握处理。

此外,当将部件放置在盒子b中时,根据部件已经在盒子b中的位置,需要不同的处理。

因此,为了对每个部件精确地执行上述步骤S01至S04中的处理,需要假设所有各种状态的机器人控制。

学习处理作为根据这样的每个状态执行不同机器人控制的处理是有效的。

在下文中,将描述用于机器人控制的学习处理的示例。

[2.使用用于构建机器人控制算法的教导数据的学习处理]

接下来,将描述使用用于构建机器人控制算法的教导数据的学习处理。

例如,通过在机器人执行操作期间执行分析安装在机器人上的摄像装置或固定在工作场所的特定位置上的摄像装置的捕获图像的学习处理,可以构建实现如参照图1和图2所述的处理自动化的控制算法。

然而,学习处理需要大量的样本数据。例如,需要执行捕获和分析用于在各种不同的位置和姿势抓握部件的大量图像的处理,这需要大量的时间和精力。

例如,在存在大量待抓握部件的位置和姿势的模式的情况下,需要生成与各种模式对应的控制信息,并且为此目的,需要与每个模式对应的大量样本数据(摄像装置捕获的图像),并且还需要相当长的时间用于学习处理。

作为解决这种问题的方法之一,已经提出了学习处理(模仿学习处理),其中,人创建指示机器人的各种运动的教导数据,并使机器人学习类似于教导数据的运动。

使用教导数据的学习处理例如是这样的学习处理,其中,人直接操作机器人的抓握部或臂部,以实际执行与各种部件位置对应的机器人的理想移动,并存储轨迹等。注意,人也可以使用控制器移动机器人,以使机器人存储移动。

以这种方式,当人移动机器人时,机器人可以学习该移动。

例如,如图3所示,用户(操作者)120直接移动机器人100。在机器人100的操作期间,附接至机器人100的抓握部101的摄像装置105沿着向下的方向捕获抓握部105的图像。

例如,如图4所示,在用户的操作下执行上面参照图2描述的步骤S01至S04中的移动,并且捕获一系列图像。

使用捕获图像执行学习处理。

当用户120移动机器人100时,捕获图像被顺序地更新。机器人100中的信息处理装置或从机器人100接收图像并执行分析的信息处理装置可以分析捕获图像并生成机器人100的移动序列与捕获图像的变化序列之间的对应关系数据。

也就是说,通过学习处理,可以生成捕获图像、机器人100的行为规则,以及包括这些数据的组合的数据集(=学习结果数据)。

这个数据集被称为“教导数据集”。

作为学习处理的结果,生成了大量的教导数据集(=学习结果数据),包括与对应于各种部件位置的“捕获图像”对应的“行为规则”的组合。

在完成学习处理之后,使用教导数据集(=学习结果数据)来控制机器人100,使得机器人100能够可靠地在各个位置抓握部件。

也就是说,通过从教导数据集(=学习结果数据)中选择要保持在安装在机器人100上的摄像装置的捕获图像中的路径上的捕获图像,并根据与所选择的教导数据集的“捕获图像”对应的“行为规则”操作机器人100,可以使机器人100执行与在学习处理时由用户操作的运动类似的运动。

使用教导数据的学习的优点是,例如,可以使机器人直接记忆高度通用的运动,例如,抵抗对象位置变化的运动,而无需人设计详细的规则。

在执行应用了这样的教导数据的机器学习,特别是深度学习的情况下,通过学习获得的机器人的性能很大程度上取决于所使用的教导数据。

为了提高机器人的性能,需要创建高质量的教导数据集,即覆盖多个区域的教导数据集,并使机器人记忆教导数据集。

然而,当人创建没有任何索引的教导数据时,就会生成偏差或不能覆盖的区域。具体地,例如,存在不能创建与特定部件位置或部件姿势对应的教导数据的问题。

例如,如图5所示,当用户120重复执行使机器人100抓握盒子a的特定区域(即,在右上角所示的区域a附近)中的部件的操作以执行学习处理时,通过基于区域a中的教导数据的学习处理来创建作为用于抓握区域a中的部件的学习结果数据的许多教导数据集。

然而,如果用户120不在区域b中操作机器人100,则不执行基于与区域b对应的教导数据的学习处理,并且很难创建作为用于抓握区域b中的部件的学习结果数据的教导数据集。

结果,在使用作为学习处理结果获得的教导数据集来控制机器人100的情况下,可以在抓握区域a中的部件的处理中使用包括在学习结果中的教导数据集来执行良好的控制,但是难以在抓握区域b中的部件的处理中使用包括在学习结果中的教导数据集来执行良好的控制。

这样,如果使用不充分的教导数据来执行学习处理,即使使用深度学习,也难以执行与特定部件位置对应的控制。结果,通用性变差,并且不能实现预期的机器人性能。

如上所述,这个问题被称为协变量移位,长期以来一直在寻找解决方案。

例如,存在使机器人在实际环境中执行学习的行为规则的方法,并且作为结果,人将教导数据标记到已经发生问题的状态,例如,已经发生问题的状态,并且使教导数据被标记以作为新的教导数据学习,以及增加教导数据集数量的方法等。

然而,这些方法需要大量的工作和时间来寻找必要的教导数据,并且存在不能大大减少工作和时间的问题。

[3.由根据本公开内容的信息处理装置执行的处理的概述]

接下来,将描述由本公开内容的信息处理装置执行的处理的概要。

例如,鉴于上述问题而产生本公开内容,并且本公开内容使得在使用教导数据使机器人学习运动的情况下高效地创建各种类型的有效教导数据成为可能。

也就是说,通过减少出现偏差或未覆盖区域的可能性,可以高效地创建不存在过多或不足的有效教导数据。

通过使用不存在过多或不足的有效教导数据执行学习处理,可以高效并且可靠地改善机器人的性能。

例如,本公开内容的信息处理装置为根据教导数据移动机器人的用户(操作者)生成并呈现反馈信息。例如,生成并呈现数值反馈信息(诸如作为由用户执行的教导数据的评估值的分数)或视觉反馈信息。

用户(操作者)可以通过参照由本公开内容的信息处理装置生成的反馈信息来容易地确定哪种教导数据是必要的新教导数据。

注意,由本公开内容的信息处理装置生成并呈现给用户的反馈信息是使用作为学习处理的结果而获得的行为规则的不确定性、行为规则的丢失(来自教导数据集的预测误差)、通过分析摄像装置捕获的图像而获得的潜在特征数据等来创建的。

注意,潜在特征数据是通过压缩和简化原始数据中包括的特征数据而获得的特征数据。例如,从摄像装置的捕获图像获得的特征数据包括大量数据,诸如图像的大小(高度、宽度)、对象距离、以像素为单位的颜色和亮度,并且当所有这些都要输出时,特征数据变成数以100维的庞大数据,并且分析处理需要大量的时间。通过将如此庞大的数据压缩成诸如64维、32维、2维或3维的多维向量而生成的数据是潜在特征数据。通过使用潜在特征数据执行分析,可以执行有效的分析。

如上所述,潜在特征数据是通过压缩和简化原始数据中包括的特征数据而获得的特征数据,并且本公开内容的信息处理装置使用潜在特征数据生成包括数值反馈信息和视觉反馈信息的两种反馈信息,数值反馈信息诸如是作为要呈现给用户的教导数据的评估值的分数。

本公开内容的信息处理装置解决了使用常规教导数据进行学习处理的问题,也就是说,在由人生成的教导数据中出现偏差并且出现未覆盖区域的问题。

具体地,例如,执行以下处理:生成允许用户确认要生成的新教导数据、与难以学习的区域对应的教导数据等的视觉反馈信息或数值反馈信息并且向用户呈现视觉反馈信息或数值反馈信息。

在下文中,将描述由本公开内容的信息处理装置生成并提供给用户的反馈信息的具体示例。

(1)数值反馈信息

数值反馈信息例如是由用户执行的教导数据的评估值。

生成并呈现基于预定义的参考值计算的分数,例如,诸如分数=1、2、3、4和5的五级分数作为五级评估值。

注意,五级是示例,并且使用至少两个或更多级的多级的分数的配置是可能的。

通过使用这样的分数,可以向用户提供容易理解的反馈信息。

注意,稍后将描述分数生成处理和呈现处理的具体示例。

(2)视觉反馈信息

视觉反馈信息包括以下多条信息:

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

由本公开内容的信息处理装置生成并呈现给用户的视觉反馈信息包括多条信息。

在下文中,将描述每条信息的概要。注意,下面描述的视觉反馈信息的具体示例将在后面描述。

(2a)分数图形显示数据

分数图形显示数据例如是与分数对应的诸如条形图的图形数据,并且是将由用户执行的教导数据的评估值设置为易于理解的视觉信息的数据。例如,输出与作为数值反馈信息的分数对应的条形图或星数(★★☆☆☆等)。

因此,用户可以立即确认由用户执行的教导数据的分数是高还是低。

(2b)高分区域指示数据

例如,高分区域指示数据是这样的数据,在该数据中,在摄像装置捕获的图像上显示诸如箭头的标记,该标记指示其中可以生成具有高分的教导数据的区域。

当将附接至机器人的摄像装置的捕获图像输出至显示单元时,在显示图像上显示诸如箭头的标记,该标记指示可以生成具有高分的教导数据的区域。

因此,用户可以确认要新生成的教导数据的位置、轨迹等。

(2c)分数对应颜色显示数据

分数对应颜色显示数据是输出分数对应颜色的摄像装置捕获的图像的显示数据。

当附接至机器人的摄像装置的捕获图像被输出至显示单元时,根据作为数值反馈信息的分数将显示图像的颜色设置为不同的颜色。例如,在分数低的情况下设置蓝色图像,在分数高的情况下设置红色图像。

因此,用户可以立即确认由用户执行的教导数据的分数是高还是低。

(2d)相似教导数据的标识图形数据

相似教导数据的标识图形数据是从根据基于由用户新执行的教导数据的机器人的轨迹的摄像装置捕获的图像获取的特征数据与从与已经执行的教导数据对应的摄像装置捕获的图像获得的特征数据的比较数据。

生成并显示由用户新执行的教导数据与已经执行的教导数据之间的比较数据。

例如,生成并显示从根据基于由用户新执行的教导数据的机器人的轨迹的摄像装置捕获的图像获得的特征数据与从与已经执行的教导数据对应的摄像装置捕获的图像获得的特征数据的比较数据。

注意,为了容易理解,显示数据被压缩并显示为多维度的潜在特征数据。

因此,用户可以容易地确认新执行的教导数据是否与已执行的教导数据相似。

(2e)教导数据-对应轨迹数据

通过生成并显示基于由用户新执行的教导数据的机器人的轨迹(例如,抓握位置)与基于已经执行的教导数据的机器人的轨迹(例如,抓握位置)之间的比较数据,获得教导数据-对应轨迹数据。

生成并显示基于由用户新执行的教导数据的机器人的轨迹(例如,抓握位置)与基于已经执行的教导数据的机器人的轨迹(例如,抓握位置)之间的比较数据。

例如,轨迹数据被绘制并显示在三维图形上。

因此,用户可以容易地确认新执行的教导数据的轨迹是否与已执行的教导数据的轨迹相似。

注意,上面描述的视觉反馈信息的具体示例将在后面描述。

如上所述,本公开内容的信息处理装置执行生成可以由用户确认的视觉反馈信息或数值反馈信息并向用户呈现视觉反馈信息或数值反馈信息的处理。

通过确认呈现信息,用户可以容易地确认要生成的新教导数据、与学习困难的区域对应的教导数据等。

结果,通过使用与期望被教导给机器人的运动(例如,对象保持操作)对应的适当教导数据的学习处理,可以高效地收集有效的教导数据集,并且可以高效地生成作为学习处理结果的行为规则。

[4.由本公开内容的信息处理装置执行的处理的具体示例]

接下来,将描述由本公开内容的信息处理装置执行的处理的具体示例。

在下文中,将描述由本公开内容的信息处理装置执行的反馈信息的生成和输出处理示例,也就是说,在执行用于生成教导数据集(摄像装置捕获的图像和行为规则)的学习处理的情况下的反馈信息的生成和输出处理示例,该教导数据集将由通过应用教导数据来操作机器人的用户(操作者)用于机器人的控制。

在下文中,作为处理的具体示例,将描述用户(操作者)使用简单教导工具代替机器人学习对象保持操作的情况下的处理示例。

简单教导工具是一种能够实现类似于实际机器人的移动的简单工具,并且是用户可以容易操作的小工具。

注意,可以使用要实际控制的机器人来执行处理,而不是简单教导工具。

在下面的描述中,将教导将某个盒子a中的对象移动至盒子b中的拾取和放置任务的情况描述为模型情况。

注意,本公开内容的处理不限于下面描述的具体示例,并且可以应用于使用教导数据的一般学习处理。

例如,本公开内容的处理也适用于其中使用控制器等使机器人执行实际移动以顺序存储臂部和抓握部的位置、移动等的示教器类型的教导处理、人直接移动机器人手臂等以进行教导的处理等。

此外,要由机器人执行的操作(任务)不限于抓握操作。

接下来,参照图6,将描述由本公开内容的信息处理装置执行的处理的概要。

图6示出了以下相应元件。

(A)教导数据执行单元140

(B)学习处理单元160

(C)反馈信息生成单元170

在“(A)教导数据执行单元140”中,用户(操作者)使用教导数据操作简单教导工具。在教导数据执行单元140中,分析附接至简单教导工具的摄像装置的捕获图像,例如,计算简单教导工具的抓握部的位置和移动量,并且将捕获图像、抓握部的位置和移动量数据作为学习数据150存储在存储单元中。

注意,如上所述,简单教导工具是能够实现类似于实际机器人的移动的简单工具,并且是用户可以容易操作的小装置。

可以使用实际的机器人来代替简单教导工具。

“(B)学习处理单元160”使用存储在存储单元中的学习数据(捕获图像、抓握部的位置和移动量数据)150来执行学习处理。

(B)作为学习处理单元160中的学习处理的结果而生成的学习结果数据包括教导数据集,即,包括捕获图像和行为规则(诸如抓握位置的移动轨迹)的数据集的教导数据集。

“(C)反馈信息生成单元170”输入由(A)教导数据执行单元140生成并存储在存储单元中的学习数据150,即,捕获图像、抓握部的位置和移动量数据。

此外,从(B)学习处理单元160输入教导数据集,该教导数据集包括学习结果数据、即,捕获图像和行为规则(抓握位置的移动轨迹等)的数据集。

“(C)反馈信息生成单元170”基于输入数据生成用户(操作者)的反馈信息,并且将该反馈信息输出至输出单元(显示单元)180。

显示在输出单元(显示单元)180上的反馈信息包括上述数值反馈信息和视觉反馈信息。

用户(操作者)120通过查看输出单元(显示单元)180上显示的反馈信息来检查对由用户(操作者)120执行的教导数据的评估。此外,确认必要的教导数据(诸如机器人的抓握部的轨迹)的模式,并且根据这些确认结果,在(A)教导数据执行单元140中使用新的必要的教导数据来操作机器人。

通过重复这些处理,可以生成有效的无漏洞教导数据集。

在下文中,将依次描述图6中所示的相应部件的具体配置和处理。

(4-(A)教导数据执行单元的配置和处理)

首先,将描述(A)教导数据执行单元140的配置和处理。

将参照图7描述教导数据执行单元140的配置和处理。

如图7所示,在(A)教导数据执行单元140中,用户(操作者)120使用教导数据操作简单教导工具110。在教导数据执行单元140中,分析附接至简单教导工具的摄像装置的捕获图像,例如,计算简单教导工具的抓握部的位置和移动量,并且将捕获图像、抓握部的位置和移动量数据作为学习数据150存储在存储单元中。

注意,如上所述,简单教导工具是能够实现类似于实际机器人的移动的简单工具,并且是用户可以容易操作的小装置。

可以使用实际的机器人来代替简单教导工具。

如图7所示,摄像装置105附接至简单教导工具110的抓握部。

用户(操作者)120通过直接移动简单教导工具110来执行操作(任务)。可替选地,控制器可以用于移动简单教导工具110。

操作(任务)例如是部件的抓握处理和移动处理等一系列操作。假设一个任务的执行是一次试验。

在执行该任务时,摄像装置105连续地执行图像捕获。例如,执行运动图像拍摄。

在教导数据执行单元140中,分析摄像装置105的捕获图像,并且例如计算简单教导工具的抓握部的位置和移动量。

教导数据执行单元140生成图7所示的教导数据执行单元生成数据145,即,包括捕获图像、抓握部的位置和移动量数据的教导数据执行单元生成数据145,并且将所生成的数据作为学习数据150存储在存储单元中。

在图7的教导数据执行单元生成数据145中,示出了在执行任务时捕获的一个捕获图像(摄像装置捕获的图像)的示例,但是摄像装置105从任务的开始时间(t0)到任务的结束时间(t_terminal)连续地执行图像捕获,并且连续捕获的图像被存储在存储单元中作为学习数据150。

在教导数据执行单元140中,分析摄像装置105的捕获图像,并且例如计算简单教导工具的抓握部的位置和移动量。具体地,例如,通过诸如同步定位和地图构建(SLAM)处理的自身位置估计处理计算的抓握位置的位置和移动量的时间序列数据(从任务的初始时间(t0)到结束时间(t_terminal))与摄像装置捕获的图像一起存储在存储单元中作为学习数据150。

注意,同步定位和地图构建(SLAM)处理是使用摄像装置捕获的图像并行执行自身位置估计处理(定位)和环境地图生成处理(地图构建)的处理。

(4-(B)学习处理单元的配置和处理)

接下来,将描述(B)学习处理单元160的配置和处理。

将参照图8描述学习处理单元160的配置和处理。

学习处理单元160使用存储在存储单元中的学习数据150(捕获图像、抓握部的位置和移动量数据)来执行学习处理。

学习处理单元160生成包括教导数据集的学习结果数据165作为学习处理结果,教导数据集即为包括捕获图像和行为规则(抓握位置(抓握部)的移动轨迹等)的数据集的教导数据集。

在学习处理单元160中执行的学习处理是所谓的机器学习,并且可以应用各种学习算法。作为学习处理的示例,存在作为使用深度神经网络(DNN)的学习处理的深度学习。通过使用深度学习,输入样本数据,学习处理单元自身可以从大量数据中自动提取特征量,并生成与各种数据(例如机器人的控制参数)对应的最优解。

作为使用深度神经网络(DNN)的学习处理,例如,使用作为卷积神经网络的卷积神经网络(CNN)的深度学习是已知的。

学习处理单元160使用存储在存储单元中的学习数据150(捕获图像和抓握部的位置和移动量数据)来执行学习处理。存储单元存储特定时间的图像和特定时间的抓握位置的位置和移动量作为学习数据150。学习处理单元160使用深度学习(CNN)对这些对应关系数据执行学习处理,并学习图像与抓握部之间的位置关系,即,行为规则。

学习处理单元160生成包括教导数据集的学习结果数据165作为学习处理结果,教导数据集即为包括捕获图像和行为规则(抓握位置(抓握部)的移动轨迹等)的数据集的教导数据集。

在通过常规学习处理创建教导数据集的处理中,通过重复执行在教导数据执行单元140中由用户创建的教导数据并在学习处理单元160中学习作为其结果生成的学习数据的处理来创建作为学习结果数据的教导数据集。

然而,在这样的处理中,由于发生诸如用户任意创建的教导数据被复制的情况或特定区域的数据不足的情况等事件,存在不可能获得无漏洞学习结果的许多情况。

也就是说,在这样的方法中,没有用户应该如何创建教导数据的索引,并且只需要随机地创建和执行教导数据,因此存在难以获得有效学习结果的问题。

下面描述的(C)反馈信息生成单元170解决了这个问题。

(4-(C)反馈信息生成单元的配置和处理)

接下来,将描述反馈信息生成单元170的配置和处理。

将参照图9和随后的附图描述反馈信息生成单元170的配置和处理。

如图9所示,反馈信息生成单元170输入在教导数据执行单元140中生成并存储在存储单元中的学习数据150,即,包括捕获图像和抓握部移动量数据的教导数据执行单元生成数据145。此外,从学习处理单元160输入学习结果数据165,即,包括捕获图像和行为规则(抓握位置的移动轨迹等)的数据集的教导数据集。

反馈信息生成单元170基于输入数据生成用于用户(操作者)的反馈信息。

所生成的反馈信息被输出至输出单元(显示单元)180。

由反馈信息生成单元170生成的反馈信息是上述数值反馈信息或视觉反馈信息。

用户(操作者)120通过查看输出单元(显示单元)180上显示的反馈信息来检查对由用户(操作者)120执行的教导数据的评估。此外,确认必要的教导数据(诸如机器人的抓握部的轨迹)的模式,并且根据这些确认结果,在教导数据执行单元140中使用新的必要的教导数据来操作机器人。

通过重复这些处理,可以生成有效的无漏洞教导数据集。

在下文中,将详细描述由反馈信息生成单元170生成的数值反馈信息和视觉反馈信息。

如图9所示,由反馈信息生成单元170生成的数值反馈信息和视觉反馈信息是以下信息。

(1)数值反馈信息

由用户执行的教导数据的评估值

(2)视觉反馈信息

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

将参照图10和随后的附图描述这些反馈信息的具体示例。

首先,将参照图10描述“(1)数值反馈信息”的具体示例。

数值反馈信息例如是由用户执行的教导数据的评估值,并且生成并呈现基于预定义的参考值(例如,五级评估值)计算的分数。通过使用这样的分数,可以向用户提供容易理解的反馈信息。

图10(1a)示出了分数计算示例。

如图10(1a)所示,通过与待评估的由用户执行的教导数据对应的以下三种类型的评估值(分数)的相加值来计算作为由用户执行的教导数据的评估值的总分。

(1)指示“行为规则的不确定性”的分数

(2)指示“预测误差”的分数

(3)指示“待评估的教导数据与已执行的教导数据之间的差异程度”的分数

也就是说,总分=(指示“行为规则的不确定性”的分数)+(指示“预测误差”的分数)+(指示“评估目标教导数据与已执行的教导数据之间的差异程度”的分数)

总分按上述表达式计算。

注意,总分可以根据下面的表达式通过将三种类型的分数乘以预定义的加权系数α1至α3来计算。

总分=α1×(指示“行为规则的不确定性”的分数)+α2×(指示“预测误差”的分数)+α3×(指示“评估目标教导数据与已执行的教导数据之间的差异程度”的分数)

“行为规则的不确定性”是指教导数据集中包括的行为规则的不确定性的分数,教导数据集是作为在学习处理单元160中执行的机器学习处理的结果而生成的学习结果数据。

注意,指示“行为规则的不确定性”的分数是通过多个神经网络的集成并计算输出的方差来计算的。

也就是说,准备多个神经网络,并使用每个神经网络执行学习处理,从而估计预测不确定性。

即使使用相同的数据集,由于神经网络的初始权重和数据被采样的部分存在差异,因此对于数据不存在的部分,每个神经网络的预测结果不同,并且可以近似地计算预测不确定性。

例如,在指示“行为规则的不确定性”的分数的分数值被设置为例如分数值的范围=0至5的情况下,通过使用如图11所示的对应关系图执行将多个神经网络的输出的方差值分类为五级分数1、2、3、4和5的相应分数值的处理来计算分数值。

指示“预测误差”的分数是对应于根据教导数据执行单元140中的教导数据基于用户操作的简单教导工具110的抓握位置(抓握部)的移动位置和移动量与从学习处理单元160通过根据教导数据的学习处理获得的行为规则预测出的简单教导工具110的抓握位置(抓握部)的移动位置和移动量之间的差异的分数。

例如,分数是使用教导数据中的抓握位置的移动量与预测的抓握位置的移动量(也就是说,根据由神经网络学习的行为规则预测的值)之间的均方误差计算的分数。

例如,同样在这种情况下,当指示“预测误差”的分数的分数值被设置为例如分数值的范围=0至5时,通过使用例如图12所示的对应关系图执行将教导数据的抓握位置的移动量与预测的抓握位置的移动量之间的均方误差分类为五级分数1、2、3、4和5的每个分数值的处理来计算分数值。

作为指示“待评估的教导数据与已执行的教导数据之间的差异程度”的分数,使用与每个教导数据对应的摄像装置捕获的图像的差异程度。使用例如变分自动编码器(VAE)来计算图像之间的差异程度。

变分自动编码器(VAE)是一种差异程度计算方法,其中在假设潜在特征是根据相对于普通自动编码器(AE)的概率分布生成的基础上潜在特征的表达能力被进一步提高。

普通自动编码器(AE)包括例如将诸如图像信息的高维信息压缩成潜在特征的编码器以及从潜在特征恢复高维信息的解码器。

例如,具有高维特征量的图像A的特征信息被输入至编码器,以生成包括具有少量维度的特征量的潜在特征。

此外,潜在特征被输入至解码器以生成具有多维特征的所恢复的图像。

将所恢复的图像与原始图像A进行比较,并学习是否能够正确地执行恢复,以评估潜在特征。

注意,在所恢复的图像与原始图像A之间的比较处理中,例如,计算与恢复图像和原始图像A中的每个对应的潜在特征的距离(例如,欧几里德距离=差异程度)。当计算的距离较小时,可以确定所恢复的图像与原始图像A之间的相似性较高,并且恢复的可能性较高。另一方面,可以确定,当计算的距离较大时,所恢复的图像与原始图像A之间的相似性较低,并且恢复的可能性较低。

变分自动编码器(VAE)是一种差异程度计算方法,其中,在假设潜在特征是根据相对于执行上述处理的普通自动编码器(AE)的概率分布生成的基础上潜在特征的表达能力被进一步提高。

指示“待评估的教导数据与已执行的教导数据之间的差异程度”的分数是通过由变分自动编码器(VAE)计算与待评估的教导数据对应的摄像装置捕获的图像的潜在特征和与已执行的教导数据对应的摄像装置捕获的图像的潜在特征,基于计算出的两个潜在特征之间的差异程度计算出的分数。

在指示“要评估的教导数据和已执行的教导数据之间的差异程度”的分数值被设置为例如分数值=0至5的范围的情况下,通过例如使用如图13所示的对应关系图执行将与教导数据对应的摄像装置捕获的图像的潜在特征与和已执行的教导数据对应的摄像装置捕获的图像的潜在特征之间的差异程度分类为五级分数1、2、3、4和5的每个分数值的处理来计算分数值。

以这种方式,由反馈信息生成单元170生成的数值反馈信息,也就是说,由用户执行的教导数据的总分数(总评估值)表示如下。

(1)指示“行为规则的不确定性”的分数

(2)指示“预测误差”的分数

(3)指示“待评估的教导数据与已执行的教导数据之间的差异程度”的分数

总和计算为这三种分数的相加值。

也就是说,总分=(指示“行为规则的不确定性”的分数)+(指示“预测误差”的分数)+(指示“评估目标教导数据与已执行的教导数据之间的差异程度”的分数)。

总分按上述表达式计算。

可替选地,如上所述,总分可以根据下面的表达式通过将三种类型的分数乘以预定义的加权系数α1至α3来计算。

总分=α1×(指示“行为规则的不确定性”的分数)+α2×(指示“预测误差”的分数)+α3×(指示“评估目标教导数据与已执行的教导数据之间的差异程度”的分数)。

反馈信息生成单元170将以这种方式计算的总分输出至输出单元(显示单元)180以呈现给用户120。

此外,反馈信息生成单元170如图10(1b)所示对计算出的总分划分等级,生成与要评估的教导数据的分数相对应的等级信息,将该等级信息输出至输出单元(显示单元)180,并且将该等级信息呈现给用户120。

例如,如图10(1b)所示,等级是S、A和B的三个等级。

S等级的总分=15至13

A等级的总分为12至10

B等级的总分为9至7

::

例如,执行与这些分数值对应的等级。

注意,该分数对应等级设置是示例,除此之外,可以执行各种分数对应等级。

如上所述,反馈信息生成单元170计算作为由用户执行的教导数据的评估值的分数和与该分数对应的等级,并且将该分数和等级输出至输出单元(显示单元)180。

图10示出了作为反馈信息生成单元170向输出单元(显示单元)180生成的反馈信息的输出数据示例的以下两种类型的输出数据示例。

(输出数据示例1)

反馈分数=(教导数据分数)/(基线分数)

(输出数据示例2)

反馈分数=(教导数据分数)/((预测最高分)-(预测最低分))

(输出数据示例1)是输出数据的示例,其中作为由用户执行的教导数据的评估值的分数(教导数据分数)和与参考值(基线)对应的分数(基线分数)被斜杠(/)分开并排显示。

此外,作为与参考值(基线)对应的分数(基线分数),例如,使用预先准备用于评估的分数。

例如,可以应用与到目前为止计算的教导数据对应的分数的平均值、最高分数的值等。

可替选地,可以使用基于预先准备用于评估的多个样本教导数据预先计算的分数(基线分数)。

将描述基于预先准备用于评估的多个样本教导数据的(基线分数)的计算处理的示例。

例如,对于预先准备用于评估的多个样本教导数据中的每个样本教导数据,计算以下值,

(1)“行为规则的不确定性”;

(2)“预测误差”;

(3)“待评估的教导数据与已执行的教导数据之间的差异程度”。

基于这些计算值的平均值来计算基于多个样本教导数据的(基线分数)。

图10的(输出数据示例1)中所示的示例是将最高分用作与参考值(基线)对应的分数(基线分数)的示例。

例如,在总分的最高分是15并且由用户执行的教导数据的总分是9的情况下,显示数据包括:

总分=9/15

获得这样的显示数据。

注意,待输出的分数可以被设置为例如计算并输出由用户120执行的教导数据的每个试验的平均值。例如,可以计算并输出从每个试验的序列数据t0至t_terminal的平均值。

此外,上述等级可以一起显示以形成以下显示数据。

等级(总分)=B(9/15)

显示数据的示例与图10右侧的输出单元(显示单元)180的显示数据对应。

此外,如在图10右侧的输出单元(显示单元)180的显示数据的示例中所示,除了总分之外,应用于总分的计算的单独分数包括,即,

(1)指示“行为规则的不确定性”的分数

(2)指示“预测误差”的分数

(3)指示“待评估的教导数据与已执行的教导数据之间的差异程度”的分数

这些单独分数如下,与总分相似,

单独分数=(教导数据分数)/(基线分数)

可以生成并显示这样的显示形式的数据。

图10所示的另一输出数据示例是:

(输出数据示例2)

反馈分数=(教导数据分数)/((预测最高分)-(预测最低分))

这是输出数据示例2。

该(输出数据示例2)是输出数据的示例,其中作为由用户执行的教导数据的评估值的分数(教导数据分数)和根据预定义的分数预测算法计算的最大分数与最小分数之间的差((预测最大分数)-(预测最小分数))并排显示,同时用斜线(/)分隔。

注意,这些输出数据示例是示例,并且可以将由反馈信息生成单元170生成的反馈信息的相对于输出单元(显示单元)180的输出数据的显示模式设置为各种其他模式。

接下来,将描述由反馈信息生成单元170生成的视觉反馈信息的具体示例。

如上所述,由反馈信息生成单元170生成的视觉反馈信息包括例如以下信息。

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

将参照图14和随后的附图描述这些视觉反馈信息的具体示例。

(2a)分数图形显示数据

首先,将描述“(2a)分数图形显示数据”的具体示例。

如上所述,分数图形显示数据例如是与分数对应的诸如条形图的图形数据,并且是将由用户执行的教导数据的评估值设置为易于理解的视觉信息的数据。例如,输出与作为数值反馈信息的分数对应的条形图或星数(★★☆☆☆等)。

图14是用于说明“(2a)分数图形显示数据”的具体示例的图。

与简单教导工具110或附接至机器人100的摄像装置的捕获图像一起,输出与作为上述数值反馈信息的分数对应的条形图或星数(★★☆☆☆等)。

图14所示的示例示出了示例。

(1)指示“行为规则的不确定性”的分数

(2)指示“预测误差”的分数

在示例中,输出与这两种类型分数对应的条形图或星数(★★☆☆☆等)。

显示数据是示例。

(1)指示“行为规则的不确定性”的分数

(2)指示“预测误差”的分数

(3)指示“待评估的教导数据与已执行的教导数据之间的差异程度”的分数。

可以生成并显示其中所有这三种类型的分数都是条形图或星数(★★☆☆☆等)的图形数据。

此外,可以显示基于基于这些单独分数或星数(★★☆☆☆等)计算的总分而生成的条形图。

另外,例如,通过在输出单元(显示单元)180上显示如图14所示的分数图形显示数据,用户可以立即确认由用户执行的教导数据的分数是高还是低。

(2b)高分区域指示数据

接下来,将描述“(2b)高分区域指示数据”的具体示例。

如上所述,例如,高分区域指示数据是这样的数据,在该数据中,在摄像装置捕获的图像上显示诸如箭头的标记,该标记指示其中可以生成具有高分的教导数据的区域。

当简单教导工具110或附接至机器人100的摄像装置的捕获图像被输出至显示单元时,在显示图像上显示诸如箭头的标记,该标记指示可以生成具有高分的教导数据的区域。

图15是用于说明“(2b)高分区域指示数据”的具体示例的图。

如图15所示,在简单教导工具110或附接至机器人100的摄像装置的捕获图像上显示诸如箭头的标记,该标记指示可以生成具有高分的教导数据的区域。

在图15所示的示例中,以不同的颜色显示指示可以生成具有高分的教导数据的区域的箭头和指示生成具有低分的教导数据的区域的箭头。

例如,指示高分区域方向的箭头显示为红色箭头,指示低分区域方向的箭头显示为蓝色箭头。

如果针对红色箭头方向上的区域生成教导数据,红色箭头是指示高分区域方向的箭头,则可以生成具有高分的教导数据。

通过向用户呈现这样的显示数据,用户可以确认要新生成的教导数据的位置、轨迹等。

(2c)分数对应颜色显示数据

接下来,将描述“(2c)分数对应颜色显示数据”的具体示例。

如上所述,分数对应颜色显示数据是输出分数对应颜色的摄像装置捕获的图像的显示数据。

当简单教导工具110或附接至机器人100的摄像装置的捕获图像被输出至显示单元时,根据作为上述数值反馈信息的分数,将显示图像的颜色设置为不同的颜色。例如,在分数低的情况下设置蓝色图像,在分数高的情况下设置红色图像。例如,在分数低的情况下设置蓝色图像,在分数高的情况下设置红色图像。

图16是用于说明“(2c)分数对应颜色显示数据”的具体示例的图。

如图16所示,当简单教导工具110或附接至机器人100的摄像装置的捕获图像被输出至显示单元时,根据作为上述数值反馈信息的分数,将显示图像的颜色设置为不同的颜色。

在图16所示的示例中,分数低的情况下的图像是蓝色图像。此外,在分数高的情况下的图像是红色图像。

因此,用户可以立即确认由用户执行的教导数据的分数是高还是低。

(2d)相似教导数据的标识图形数据接下来,将描述“(2d)相似教导数据的标识图形数据”的具体示例。

如上所述,相似教导数据的标识图形数据是从根据基于由用户新执行的教导数据的简单教导工具110或机器人100的轨迹的摄像装置捕获的图像获得的特征数据与从与已经执行的教导数据对应的摄像装置捕获的图像获取的特征数据的比较数据。

生成并显示由用户新执行的教导数据与已经执行的教导数据之间的比较数据。

例如,生成并显示从根据基于由用户新执行的教导数据的机器人的轨迹的摄像装置捕获的图像获得的特征数据和从与已经执行的教导数据对应的摄像装置捕获的图像获得的特征数据的比较数据。

注意,为了容易理解,显示数据被压缩并显示为多维度的潜在特征数据。

图17是用于说明“(2d)相似教导数据的标识图形数据”的具体示例的图。

图17所示的显示数据是在X1轴和X2轴的二维图形上显示过去的教导数据和当前的教导数据的点的图形数据。

X1轴和X2轴与通过压缩从摄像装置捕获的图像获取的特征数据而生成的二维潜在特征数据的元素对应。

如上所述,潜在特征数据是通过压缩和简化原始数据中包括的特征数据而获得的特征数据。例如,从摄像装置的捕获图像获得的特征数据包括大量数据,诸如图像的大小(高度、宽度)、对象距离、以像素为单位的颜色和亮度,并且当所有这些都要输出时,特征数据变成数以100维的庞大数据,并且分析处理需要大量的时间。

图17所示的二维图形是其中大量数据被压缩成例如二维数据的数据,并且每个二维元素被示出为具有X1轴和X2轴的二维图。

也就是说,反馈信息生成单元170生成标识图形数据,标识图形数据指示通过压缩从与基于应用于在教导数据执行单元140中执行的用户操作的教导数据的机器人的移动对应的摄像装置捕获的图像获取的特征数据而生成的潜在特征数据与通过压缩从与基于过去执行的教导数据的机器人的移动对应的摄像装置捕获的图像获取的特征数据而生成的潜在特征数据之间的相似程度或差异程度,并且将标识图形数据输出至输出单元。

注意,对于绘制特征量,例如,可以使用t-SNE方法(用于将高维向量映射至低维的数据分析方法)。通过应用t-SNE方法,可以在保持高维特征信息的关系的同时将特征信息数据转换成低维特征信息数据,并且用户可以直观地理解教导数据之间的差异。

在图17所示的二维图中,与多个过去的教导数据对应的点被设置在左上角,与当前教导数据对应的点被显示在右下角。

二维图上的距离越短,与教导数据对应的摄像装置捕获的图像就越相似。

在附图所示的示例中,与左上角所示的多个过去的教导数据对应的点密集地排列,这意味着获取与相似的教导数据对应的图像。

图中所示的右下角的当前教导数据的点远离左上角所示的与多个过去教导数据对应的点,这意味着与当前教导数据对应的图像具有不同于与过去教导数据对应的图像的特征。

也就是说,可以确认当前教导数据极有可能是不同于过去教导数据的有用教导数据。

因此,用户可以通过参照“(2d)相似教导数据的标识图数据”来容易地确认新执行的教导数据是否与已执行的教导数据相似。

(2e)教导数据-对应轨迹数据

接下来,将描述“(2e)教导数据-对应轨迹数据”的具体示例。

如上所述,教导数据-对应轨迹数据显示基于由用户新执行的教导数据的简单教导工具110或机器人100的轨迹(例如,抓握位置)与基于已经执行的教导数据的机器人的轨迹(例如,抓握位置)之间生成的比较数据。

生成并显示基于由用户新执行的教导数据的机器人的轨迹(例如,抓握位置)与基于已经执行的教导数据的简单教导工具110或机器人100的轨迹(例如,抓握位置)之间的比较数据。

例如,轨迹数据被绘制并显示在三维图形上。

图18是用于说明“(2e)教导数据-对应轨迹数据”的具体示例的图。

图18所示的显示数据是在表示xyz三维空间的三维图上显示过去的教导数据和当前的教导数据的轨迹的图形数据。

虚线是与过去的教导数据对应的轨迹,实线是当前教导数据的轨迹。

注意,轨迹例如是简单教导工具110或机器人100的抓握部的移动轨迹。

用户可以通过确认其中与多条教导数据对应的这样的轨迹数据被并排显示的“(2e)教导数据-对应轨迹数据”来容易地确认基于新执行的教导数据的轨迹是否类似于已执行的教导数据的轨迹。

如上所述,反馈信息生成单元170生成各种反馈信息,并且将反馈信息输出至输出单元(显示单元)180。也就是说,生成以下信息并且将其输出至输出单元(显示单元)180。

(1)数值反馈信息

由用户执行的教导数据的评估值

(2)视觉反馈信息

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

用户(操作者)120通过查看输出单元(显示单元)180上显示的反馈信息来检查由用户(操作者)120执行的教导数据的评估。此外,确认必要的教导数据(诸如机器人的抓握部的轨迹)的模式,并且根据这些确认结果,在教导数据执行单元140中使用新的必要的教导数据来操作简单教导工具110和机器人100。

通过重复这些处理,可以生成有效的无漏洞教导数据集。

[5.输出单元中的显示数据的示例]

接下来,将描述输出单元中的显示数据的示例。

如上所述,反馈信息生成单元170生成各种反馈信息,并且将反馈信息输出至输出单元(显示单元)180。

输出单元(显示单元)180可以被配置在包括参照图6描述的学习处理单元160和反馈信息生成单元170的信息处理装置中,但是例如,可以使用远离这些配置单元的用户120拥有的诸如智能手机的终端。

图19示出了将反馈信息生成单元170生成的反馈信息输出并显示在用户120拥有的智能手机等终端上的示例。

图19所示的显示数据是上面参照图14至图18描述的视觉反馈信息,即,

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

这是其中多条视觉反馈信息一起显示的数据的示例。

用户120可以通过查看显示的反馈信息来确认由用户120执行的教导数据的评估,确认新的教导数据的模式(例如机器人的抓握部的轨迹)是必要的,并且根据这些确认结果使教导数据执行单元140执行新的教导数据。通过重复该处理,可以高效地生成有效的无漏洞教导数据集。

[6.根据本公开内容的信息处理装置的配置示例]

接下来,将描述根据本公开内容的信息处理装置的配置示例。

图20是用于说明本公开内容的信息处理装置200的配置示例的框图。

如图20所示,本公开内容的信息处理装置200包括教导数据执行单元201、学习处理单元202、反馈信息生成单元203、输出单元(显示单元)204、第一存储单元205和第二存储单元206。

教导数据执行单元201包括附接至简单教导工具或机器人的摄像装置211和图像分析单元212。

在教导数据执行单元201中,用户(操作者)使用教导数据操作简单教导工具或机器人。摄像机211附接至简单教导工具或机器人。

摄像装置211捕获用户在简单教导工具或机器人的操作状态下的连续图像。摄像机211在臂尖方向上捕获例如简单教导工具或机器人的抓握部的图像。

摄像装置211的捕获图像被输入至图像分析单元212。

图像分析单元212分析摄像装置211的捕获图像。图像分析单元212通过分析摄像装置211的捕获图像来计算例如简单教导工具或机器人的抓握部的位置和移动量,并且将捕获图像、抓握部的位置和移动量数据作为学习数据存储在第一存储单元中。

用户通过直接移动简单教导工具或机器人来执行动作(任务)。可替选地,简单教导工具或机器人可以使用控制器来移动。

操作(任务)例如是部件的抓握处理和移动处理等一系列操作。假设一个任务的执行是一次试验。

在执行该任务时,摄像装置211连续地执行图像捕获。例如,执行运动图像拍摄。

教导数据执行单元201的图像分析单元212分析摄像装置211的捕获图像,并且计算例如简单教导工具或机器人的抓握部的位置和移动量。具体地,例如,通过诸如同步定位和地图构建(SLAM)处理的自身位置估计处理计算的抓握位置的位置和移动量的时间序列数据(从任务的初始时间(t0)到结束时间(t_terminal))作为学习数据存储在第一存储单元205中。

注意,同步定位和地图构建(SLAM)处理是使用摄像装置捕获的图像并行执行自身位置估计处理(定位)和环境地图生成处理(地图构建)的处理。

学习处理单元202使用存储在第一存储单元205中的学习数据(拍摄图像和抓握部移动量数据)来执行学习处理。

作为学习处理单元202中的学习处理的结果而生成的学习结果数据是教导数据集,即,包括捕获图像和行为规则(诸如抓握位置的移动轨迹)的数据集的教导数据集,并且该数据被存储在第二存储单元206中。

在学习处理单元202中执行的学习处理是如上所述的机器学习,并且可以应用各种学习算法。作为学习处理的示例,存在使用深度神经网络(DNN)的学习处理的深度学习。通过使用深度学习,输入样本数据,学习处理单元本身可以从大量数据中自动提取特征量,并生成与各种数据(例如机器人的控制参数)对应的最优解。

作为使用深度神经网络(DNN)的学习处理,例如,使用作为卷积神经网络的卷积神经网络(CNN)的深度学习是已知的。

学习处理单元202使用存储在第一存储单元205中的学习数据(捕获图像和抓握部的位置和移动量数据)来执行学习处理。第一存储单元205存储特定时间的图像和特定时间的抓握位置的位置和移动量作为学习数据。学习处理单元202使用深度学习(CNN)对这些对应关系数据执行学习处理,并学习图像与抓握部之间的位置关系,即行为规则。

学习处理单元202生成包括教导数据集的学习结果数据,即,包括捕获图像和行为规则(例如抓握位置的移动轨迹)的数据集的教导数据集作为学习处理结果,并且将学习结果数据存储在第二存储单元206中。

如图20所示,第二存储单元206存储包括捕获图像和行为规则(抓握位置的移动轨迹等)的数据集的教导数据集232。

反馈信息生成单元203输入由教导数据执行单元201生成并存储在第一存储单元205中的学习数据,即,捕获图像和抓握部移动量数据。

此外,输入通过学习处理单元202的学习处理生成的存储在第二存储单元206中的学习结果数据,即,包括捕获图像和行为规则(抓握位置的移动轨迹等)的数据集的教导数据集。

反馈信息生成单元203基于这些输入数据生成用户(操作者)的反馈信息,并且将该反馈信息输出至输出单元(显示单元)204。

由反馈信息生成单元203生成的反馈信息是上述数值反馈信息或视觉反馈信息。

由反馈信息生成单元203生成的数值反馈信息和视觉反馈信息是以下信息。

(1)数值反馈信息

由用户执行的教导数据的评估值

(2)视觉反馈信息

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

这些信息中的每条信息的细节如上面参照图10至图18描述的。

由反馈信息生成单元203生成的反馈信息被显示在输出单元(显示单元)204上。

例如,显示上面参照图10至图18描述的数据和上面参照图19描述的显示数据。

用户(操作者)通过查看由反馈信息生成单元203生成并显示在输出单元(显示单元)204上的反馈信息来确认对执行的教导数据的评估。此外,确认必要的教导数据(诸如机器人的抓握部的轨迹)的模式,并且根据这些确认结果,在教导数据执行单元201中使用新的必要的教导数据来操作机器人。

通过重复这些处理,可以生成有效的无漏洞教导数据集。

注意,在图20所示的信息处理装置200的配置中,教导数据执行单元201的摄像装置211可以附接至简单教导工具或机器人,并且可以与信息处理装置200分开配置。

如以上参照图19描述的,输出单元204还可以使用诸如用户的智能手机的终端,并且可以与信息处理装置200分开配置。

[7.由根据本公开内容的信息处理装置执行的处理序列]

接下来,将描述由根据本公开内容的信息处理装置执行的处理序列。

将参照图21所示的流程图描述由本公开内容的信息处理装置(例如,图20所示的信息处理装置200)执行的处理序列。

注意,根据流程图的处理可以例如根据存储在信息处理装置200的数据处理单元的存储单元中的程序来执行。例如,该处理可以由诸如具有程序执行功能的CPU的处理器作为程序执行处理来执行。

在下文中,将描述图21所示的流程的相应步骤的处理。

(步骤S101)

首先,在步骤S101中,用户根据教导数据操作简单教导工具(或机器人),并且信息处理装置的数据处理单元执行移动信息的分析处理以生成学习数据。

该处理是由上面参照图20描述的信息处理装置200的教导数据执行单元201执行的处理。

用户(操作者)使用教导数据操作简单教导工具或机器人。摄像装置附接至简单教导工具或机器人,并且在用户的操作状态期间捕获连续的图像。

摄像装置捕获的图像被输入至参照图20描述的图像分析单元212,并且图像分析单元212通过分析摄像装置捕获的图像来计算简单教导工具或机器人的抓握部的位置和移动量,并且将捕获图像、抓握部的位置和移动量数据作为学习数据存储在第一存储单元中。

(步骤S102)

接下来,在步骤S102中,信息处理装置的数据处理单元使用学习数据执行学习处理。

该处理是由上面参照图20描述的信息处理装置200的学习处理单元202执行的处理。

学习处理单元202使用由信息处理装置200的教导数据执行单元201生成并存储在第一存储单元205中的学习数据(捕获图像和抓握部移动量数据)来执行学习处理。

作为学习处理单元202中的学习处理的结果而生成的学习结果数据是教导数据集,即,包括捕获图像和行为规则(诸如抓握位置的移动轨迹)的数据集的教导数据集,并且该数据被存储在第二存储单元206中。

(步骤S103和S104)

接下来,在步骤S103和S104中,信息处理装置的数据处理单元收集应用于学习数据生成处理的教导数据和作为学习结果的教导数据集,执行应用于学习数据生成处理的教导数据的评估处理,并且执行例如诸如分数的反馈信息的生成处理。

该处理是由上面参照图20描述的信息处理装置200的反馈信息生成单元203执行的处理。

反馈信息生成单元203输入由教导数据执行单元201生成并存储在第一存储单元205中的学习数据,即,捕获图像和抓握部移动量数据。

此外,输入通过学习处理单元202的学习处理生成的存储在第二存储单元206中的学习结果数据,即,包括捕获图像和行为规则(抓握位置的移动轨迹等)的数据集的教导数据集。

反馈信息生成单元203基于输入数据生成用于用户(操作者)的反馈信息。

由反馈信息生成单元203生成的反馈信息是上述数值反馈信息或视觉反馈信息。

也就是说,使用以下信息中的每条信息。

(1)数值反馈信息

由用户执行的教导数据的评估值

(2)视觉反馈信息

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

这些信息中的每条信息的细节如上面参照图10至图18描述的。

(步骤S105)

接下来,在步骤S105中,信息处理装置的数据处理单元将在步骤S104中生成的反馈信息呈现给用户。

该处理是由上面参照图20描述的信息处理装置200的反馈信息生成单元203和输出单元(显示单元)204执行的处理。

反馈信息生成单元203将在步骤S104中生成的反馈信息输出至输出单元(显示单元)204以呈现给用户。

要输出至输出单元(显示单元)204的反馈信息是上述数值反馈信息或视觉反馈信息,并且是以下信息中的每条信息。

(1)数值反馈信息

由用户执行的教导数据的评估值

(2)视觉反馈信息

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

(步骤S106)

下一步骤S106中的确定处理是由确认了输出至输出单元(显示单元)204的反馈信息的用户(操作者)进行的确定处理。

用户(操作者)通过查看由反馈信息生成单元203生成并显示在输出单元(显示单元)204上的反馈信息来确认对用户当前执行的教导数据的评估。此外,确认必要的教导数据(诸如机器人的抓握部的轨迹)的模式,并且确定是否需要生成新的教导数据集的处理。

在确定不需要生成新的教导数据集的处理的情况下,结束该处理。

另一方面,在确定生成新的教导数据集的处理是必要的情况下,处理进行至步骤S107。

(步骤S107)

在步骤S106中,在用户通过查看输出单元(显示单元)204上显示的反馈信息确定需要生成新的教导数据集的情况下,处理进行至步骤S107,并且执行以下处理。

也就是说,通过查看反馈信息来生成用于生成被确定为必要的新教导数据集的教导数据,处理返回至步骤S101,并且执行应用所生成的新教导数据的学习处理。

重复这些处理,并且当在步骤S106中最终确定不需要生成新的教导数据集的处理时,该处理结束。

通过这样的处理,可以生成有效的无漏洞教导数据集。

图21所示的流程是在执行应用了教导数据的学习处理时生成反馈数据,并且参照反馈信息执行使用新教导数据的学习处理的序列。

除了这样的处理序列之外,例如,本公开内容的处理可以被执行为这样的处理序列,其中通过学习处理使用学习结果实际控制机器人,评估控制结果,并且根据评估结果进一步恢复学习处理。

将参照图22所示的流程图来描述该处理序列。

在下文中,将描述图22所示的流程的相应步骤的处理。

(步骤S201)

首先,在步骤S201中,用户根据教导数据操作简单教导工具(或机器人),并且信息处理装置的数据处理单元执行移动信息的分析处理以生成学习数据。

该处理是由上面参照图20描述的信息处理装置200的教导数据执行单元201执行的处理。

用户(操作者)使用教导数据操作简单教导工具或机器人。摄像装置附接至简单教导工具或机器人,并且在用户的操作状态期间捕获连续的图像。

摄像装置捕获的图像被输入至参照图20描述的图像分析单元212,并且图像分析单元212通过分析摄像装置捕获的图像来计算简单教导工具或机器人的抓握部的位置和移动量,并且将捕获图像、抓握部的位置和移动量数据作为学习数据存储在第一存储单元中。

(步骤S202)

接下来,在步骤S202中,信息处理装置的数据处理单元使用学习数据执行学习处理。

该处理是由上面参照图20描述的信息处理装置200的学习处理单元202执行的处理。

学习处理单元202使用由信息处理装置200的教导数据执行单元201生成并存储在第一存储单元205中的学习数据(捕获图像和抓握部移动量数据)来执行学习处理。

作为学习处理单元202中的学习处理的结果而生成的学习结果数据是教导数据集,即,包括捕获图像和行为规则(诸如抓握位置的移动轨迹)的数据集的教导数据集,并且该数据被存储在第二存储单元206中。

(步骤S203)

接下来,在步骤S203中,信息处理装置200的数据处理单元使用在步骤S202中生成的学习结果数据实际控制机器人。

注意,该处理没有被示出为图20中所示的信息处理装置200的配置,而是由作为信息处理装置200的部件的机器人驱动单元来执行。

机器人驱动单元使用存储在第二存储单元206中的学习结果数据,即,包括捕获图像和行为规则(抓握位置的移动轨迹等)的数据集的教导数据集来控制机器人。

例如,通过基于学习结果数据的控制,使机器人在各个位置执行部件的抓握处理。

(步骤S204)

接下来,在步骤S204中,信息处理装置200的数据处理单元确定应用了步骤S203中的学习结果数据的机器人控制是否良好,也就是说,机器人性能是否等于或高于指定性能。

在确定机器人性能等于或高于指定性能的情况下,该处理结束。也就是说,确定用于生成新的教导数据集的学习处理是不必要的,并且该处理结束。

另一方面,在确定机器人性能不等于或高于指定性能的情况下,处理进行至步骤S205。也就是说,确定需要用于生成新的教导数据集的学习处理,并且执行步骤S205和后续步骤的处理。

(步骤S205和S206)

接下来,在步骤S205和S206中,信息处理装置的数据处理单元收集应用于学习数据生成处理的教导数据和作为学习结果的教导数据集,执行应用于学习数据生成处理的教导数据的评估处理,并且执行例如诸如分数的反馈信息的生成处理。

该处理是由上面参照图20描述的信息处理装置200的反馈信息生成单元203执行的处理。

反馈信息生成单元203输入由教导数据执行单元201生成并存储在第一存储单元205中的学习数据,即捕获图像和抓握部移动量数据。

此外,输入通过学习处理单元202的学习处理生成的存储在第二存储单元206中的学习结果数据,即,包括捕获图像和行为规则(抓握位置的移动轨迹等)的数据集的教导数据集。

反馈信息生成单元203基于输入数据生成用于用户(操作者)的反馈信息。

由反馈信息生成单元203生成的反馈信息是上述数值反馈信息或视觉反馈信息。

也就是说,使用以下信息中的每条信息。

(1)数值反馈信息

由用户执行的教导数据的评估值

(2)视觉反馈信息

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

这些信息中的每条信息的细节如上面参照图10至图18描述的。

(步骤S207)

接下来,在步骤S207中,信息处理装置的数据处理单元将在步骤S206中生成的反馈信息呈现给用户。

该处理是由上面参照图20描述的信息处理装置200的反馈信息生成单元203和输出单元(显示单元)204执行的处理。

反馈信息生成单元203将在步骤S206中生成的反馈信息输出至输出单元(显示单元)204以呈现给用户。

要输出至输出单元(显示单元)204的反馈信息是上述数值反馈信息或视觉反馈信息,并且是以下信息中的每条信息。

(1)数值反馈信息

由用户执行的教导数据的评估值

(2)视觉反馈信息

(2a)分数图形显示数据

(2b)高分区域指示数据

(2c)分数对应颜色显示数据

(2d)相似教导数据的标识图形数据

(2e)教导数据-对应轨迹数据

(步骤S208)

接下来,在步骤S208中,用户生成通过查看输出单元(显示单元)204上显示的反馈信息被确定为必要的生成新教导数据集的教导数据,并返回至步骤S201,以执行应用所生成的新教导数据的学习处理。

重复处理,并且当在步骤S204中最终确定机器人的性能等于或高于指定性能时,处理结束。

通过这样的处理,可以生成有效的无漏洞教导数据集,并且可以将机器人性能提高到指定的性能或更高。

[8.本公开内容的信息处理装置的硬件配置示例]

接下来,将描述根据本公开内容的信息处理装置的硬件配置的示例。

图23是示出本公开内容的信息处理装置的硬件配置的示例的框图。

中央处理单元(CPU)301用作根据存储在只读存储器(ROM)302或存储单元308中的程序执行各种类型的处理的数据处理单元。例如,执行根据上述示例中描述的序列的处理。随机存取存储器(RAM)303存储要由CPU 301执行的程序、数据等。CPU 301、ROM 302和RAM303通过总线304彼此连接。

CPU 301经由总线304连接至输入/输出接口305,并且输入/输出接口305连接至包括各种开关、键盘、触摸面板、鼠标、麦克风以及用户输入单元的状态数据采集单元、摄像装置和诸如激光雷达等的各种传感器321的输入单元306,以及包括显示器、扬声器等的输出单元307。

此外,输出单元307还输出用于驱动机器人等的驱动单元322的驱动信息。

CPU 301输入从输入单元306输入的命令、状态数据等,执行各种处理,并且将处理结果输出至例如输出单元307。

连接至输入/输出接口305的存储单元308包括例如闪存、硬盘等,并且存储由CPU301执行的程序或各种数据。通信单元309用作用于经由诸如因特网或局域网的网络进行数据通信的发送/接收单元,并且与外部装置通信。

此外,除了CPU之外,可以提供图形处理单元(GPU)作为用于从摄像装置输入的图像信息等的专用处理单元。

连接至输入/输出接口305的驱动器310驱动诸如磁盘、光盘、磁光盘或诸如存储卡的半导体存储器的可移除介质311,并且执行数据记录和读取。

[9.本公开内容的配置的概要]

如上所述,已经参照特定实施方式详细描述了本公开内容的实施方式。然而,不言而喻,本领域技术人员可以在不脱离本公开内容的主旨的情况下修改或替换实施方式。也就是说,本发明已经以示例的形式公开,并且不应该以限制的方式来解释。为了确定本公开内容的要点,应该考虑权利要求。

注意,本说明书中公开的技术可以具有以下配置。

(1)一种信息处理装置,包括:

教导数据执行单元,其生成与通过基于教导数据的用户操作的机器人的动作对应的摄像装置捕获图像和所述机器人的移动位置信息,作为学习数据;

学习处理单元,其通过输入由所述教导数据执行单元生成的学习数据来执行机器学习处理,并且生成包括图像与机器人的行为规则之间的对应关系数据的教导数据集作为学习结果数据;以及

反馈信息生成单元,其输入由所述教导数据执行单元生成的学习数据和由所述学习处理单元生成的学习结果数据,执行对应用于在所述教导数据执行单元中执行的所述用户操作的教导数据的评估,生成基于评估结果的反馈信息,并且将所述反馈信息输出至输出单元。

(2)根据(1)所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成数值反馈信息作为所述反馈信息并且将所述数值反馈信息输出至输出单元,所述数值反馈信息包括与应用于在所述教导数据执行单元中执行的所述用户操作的教导数据的评估值相当的分数值。

(3)根据(2)所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成n阶分数值作为所述数值反馈信息,其中,n是2或大于2的整数,并且将所述分数值输出至输出单元。

(4)根据(2)或(3)所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成与所述分数值对应的等级作为所述数值反馈信息,并且将所述等级输出至输出单元。

(5)根据(2)至(4)中任一项所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成指示在作为由所述学习处理单元生成的学习结果数据的教导数据集中包括的行为规则的不确定性的分数作为所述数值反馈信息,并且将所述分数输出至输出单元。

(6)根据(2)至(5)中任一项所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成指示预测误差的分数作为所述数值反馈信息并且将所述分数输出至输出单元,所述预测误差是与通过基于在所述教导数据执行单元中执行的所述教导数据的用户操作的机器人的移动位置与根据通过所述学习处理单元的学习处理生成的所述教导数据集中包括的行为规则所预测的机器人的移动位置之间的差异对应的分数。

(7)根据(2)至(6)中任一项所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成指示应用于在所述教导数据执行单元中执行的所述用户操作的教导数据与执行完毕的教导数据之间的差异程度的分数作为所述数值反馈信息,并且将所述分数输出至输出单元。

(8)根据(1)至(7)中任一项所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成视觉反馈信息作为所述反馈信息并且将所述视觉反馈信息输出至输出单元,所述视觉反馈信息包括基于应用于在所述教导数据执行单元中执行的用户操作的教导数据的评估结果而生成的图像或图形。

(9)根据(8)所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成分数图形显示数据作为所述视觉反馈信息并且将所述分数图形显示数据输出至输出单元,所述分数图形显示数据是通过将与应用于在教导数据执行单元中执行的用户操作的教导数据的评估值相当的分数进行图形化而获得的。

(10)根据(8)或(9)所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成高分区域指示数据作为所述视觉反馈信息并且将所述高分区域指示数据输出至输出单元,所述高分区域指示数据在所述摄像装置捕获图像上指示与在所述教导数据执行单元中应用的教导数据的评估值相当的分数高的区域。

(11)根据(8)至(10)中任一项所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成并输出所述摄像装置捕获图像的颜色改变的图像作为所述视觉反馈信息;以及

生成并输出根据与应用于在所述教导数据执行单元中执行的用户操作的教导数据的评估值相当的分数通过将所述摄像装置捕获图像改变为不同颜色而获得的颜色改变图像。

(12)根据(8)至(11)中任一项所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成标识图形数据作为所述视觉反馈信息并且将所述标识图形数据输出至输出单元,所述标识图形数据指示应用于在所述教导数据执行单元中执行的用户操作的教导数据与过去执行完毕的教导数据之间的相似程度或差异程度。

(13)根据(8)至(12)中任一项所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成标识图形数据作为所述视觉反馈信息并且将所述标识图形数据输出至输出单元,所述标识图形数据指示通过将从与基于应用于在所述教导数据执行单元中执行的用户操作的教导数据的机器人的动作对应的摄像装置捕获图像获取的特征数据压缩而生成的潜在特征数据与通过将从与基于过去执行完毕的教导数据的机器人的动作对应的摄像装置捕获图像获取的特征数据压缩而生成的潜在特征数据之间的相似程度或差异程度。

(14)根据(8)至(13)中任一项所述的信息处理装置,其中,

所述反馈信息生成单元被配置成生成按照应用于在所述教导数据执行单元中执行的用户操作的教导数据的机器人的移动轨迹与按照过去执行完毕的教导数据的机器人的移动轨迹之间的比较数据作为所述视觉反馈信息,并且将所述比较数据输出至输出单元。

(15)一种在信息处理装置中执行的信息处理方法,所述方法包括:

教导数据执行步骤:由教导数据执行单元生成与通过基于教导数据的用户操作的机器人的动作对应的摄像装置捕获图像和所述机器人的移动位置信息,作为学习数据;

学习处理步骤:由学习处理单元通过输入由所述教导数据执行单元生成的学习数据来执行机器学习处理,并且生成包括图像与机器人的行为规则之间的对应关系数据的教导数据集作为学习结果数据;以及

反馈信息生成步骤:由反馈信息生成单元通过输入由所述教导数据执行单元生成的学习数据和由所述学习处理单元生成的学习结果数据,执行对应用于在所述教导数据执行单元中执行的所述用户操作的教导数据的评估,生成基于评估结果的反馈信息,并且将所述反馈信息输出至输出单元。

(16)一种用于使信息处理装置执行信息处理的程序,包括:

教导数据执行步骤:使教导数据执行单元生成与通过基于教导数据的用户操作的机器人的动作对应的摄像装置捕获图像和所述机器人的移动位置信息,作为学习数据;

学习处理步骤:使学习处理单元通过输入由所述教导数据执行单元生成的学习数据来执行机器学习处理,并且生成包括图像与机器人的行为规则之间的对应关系数据的教导数据集作为学习结果数据;以及

反馈信息生成步骤:使反馈信息生成单元通过输入由所述教导数据执行单元生成的学习数据和由所述学习处理单元生成的学习结果数据来执行对应用于在所述教导数据执行单元中执行的所述用户操作的教导数据的评估,生成基于评估结果的反馈信息,并且将所述反馈信息输出至输出单元。

注意,规范中描述的一系列处理可以通过硬件、软件或两者的组合配置来执行。在通过软件执行处理的情况下,可以将记录了处理序列的程序安装并执行在集成在专用硬件中的计算机的存储器中,或者可以将该程序安装并执行在能够执行各种类型的处理的通用计算机中。例如,程序可以预先记录在记录介质中。除了从记录介质安装在计算机上之外,该程序可以经由诸如局域网(LAN)或因特网的网络接收,并且安装在诸如内部硬盘等的记录介质上。

此外,说明书中描述的各种类型的处理不仅根据描述按时间序列执行,而且可以根据执行处理的装置的处理能力或根据需要并行或单独执行。此外,在本说明书中,系统是多个装置的逻辑集合配置,并且不限于其中配置的装置在相同外壳中的系统。

工业适用性

如上所述,根据本公开内容的一个实施方式的配置,在使用教导数据执行学习处理的配置中,实现了以易于理解的方式向用户呈现教导数据的评估分数和必要的教导数据的装置和方法,并且可以执行高效的学习处理和机器人性能的改进。

具体地,例如,教导数据执行单元生成与通过基于教导数据的用户操作的机器人的动作对应的摄像装置捕获图像和所述机器人的移动位置信息,作为学习数据,学习处理单元输入由所述教导数据执行单元生成的学习数据来执行机器学习处理,并且生成包括图像和机器人行为规则的教导数据集作为学习结果数据,反馈信息生成单元输入由所述教导数据执行单元生成的学习数据和由所述学习处理单元生成的学习结果数据,执行对教导数据的评估,生成并输出基于评估结果的数值反馈信息和视觉反馈信息。

根据该配置,在使用教导数据执行学习处理的配置中,实现了以易于理解的方式向用户呈现教导数据的评估分数和必要的教导数据的装置和方法,并且可以执行高效的学习处理和机器人性能的改进。

附图标记列表

100 机器人

101 抓握部

102 臂部

105 摄像装置

120 用户

140 教导数据执行单元

150 学习数据

160 学习处理单元

165 学习结果数据

170 反馈信息生成单元

180 输出单元(显示单元)

200 信息处理装置

201 教导数据执行单元

202 学习处理单元

203 反馈信息生成单元

204 输出单元(显示单元)

205 第一存储单元

206 第二存储单元

211 摄像装置

212 图像分析单元

231 教导数据执行单元生成数据

232 教导数据集

301 CPU

302 ROM

303 RAM

304 总线

305 输入/输出接口

306 输入单元

307 输出单元

308 存储单元

309 通信单元

310 驱动器

311 可移除介质

321 传感器

322 驱动单元

技术分类

06120116511107