掌桥专利:专业的专利平台
掌桥专利
首页

用于图像识别和用于训练图像识别模型的电子设备和方法

文献发布时间:2023-06-19 19:28:50


用于图像识别和用于训练图像识别模型的电子设备和方法

本申请要求于2021年10月6日在韩国知识产权局提交的第10-2021-0132185号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

下面描述涉及图像识别,更具体地,涉及用于图像识别的电子设备和方法和用于训练图像识别模型的电子设备和方法。

背景技术

随着图像识别技术的发展,提高图像识别模型的识别精度一直是要解决的问题。在一些图像识别技术中,引入了不确定性估计。典型的神经网络模型可输出给定输入图像的预测值,并且可估计偶然不确定性(aleatoric uncertainty)或统计不确定性(statistical uncertainty)。在噪声包括在被实现为训练神经网络模型的标签数据中的示例中,神经网络模型可无法准确地估计偶然不确定性。

此外,典型的辅助预测器(auxiliary predictor)可与主预测器(primarypredictor)区分开。辅助预测器可通过干净数据(clean data)来训练。通常,为了通过噪声数据训练主预测器,可由辅助预测器生成辅助标签。此外,可以以固定比率组合噪声数据的标签和辅助标签。在该示例中,预测性能可基于该比率而变化。

上面信息仅作为背景信息被呈现,以帮助获得对本公开的理解。关于上面内容中的任何内容是否可适合作为关于本公开的现有技术,没有做出任何确定,并且没有做出断言。

发明内容

提供本发明内容来以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本发明内容不意在确认要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。

在总体方面,一种处理器实现的训练图像识别模型的方法,所述图像识别模型包括用于识别图像的主预测模型和用于估计主预测模型的预测结果的不确定性的主不确定性模型,所述方法包括:通过将第一图像数据输入到训练的辅助预测模型来基于第一图像数据生成第一预测数据;通过将第一图像数据和关于第一图像数据的第一标签输入到主不确定性模型来估计第一不确定性;基于生成的第一预测数据、第一标签和估计的第一不确定性来确定第一不确定性损失;基于确定的第一不确定性损失来训练主不确定性模型;通过将第二图像数据输入到主预测模型来基于第二图像数据生成第二预测数据;通过将第二图像数据和关于第二图像数据的第二标签输入到训练的主不确定性模型来估计第二不确定性;基于生成的第二预测数据、第二标签和估计的第二不确定性来确定第二不确定性损失;和基于确定的第二不确定性损失来训练主预测模型。

第一标签可包括带噪声标签,并且第二标签可包括带噪声标签。

所述方法可包括:基于包括第三图像数据和关于第三图像数据的第三标签的干净数据集来训练辅助预测模型。

第三标签可包括无噪声的干净标签。

训练辅助预测模型的步骤可包括:通过将第三图像数据输入到辅助预测模型来基于第三图像数据生成第三预测数据;通过将第三图像数据和关于第三图像数据的第三标签输入到辅助不确定性模型来估计第三不确定性;基于生成的第三预测数据、第三标签和估计的第三不确定性来确定第三不确定性损失;和基于确定的第三不确定性损失来训练辅助预测模型。

训练辅助预测模型的步骤可包括:通过将第三图像数据输入到辅助预测模型来基于第三图像数据生成第三预测数据,并且估计第三不确定性;基于生成的第三预测数据、估计的第三不确定性和第三标签来确定第三不确定性损失;和基于确定的第三不确定性损失来训练辅助预测模型。

训练辅助预测模型的步骤可包括:通过将第三图像数据输入到辅助预测模型来基于第三图像数据生成第三预测数据;基于生成的第三预测数据与第三标签之间的差来确定第三不确定性损失;和基于确定的第三不确定性损失来训练辅助预测模型。

所述方法还可包括基于确定的第二不确定性损失来对训练的主不确定性模型进行训练。

第一不确定性可包括偶然不确定性,并且第二不确定性可包括偶然不确定性。

在总体方面,一种处理器实现的识别图像的方法包括:接收输入图像数据;通过执行多个预测模型来分别基于所述的输入图像数据生成作为初步图像识别结果的预测数据;通过将生成的预测数据和输入图像数据输入到多个不确定性模型来分别确定多个不确定性值;基于确定的不确定性值来确定与生成的预测数据对应的权重;将确定的权重应用于对应的生成的预测数据;和基于应用的结果确定作为最终图像识别结果的最终预测数据。

确定最终预测数据的步骤可包括:通过将确定的权重应用于对应的生成的预测数据的结果进行集成,来确定最终预测数据。

确定与生成的预测数据对应的权重的步骤可包括:与生成的预测数据对应的不确定性值越小,则确定与生成的预测数据对应的权重越大。

每个不确定性值可包括偶然不确定性值。

在总体方面,一种训练图像识别模型的电子设备,所述图像识别模型包括用于识别图像的主预测模型和用于估计主预测模型的预测结果的不确定性的主不确定性模型,所述电子设备包括:存储器,被配置为存储训练的辅助预测模型、主不确定性模型和主预测模型;和处理器,被配置为:通过将第一图像数据输入到训练的辅助预测模型生成关于第一图像数据的第一预测数据,通过将第一图像数据和关于第一图像数据的第一标签输入到主不确定性模型来估计第一不确定性,基于生成的第一预测数据、第一标签和估计的第一不确定性来确定第一不确定性损失,基于确定的第一不确定性损失来训练主不确定性模型,通过将第二图像数据输入到主预测模型来基于第二图像数据生成第二预测数据,通过将第二图像数据和关于第二图像数据的第二标签输入到训练的主不确定性模型来估计第二不确定性,基于生成的第二预测数据、第二标签和估计的第二不确定性来确定第二不确定性损失,并且基于确定的第二不确定性损失来训练主预测模型。

第一标签可包括带噪声标签,并且第二标签可包括带噪声标签。

处理器可被配置为:基于包括第三图像数据和关于第三图像数据的第三标签的干净数据集来训练辅助预测模型。

第三标签可包括无噪声的干净标签。

在总体方面,一种识别图像的电子设备包括:存储器,被配置为存储多个预测模型和多个不确定性模型;和处理器,被配置为:接收输入图像数据;通过执行所述多个预测模型来分别基于输入图像数据生成作为初步图像识别结果的预测数据,通过将生成的预测数据和输入图像数据输入到多个不确定性模型来分别确定多个不确定性值,基于确定的不确定性值来确定与生成的预测数据对应的权重,将确定的权重应用于对应的生成的预测数据,和基于应用的结果确定作为最终图像识别结果的最终预测数据。

处理器可被配置为:通过将确定的权重应用于对应的生成的预测数据的结果进行集成,来确定作为最终图像识别结果的最终预测数据。

与生成的预测数据对应的不确定性值越小,则处理器被配置为确定与生成的预测数据对应的权重越大在总体方面,一种处理器实现的训练图像识别模型的方法包括:通过将第一图像数据输入到多个辅助预测模型中的一个辅助预测模型来生成预测数据;通过将第一图像数据和关于第一图像数据的干净标签数据输入到辅助不确定性模型来估计偶然不确定性;基于干净标签数据、生成的预测数据和估计的偶然不确定性来计算不确定性损失;和基于不确定性损失来训练所述辅助预测模型和辅助不确定性模型。

可基于干净标签数据与生成的预测数据之间的差来计算不确定性损失。

干净标签数据可以是无噪声的数据。

根据下面的具体实施方式、附图以及权利要求,其他特征和方面将是清楚的。

附图说明

图1示出根据一个或多个实施例的示例训练方法。

图2示出根据一个或多个实施例的辅助预测模型和辅助不确定性模型的联合训练的示例。

图3示出根据一个或多个实施例的训练辅助预测模型的示例。

图4示出根据一个或多个实施例的训练主不确定性模型的示例。

图5示出根据一个或多个实施例的训练主预测模型的示例。

图6示出根据一个或多个实施例的联合训练主预测模型和训练的主不确定性模型的示例。

图7示出根据一个或多个实施例的执行训练的示例电子设备的示例配置。

图8是示出根据一个或多个实施例的示例电子设备的示例操作方法的流程图。

图9至图10示出根据一个或多个实施例的包括训练的主预测模型和训练的不确定性模型的示例电子设备的示例操作。

图11是示出根据一个或多个实施例的示例电子设备的示例操作方法的流程图。

在整个附图和具体实施方式中,除非另有描述或提供,否则相同的附图标记将被理解为表示相同的元件、特征和结构。为了清楚、示出和方便,附图可不按比例,并且可夸大附图中的元件的相对大小、比例和描绘。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作顺序仅是示例,并不限于在此阐述的那些顺序,而是除了必须以特定次序发生的操作之外,可如在理解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,可省略在理解本申请的公开之后已知的特征的描述,注意,特征及其描述的省略也不旨在承认其常识性。

在此描述的特征可以以不同的形式体现,并且不应被解释为限于在此描述的示例。相反,已经提供在此描述的示例仅仅是为了示出实现在此描述的方法、设备和/或系统的许多可能方式中的一些,这在理解本申请的公开之后将是清楚的。

尽管在此可使用术语“第一”、“第二”和“第三”来描述各种构件、组件、区域、层或部分,但这些构件、组件、区域、层或部分不受这些术语的限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。

在整个说明书中,当元件(诸如,层、区域或基底)被描述为在另一元件“上”、“连接到”或“结合到”另一元件时,所述元件可直接在另一元件“上”、直接“连接到”或“结合到”另一元件,或者可存在介于其间的一个或多个其他元件。相反,当元件被描述为“直接在”另一元件“上”、“直接连接到”或“直接结合到”另一元件时,不存在介于其间的其他元件。

这里使用的术语仅为描述特定示例的目的,而不用于限制本公开。如这里所使用的,除非上下文明确地另有指示,否则单数形式也意图包括复数形式。如这里所使用的,术语“和/或”包括相关联的所列项目中的任何一个和任何两个或更多个的任何组合。如在此使用的,术语“包括”、“包含”和“具有”表明描述的特征、数量、操作、元件、组件和/或它们的组合的存在,但不排除一个或多个其他特征、数量、操作、元件、组件和/或它们的组的存在或添加。

此外,这里可使用术语(诸如,第一、第二、A、B、(a)、(b)等)来描述组件。这些术语中的每一个不用于定义对应组件的本质、顺序或次序,而是仅用于将对应组件与其他组件区分开。

除非另外定义,否则在此使用的所有术语(包括技术术语或科学术语)具有与本公开所属领域的普通技术人员通常理解的含义和在理解本申请的公开之后理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本申请的公开中的含义一致的含义,并且不应以理想化或过于形式化的含义进行解释。

在下文中,将参照附图详细描述示例实施例。当参照附图描述示例实施例时,相同的附图标记表示相同的部件,并且将省略与其相关的重复描述。

图1示出根据一个或多个实施例的图像识别模型的示例训练方法。图1中的操作可以以示出的顺序和方式执行。图1中示出的操作中的许多操作可并行或同时执行。图1的一个或多个框以及框的组合可由执行指定功能的基于专用硬件的计算机或专用硬件和计算机指令的组合来实现。

在一个示例中,下面要描述的图像识别模型的训练方法可由电子设备(或训练设备)执行。在这里,针对示例或实施例的术语“可”的使用(例如,关于示例或实施例可包括或实现什么)表示存在包括或实现这样的特征的至少一个示例或实施例,而所有示例不限于此。

参照图1,在操作110中,示例电子设备可训练辅助模型集(auxiliary modelset)。在非限制性示例中,示例电子设备可被实现为服务器、台式计算机、膝上型计算机、平板电脑、智能电话、个人数字助理或可被配置为实现本技术的任何装置。

辅助模型集可包括从给定输入执行预测的预测模型、和估计给定输入的不确定性(例如,偶然不确定性(aleatoric uncertainty))的不确定性模型。偶然不确定性可表示可由给定输入中的固有的噪声产生的不确定性、或由于固有随机效应引起的实验结果的可变性。在下文中,由术语“辅助预测模型”表示辅助模型集的预测模型,并且由术语“辅助不确定性模型”表示辅助模型集的不确定性模型。

在操作110中,电子设备可从用于图像识别训练的训练数据集中采样(或提取)图像数据(以下,简称为数据)和干净标签(clean label),并且可使用采样或提取的数据和干净标签来训练辅助模型集。训练数据集可包括多条数据和与数据对应的多个标签。多个标签的第一部分可以是没带噪声的干净标签,并且多个标签的第二部分可以是包括噪声的带噪声标签。在非限制性示例中,用于图像识别的训练数据集可以是用于图像中的对象分类训练的数据集、用于图像中的对象识别训练的数据集,但示例不限于此。

在一个示例中,电子设备可从训练数据集中采样(或提取)数据x

在操作120中,电子设备可训练主模型集的不确定性模型。主模型集可包括用于从给定输入执行预测的预测模型、和用于估计给定输入的不确定性(在一个示例中,偶然不确定性)的不确定性模型。在下文中,由术语“主预测模型”表示主模型集的预测模型,并且由术语“主不确定性模型”表示主模型集的不确定性模型。在一个示例中,根据一个或多个实施例的图像识别模型可包括主模型集。在另一个示例中,图像识别模型可包括主模型集和辅助模型集两者。

在操作120中,示例电子设备可使用训练数据集和训练的辅助预测模型来训练主不确定性模型。

在一个示例中,电子设备可从用于图像识别训练的训练数据集中采样(或提取)数据x

在操作130中,电子设备可训练主模型集的预测模型。电子设备可通过利用训练数据集和训练的主不确定性模型来训练主模型集的主预测模型。

在一个示例中,电子设备可从用于图像识别训练的训练数据集中采样(或提取)数据x

图2示出根据一个或多个实施例的辅助预测模型和辅助不确定性模型的联合训练的示例。

如图2中所示,辅助模型集可包括辅助预测模型210和辅助不确定性模型220。

电子设备可通过基于用于图像识别训练的训练数据集执行采样来获得数据x

电子设备可通过将数据x

电子设备可通过将数据x

电子设备可执行不确定性损失计算230以基于干净标签y

等式1:

在等式1中,L表示不确定性损失(例如,L

电子设备可使用不确定性损失L

在一个示例中,电子设备可基于实施方式使用不确定性损失L

因此,通过迭代地执行图2中描述的采样操作和不确定性损失计算230,电子设备可迭代地对辅助预测模型210和辅助不确定性模型220执行联合训练,或可仅迭代地训练辅助预测模型210。例如,当不确定损失达到对应的阈值或迭代训练的次数达到对应的预定次数时,训练完成。辅助预测模型210的权重可通过迭代训练被优化。在该示例中,电子设备可不从用于图像识别训练的训练数据集中采样带噪声标签。电子设备可基于干净数据集(即,各条采样数据和每条采样数据的干净标签)来训练辅助预测模型210。

在与图2的示例不同的示例中,电子设备可基于干净标签y

图3示出训练辅助预测模型的示例。

如图3中所示,与图2的辅助预测模型210不同,辅助预测模型310可从给定输入图像数据x

电子设备可将从用于图像识别训练的训练数据集中采样的数据x

电子设备可执行不确定性损失计算320以基于干净标签y

电子设备可基于不确定性损失L

电子设备可通过迭代地执行采样和执行不确定性损失计算320来迭代地训练辅助预测模型310。例如,当不确定损失达到对应的阈值或迭代训练的次数达到对应的预定次数时,训练完成。辅助预测模型310的权重可通过迭代训练被优化。

电子设备可执行训练的辅助预测模型以训练主不确定性模型。

图4示出根据一个或多个实施例的训练主不确定性模型的示例。

如图4中所示,电子设备可通过对用于图像识别训练的训练数据集执行采样来获得数据x

电子设备可通过将数据x

在一个非限制性示例中,训练的辅助预测模型410的权重可以是固定的。

电子设备可通过将数据x

电子设备可执行不确定性损失计算430以基于带噪声标签y

电子设备可基于不确定性损失L

尽管未在图4中示出,但是电子设备可通过对用于图像识别训练的训练数据集执行采样来获得数据x

电子设备可通过将数据x

电子设备可执行不确定性损失计算430以基于干净标签y

在一个示例中,可在辅助预测模型410的帮助下训练主不确定性模型420,辅助预测模型410通过使用干净数据集来训练。因此,与基于在开始时接收到的带噪声标签作为输入进行训练的示例相比,主不确定性模型420可更准确地估计偶然不确定性。

电子设备可通过上面描述的迭代训练来优化主不确定性模型420的权重。

图5示出根据一个或多个实施例的训练主预测模型的示例。

如图5中所示,电子设备可通过对用于图像识别训练的训练数据集执行采样来获得数据x

在一个非限制性示例中,训练的主不确定性模型520的权重可以是固定的。

电子设备可通过将训练数据x

电子设备可通过将带噪声标签y

电子设备可执行不确定性损失计算530以基于带噪声标签y

电子设备可基于不确定性损失L

尽管未在图5中示出,但电子设备可通过对用于图像识别训练的训练数据集执行采样来获得数据x

电子设备可通过将数据x

电子设备可执行不确定性损失计算530以基于干净标签y

电子设备可通过上面描述的迭代训练来优化主预测模型510的权重。

图6示出根据一个或多个实施例的主预测模型和训练的主不确定性模型的联合训练的示例。

与图5的示例不同,在图6的示例中,训练的主不确定性模型610的权重可不是固定的。电子设备可基于不确定性损失L

图7示出根据一个或多个实施例的执行图像识别模型的训练的电子设备的示例配置。

参照图7,电子设备700可包括一个或多个存储器710和一个或多个处理器720。图像识别模型的训练可由这里描述的任何设备执行,例如,该任何设备包括一个或多个处理器、一个或多个存储指令的存储器,所述指令在由一个或多个处理器执行时配置一个或多个处理器执行对应的操作。为了便于解释,针对图7,在各种示例中的这样的设备或其他设备将被称为电子设备。

处理器720可执行通过图1至图6描述的电子设备的操作。

处理器720可通过将第一图像数据输入到图4的训练的辅助预测模型410来基于第一图像数据生成第一预测数据。

处理器720可通过将第一图像数据和关于第一图像数据的第一标签输入到图4的主不确定性模型420来估计第一不确定性。在一个示例中,第一标签可以是带噪声标签,但不限于此。

处理器720可基于第一预测数据、第一标签和第一不确定性来确定第一不确定性损失。在一个示例中,处理器720可基于上面的等式1来确定第一不确定性损失。

处理器720可通过实施或使用第一不确定性损失来训练主不确定性模型420。

处理器720可通过将第二图像数据输入到图5的主预测模型510来基于第二图像数据生成第二预测数据。

处理器720可通过将第二图像数据和关于第二图像数据的第二标签输入到图5的训练的主不确定性模型520或图6的训练的主不确定性模型610来估计第二不确定性。第二标签可以是带噪声标签,但不限于此。

处理器720可基于第二预测数据、第二标签和第二不确定性来确定第二不确定性损失。在一个示例中,处理器720可基于上面的等式1来确定第二不确定性损失。

处理器720可通过实施或使用第二不确定性损失来训练主预测模型510。如图5中描述,由于训练的主不确定性模型520的权重可以是固定的,因此处理器720可不对训练的主不确定性模型520进行训练。如图6中所述,处理器720可通过实施或使用第二不确定性损失来对训练的主不确定性模型610进行训练。换言之,由于训练的主不确定性模型610的权重可不是固定的,因此处理器720可基于第二不确定性损失对主预测模型510和训练的主不确定性模型610执行联合训练。

在一个示例中,处理器720可基于包括第三图像数据和关于第三图像数据的第三标签的干净数据集训练图2的辅助预测模型210。在该示例中,第三标签可以是干净标签。

在一个示例中,处理器720可通过将第三图像数据输入到辅助预测模型210来基于第三图像数据生成第三预测数据。处理器720可通过将第三图像数据和关于第三图像数据的第三标签输入到图2的辅助不确定性模型220来估计第三不确定性。处理器720可基于第三预测数据、第三标签和第三不确定性来确定第三不确定性损失。处理器720可通过实施或使用第三不确定性损失来训练辅助预测模型210。由于已经参照图2对此进行了描述,因此为了简明,这里不包括详细描述。

在一个示例中,处理器720可通过在辅助预测模型210上输入第三图像数据生成关于第三图像数据的第三预测数据。处理器720可基于第三预测数据与第三标签之间的差来确定损失。处理器720可通过实施或使用确定的损失来训练辅助预测模型210。

在一个示例中,处理器720可通过将第三图像数据输入到图3的辅助预测模型310来基于第三图像数据生成第三预测数据,并且可估计第三不确定性。与辅助预测模型210不同,辅助预测模型310不仅可预测,而且还可估计给定输入的不确定性。处理器720可基于第三预测数据、第三不确定性和第三标签来确定第三不确定性损失。处理器720可通过实施或使用第三不确定性损失来训练辅助预测模型310。由于已经参照图3对此进行了描述,因此为了简明,这里不包括详细描述。

存储器710可存储辅助预测模型、辅助不确定性模型、主预测模型和主不确定性模型中的至少一个或全部。此外,存储器710可临时地和/或永久地存储有益于执行训练的数据。存储器710可存储完成训练的模型中的至少一个或全部(即,完成训练的辅助预测模型、完成训练的辅助不确定性模型、完成训练的主预测模型和完成训练的主不确定性模型)。在一个示例中,根据一个或多个实施例的图像识别模型可包括主预测模型和主不确定性模型。在另一个示例中,根据一个或多个实施例的图像识别模型可包括主预测模型、主不确定性模型、辅助预测模型、辅助不确定性模型。

参照图1至图6提供的描述也适用于图7的描述,因此为了简明,详细描述不被包括。

图8是示出根据一个或多个实施例的电子设备的操作方法的流程图。图8中的操作可以以示出的顺序和方式来执行,或可以以与示出的顺序和方式不同的顺序或方式来执行。图8的一个或多个框以及框的组合可由执行指定功能的基于专用硬件的计算机或专用硬件和计算机指令的组合来实现。除了下面的图8的描述之外,图1-7的描述也适用于图8,并且通过引用并入这里。因此,这里可不再重复上面描述。

在操作810中,图7的电子设备700可通过将第一图像数据x

在操作820中,电子设备700可通过将第一图像数据x

在操作830中,电子设备700可基于第一预测数据、第一标签和第一不确定性来确定第一不确定性损失。

在操作840中,电子设备700可通过实施或使用第一不确定性损失来训练主不确定性模型420。

在操作850中,电子设备700可通过将第二图像数据x

在操作860中,电子设备700可通过将第二图像数据和关于第二图像数据的第二标签输入到图5的训练的主不确定性模型520或图6的训练的主不确定性模型610来估计第二不确定性。

在操作870中,电子设备700可基于第二预测数据、第二标签和第二不确定性来确定第二不确定性损失。

在操作880中,电子设备700可通过实施或使用第二不确定性损失来训练主预测模型510。

参照图1至图7提供的描述也适用于图8的描述,因此为了简明,详细描述不被包括。

图9至图10示出根据一个或多个实施例的包括训练的主预测模型和训练的不确定性模型的电子设备的示例操作。

参照图9,电子设备900可包括存储器910和处理器920。训练可由这里描述的任何设备执行,例如,该任何设备包括一个或多个处理器、一个或多个存储指令的存储器,所述指令在由一个或多个处理器执行时配置一个或多个处理器执行对应的操作。为了便于解释,针对图9,在各种示例中的这样的设备或其他设备将被称为电子设备。

存储器910可存储训练的主预测模型和/或训练的不确定性模型。在下文中,在图9至图11中,由术语“预测模型”表示训练的主预测模型,并且由术语“不确定性模型”表示训练的不确定性模型。

在一个示例中,处理器920可通过执行主预测模型来基于预测模型的输入图像数据生成预测数据。

在一个示例中,电子设备900可被包括在服务器中。处理器920可通过将从用户终端(例如,智能电话、平板PC和PC)接收的图像数据输入到预测模型来执行图像识别任务。在非限制性示例中,图像识别任务可包括图像中的对象检测、图像中的对象分类、图像中的对象识别。

在一个示例中,电子设备900可被包括在自主车辆、用户终端和物联网(IoT)装置中。处理器920可从图像传感器接收感测的图像数据,并且可通过将感测的图像数据输入到预测模型来执行图像识别任务。由于图像识别任务可包括上面描述的示例,因此详细描述不被包括。

在一个示例中,存储器910可存储多个预测模型(例如,上面描述的主预测模型)和多个不确定性模型(例如,上面描述的主不确定性模型)。处理器920可通过执行多个预测模型分别生成关于预测模型的输入图像数据的作为初步图像识别结果的预测数据,并且可通过将生成的预测数据和输入图像数据分别输入到不确定性模型来确定多个不确定性值。处理器920可通过分别实施或使用确定的不确定性值,来确定预测数据的权重。

在一个示例中,所述多个预测模型和所述多个不确定性模型可以是基于用于训练的图像数据的不同的特性(例如,不同类型的图像特征)而使用上述方法训练的多个主预测模型和多个主不确定性模型。例如,这样的特性可在输入到模型中进行训练时由模型提取或由独立的模型提取然后被输入到要训练的模型。

在由接收第一预测数据和输入图像数据作为输入的第一不确定性模型确定的第一不确定性值小于由接收第二预测数据和输入图像数据作为输入的第二不确定性模型确定的第二不确定性值的示例中,处理器920可确定第一预测数据的权重高于第二预测数据的权重。换言之,任意预测数据对应的不确定性值越小,任意预测数据的权重越高。处理器920可将确定的权重分别应用于预测数据,并且可基于应用结果确定作为最终图像识别结果的最终预测数据。

如图10中所示,处理器920可通过执行多个预测模型1010-1至1010-n(例如,上面描述的主预测模型)来基于输入图像数据α生成多个预测数据β

处理器920可通过将预测数据β

处理器920可基于第一至第n不确定性值分别确定预测数据β

处理器920可将确定的权重分别应用于预测数据β

如图10中所示,处理器920可基于预测模型执行上面描述的任务(作为非限制性示例,语音识别和对象识别),可集成将权重应用于对应的预测模型的输出的结果,并且可将集成的结果确定为最终任务结果。

图11是示出根据一个或多个实施例的图9的电子设备的操作方法的流程图。图11中的操作可以以示出的顺序和方式来执行,或可以以与示出的顺序和方式不同的顺序或方式来执行。图11的一个或多个框以及框的组合可由执行指定功能的基于专用硬件的计算机或专用硬件和计算机指令的组合来实现。除了下面的图11的描述之外,图1-10的描述也适用于图11,并且通过引用并入这里。因此,这里可不再重复上面描述。

在操作1100中,图9的电子设备900可通过执行预测模型分别生成关于预测模型的输入图像数据的作为初步图像识别结果的预测数据。

在操作1120中,电子设备900可通过将预测数据和输入图像数据输入到对应的不确定性模型来确定多个不确定性值。

在操作1130中,电子设备900可基于不确定性值来确定对应的预测数据的权重。

在操作1140中,电子设备900可将确定的权重分别应用于生成的预测数据。

在操作1150中,电子设备900可使用应用的结果来确定作为最终图像识别结果的最终预测数据。

关于图1-11并且执行本申请中描述的操作的电子设备700、存储器710、处理器720、电子设备900、存储器910和处理器920被实现为硬件组件并且由硬件组件实现。可用于执行本申请中描述的操作的硬件组件的示例在适当的情况下包括控制器、传感器、发生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中,执行本申请中描述的操作的硬件组件中的一个或多个由计算硬件(例如,由一个或多个处理器或计算机)实现。处理器或计算机可由一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以定义的方式响应并执行指令以实现期望结果的任何其他装置或装置的组合)来实现。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用)以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行而访问、操纵、处理、创建和存储数据。为了简明,单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中,但是在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件、或多种类型的处理元件、或两者。例如,单个硬件组件、或者两个或更多个硬件组件可由单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可由一个或多个处理器、或者处理器和控制器来实现,并且一个或多个其他硬件组件可由一个或多个其他处理器、或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

执行本申请中描述的操作的图1-11的方法由计算硬件(例如,由一个或多个处理器或计算机)执行,计算硬件被实现为如上所述执行指令或软件以执行本申请中描述的由方法执行的操作。例如,单个操作、或者两个或更多个操作可由单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可由一个或多个处理器、或者处理器和控制器来执行,并且一个或多个其他操作可由一个或多个其他处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作、或者两个或更多个操作。

用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任何组合,以单独地或共同地指示或配置一个或多个处理器或计算机作为机器或专用计算机进行操作,以执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括由一个或多个处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的高级代码。可基于附图中示出的框图和流程图以及在说明书中的相应描述使用任何编程语言来编写指令或软件,附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。

用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储装置、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡式存储器(诸如,多媒体卡或微型卡(例如,安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,任何其他装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给一个或多个处理器或计算机,使得一个或多个处理器或计算机能够执行指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构被分布在联网的计算机系统上,使得指令和软件以及任何相关联的数据、数据文件和数据结构以分布式方式被一个或多个处理器或计算机存储、访问和执行。

上面已经描述了多个示例实施例。然而,应当理解,可对这些示例实施例进行各种修改。在一个示例中,如果描述的技术以不同的顺序被执行,和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合、和/或由其他组件或其等同物替代或补充,则可实现合适的结果。

虽然本公开包括特定示例,但是在理解本申请的公开之后将清楚的是,在不脱离权利要求及其等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。在此描述的示例应仅被认为是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其他示例中的类似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合、和/或由其他组件或其等同物替代或补充,则可实现合适的结果。因此,本公开的范围不是由具体实施方式限定,而是由权利要求及其等同物限定,并且在权利要求及其等同物的范围内的所有变化应被解释为包括在本公开中。

技术分类

06120115919418