掌桥专利:专业的专利平台
掌桥专利
首页

具有综合数据即服务框架集包存储库的分布式计算系统

文献发布时间:2023-06-19 09:29:07


具有综合数据即服务框架集包存储库的分布式计算系统

背景技术

用户依赖于不同类型的技术系统来完成任务。技术系统可以基于机器学习来改进,该机器学习使用统计技术使计算机能够逐步提高利用数据的特定任务的性能,而无需进行显式编程。例如,机器学习可以用于数据安全、人身安全、欺诈检测、医疗保健、自然语言处理、在线搜索和推荐、金融交易和智能汽车。对于这些领域中的每个领域,机器学习模型使用训练数据集进行训练,训练数据集是用于创建用于匹配学习任务和机器学习应用的框架的示例数据集。例如,可以训练面部识别系统以将人的面部的独特特征与一组已知面部特征进行比较以正确地标识该人。随着不同领域对机器学习的日益使用以及正确训练机器学习模型的重要性,对机器学习训练系统的计算操作的改进将提供更高效的机器学习任务和应用性能,并且改善机器学习训练系统的图形用户界面的用户导航。

发明内容

本发明的实施例涉及用于提供支持综合数据即服务的分布式计算系统的方法、系统和计算机存储介质。作为背景,分布式计算系统可以基于面向服务的架构进行操作,其中使用不同的服务模型来提供服务。在较高级别,服务模型可以提供与提供对应服务相关联的基础操作的抽象。服务模型的示例包括基础设施即服务、平台即服务、软件即服务和功能即服务。使用这些模型中的任何一个,客户可以开发、运行、管理服务的各方面,而不必维护或开发使用面向服务的架构而抽象的操作特征。

转向机器学习和训练数据集,机器学习使用统计技术以使计算机能够逐步提高具有数据的特定任务的性能,而无需进行显式编程。训练数据集是机器学习领域不可或缺的一部分。高质量的数据集可以帮助改善与机器学习硬件和软件相关联的机器学习算法和计算操作。创建高质量的训练数据集可能需要大量精力。例如,用于训练数据集的标签数据可能特别繁琐,这通常会导致加标签过程不准确。

当涉及民主化或使训练数据集普遍可用于若干不同领域时,用于寻找训练数据集的常规方法明显不足。而且,用于开发机器学习训练数据集的理论解决方案只是尚未完全定义或描述,因为用于实现这样的解决方案的基础设施不可访问或过于昂贵以至于无法承担以实现用于开发训练数据集的当前技术的替代方案。总体而言,在传统的机器学习训练服务中,围绕开发机器学习训练数据集的全面功能受到限制。

本公开中描述的实施例涉及用于使用提供综合数据即服务(“SDaaS”)的分布式计算系统来改善对机器学习训练数据集的访问的技术。SDaaS可以是指分布式(云)计算系统服务,该服务使用面向服务的架构而被实现,以提供机器学习训练服务,同时抽象化经由SDaaS服务而管理的基础操作。例如,SDaaS提供了一种机器学习训练系统,该系统允许客户配置、生成、访问、管理和处理用于机器学习的综合数据训练数据集。特别地,SDaaS的操作没有通常与手动开发训练数据集相关联的复杂性。SDaaS可以基于SDaaS引擎、管理器、模块或组件以多种方式交付,包括资产组装引擎、场景组装引擎、框架集组装引擎、框架集包生成器、框架集包存储库(frameset package store)、反馈循环引擎和众包引擎。将SDaaS实现为分布式计算系统上的服务的可观察到的效果是,综合数据资产的批量生产和可用性可以支持基于内在参数变化和外在参数变化来生成训练数据集,其中内在参数变化和外在参数变化提供资产和场景的可编程机器学习数据表示。可以使用SDaaS的组件提供其他特定功能,如下所述。

因此,本发明的一个示例实施例提供了一种分布式计算系统资产组装引擎。资产组装引擎被配置为从第一分布式综合数据即服务(SDaaS)上传接口接收第一源资产。引擎还被配置为从第二分布式SDaaS上传接口接收第二源资产。引擎还被配置为摄取第一源资产和第二源资产。摄取源资产包括自动计算针对源资产的资产变化参数的值。资产变化参数可编程用于机器学习。引擎还被配置为生成包括针对资产变化参数的第一组值的第一综合数据资产。引擎还被配置为生成包括针对资产变化参数的第二组值的第二综合数据资产。引擎还被配置为将第一综合数据资产和第二综合数据资产存储在综合数据资产存储库中。

因此,本发明的一个示例实施例提供了一种分布式计算系统场景组装引擎。场景组装引擎被配置为从分布式综合数据即服务(SDaaS)集成开发环境(IDE)接收对第一综合数据资产的选择和对第二综合数据资产的选择。综合数据资产与资产变化参数和场景变化参数相关联。资产变化参数和场景变化参数可编程用于机器学习。引擎还被配置为接收用于生成综合数据场景的值。这些值对应于资产变化参数或场景变化参数。引擎还被配置为基于这些值使用第一综合数据资产和第二综合数据资产生成综合数据场景。

因此,本发明的一个示例实施例提供了一种分布式计算系统框架集组装引擎。框架集组装引擎被配置为访问综合数据场景。引擎还被配置为确定针对场景变化参数的第一组值。第一组值被自动确定以用于生成综合数据场景框架集。引擎还被配置为基于第一组值来生成综合数据场景框架集。综合数据场景框架集至少包括框架集中的、包括基于场景变化参数的值而被更新的综合数据场景的第一框架。引擎还被配置为存储综合数据场景框架集。

因此,本发明的一个示例实施例提供了一种分布式计算系统框架集包生成器。框架集包生成器被配置为访问框架集包生成器简档。框架集包生成器简档与第一图像生成设备相关联。框架集包生成器简档包括与第一图像生成设备相关联的已知设备可变性参数。引擎还被配置为基于框架集包生成器简档来生成框架集包。框架集包生成器简档包括针对已知设备可变性参数的值。引擎还被配置为存储框架集包。

因此,本发明的一个示例实施例提供了一种分布式计算系统框架集包存储库。框架集包存储库被配置为从框架集包查询接口接收针对框架集包的查询。框架集查询接口包括多个框架集包类别。引擎还被配置为基于框架集包简档来标识查询结果框架集包。引擎还被配置为传送查询结果框架集包。

因此,本发明的一个示例实施例提供了一种分布式计算系统反馈循环引擎。反馈循环引擎被配置为访问训练数据集报告。训练数据集报告标识具有针对数据变化参数的值的综合数据资产。综合数据资产与框架集相关联。引擎还被配置为基于训练数据集报告使用综合数据资产变化更新综合数据资产。引擎还被配置为使用已更新综合数据资产更新框架集。

因此,本发明的一个示例实施例提供了一种分布式计算系统众包引擎。众包引擎被配置为从分布式综合数据即服务(SDaaS)众包接口接收源资产。引擎还被配置为经由分布式SDaaS众包接口接收针对源资产的众包标签。引擎还被配置为部分地基于众包标签来摄取源资产。摄取源资产包括自动计算源的资产变化参数的值。资产变化参数可编程用于机器学习。引擎还被配置为生成包括针对资产变化参数的值的众包综合数据资产。

这样,本文中描述的实施例基于使用分布式计算系统提供综合数据即服务的实现而改进了用于生成训练数据集的计算功能和操作。例如,基于SDaaS操作,省去了手动开发(例如,加标签和标记)和细化(例如,搜索)训练数据集所需要的计算操作,该SDaaS操作使用综合数据资产自动开发训练数据集并且基于训练数据集报告自动细化训练数据集,该数据集报告指示将在机器学习训练服务中改善机器学习模型的其他综合数据资产或场景。在这点上,SDaaS解决了手动开发机器学习训练数据集的特定问题,并且改进了在分布式计算系统中训练机器学习模型的现有过程。

提供本“发明内容”以便以简化的形式介绍一些概念,这些概念将在下面的“具体实施方式”中进一步描述。本“发明内容”不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

下面参考附图详细描述本技术,在附图中:

图1A和图1B是根据本发明的实施例的用于提供综合数据即服务的示例分布式计算的框图;

图2A和图2B是示出根据本发明的实施例的分布式计算系统综合数据即服务的示例实现的流程图;

图3是示出根据本发明的实施例的示例分布式计算系统综合数据即服务接口的示意图;

图4是示出根据本发明的实施例的示例分布式计算系统综合数据即服务工作流的示意图;

图5是示出根据本发明的实施例的示例分布式计算系统综合数据即服务接口的示意图;

图6是示出根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图7是示出根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图8是根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图9是示出根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图10是示出根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图11是示出根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图12是示出根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图13是适合用于实现本发明的实施例的示例分布式计算环境的框图;以及

图14是适合用于实现本发明的实施例的示例计算环境的框图。

具体实施方式

可以利用分布式计算系统来提供不同类型的面向服务的模型。作为背景,服务模型可以提供与提供对应服务相关联的基础操作的抽象。服务模型的示例包括基础设施即服务、平台即服务、软件即服务和功能即服务。使用这些模型中的任何一个,客户可以开发、运行、管理服务的各方面,而不必维护或开发使用面向服务的架构而抽象的操作特征。

使用统计技术的计算机学习使计算机能够逐步提高具有数据的特定任务的性能,而无需进行显式编程。例如,机器学习可以用于数据安全、人身安全、欺诈检测、医疗保健、自然语言处理、在线搜索和推荐、金融交易和智能汽车。对于这些领域中的每个领域,机器学习模型使用训练数据集进行训练,训练数据集是用于创建用于匹配学习任务和机器学习应用的框架的示例数据集。训练数据集是机器学习领域不可或缺的一部分。高质量的数据集可以帮助改善与机器学习硬件和软件相关联的机器学习算法和计算操作。机器学习平台基于支持有监督和半监督机器学习算法的训练数据集进行操作;但是,高质量的训练数据集通常很难生成且成本昂贵,因为对数据加标签需要大量时间。机器学习模型依赖于高质量的标签训练数据集进行有监督学习,从而使得模型可以在预测、分类和分析不同类型的现象时提供可靠的结果。没有正确类型的训练数据集,开发可靠的机器学习模型可能是不可能的。训练数据集包括带标签、带标记和带注释的条目,以有效地训练机器学习算法。

当涉及民主化或使训练数据集普遍可用于若干不同领域时,用于寻找训练数据集的常规方法明显不足。当前,这样的有限的解决方案包括众包标签功能,重新利用现有训练数据和标签,从免费资源中收集您自己的训练数据和标签,依赖于已经在标签数据上进行预先训练的第三方模型,以及利用众包标签服务。这些解决方案中的大多数要么耗时,昂贵,不适合敏感项目,要么显然不够强大而无法应对大型机器学习项目。而且,用于开发机器学习训练数据集的理论解决方案只是尚未完全定义或描述,因为用于实现这样的解决方案的基础设施不可访问或过于昂贵以至于无法承担实现以用于开发训练数据集的当前技术的替代方案。总体而言,在传统的机器学习训练服务中,围绕开发机器学习训练数据集的全面功能受到限制。

本文中描述的实施例提供了用于实现提供综合数据即服务(“SDaaS”)的分布式计算系统的简单且有效的方法和系统。SDaaS可以是指分布式(云)计算系统服务,该服务使用面向服务的架构而被实现,以提供机器学习训练服务,同时抽象化经由SDaaS服务而管理的基础操作。例如,SDaaS提供了一种机器学习训练系统,该系统允许客户配置、生成、访问、管理和处理用于机器学习的综合数据训练数据集。特别地,SDaaS的操作没有通常与手动开发训练数据集相关联的复杂性。SDaaS可以基于SDaaS引擎、管理器、模块或组件以多种方式交付,包括资产组装引擎、场景组装引擎、框架集组装引擎、框架集包生成器、框架集包存储库、反馈循环引擎和众包引擎。在分布式计算系统上实现SDaaS的可观察到的效果是,综合数据资产的批量生产和可用性可以支持基于内在参数变化和外在参数变化来生成训练数据集,其中内在参数变化和外在参数变化提供资产和场景的可编程机器学习数据表示。可以使用SDaaS的组件提供其他特定功能,如下所述。

在本文中预期,源资产可以包括可以基于本领域中的已知技术通过计算确定的若干不同参数。举例来说,源资产可以是指几何数据的三维表示。源资产可以表示为由三角形组成的网格,其中三角形越平滑,模型的表面越详细,则源的大小就越大。在这点上,源资产可以从具有大量细节的高多边形模型到具有较少细节的低多边形模型的整个光谱来表示。以不同的详细程度表示源资产的过程可以被称为抽取。低多边形模型可以用在不同类型的过程中,这些过程否则对于高模型来说在计算上将是昂贵的。这样,可以实现自动抽取过程以便以不同的详细程度存储源资产。可以确定其他类型的可编程参数,并且将其与作为综合资产而存储的源资产相关联。

本发明的实施例在两层可编程参数系统上操作,其中机器学习训练服务可以基于访问和确定改进训练数据集和扩展模型训练所需要的第一层(例如,资产参数)和/或第二层(例如,场景或框架集包参数)参数自动地或基于手动干预来训练模型。机器学习训练服务可以支持深度学习和深度学习网络以及其他类型的机器学习算法和网络。机器学习训练服务还可以将生成对抗网络实现为一种无监督的机器学习。SDaaS可以按照不同方式利用这些基础分层参数。例如,对框架集收费多少,如何为特定设备开发不同类型的框架集,已知设备参数并且能够在开发训练数据集时操纵这些参数。

示例操作环境和原理图

参考图1A和图1B,分布式计算系统100的组件可以一起操作以提供本文中描述的SDaaS的功能。分布式计算系统100支持处理综合数据资产以生成和处理用于机器学习的训练数据集。在较高水平,分布式计算支持用于大规模生产训练数据集的分布式框架。具体地,基于特征的分布式计算架构包括文件压缩、大规模启用GPU的硬件、非结构化存储、分布式骨干网、固有地支持以分布式方式提供SDaaS功能的能力使得多个用户(例如,艺术家或数据管理员)可以同时访问对综合数据资产的操作。

图1A包括客户端设备130A和接口128A以及客户端设备130B和接口128B。分布式计算系统还包括支持SDaaS的功能的若干组件,这些组件包括资产组装引擎110、场景组装引擎112、框架集组装引擎114、框架集包生成器116、框架集包存储库118、反馈循环引擎120、众包引擎122、机器学习训练服务124和SDaaS存储库126。图1B示出了存储在SDaaS存储库126中并且与机器学习训练服务集成在一起以自动访问资产、场景和框架集的资产126A和框架集126B,如下文更详细地描述的。

资产组装引擎110可以被配置为从第一分布式综合数据即服务(SDaaS)上载接口接收第一源资产,并且可以从第二分布式SDaaS上载接口接收第二源资产。可以摄取第一源资产和第二源资产,其中摄取源资产包括自动计算针对源资产的资产变化参数的值。例如,图2A包括摄取到资产存储库(即,资产220)中的源资产210。资产变化参数可编程用于机器学习。资产组装引擎可以生成包括针对资产变化参数的第一组值的第一综合数据资产,并且可以生成包括针对资产变化参数的第二组值的第二综合数据资产。第一综合数据资产和第二综合数据资产存储在综合数据资产存储库中。

分布式SDaaS上传接口(例如,接口128A或128B)与SDaaS集成开发环境(IDE)相关联。SDaaS IDE支持标识源资产的资产变化参数的其他值。这些值与基于内在参数变化和外在参数变化生成训练数据集相关联,其中内在参数变化和外在参数变化提供资产和场景的可编程机器学习数据表示。摄取源资产基于包括文件格式和数据集训练架构的机器学习综合数据标准。文件格式可以是指硬标准,而数据集训练架构可以是指软标准,例如自动或手动人工干预。

参考图2,摄取源资产(例如,源资产202)还包括自动计算源资产的场景变化参数的值,其中场景变化参数可编程用于机器学习。可以生成综合数据资产简档,其中综合数据资产简档包括针对资产变化参数的值。图2还示出了其他图示,诸如边界框208、缩略图210、3D可视化212和经优化资产214。

场景组装引擎112可以被配置为从分布式综合数据即服务(SDaaS)集成开发环境(IDE)接收对第一综合数据资产的选择和对第二综合数据资产的选择。例如,参考图4,第一层的资产和参数410可以用于生成第二层的场景和参数420,并且还可以用于定义框架集430。综合数据资产与资产变化参数和场景变化参数相关联。资产变化参数和场景变化参数可编程用于机器学习。场景组装引擎可以接收用于生成综合数据场景的值,其中这些值对应于资产变化参数或场景变化参数。基于这些值,使用第一综合数据资产和第二综合数据资产生成综合数据场景。

场景组装引擎客户端(例如,客户端设备130B)可以被配置为接收对综合数据资产的查询,其中查询经由SDaaS IDE来接收,并生成查询结果综合数据资产;并且使得基于查询结果综合数据而生成的综合数据场景的显示。生成综合数据场景可以基于从至少两个场景组装引擎客户端接收的用于场景生成的值。综合数据场景与场景预览和元数据相关联。

框架集组装引擎114可以被配置为访问综合数据场景并且确定针对场景变化参数的第一组值,其中第一组值被自动确定以用于生成综合数据场景框架集。框架集组装引擎还可以基于第一组值来生成综合数据场景框架集,其中综合数据场景框架集至少包括框架集中的、包括基于场景变化参数的值而被更新的综合数据场景的第一框架;并且存储综合数据场景框架集。手动选择针对场景变化参数的第二组值以生成综合数据场景框架集。第二组值使用支持包括文件格式和数据集训练架构的机器学习综合数据标准的综合数据即服务(SDaaS)集成开发环境(IDE)来手动选择。生成综合数据场景框架集包括基于基于第一组值更新综合数据场景迭代生成综合数据场景框架集的框架。

框架集包生成器116可以被配置为访问框架集包生成器简档,其中框架集包生成器简档与第一图像生成设备相关联,其中框架集包生成器简档包括与第一图像生成设备相关联的已知设备可变性参数。框架集包基于框架集包生成器简档,其中框架集包生成器简档包括针对已知设备可变性参数的值;并且存储框架集包。框架集包包括基于至少两个综合数据场景的类别。生成框架集包基于将使用框架集包进行训练的预期机器学习算法,其中预期机器学习算法在框架集包生成器简档中标识。框架集包包括为框架集包分配值量化器。框架集包是基于包括综合数据资产的综合数据场景而生成的。

框架集包存储库118可以被配置为从框架集包查询接口接收针对框架集包的查询,其中框架集查询接口包括多个框架集包类别,基于框架集包简档来标识查询结果框架集包;并且传送查询结果框架集包。查询的至少一部分触发自动建议的框架集包,其中自动建议的框架集与框架集的综合数据场景相关联,综合数据场景具有综合数据资产。框架集包与图像生成设备相关联,其中图像生成设备包括可编程用于机器学习的已知设备可变性参数。查询结果框架集包被传送给在分布式计算系统上操作的内部机器学习模型训练服务(例如,机器学习训练服务124)、或外部机器学习模型训练服务。

反馈循环引擎120可以被配置为访问训练数据集报告,其中训练数据集报告标识具有资产变化参数的值的综合数据资产,其中综合数据资产与框架集相关联。基于训练数据集报告,使用综合数据资产变化更新综合数据资产;并且使用已更新综合数据资产更新框架集。这些值在训练数据集报告中手动或自动标识以更新框架集。框架集更新被分配值量化器(例如,用于进行更新的成本)。训练数据集报告与在分布式系统上操作的内部机器学习模型训练服务、或外部机器学习模型训练服务相关联。

众包引擎122可以被配置为从分布式综合数据即服务(SDaaS)众包接口接收源资产;经由分布式SDaaS众包接口接收针对源资产的众包标签;部分地基于众包标签,摄取源资产,其中摄取源资产包括自动计算针对源资产的资产变化参数的值,其中资产变化参数可编程用于机器学习;并且生成包括针对资产变化参数的值的众包综合数据资产。针对众包综合数据资产的价值量化器。众包综合数据资产简档包括资产变化参数。参考图5,众包接口500可以支持上传和标记源资产以用于摄取。

示例流程图

参考图6至图12,提供了示出用于实现分布式计算系统综合数据即服务的方法的流程图。该方法可以使用本文中描述的分布式计算系统而被执行。在实施例中,一种或多种计算机存储介质具有体现在其上的计算机可执行指令,该指令在由一个或多个处理器执行时可以使得一个或多个处理器执行分布式计算系统100中的方法。

图6是示出根据实施例的用于实现分布式计算系统资产组装引擎的过程600的流程图。最初在框610,从第一分布式综合数据即服务(SDaaS)上传接口接收第一源资产。在框620,从第二分布式SDaaS上传接口接收第二源资产。在框630,摄取第一源资产和第二源资产。摄取源资产包括自动计算针对源资产的资产变化参数的值,其中资产变化参数可编程用于机器学习。在框640,生成包括针对资产变化参数的第一组值的第一综合数据资产。在框650,生成包括针对资产变化参数的第二组值的第二综合数据资产。在框660,将第一综合数据资产和第二综合数据资产存储在综合数据资产存储库中。

图7是示出根据实施例的用于实现分布式计算系统场景组装引擎的过程700的流程图。最初在框710,从分布式综合数据即服务(SDaaS)集成开发环境(IDE)接收对第一综合数据资产的选择和对第二综合数据资产的选择。综合数据资产与资产变化参数和场景变化参数相关联,资产变化参数和场景变化参数可编程用于机器学习。在框720,接收用于生成综合数据场景的值。这些值对应于资产变化参数或场景变化参数。在框730,基于这些值,使用第一综合数据资产和第二综合数据资产生成综合数据场景。

图8是示出根据实施例的用于实现分布式计算系统框架集组装引擎的过程800的流程图。最初在框810,访问综合数据场景。在框820,确定针对场景变化参数的第一组值。第一组值被自动确定以用于生成综合数据场景框架集。在框830,基于第一组值来生成综合数据场景框架集。综合数据场景框架集至少包括框架集中的、包括基于场景变化参数的值而被更新的综合数据场景的第一框架。在框840,存储综合数据场景框架集。

图9是示出根据实施例的用于实现分布式计算框架集包生成器的过程900的流程图。在框910,访问框架集包生成器简档。框架集包生成器简档与第一图像生成设备相关联。框架集包生成器简档包括与第一图像生成设备相关联的已知设备可变性参数。在框920,基于框架集包生成器简档来生成框架集包。框架集包生成器简档包括针对已知设备可变性参数的值。在框930,存储框架集包。

图10是示出根据实施例的用于实现分布式计算系统框架集包存储库的过程1000的流程图。在框1010,从框架集包查询接口接收针对框架集包的查询。框架集查询接口包括多个框架集包类别。在框1020,基于框架集包简档来标识查询结果框架集包。在框1030,传送查询结果框架集包。

图11是示出根据实施例的用于实现分布式计算系统反馈循环引擎的过程1100的流程图。在框1110,访问训练数据集报告。训练数据集报告标识具有针对数据变化参数的值的综合数据资产。综合数据资产与框架集相关联。在框1120,基于训练数据集报告,更新具有综合数据资产变化的综合数据资产。在框1130,使用已更新综合数据资产更新框架集。

图12是示出根据实施例的用于实现分布式计算系统众包引擎的过程1200的流程图。在框1210,从分布式综合数据即服务(SDaaS)众包接口接收源资产。在框1220,经由分布式SDaaS众包接口接收针对源资产的众包标签。在框1230,部分地基于众包标签,摄取源资产。摄取源资产包括自动计算针对源资产的资产变化参数的值。资产变化参数可编程用于机器学习。在框1240,生成包括针对资产变化参数的值的众包综合数据资产。

有利地,本文中描述的实施例基于使用分布式计算系统提供综合数据即服务的实现而改进了用于生成训练数据集的计算功能和操作。具体地,对计算功能和操作的改进与用于基于SDaaS操作大规模生产训练数据集的分布式基础设施相关联。例如,基于SDaaS操作,省去了手动开发(例如,加标签和标记)和细化(例如,搜索)训练数据集所需要的计算操作,该SDaaS操作使用综合数据资产自动开发训练数据集并且基于训练数据集报告自动细化训练数据集,该数据集报告指示将在机器学习训练服务中改善机器学习模型的其他综合数据资产或场景。

此外,使用在同一分布式计算系统中操作的内部机器学习训练服务来改进训练数据集的存储和取回,从而减轻了计算开销。SDaaS操作基于引擎的非常规排列和针对SDaaS系统的有序步骤组合的一组定义的非常规规则而被实现。在这点上,SDaaS解决了手动开发机器学习训练数据集的特定问题,并且改进了在分布式计算系统中训练机器学习模型的现有过程。总体而言,这些改进还减少了CPU计算,降低了存储器需求,并且增加了生成和利用机器学习训练数据集时的灵活性。

示例分布式计算环境

现在参考图13,图13示出了可以在其中采用本公开的实现的示例分布式计算环境1300。特别地,图13示出了云计算平台1310中的分布式计算系统综合数据即服务的高级架构,其中该系统支持软件组件的无缝修改。应当理解,本文中描述的这种布置和其他布置仅作为示例阐述。例如,如上所述,本文中描述的很多元件可以被实现为离散或分布式组件或与其他组件相结合实现,并且以任何合适的组合和位置而被实现。除了或者代替所示出的布置和元素,还可以使用其他布置和元素(例如,机器、界面、功能、命令和功能分组等)。

数据中心可以支持分布式计算环境1300,该分布式计算环境1300包括云计算平台1310、机架1320和机架1320中的节点1330(例如,计算设备、处理单元或刀片)。该系统可以用跨不同的数据中心和地理区域运行云服务的云计算平台1310而被实现。云计算平台1310可以实现用于供应和管理资源分配、部署、升级和云服务管理的结构控制器1340组件。通常,云计算平台1310用于以分布式方式存储数据或运行服务应用。数据中心中的云计算基础设施1310可以被配置为托管和支持特定服务应用的端点的操作。云计算基础设施1310可以是公共云、私有云或专用云。

节点1330可以被供应有在节点1330上运行定义的软件栈的主机1350(例如,操作系统或运行时环境)。节点1330还可以被配置为在云计算平台1310内执行专门的功能(例如,计算节点或存储节点)。节点1330被分配以运行租户的服务应用的一个或多个部分。租户可以是指利用云计算平台1310的资源的客户。支持特定租户的云计算平台1310的服务应用组件可以被称为租户基础设施或租户。术语“服务应用”、“应用”或“服务”在本文中可互换使用,并且泛指在数据中心之上运行或访问数据中心内的存储和计算设备位置的任何软件或软件部分。

当节点1330支持一个以上的单独的服务应用时,节点1330可以被划分为虚拟机(例如,虚拟机1352和虚拟机1354)。物理机也可以同时运行单独的服务应用。虚拟机或物理机可以被配置为由云计算平台1310中的资源1360(例如,硬件资源和软件资源)支持的个性化计算环境。可以预期,可以为特定服务应用配置资源。此外,每个服务应用可以被划分为功能部分,从而使得每个功能部分能够在单独的虚拟机上运行。在云计算平台1310中,可以使用多个服务器来运行服务应用并且在集群中执行数据存储操作。特别地,服务器可以独立地执行数据操作,但是被公开作为被称为群集的单个设备。集群中的每个服务器可以实现为节点。

客户端设备1380可以链接到云计算平台1310中的服务应用。客户端设备1380可以是任何类型的计算设备,其可以对应于参考图13描述的计算设备1300。客户端设备1380可以被配置为向云计算平台1310发出命令。在实施例中,客户端设备1380可以通过虚拟互联网协议(IP)和负载均衡器或将通信请求定向到云计算平台1310中的指定端点的其他方式来与服务应用通信。云计算平台1310的组件可以通过网络(未示出)彼此通信,该网络可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。

示例计算环境

在简要地描述了本发明的实施例的概述之后,下面描述可以在其中实现本发明的实施例的示例操作环境,以便为本发明的各个方面提供一般上下文。首先特别地参考图14,示出了用于实现本发明的实施例的示例操作环境,并且将其总体上指定为计算设备1400。计算设备1400仅仅是合适的计算环境的一个示例,并且无意于暗示对本发明的用途或功能的范围的任何限制。计算设备1400也不应当被解释为具有与所示出的组件中的任何一个组件或组件组合有关的任何相关性或要求。

本发明可以在计算机代码或机器可用指令的一般上下文中描述,计算机代码或机器可用指令包括由计算机或其他机器(诸如个人数据助手或其他手持式设备)执行的计算机可执行指令(诸如程序模块)。通常,包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或实现特定抽象数据类型的代码。本发明可以在各种系统配置中实践,包括手持设备、消费电子产品、通用计算机、更多专业计算设备等。本发明还可以在分布式计算环境中实践,在该分布式计算环境中,任务由通过通信网络链接的远程处理设备执行。

参考图14,计算设备1400包括直接或间接耦合以下设备的总线1410:存储器1412、一个或多个处理器1414、一个或多个呈现组件1416、输入/输出端口1418、输入/输出组件1420和说明性电源1422。总线1410表示可以是一个或多个总线(诸如地址总线、数据总线或它们的组合)的任何对象。图14的各个框为了概念上的清楚起见而用线示出,并且还考虑所描述的组件和/或组件功能的其他布置。例如,可以将诸如显示设备等呈现组件视为I/O组件。另外,处理器具有存储器。认识到,这是本领域的本质,并且重申,图14的图仅是可以结合本发明的一个或多个实施例使用的示例性计算设备的说明。在诸如“工作站”、“服务器”、“笔记本计算机”、“手持设备”等类别之间未进行区分,因为所有这些都在图14的范围内并且参考“计算设备”。

计算设备1400通常包括各种计算机可读介质。计算机可读介质可以是可以由计算设备1400访问的任何可用介质,并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能磁盘(DVD)或其他光盘存储、磁带、磁带、磁盘存储或其他磁性存储设备、或者可以用于存储期望信息并且可以由计算设备1400访问的任何其他介质。计算机存储介质本身不包括信号。

通信介质通常在诸如载波或其他传输机制等调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。术语“调制数据信号”是指具有以将信息编码为信号的方式来设置或改变它的一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接等有线介质、以及诸如声学、RF、红外和其他无线介质等无线介质。以上任何内容的组合也应当被包括在计算机可读介质的范围内。

存储器1412包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的或它们的组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备1400包括从诸如存储器1412或I/O组件1420等各种实体读取数据的一个或多个处理器。(多个)呈现组件1416向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。

I/O端口1418允许计算设备1400在逻辑上耦合到包括I/O组件1420的其他设备,其中一些设备可以内置。说明性组件包括麦克风、操纵杆、游戏手柄、碟形卫星天线、扫描仪、打印机、无线设备等。

关于分布式计算系统综合数据即服务,分布式计算系统综合数据即服务组件是指用于提供综合数据即服务的集成组件。集成组件是指支持系统内的功能的硬件架构和软件框架。硬件架构是指物理组件及其相互关系,软件框架是指提供可以用体现在设备上的硬件实现的功能的软件。

端对端的基于软件的系统可以在系统组件内操作以操作计算机硬件以提供系统功能。在较低级别,硬件处理器执行选自给定处理器的机器语言(也被称为机器代码或本机)指令集的指令。处理器识别本机指令并且执行与例如逻辑、控制和存储器操作有关的相应低级功能。用机器代码编写的低级软件可以为高级软件提供更复杂的功能。如本文中使用的,计算机可执行指令包括任何软件,包括以机器代码编写的低级软件、诸如应用软件等较高级软件及其任何组合。在这点上,系统组件可以管理资源并且为系统功能提供服务。对于本发明的实施例,可以预期任何其他变型及其组合。

举例来说,分布式计算系统综合数据即服务可以包括API库,该API库包括例程、数据结构、对象类的规范,并且变量可以支持设备的硬件架构与分布式计算系统综合数据即服务的软件框架之间的交互。这些API包括用于分布式计算系统综合数据即服务的配置规范,从而使得其中的不同组件可以在分布式计算系统综合数据即服务中彼此通信,如本文所述。

已经确定了本文中使用的各种组件,应当理解,在本公开的范围内,可以采用任何数目的组件和布置来实现期望功能。例如,为了概念上的清楚起见,图中所示的实施例中的组件用线示出。也可以实现这些和其他组件的其他布置。例如,尽管一些组件被描绘为单个组件,但是本文中描述的很多元件可以实现为离散或分布式组件或者与其他组件相结合实现,并且以任何合适的组合和位置而被实现。某些元素可以完全省略。此外,如下所述,本文中描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件执行。例如,各种功能可以通过处理器执行存储在存储器中的指令而被执行。这样,除了或者代替所示出的布置和元素,还可以使用其他布置和元素(例如,机器、接口、功能、命令和功能分组等)。

在以下段落中描述的实施例可以与一个或多个具体描述的替代方式组合。特别地,所要求保护的实施例备选地包含对一个以上的其他实施例的参考。所要求保护的实施例可以规定所要求保护的主题的进一步限制。

本文中具体描述本发明的实施例的主题以满足法定要求。然而,说明书本身并不旨在限制本专利的范围。相反,发明人已经预料到,所要求保护的主题还可以结合其他当前或未来技术以其他方式体现,以包括与本文档中所描述的步骤不同的步骤或步骤组合。此外,尽管本文中可以使用术语“步骤”和/或“框”来表示所采用的方法的不同元素,但是这些术语不应当被解释为暗示本文中公开的各个步骤之间的任何特定顺序,除非明确描述了各个步骤的顺序。

为了本公开的目的,词语“包括(including)”具有与词语“包括(comprising)”相同的广义含义,并且词语“访问(accessing)”包括“接收(receiving)”、“引用(referencing)”或“取回(retrieving)”。此外,词语“通信(communicating)”与由使用本文中描述的通信介质的基于软件或硬件的总线、接收器或发射器所促进的词语“接收(receiving)”或“传输(transmitting)”具有相同的广义含义。另外,除非另有相反指示,否则诸如“一个(a)”和“一个(an)”等词语包括复数形式和单数形式。因此,例如,在存在一个或多个特征的情况下,满足“特征”的约束。同样,术语“或(or)”包括连接词、分隔词和两者(因此,a或b包括a或b以及a和b)。

为了上面的详细讨论的目的,参考分布式计算环境描述了本发明的实施例;但是,本文中描述的分布式计算环境仅仅是示例性的。组件可以被配置用于执行实施例的新颖方面,其中术语“被配置用于”可以是指被“被编程为”使用代码执行特定任务或实现特定抽象数据类型。此外,尽管本发明的实施例通常可以是指本文中描述的分布式计算系统综合数据即服务和示意图,但是应当理解,所描述的技术可以扩展到其他实现上下文。

已经关于特定实施例描述了本发明的实施例,这些特定实施例在所有方面都旨在进行说明而不是限制。在不脱离本发明范围的情况下,替代实施例对于本发明所属领域的普通技术人员将变得很清楚。

从前述内容可以看出,本发明非常适合于实现上述所有目的以及其他很清楚的优点和结构固有的优点。

应当理解,某些特征和子组合是有用的,并且可以在不参考其他特征或子组合的情况下被采用。这是权利要求所预期的并且在权利要求的范围之内。

技术分类

06120112181134