导航：首页> 电通信技术>支持数据安全和高并发计算场景的科研数据开放与模型评估平台

支持数据安全和高并发计算场景的科研数据开放与模型评估平台

文献发布时间：2024-01-17 01:15:20

技术领域

本发明属于数据安全领域，具体涉及一种支持数据安全和高并发计算场景的科研数据开放与模型评估平台。

背景技术

数据作为重要的生产要素，与算力、算法共同构成人工智能技术发展的三大推动因素，如斯坦福大学李飞飞教授团队发布的ImageNet数据集有效推动了深度学习技术在计算机视觉领域的迅猛发展，这些科研数据集的开源为业界提供了公允的评测基准。在此基础上开展的竞赛评测鼓励研究人员持续进行算法创新，如LSVRC(计算机视觉)、GLUE(预训练语言模型)、CASP(蛋白质结构预测)挑战榜均推动了技术的突破性发展。“科研数据开源”+“竞赛评测”双轮驱动的创新模式有效推动了领域技术与行业的发展。

一套完善的科研数据开放和评测系统在设计上需要充分考虑数据侧的安全保护，以及算力侧的高并发支持。

在真实世界环境中会涉及到很多敏感数据(如医疗、金融行业)，保护数据安全是必须要解决的技术难题；而科研人员在平台上完成算法代码的开发，其代码产权也要充分保护。然而目前业界开放的打榜系统，大部分以数据下载的形式开放，数据安全性较弱，特别是无法满足敏感行业数据集榜单的开放；另外目前业界的打榜系统即使是提供了算力环境进行模型评估，但却没有提供代码层面的数据保护，科研人员的代码产权无法得到有效保障。而当前已有充分的可利用的安全保护技术，包括各种可信执行环境TEE框架例如SGX、Occlum等不同的可信框架，可以用于保护平台中的安全性。

在评测系统中，科研人员基于平台提供的算力完成模型的开发与验证，因此平台作为算力提供方需要满足高并发场景下的模型训练和推理需求。而当今的云容器服务包括Kubernerts、ACK等，基于集群的自动伸缩以及任务调度等一系列策略，能够提供优秀的资源编排能力，提升资源利用率。另外目前的基础硬件包括GPU、FPGA等芯片运算资源以及不同的存储服务比如CPFS并行文件存储系统、NAS网络附属存储、COS云对象存储等相关的系统和技术，都为算力测高并发的实现提供了算力资源的软硬件基础。

发明内容

鉴于上述，本发明的目的是提供一种支持数据安全和高并发计算场景的科研数据开放与模型评估平台，在支撑数据安全的同时实现对模型的高并发测试和评估。

为实现上述发明目的，实施例提供了一种支持数据安全和高并发计算场景的科研数据开放与模型评估平台，包括：

云基础设施层，包括基础硬件、云容器服务以及存储子层；

AI训练框架层，包括机器学习框架和机器学习模型；

评测引擎层，包括SDK和应用框架以及SGX保护框架，其中，SDK包括容器安全、镜像管理、任务调度、任务状态管理、流评测、日志监测以及K8S加速功能，应用框架包括指标评测、效率评测、代码加密、数据评测、数据加密、OpenApI、第三方平台接入功能；

业务层，用于提供面向用户的管理配置功能、数据存储功能、代码提交功能、访问及评测功能。

优选地，所述基础硬件包括CPU、GPU、FPGA，所述云容器服务包括Kubernerts，存储子层支持NAS、Block Storage、Local Disk。

优选地，所述机器学习框架包括Tensorflow、PyTorch，机器学习模型包括自然语言处理领域的机器学习模型和计算机视觉领域的机器学习模型。

优选地，所述存储子层包括数据Hub，数据提供方通过业务层提供的数据存储功能上传科研数据，上传的科研数据通过数据加密功能采用物理隔离和权限管理的方式进行加密，被加密后存储到数据Hub防止泄露给其他数据提供方。

优选地，所述存储子层包括代码Hub，科研人员通过业务层提供的代码提交功能提交模型代码方案，提交的模型代码方案经过代码加密功能进行校准和加密封装后存入代码Hub。

优选地，还包括服务器Hub，服务器Hub负载算力资源分配和代码自动执行，包括：从存储子层提取模型代码方案，采用评测引擎层提供的SGX保护框架为模型代码方案作保护，同时基于算力调度功能为每份代码提供同等规格的算力资源并将代码运行于Enclave安全环境中，根据数据Hub提取的科研数据执行模型训练，并通过指标评测和效率评测功能对模型进行评测，输出评测排行榜。

优选地，所述平台支持模型训练和评估的高并发计算，包括：平台接受主服务器的请求时，首先基于数据集共享策略从存储子层中提取科研数据，然后通过任务调度功能进行任务调度，并利用云容器服务的资源编排和自动伸缩的能力，来提升硬件集群计算资源的利用率，训练的计算节点和评测的服务节点在评测完毕后会销毁对应的计算资源，实现用完即走的模式，保障资源共享时的高性能并发。

优选地，还包括：数据提供方将科研数据存储到用户侧的云服务器，评估平台下发模型至用户侧，基于用户侧的服务器完成模型训练和评估，并将评估结果回传到平台完成排名生成评测排行榜。

与现有技术相比，本发明具有的有益效果至少包括：

通过数据、算力和算法的分层设计实现了科研数据对科研人员可用不可见，满足科研数据，特别是敏感行业数据的开放需求；通过平台提供算力、模型代码提交的方式满足了模型开发和评估的科研需求，对人工智能技术的推动和行业应用落地起到重要的推动作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的支持数据安全和高并发计算场景的科研数据开放与模型评估平台的结构示意图；

图2是实施例提供的安全设计示意图；

图3是实施例提供的高并发计算示意图；

图4是实施例提供的数据存储于专有云实现的模型训练评估流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

鉴于背景技术存在的问题，一种可行的思路是数据集存储在平台不开放下载，科研人员基于平台提供的算力完成代码开发和模型验证，实现了数据的可用不可见。因此平台作为算力提供方需要满足高并发场景下的模型训练和推理需求，同时科研人员的代码产权也要充分保护。基于此，实施例提供了一种支持数据安全和高并发计算场景的科研数据开放与模型评估平台。

如图1所示，实施例提供的科研数据开放与模型评估平台包括云基础设施层、AI训练框架层、评测引擎层、业务层。

其中，云基础设施层是云计算技术底座，包括CPU、GPU、FPGA等基础硬件以及Kubernerts等云容器服务，并使用NAS、Block Storage、Local Disk可扩展并行文件存储系统作为存储子层，该存储子层为平台提供了分布式的软、硬件计算和高性能存储能力，是实现高并发数据评测引擎的基础。

AI训练框架层集成了机器学习平台，包括Tensorflow、PyTorch等机器学习框架和通用的机器学习模型，该通用的机器学习模型包括自然语言处理(NLP)领域的机器学习模型和计算机视觉(CV)领域的机器学习模型。这样可以方便平台的科研人员完成算法模型开发。

评测引擎层包括SDK和应用框架以及SGX保护框架，其中，SDK包括容器安全、镜像管理、任务调度、任务状态管理、流评测、日志监测以及K8S加速功能，应用框架包括指标评测、效率评测、代码加密、数据评测、数据加密、OpenApI、第三方平台接入功能。具体地，基于云容器服务提供的算力调度、任务调度、任务状态管理等功能，提供模型训练&推理、效率评测等功能，还包括代码的加密、实时数据的评测；此外还集成了优秀的隐私计算框架，以及基于加密的可信计算框架，保证科研数据处于加密和强隔离状态，有效规避了科研人员的代码被窃取或被恶意攻击，保障了代码产权。

业务层提供面向用户的管理配置功能、数据存储功能、代码提交功能、访问及评测功能。即数据提供方或科研人员通过管理配置功能配置进行打榜配置、评测配置以及推理API配置等，还可以通过访问和评测功能访问自己存储的识科研数据，以及触发评测等。

实施例中，为了保证数据的安全性，还对数据(数据提供方)进行数据安全设计。如图2所示，在存储子层中构建一个数据Hub，数据提供方提供用于评测的科研数据集，这是单向的操作，对研究人员开放下载。不同的数据提供方之间的科研数据也是不可见的，即提供方只知道自己提供的科研数据，没有权限访问其他数据提供方提供的科研数据。具体地，数据提供方通过业务层提供的数据存储功能上传科研数据，上传的科研数据通过数据加密功能采用物理隔离和权限管理的方式进行加密，被加密后存储到数据Hub防止泄露给其他数据提供方。

实施例，为了保证数据安全，还对算法(研究人员角色)进行数据安全保护设计。在存储子层构建一个代码Hub，科研人员在本地完成模型代码方案的开发，并通过业务层提供的代码提交功能提交模型代码方案，提交的模型代码方案经过代码加密功能进行校准和加密封装后存入代码Hub。其中，代码加密方法包括TEE加密方法。

实施例中，为了保证数据的安全，还从算力(平台角色)进行数据安全保护设计。构建服务器Hub，服务器Hub负载算力资源分配和代码自动执行，包括：从存储子层提取模型代码方案，采用评测引擎层提供的SGX保护框架为模型代码方案作保护，同时基于算力调度功能为每份代码提供同等规格的算力资源并将代码运行于Enclave安全环境中，根据数据Hub提取的科研数据执行模型训练和测试，并通过指标评测和效率评测功能对模型进行评测，输出评测排行榜。

实施例提供的平台支持模型训练和评估的高并发计算。支持高并发计算和提升资源利用率是评测平台的重要目标。得益于云容器服务优秀的资源编排和自动伸缩的能力，能够极大提升集群CPU、GPU、FPGA等计算资源利用率。此外用完即走的模式保障了CPU、GPU、FPGA等资源在共享的同时还能满足单机单卡、单机多卡、多机多卡等高性能训练需求。在此基础上，任务调度得以高效支持高并发场景下的代码评测流程。常规环境下可支持上千个模型任务同时在线训练&训练，相比单机单任务模式，本提案的计算框架的计算成本(主要是GPU)降低到1/10以下。

如图3所示，并发计算主要基于评估平台中的云基础设施层和评测引擎层实现。云基础设施层提供的分布式软硬件以及高性能存储的计算资源，评测引擎层中提供的K8s云容器分布式集群管理系统。平台接受主服务器的请求时，首先基于数据集共享策略从存储子层中提取科研数据，然后通过任务调度功能进行任务调度，并利用云容器服务的资源编排和自动伸缩的能力，来提升硬件集群计算资源的利用率，训练的计算节点和评测的服务节点在评测完毕后会销毁对应的计算资源，实现用完即走的模式，保障资源共享时的高性能并发。其中，数据集共享策略是指各任务可以共享数据集。

如图4所示，还支持数据提供方将科研数据存储到用户侧的云服务器，评估平台下发模型至用户侧，基于用户侧的服务器完成模型训练和评估，并将评估结果回传到平台完成排名生成评测排行榜。

实施例提供评估平台，对数据(数据提供方角色)、算力(平台角色)和算法(研究人员角色)三大AI要素的分层设计来实现评测场景下的数据安全保护通过数据隔离、代码提交的创新模式实现了数据对科研人员可见不可用，实现了科研评测设置下的数据安全保护，满足数据提供方的科研开放需求。通过可信计算的加密手段，实现了评测平台对科研人员代码的安全保护。基于容器自动伸缩技术，实现了评测场景下的高并发计算引擎。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘湘雯;张宁豫;陈华钧;卜佳俊;
专利申请人：浙江大学;

上一篇：焊接方法及组合柱
下一篇：图像预览方法、装置、终端设备及可读存储介质