首页 > 资讯 > dlc的概念、优势及使用场景

dlc的概念、优势及使用场景

分布式训练DLC(Deep Learning Containers)是基于云原生的AI训练平台,为开发者和企业提供灵活、稳定、易用和高性能的机器学习训练环境。它支持多种算法框架,能够处理大规模的分布式深度学习任务,同时也支持自定义算法框架。通过DLC,开发者和企业能享受到更优的训练环境,在降低成本的同时提升训练效率。

产品优势

支持多样算力资源:

基于灵骏智算和通用计算资源,支持云上ECS、ECI、神龙裸金属和灵骏裸金属等多种算力形态,实现异构算力的混合调度。

多样的分布式任务类型:

DLC作为分布式训练系统,您不需要搭建各种集群,可以直接提交Megatron、Deepspeed、Pytorch、Tensorflow、Slurm、Ray、MPI及XGBoost等十多种训练框架的任务。DLC预置了多种官方镜像,支持自定义开发运行环境, 支持控制台、SDK或命令行的提交方式, 为AI训练场景提供一站式服务,也为大型客户提供简单的集成方式。

高稳定:

在大模型训练场景中,通过自研的容错引擎AIMaster、高性能Checkpoint框架EasyCKPT、健康检测SanityCheck以及节点自愈功能,PAI-DLC能够有效解决多种稳定性问题。PAI-DLC具备快速探查、准确感应与快速反馈的能力,有效降低算力损失,提升训练稳定性。

高性能:

通过PAI自主研发的AI训练加速框架,实现统一数据并行、流水并行、算子拆分以及嵌套的并行加速策略。通过并行策略自动探索和多维度显存优化技术,并结合高速网络的拓扑感知调度,以及通信线程池、梯度分组融合、混合精度通信、梯度压缩的分布式通信库的优化,提升分布式训练效率。尤其在大模型分预训练、持续训练和Alignment的分布式训练场景下,为您提供较优的训练引擎。

资源形态

通过分布式训练(DLC)提交训练任务时,根据使用场景和所需的算力类型,PAI提供了以下两种资源形态:

灵骏智算:专为大模型训练设计,适用于需要大量计算资源的深度学习任务。是面向超大规模深度学习和融合智算,基于软硬件一体优化技术。构建高性能异构算力底座,提供全流程AI工程化能力,具备高性能、高效率、高利用率等核心优势,以满足在大模型训练、自动驾驶、基础科研以及金融等领域的广泛需求。

通用计算:适用于常规训练需求,能够灵活地支持多种规模和类型的机器学习任务。

灵骏智算和通用计算资源支持以下几种使用方式:

资源配额:您可以通过包年包月的方式提前购买灵骏智算或通用计算资源,用于AI开发和训练,从而实现资源的灵活管理和高效利用。

公共资源:无需提前购买资源,您可以在提交训练任务时,按需使用灵骏智算或通用计算资源,并通过按量付费的方式进行结算。

竞价资源:灵骏智算提供竞价资源,助力您以较低成本获取所需的AI算力,从而降低任务运行所需的资源成本。

应用场景

数据预处理

支持您自定义运行环境,可以对数据进行离线并行预处理,从而大幅降低数据预处理工程的难度。

大规模分布式训练

支持使用多种开源深度学习框架进行离线大规模分布式深度训练。DLC支持上千个节点同时训练,显著缩短训练时间。

离线推理

通过DLC可以离线对模型进行离线推理,有效增加闲时GPU机器使用率,大大降低资源浪费。

相关文档

创建训练任务

通过控制台、SDK或命令行提交训练任务,以及了解其中关键参数如何配置。

DLC使用案例汇总

通过实际案例,来了解如何使用DLC。

本页导读 (1)

相关知识

中医儿科的优势及前景
《中国家电大健康场景技术发展白皮书》及面向大健康场景的优势家电产品发布
婴儿用品市场现状及前景分析2023
营养健康食品市场发展概况及市场发展趋势分析
对话慢教授李俊堃:以控糖为使命,用低GI概念重塑健康饮食新市场
2021健康食品行业市场前景及趋势分析
2023年中国营养健康食品市场发展概况及市场发展趋势分析[图]
港股概念追踪
移动医疗的概念与发展趋势
酵素分析报告:发展环境分析、市场供需态势及未来前景预测(2025版)

网址: dlc的概念、优势及使用场景 https://m.trfsz.com/newsview484978.html