概述
集成PaddlePaddle Cloud,提供基于Kubernetes、Docker和paddlecloud的云端一键式分布式训练解决方案。
实践过程
训练环境准备
部署PaddlePaddle Cloud集群
提交分布式训练
联动Kubernetes创建训练任务,以及需要的内容。
开始分布式训练
使用Kubernetes Dashboard、Kubectl监控训练任务和容器状态。
百度内部多年大规模容器集群实践经验,支撑了包括无人驾驶、金融、广告等众多核心业务。
提供跨可用区的能力,保障集群不受单一物理机房故障的影响。监测集群状态,自动化伸缩容器。
提供了一键式的资源和服务创建,同时无缝链接其他所需的百度智能云资源,用户只需关注业务层级的开发。
结合Kubernetes对资源的调度和任务编排,提供多种深度学习框架的AI任务训练和应用部署能力。