快手的【留用实习】大模型训练平台开发工程师薪资是多少？

该职位薪资范围为 12k–20k（人民币/月）。

【留用实习】大模型训练平台开发工程师的工作地点在哪里？

该职位工作地点位于北京市、杭州市。工作形式为仅现场办公。

该职位要求学历未注明学历及中级经验工作经验。

🤖 AI 估测：¥12K-20K

发布时间：18 天前

这是一个面向大模型训练的基础设施平台开发实习岗位

你将负责设计和研发支撑大规模分布式训练的核心平台，包括GPU集群的资源调度、作业编排、系统稳定性保障与性能优化

通过构建自动化的故障感知、自愈机制和全方位的可观测体系，确保大规模AI训练任务能够高效、稳定地运行

核心平台建设：设计和研发支撑大规模分布式训练的基础设施平台，负责GPU集群的资源调度、生命周期管理及作业编排，提升资源利用率和训练效率

稳定性与容错：构建自动故障感知、故障自愈与断点续训（Checkpoint 保存与恢复）机制，保障大规模训练的长稳运行，提升训练有效时间占比（MTBF/MTTR优化）

可观测性：建设面向大模型训练的全方位可观测体系，采集和分析硬件（GPU、RoCE/IB网络）、存储及训练框架的性能指标，快速定位慢节点或故障点，实现训练状态透明化

性能优化：结合训练框架（如 Megatron-LM、DeepSpeed）进行内核级优化，优化网络通信拓扑（如 NCCL）及存储I/O流水线，降低训练成本，提升模型训练吞吐

资源效率：设计高效的集群混部和碎片资源利用方案，平衡多租户隔离与资源利用率，支持潮汐调度和弹性训练

编程能力：扎实的编程功底，熟练使用 Python/Go/C++ 中的至少两种，具备高性能网络编程或系统级开发经验，能独立完成大型模块的设计与开发

分布式系统：熟悉 Kubernetes 底层原理及 Operator 开发模式，有自定义调度器、控制器开发经验者优先

熟悉资源调度系统（Yarn/Slurm/K8s）架构及实现

AI基础设施：了解常用AI框架（PyTorch）的分布式训练原理，熟悉 NCCL/RDMA 等通信库

对 GPU 架构（NVIDIA A100/H800等）有较深理解，有 CUDA 开发或性能剖析（Profiling）经验者加分

网络与存储：了解分布式存储（如 Ceph、Lustre、JuiceFS、Alluxio）在大模型训练场景的适配与调优

熟悉高性能网络（RoCE/InfiniBand）原理及常见问题排查

故障排查：具备极强的系统问题排查能力，能处理从内核、驱动、库到应用层的系统性故障，有大型集群稳定性保障经验

有自定义调度器、控制器开发经验者优先

有 CUDA 开发或性能剖析（Profiling）经验者加分

【留用实习】大模型训练平台开发工程师

🤖 AI 估测：¥12K-20K

发布时间：18 天前