美团的大模型训练异构系统工程师薪资是多少？

该职位薪资范围为 40k–70k（人民币/月）。

大模型训练异构系统工程师的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及高级经验工作经验。

🤖 AI 估测：¥40K-70K

发布时间：13 天前

这是一个专注于大模型训练底层系统优化的前沿技术岗位

你将负责在美团大规模异构硬件集群上，为大模型的预训练、微调等场景提供系统级的支持与优化

工作内容涵盖分布式训练框架、AI框架、网络通信、高性能算子等多个技术栈，旨在构建高效、稳定的大模型训练基础设施

围绕大模型异构训练集群，尤其是非NV GPU大规模异构硬件集群，面向大模型预训练、Finetune等场景进行新模型使能，系统分析/优化，业务支撑等工作，包括分布式优化框架，AI框架，网络集合通信，算子等方面内容

参与美团机器学习平台建设，构建非NV GPU大规模训练场景软件栈和算法迭代Pipeline

负责NLP类大模型的训练端到端流程，包括训练使能，系统调优，关键指标分析和统计，问题定位等工作，支持常见生成式NLP类大模型，包括但不限于LlaMa 1/2, GPT, BLOOM等

负责视觉类，多模态大模型的训练端到端流程，包括模型使能，系统调优，关键指标分析和统计，问题定位等工作，支持常见的视觉类，多模态大模型，包括但不限于ViT，Swin Transformer，Stable Diffusion, MoE等

负责大模型分布式优化框架的系统分析，性能调优，特性开发，问题定位等工作，支持常见的大模型分布式优化框架，包括但不限于Megatron, DeepSpeed, FSDP等

负责PyTorch在非NV GPU场景下系统分析，性能调优，问题定位等工作

负责常见的大模型训练场景下高性能Kernel算子的关键指标分析和统计，融合开发，性能优化等工作

负责大模型不同规模卡数训练场景下集合通信/NCCL关键指标分析和统计，系统定位/调优等工作

负责与NV GPU相同场景进行Benchmark评测，对比验证，性能分析等工作

有扎实的计算机理论基础，熟练掌握C++或Python语言

具备良好的问题分析和一定的解决能力，具有较好的学习能力和好奇心驱动

熟悉NLP类模型训练场景，有GPT，LlaMa 1/2等相关知识和经验者优先

熟悉视觉类，多模态大模型训练场景，有ViT， Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先

熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架，有相关知识、使用和调优经验者优先

熟悉PyTorch分布式场景，有二次开发经验，系统调优知识和经验者优先

熟悉集合通信原理和基本知识，对NCCL有大规模使用，调优经验者优先

熟悉算子开发流程，有CUDA编程知识和相关经验者优先

熟悉NV GPU架构，对其他类型AI芯片有使用经验者优先

大模型训练异构系统工程师

🤖 AI 估测：¥40K-70K

发布时间：13 天前