字节跳动的机器学习训练框架研发工程师-Data AML薪资是多少？

该职位薪资范围为 40k–60k（人民币/月）。

机器学习训练框架研发工程师-Data AML的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的机器学习训练框架研发工程师-Data AML有什么任职要求？

该职位要求本科学历及高级经验工作经验。

字节跳动

机器学习训练框架研发工程师-Data AML

立即应聘

机器学习训练框架研发工程师-Data AML

发布于大约 11 小时前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

本科

软件工程

GPU

PyTorch

TensorFlow

推荐系统

CUDA

分布式训练

Megatron-LM

DeepSpeed

AI 估算 · 40k–60k

高级机器学习工程师，字节跳动核心岗位，上海薪资较高，技术难度大，市场需求强，综合月薪40-60K。

职位详情

关于这个职位

负责字节跳动推荐、广告、搜索等业务场景的机器学习训练框架研发，涉及稀疏模型、大语言模型及生成式模型的高效训练

你将深入训练系统核心模块，包括分布式训练、样本读取、容错恢复、性能优化等，支撑千卡万卡规模训练，推动训练范式升级

这是一个高挑战、高影响力的技术岗位，适合对大规模分布式系统和AI基础设施有热情的资深工程师

最低要求

计算机、软件工程、人工智能等相关专业背景，具备扎实的数据结构、算法、操作系统、计算机体系结构和分布式系统基础

熟练掌握Linux环境下的C++/Python，熟悉CUDA/Triton者优先，具备优秀的工程实现能力，能够编写高性能、可扩展、可维护的系统代码

熟悉至少一种机器学习框架或训练系统，如PyTorch、TensorFlow、JAX、Megatron-LM、DeepSpeed、FSDP、Ray、verl等，有框架底层原理理解、算子开发、性能调优或分布式训练落地经验者优先

具备较强的系统负责人意识，能够在复杂业务场景中识别核心问题、拆解优先级、推动跨团队协作，并将点状需求抽象为长期可复用的系统能力

熟悉分布式训练系统，理解常见并行策略，如数据并行、模型并行、专家并行、序列并行、流水线并行等，了解DeepSpeed、Megatron等并行训练框架或相关自研系统者优先，具备良好的沟通协作能力、业务理解能力和技术好奇心，能够在效率、稳定性、成本和长期架构之间做合理取舍，愿意探索超长序列建模、万卡训练稳定性等挑战性问题

具备以下至少一类经验：

）分布式系统、训练框架以及复杂业务系统相关研发经验

）参数服务器、GPU Embedding、多级存储、缓存或高性能数据访问

）GPU/NPU编程、CUDA/Triton、算子优化、编译器或性能Profiling

）高性能通信、NCCL/RDMA、Collective Communication或并行训练优化

）分布式系统、Kubernetes、稳定性治理、可观测性或故障诊断系统

工作职责

负责推荐、广告、搜索等训练系统研发，支撑稀疏模型、稠密模型、多模态模型、大语言模型及推荐生成式模型的稳定高效训练，深入业务训练场景，围绕训练效率、稳定性、成本、交付节奏和算法迭代效率，提供端到端系统方案，并沉淀为可复用的平台能力

参与训练分布式系统、样本读取和加速、Checkpoint、容错恢复、可观测性和诊断系统等核心模块建设，提升训练链路的可用性、性能和运维效率，面向推荐大模型方向，支持更长行为序列、更大参数规模和更大训练规模的模型训练，探索推荐领域Scaling laws、推荐生成式模型、多模态推荐和LLM4Rec、LLM CPT、SFT、RL、OPD等新范式

深入GPU Embedding、多级存储、分布式并行训练、高性能通信、算子优化、稳定性治理等重点方向，支撑千卡、万卡规模训练系统演进，与算法、平台、存储、硬件和业务团队紧密协作，推动训练链路中的架构升级、性能优化和稳定性治理，支撑下一代搜广推模型训练范式升级

优先资格

有推荐、广告、搜索训练系统、千卡/万卡训练、100B+大模型预训练、微调、强化学习、RLHF/RL训练系统经验

有参数服务器、GPU Embedding、多级缓存/存储优化、高性能数据访问经验

有稳定性、监控诊断、Checkpoint、自动恢复、性能建模、自动调优或大规模训练故障治理经验

熟悉GPU架构，具备CUDA或Triton编程经验，深入优化过NCCL、RDMA、网络通信或Collective Communication性能

有多模态表征学习经验，如CLIP、BLIP、VLM，能够将视觉、文本等特征有效融入推荐系统

深入研究过TensorFlow、PyTorch、JAX或其他自研训练框架的代码和设计，或是训练框架、并行库、高性能计算库等知名开源项目的核心贡献者，在RecSys、MLSys、NeurIPS、ICML、ICLR、KDD、SIGIR、CVPR等会议发表过高质量论文，或在ACM-ICPC、Kaggle、天池、KDD Cup、RecSys Challenge等竞赛中取得优异成绩

AI 洞察

优缺点分析

优点

技术前沿性：涉及推荐大模型、LLM训练等最热门方向，个人技术成长快
平台优势：字节跳动核心业务，资源丰富，影响力大，项目规模顶级（千卡/万卡）
技能积累：深入分布式系统、高性能计算、AI基础设施，市场稀缺性强
工作强度高：核心业务高压，需要快速解决复杂的系统问题，可能加班较多
技术门槛高：需要同时掌握系统、算法、硬件等多领域知识，学习曲线陡峭
跨团队协作多：需要与算法、平台、硬件等多个团队频繁沟通，协调难度大

缺点 / 挑战

适合有扎实系统基础、热爱大规模分布式系统、对AI基础设施有强烈兴趣的技术专家，能够承受高强度挑战并追求技术极致的工程师

角色解读

技术纵深发展：成为训练系统的架构师，专攻大规模分布式训练、GPU优化等方向
跨领域拓展：可转向AI平台架构、MLOps、大模型推理优化等新兴方向
管理路线：带领团队负责整个训练基础设施，成为技术负责人或经理
设计和开发支撑推荐、广告、搜索等业务的机器学习训练框架，确保大模型训练稳定高效
参与分布式训练系统核心模块建设，包括样本读取、Checkpoint、容错恢复、可观测性等
深入GPU Embedding、多级存储、高性能通信等方向，优化千卡/万卡规模训练系统
与算法、平台、硬件团队紧密协作，推动训练架构升级和范式演进
扎实的计算机基础：数据结构、算法、操作系统、分布式系统
精通C++/Python，熟悉CUDA/Triton，具备高性能系统开发能力
熟悉PyTorch、TensorFlow等框架底层原理，有分布式训练优化经验
理解常见并行策略（数据并行、模型并行等），有DeepSpeed/Megatron等框架实践

申请策略

在简历中量化成果，例如将训练效率提升X%、支撑X卡训练等
面试前准备好系统设计案例，尤其是分布式训练架构设计
突出分布式训练系统相关项目经验，特别是有大规模GPU集群的优化案例
强调C++/Python高性能编码能力，列举性能调优、算子开发等具体成果
展示对PyTorch/TensorFlow等框架的深入理解，如源码分析、自定义算子等
如有开源贡献或高质量论文（如MLSys、NeurIPS），务必突出
深入学习CUDA编程和GPU架构，掌握Triton等新工具
研究DeepSpeed、Megatron-LM等框架的并行策略和代码实现

面试指南

对于系统设计问题，先明确需求边界，然后从数据流、计算、通信、存储等维度分层阐述，最后给出权衡和优化建议
对于性能优化问题，先定位瓶颈（使用Profiling工具），然后从算法、工程、硬件三个层面提出解决方案，并量化效果
请设计一个支持千卡规模训练的分布式训练架构，需要考虑哪些关键组件？
如何优化PyTorch的DataLoader在大规模训练中的性能？
解释数据并行、模型并行、流水线并行的区别和适用场景
你在实际项目中如何解决训练不收敛或模型不稳定问题？
如何实现高效的Checkpoint和容错恢复机制？
复习分布式系统经典论文和框架源码（如PyTorch DDP、DeepSpeed ZeRO）

职位点评

综合评分

字节核心AI基础设施岗位，前沿技术栈，薪资竞争力强，但工作强度大、WLB一般。

更适合这类人

最适合追求技术成长、挑战前沿、不惧高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展95

工作生活30

使命价值60

薪资福利

70中等

薪资处于市场偏高水准，字节跳动提供有竞争力的薪酬和股票，但未在JD中明确福利细节。

薪资信号偏高 (40K-60K/月)

成长发展

95较高

技术前沿（大模型、千卡万卡训练），成长空间极大，有明确的系统负责人意识培养。JD提及探索新范式，但未明确晋升通道。

技术前沿前沿/新兴技术

技术栈PyTorch、DeepSpeed、Megatron-LM、CUDA、NCCL、分布式训练、LLM、推荐系统

成长机会系统负责人意识、探索新范式

业务类型profit_center

工作生活

30较低

仅现场办公，上海核心地段，未提及WLB，岗位强度和压力较大。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

属于高速增长的AI基础设施领域，社会影响力中性，创新性强（探索Scaling laws等），但未强调使命。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

字节跳动

机器学习训练框架研发工程师-Data AML

立即应聘

机器学习训练框架研发工程师-Data AML

发布于大约 11 小时前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

本科

软件工程

GPU

PyTorch

TensorFlow

推荐系统

CUDA

分布式训练

Megatron-LM

DeepSpeed

AI 估算 · 40k–60k

高级机器学习工程师，字节跳动核心岗位，上海薪资较高，技术难度大，市场需求强，综合月薪40-60K。

职位详情

关于这个职位

负责字节跳动推荐、广告、搜索等业务场景的机器学习训练框架研发，涉及稀疏模型、大语言模型及生成式模型的高效训练

你将深入训练系统核心模块，包括分布式训练、样本读取、容错恢复、性能优化等，支撑千卡万卡规模训练，推动训练范式升级

这是一个高挑战、高影响力的技术岗位，适合对大规模分布式系统和AI基础设施有热情的资深工程师

最低要求

计算机、软件工程、人工智能等相关专业背景，具备扎实的数据结构、算法、操作系统、计算机体系结构和分布式系统基础

熟练掌握Linux环境下的C++/Python，熟悉CUDA/Triton者优先，具备优秀的工程实现能力，能够编写高性能、可扩展、可维护的系统代码

具备较强的系统负责人意识，能够在复杂业务场景中识别核心问题、拆解优先级、推动跨团队协作，并将点状需求抽象为长期可复用的系统能力

具备以下至少一类经验：

）分布式系统、训练框架以及复杂业务系统相关研发经验

）参数服务器、GPU Embedding、多级存储、缓存或高性能数据访问

）GPU/NPU编程、CUDA/Triton、算子优化、编译器或性能Profiling

）高性能通信、NCCL/RDMA、Collective Communication或并行训练优化

）分布式系统、Kubernetes、稳定性治理、可观测性或故障诊断系统

工作职责

优先资格

有推荐、广告、搜索训练系统、千卡/万卡训练、100B+大模型预训练、微调、强化学习、RLHF/RL训练系统经验

有参数服务器、GPU Embedding、多级缓存/存储优化、高性能数据访问经验

有稳定性、监控诊断、Checkpoint、自动恢复、性能建模、自动调优或大规模训练故障治理经验

熟悉GPU架构，具备CUDA或Triton编程经验，深入优化过NCCL、RDMA、网络通信或Collective Communication性能

有多模态表征学习经验，如CLIP、BLIP、VLM，能够将视觉、文本等特征有效融入推荐系统

AI 洞察

优缺点分析

优点

技术前沿性：涉及推荐大模型、LLM训练等最热门方向，个人技术成长快
平台优势：字节跳动核心业务，资源丰富，影响力大，项目规模顶级（千卡/万卡）
技能积累：深入分布式系统、高性能计算、AI基础设施，市场稀缺性强
工作强度高：核心业务高压，需要快速解决复杂的系统问题，可能加班较多
技术门槛高：需要同时掌握系统、算法、硬件等多领域知识，学习曲线陡峭
跨团队协作多：需要与算法、平台、硬件等多个团队频繁沟通，协调难度大

缺点 / 挑战

适合有扎实系统基础、热爱大规模分布式系统、对AI基础设施有强烈兴趣的技术专家，能够承受高强度挑战并追求技术极致的工程师

角色解读

技术纵深发展：成为训练系统的架构师，专攻大规模分布式训练、GPU优化等方向
跨领域拓展：可转向AI平台架构、MLOps、大模型推理优化等新兴方向
管理路线：带领团队负责整个训练基础设施，成为技术负责人或经理
设计和开发支撑推荐、广告、搜索等业务的机器学习训练框架，确保大模型训练稳定高效
参与分布式训练系统核心模块建设，包括样本读取、Checkpoint、容错恢复、可观测性等
深入GPU Embedding、多级存储、高性能通信等方向，优化千卡/万卡规模训练系统
与算法、平台、硬件团队紧密协作，推动训练架构升级和范式演进
扎实的计算机基础：数据结构、算法、操作系统、分布式系统
精通C++/Python，熟悉CUDA/Triton，具备高性能系统开发能力
熟悉PyTorch、TensorFlow等框架底层原理，有分布式训练优化经验
理解常见并行策略（数据并行、模型并行等），有DeepSpeed/Megatron等框架实践

申请策略

在简历中量化成果，例如将训练效率提升X%、支撑X卡训练等
面试前准备好系统设计案例，尤其是分布式训练架构设计
突出分布式训练系统相关项目经验，特别是有大规模GPU集群的优化案例
强调C++/Python高性能编码能力，列举性能调优、算子开发等具体成果
展示对PyTorch/TensorFlow等框架的深入理解，如源码分析、自定义算子等
如有开源贡献或高质量论文（如MLSys、NeurIPS），务必突出
深入学习CUDA编程和GPU架构，掌握Triton等新工具
研究DeepSpeed、Megatron-LM等框架的并行策略和代码实现

面试指南

对于系统设计问题，先明确需求边界，然后从数据流、计算、通信、存储等维度分层阐述，最后给出权衡和优化建议
对于性能优化问题，先定位瓶颈（使用Profiling工具），然后从算法、工程、硬件三个层面提出解决方案，并量化效果
请设计一个支持千卡规模训练的分布式训练架构，需要考虑哪些关键组件？
如何优化PyTorch的DataLoader在大规模训练中的性能？
解释数据并行、模型并行、流水线并行的区别和适用场景
你在实际项目中如何解决训练不收敛或模型不稳定问题？
如何实现高效的Checkpoint和容错恢复机制？
复习分布式系统经典论文和框架源码（如PyTorch DDP、DeepSpeed ZeRO）

职位点评

综合评分

字节核心AI基础设施岗位，前沿技术栈，薪资竞争力强，但工作强度大、WLB一般。

更适合这类人

最适合追求技术成长、挑战前沿、不惧高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展95

工作生活30

使命价值60

薪资福利

70中等

薪资处于市场偏高水准，字节跳动提供有竞争力的薪酬和股票，但未在JD中明确福利细节。

薪资信号偏高 (40K-60K/月)

成长发展

95较高

技术前沿（大模型、千卡万卡训练），成长空间极大，有明确的系统负责人意识培养。JD提及探索新范式，但未明确晋升通道。

技术前沿前沿/新兴技术

技术栈PyTorch、DeepSpeed、Megatron-LM、CUDA、NCCL、分布式训练、LLM、推荐系统

成长机会系统负责人意识、探索新范式

业务类型profit_center

工作生活

30较低

仅现场办公，上海核心地段，未提及WLB，岗位强度和压力较大。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

属于高速增长的AI基础设施领域，社会影响力中性，创新性强（探索Scaling laws等），但未强调使命。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

机器学习训练框架研发工程师-Data AML

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

机器学习训练框架研发工程师-Data AML

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

商家IM策略产品运营-TikTok Shop

直播产品运营（虚拟直播方向）-抖音直播

广告研发风控专家-商业产品与技术

算法工程师-TikTok直播

后端/资深后端研发工程师（履约方向）-TikTok Shop

相似职位推荐

Assoc, FrontEnd Eng, WRB Tech

算法专家TL（广告商业化-投放算法）

Deep Learning Compiler CI/Infrastructure Engineer

Deep Learning Performance Software Engineer

Software Architect, Autonomous Vehicles - Backend and AI Agents

字节跳动 的其他在招职位

商家IM策略产品运营-TikTok Shop

直播产品运营（虚拟直播方向）-抖音直播

广告研发风控专家-商业产品与技术

算法工程师-TikTok直播

后端/资深后端研发工程师（履约方向）-TikTok Shop

相似职位推荐

Assoc, FrontEnd Eng, WRB Tech

算法专家TL（广告商业化-投放算法）

Deep Learning Compiler CI/Infrastructure Engineer

Deep Learning Performance Software Engineer

Software Architect, Autonomous Vehicles - Backend and AI Agents

字节跳动的其他在招职位

字节跳动的其他在招职位