字节跳动的机器学习训练框架研发工程师-Data AML薪资是多少？

该职位薪资范围为 28k–50k（人民币/月）。

机器学习训练框架研发工程师-Data AML的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

字节跳动的机器学习训练框架研发工程师-Data AML有什么任职要求？

该职位要求本科学历及高级经验工作经验。

字节跳动

机器学习训练框架研发工程师-Data AML

立即应聘

机器学习训练框架研发工程师-Data AML

发布于大约 11 小时前

普通员工/个人贡献者

杭州市

高级经验

全职员工

仅现场办公

本科

软件工程

GPU

PyTorch

TensorFlow

LLM

JAX

推荐系统

CUDA

RDMA

NCCL

AI 估算 · 28k–50k

大厂核心岗位，技术要求高，薪资处于行业领先水平。

职位详情

关于这个职位

作为机器学习训练框架研发工程师，你将负责字节跳动推荐、广告、搜索等核心业务的大规模分布式训练系统研发，深度参与从单机到万卡集群的训练效率、稳定性和成本优化，并探索大语言模型等前沿技术

这是一个技术挑战大、业务影响深远的岗位

最低要求

计算机、软件工程、人工智能等相关专业背景，具备扎实的数据结构、算法、操作系统、计算机体系结构和分布式系统基础

熟练掌握Linux环境下的C++/Python，熟悉CUDA/Triton者优先，具备优秀的工程实现能力，能够编写高性能、可扩展、可维护的系统代码

熟悉至少一种机器学习框架或训练系统，如PyTorch、TensorFlow、JAX、Megatron-LM、DeepSpeed、FSDP、Ray、verl等，有框架底层原理理解、算子开发、性能调优或分布式训练落地经验者优先

具备较强的系统负责人意识，能够在复杂业务场景中识别核心问题、拆解优先级、推动跨团队协作，并将点状需求抽象为长期可复用的系统能力

熟悉分布式训练系统，理解常见并行策略，如数据并行、模型并行、专家并行、序列并行、流水线并行等，了解DeepSpeed、Megatron等并行训练框架或相关自研系统者优先，具备良好的沟通协作能力、业务理解能力和技术好奇心，能够在效率、稳定性、成本和长期架构之间做合理取舍，愿意探索超长序列建模、万卡训练稳定性等挑战性问题

具备以下至少一类经验：

）分布式系统、训练框架以及复杂业务系统相关研发经验

）参数服务器、GPU Embedding、多级存储、缓存或高性能数据访问

）GPU/NPU编程、CUDA/Triton、算子优化、编译器或性能Profiling

）高性能通信、NCCL/RDMA、Collective Communication或并行训练优化

）分布式系统、Kubernetes、稳定性治理、可观测性或故障诊断系统

工作职责

负责推荐、广告、搜索等训练系统研发，支撑稀疏模型、稠密模型、多模态模型、大语言模型及推荐生成式模型的稳定高效训练，深入业务训练场景，围绕训练效率、稳定性、成本、交付节奏和算法迭代效率，提供端到端系统方案，并沉淀为可复用的平台能力

参与训练分布式系统、样本读取和加速、Checkpoint、容错恢复、可观测性和诊断系统等核心模块建设，提升训练链路的可用性、性能和运维效率，面向推荐大模型方向，支持更长行为序列、更大参数规模和更大训练规模的模型训练，探索推荐领域Scaling laws、推荐生成式模型、多模态推荐和LLM4Rec、LLM CPT、SFT、RL、OPD等新范式

深入GPU Embedding、多级存储、分布式并行训练、高性能通信、算子优化、稳定性治理等重点方向，支撑千卡、万卡规模训练系统演进，与算法、平台、存储、硬件和业务团队紧密协作，推动训练链路中的架构升级、性能优化和稳定性治理，支撑下一代搜广推模型训练范式升级

优先资格

有推荐、广告、搜索训练系统、千卡/万卡训练、100B+大模型预训练、微调、强化学习、RLHF/RL训练系统经验

有参数服务器、GPU Embedding、多级缓存/存储优化、高性能数据访问经验

有稳定性、监控诊断、Checkpoint、自动恢复、性能建模、自动调优或大规模训练故障治理经验

熟悉GPU架构，具备CUDA或Triton编程经验，深入优化过NCCL、RDMA、网络通信或Collective Communication性能

有多模态表征学习经验，如CLIP、BLIP、VLM，能够将视觉、文本等特征有效融入推荐系统

深入研究过TensorFlow、PyTorch、JAX或其他自研训练框架的代码和设计，或是训练框架、并行库、高性能计算库等知名开源项目的核心贡献者，在RecSys、MLSys、NeurIPS、ICML、ICLR、KDD、SIGIR、CVPR等会议发表过高质量论文，或在ACM-ICPC、Kaggle、天池、KDD Cup、RecSys Challenge等竞赛中取得优异成绩

AI 洞察

优缺点分析

优点

参与前沿AI基础设施研发，接触万亿参数模型训练，技术成长空间巨大
字节跳动平台业务场景丰富，技术成果能快速落地并产生巨大影响
薪资待遇优厚，股票期权等长期激励，职业发展通道清晰
工作强度大，需应对高并发、高稳定性要求，常有紧急问题处理
技术深度要求极高，需要持续学习新框架、新硬件、新范式
跨团队协作频繁，沟通成本和项目推进难度较大

缺点 / 挑战

适合热爱底层系统技术、享受解决高难度工程挑战、愿意在快速迭代环境中持续成长的资深工程师

角色解读

技术路线：从资深工程师到技术专家/架构师，主导大规模训练系统设计与落地
业务路线：深入理解推荐/广告业务，成为业务技术双栖人才
管理路线：逐步带领团队，负责系统方向的技术规划与项目管理
设计并优化推荐、广告、搜索业务的分布式训练框架，提升训练效率与稳定性
开发核心模块如样本读取、Checkpoint、容错恢复、可观测性系统
探索大模型训练新范式（如LLM4Rec、Scaling laws），推动千/万卡集群训练演进
精通C++/Python和Linux环境，具备高性能系统编程能力
深入理解分布式系统、并行策略（数据并行、模型并行等）及常用训练框架
熟悉GPU编程（CUDA/Triton）和高性能通信（NCCL/RDMA）者优先

申请策略

提前了解字节AML团队的技术博客或公开分享，面试中展示对团队技术方向的理解
准备一个你主导的复杂系统优化案例，从问题识别到方案落地完整讲述
突出分布式训练项目经验，说明你如何优化通信、提升效率
展示CUDA/Triton优化案例，如算子性能提升具体数据
强调对训练框架（如DeepSpeed、PyTorch）的深入理解或开源贡献
系统学习并行训练策略（数据并行、模型并行、流水线并行等）
动手实践大模型训练，熟悉Megatron-LM、DeepSpeed等框架
补充GPU底层知识，包括CUDA编程模型、NCCL通信原理

面试指南

结构化回答：问题定义 → 方案设计 → 实现细节 → 效果验证
结合具体项目：始终用自己的经验数据支撑观点，避免纯理论
体现系统思维：不仅解决当前问题，还要考虑可扩展性和长期架构
如何优化分布式训练中的通信瓶颈？请举例说明
设计一个大规模Checkpoint系统需要考虑哪些关键因素？
请解释DeepSpeed的ZeRO优化原理，并说明其适用场景
如果遇到训练loss异常发散，你会如何排查和定位？
描述你在万卡集群训练中遇到的一个稳定性问题及解决方案

职位点评

综合评分

字节AML核心岗位，前沿AI训练系统研发，高薪资高成长但工作强度大。

更适合这类人

最适合追求技术深度与职业成长，愿意为前沿技术付出高强度努力的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活40

使命价值70

薪资福利

85较高

字节跳动作为大型上市公司，提供具有竞争力的薪资和股票激励，但职位描述未明确福利细节，整体补偿性较好。

薪资信号偏高 (28K-50K/月)

成长发展

95较高

职位涉及最前沿的AI训练系统技术（如万卡集群、大模型新范式），成长信号强烈，有明确的探索方向和系统负责人文化。

技术前沿前沿/新兴技术

技术栈分布式训练、大语言模型、GPU、并行策略、CUDA、NCCL

成长机会探索、新范式、演进、下一代

业务类型profit_center

工作生活

40较低

职位只提及杭州现场办公，未提弹性工作或远程，考虑到字节跳动企业文化，工作强度较大，WLB可能不佳。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

AI训练系统属于高速增长赛道，对推动技术进步有较大意义，但社会影响力中性，更多体现在商业价值。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

机器学习训练框架研发工程师-Data AML

立即应聘

机器学习训练框架研发工程师-Data AML

发布于大约 11 小时前

普通员工/个人贡献者

杭州市

高级经验

全职员工

仅现场办公

本科

软件工程

GPU

PyTorch

TensorFlow

LLM

JAX

推荐系统

CUDA

RDMA

NCCL

AI 估算 · 28k–50k

大厂核心岗位，技术要求高，薪资处于行业领先水平。

职位详情

关于这个职位

这是一个技术挑战大、业务影响深远的岗位

最低要求

计算机、软件工程、人工智能等相关专业背景，具备扎实的数据结构、算法、操作系统、计算机体系结构和分布式系统基础

熟练掌握Linux环境下的C++/Python，熟悉CUDA/Triton者优先，具备优秀的工程实现能力，能够编写高性能、可扩展、可维护的系统代码

具备较强的系统负责人意识，能够在复杂业务场景中识别核心问题、拆解优先级、推动跨团队协作，并将点状需求抽象为长期可复用的系统能力

具备以下至少一类经验：

）分布式系统、训练框架以及复杂业务系统相关研发经验

）参数服务器、GPU Embedding、多级存储、缓存或高性能数据访问

）GPU/NPU编程、CUDA/Triton、算子优化、编译器或性能Profiling

）高性能通信、NCCL/RDMA、Collective Communication或并行训练优化

）分布式系统、Kubernetes、稳定性治理、可观测性或故障诊断系统

工作职责

优先资格

有推荐、广告、搜索训练系统、千卡/万卡训练、100B+大模型预训练、微调、强化学习、RLHF/RL训练系统经验

有参数服务器、GPU Embedding、多级缓存/存储优化、高性能数据访问经验

有稳定性、监控诊断、Checkpoint、自动恢复、性能建模、自动调优或大规模训练故障治理经验

熟悉GPU架构，具备CUDA或Triton编程经验，深入优化过NCCL、RDMA、网络通信或Collective Communication性能

有多模态表征学习经验，如CLIP、BLIP、VLM，能够将视觉、文本等特征有效融入推荐系统

AI 洞察

优缺点分析

优点

参与前沿AI基础设施研发，接触万亿参数模型训练，技术成长空间巨大
字节跳动平台业务场景丰富，技术成果能快速落地并产生巨大影响
薪资待遇优厚，股票期权等长期激励，职业发展通道清晰
工作强度大，需应对高并发、高稳定性要求，常有紧急问题处理
技术深度要求极高，需要持续学习新框架、新硬件、新范式
跨团队协作频繁，沟通成本和项目推进难度较大

缺点 / 挑战

适合热爱底层系统技术、享受解决高难度工程挑战、愿意在快速迭代环境中持续成长的资深工程师

角色解读

技术路线：从资深工程师到技术专家/架构师，主导大规模训练系统设计与落地
业务路线：深入理解推荐/广告业务，成为业务技术双栖人才
管理路线：逐步带领团队，负责系统方向的技术规划与项目管理
设计并优化推荐、广告、搜索业务的分布式训练框架，提升训练效率与稳定性
开发核心模块如样本读取、Checkpoint、容错恢复、可观测性系统
探索大模型训练新范式（如LLM4Rec、Scaling laws），推动千/万卡集群训练演进
精通C++/Python和Linux环境，具备高性能系统编程能力
深入理解分布式系统、并行策略（数据并行、模型并行等）及常用训练框架
熟悉GPU编程（CUDA/Triton）和高性能通信（NCCL/RDMA）者优先

申请策略

提前了解字节AML团队的技术博客或公开分享，面试中展示对团队技术方向的理解
准备一个你主导的复杂系统优化案例，从问题识别到方案落地完整讲述
突出分布式训练项目经验，说明你如何优化通信、提升效率
展示CUDA/Triton优化案例，如算子性能提升具体数据
强调对训练框架（如DeepSpeed、PyTorch）的深入理解或开源贡献
系统学习并行训练策略（数据并行、模型并行、流水线并行等）
动手实践大模型训练，熟悉Megatron-LM、DeepSpeed等框架
补充GPU底层知识，包括CUDA编程模型、NCCL通信原理

面试指南

结构化回答：问题定义 → 方案设计 → 实现细节 → 效果验证
结合具体项目：始终用自己的经验数据支撑观点，避免纯理论
体现系统思维：不仅解决当前问题，还要考虑可扩展性和长期架构
如何优化分布式训练中的通信瓶颈？请举例说明
设计一个大规模Checkpoint系统需要考虑哪些关键因素？
请解释DeepSpeed的ZeRO优化原理，并说明其适用场景
如果遇到训练loss异常发散，你会如何排查和定位？
描述你在万卡集群训练中遇到的一个稳定性问题及解决方案

职位点评

综合评分

字节AML核心岗位，前沿AI训练系统研发，高薪资高成长但工作强度大。

更适合这类人

最适合追求技术深度与职业成长，愿意为前沿技术付出高强度努力的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活40

使命价值70

薪资福利

85较高

字节跳动作为大型上市公司，提供具有竞争力的薪资和股票激励，但职位描述未明确福利细节，整体补偿性较好。

薪资信号偏高 (28K-50K/月)

成长发展

95较高

职位涉及最前沿的AI训练系统技术（如万卡集群、大模型新范式），成长信号强烈，有明确的探索方向和系统负责人文化。

技术前沿前沿/新兴技术

技术栈分布式训练、大语言模型、GPU、并行策略、CUDA、NCCL

成长机会探索、新范式、演进、下一代

业务类型profit_center

工作生活

40较低

职位只提及杭州现场办公，未提弹性工作或远程，考虑到字节跳动企业文化，工作强度较大，WLB可能不佳。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

AI训练系统属于高速增长赛道，对推动技术进步有较大意义，但社会影响力中性，更多体现在商业价值。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

机器学习训练框架研发工程师-Data AML

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

机器学习训练框架研发工程师-Data AML

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

商家IM策略产品运营-TikTok Shop

直播产品运营（虚拟直播方向）-抖音直播

广告研发风控专家-商业产品与技术

算法工程师-TikTok直播

后端/资深后端研发工程师（履约方向）-TikTok Shop

相似职位推荐

Assoc, FrontEnd Eng, WRB Tech

算法专家TL（广告商业化-投放算法）

Deep Learning Compiler CI/Infrastructure Engineer

Deep Learning Performance Software Engineer

Software Architect, Autonomous Vehicles - Backend and AI Agents

字节跳动 的其他在招职位

商家IM策略产品运营-TikTok Shop

直播产品运营（虚拟直播方向）-抖音直播

广告研发风控专家-商业产品与技术

算法工程师-TikTok直播

后端/资深后端研发工程师（履约方向）-TikTok Shop

相似职位推荐

Assoc, FrontEnd Eng, WRB Tech

算法专家TL（广告商业化-投放算法）

Deep Learning Compiler CI/Infrastructure Engineer

Deep Learning Performance Software Engineer

Software Architect, Autonomous Vehicles - Backend and AI Agents

字节跳动的其他在招职位

字节跳动的其他在招职位