Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
机器学习训练框架研发工程师-Data AML
立即应聘

机器学习训练框架研发工程师-Data AML

发布于 大约 11 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
软件工程
GPU
PyTorch
TensorFlow
推荐系统
CUDA
分布式训练
Megatron-LM
DeepSpeed

AI 估算 · 40k–60k

高级机器学习工程师,字节跳动核心岗位,上海薪资较高,技术难度大,市场需求强,综合月薪40-60K。

职位详情

关于这个职位

负责字节跳动推荐、广告、搜索等业务场景的机器学习训练框架研发,涉及稀疏模型、大语言模型及生成式模型的高效训练

你将深入训练系统核心模块,包括分布式训练、样本读取、容错恢复、性能优化等,支撑千卡万卡规模训练,推动训练范式升级
这是一个高挑战、高影响力的技术岗位,适合对大规模分布式系统和AI基础设施有热情的资深工程师

最低要求

计算机、软件工程、人工智能等相关专业背景,具备扎实的数据结构、算法、操作系统、计算机体系结构和分布式系统基础

熟练掌握Linux环境下的C++/Python,熟悉CUDA/Triton者优先,具备优秀的工程实现能力,能够编写高性能、可扩展、可维护的系统代码
熟悉至少一种机器学习框架或训练系统,如PyTorch、TensorFlow、JAX、Megatron-LM、DeepSpeed、FSDP、Ray、verl等,有框架底层原理理解、算子开发、性能调优或分布式训练落地经验者优先
具备较强的系统负责人意识,能够在复杂业务场景中识别核心问题、拆解优先级、推动跨团队协作,并将点状需求抽象为长期可复用的系统能力
熟悉分布式训练系统,理解常见并行策略,如数据并行、模型并行、专家并行、序列并行、流水线并行等,了解DeepSpeed、Megatron等并行训练框架或相关自研系统者优先,具备良好的沟通协作能力、业务理解能力和技术好奇心,能够在效率、稳定性、成本和长期架构之间做合理取舍,愿意探索超长序列建模、万卡训练稳定性等挑战性问题
具备以下至少一类经验:
)分布式系统、训练框架以及复杂业务系统相关研发经验
)参数服务器、GPU Embedding、多级存储、缓存或高性能数据访问
)GPU/NPU编程、CUDA/Triton、算子优化、编译器或性能Profiling
)高性能通信、NCCL/RDMA、Collective Communication或并行训练优化
)分布式系统、Kubernetes、稳定性治理、可观测性或故障诊断系统

工作职责

负责推荐、广告、搜索等训练系统研发,支撑稀疏模型、稠密模型、多模态模型、大语言模型及推荐生成式模型的稳定高效训练,深入业务训练场景,围绕训练效率、稳定性、成本、交付节奏和算法迭代效率,提供端到端系统方案,并沉淀为可复用的平台能力

参与训练分布式系统、样本读取和加速、Checkpoint、容错恢复、可观测性和诊断系统等核心模块建设,提升训练链路的可用性、性能和运维效率,面向推荐大模型方向,支持更长行为序列、更大参数规模和更大训练规模的模型训练,探索推荐领域Scaling laws、推荐生成式模型、多模态推荐和LLM4Rec、LLM CPT、SFT、RL、OPD等新范式
深入GPU Embedding、多级存储、分布式并行训练、高性能通信、算子优化、稳定性治理等重点方向,支撑千卡、万卡规模训练系统演进,与算法、平台、存储、硬件和业务团队紧密协作,推动训练链路中的架构升级、性能优化和稳定性治理,支撑下一代搜广推模型训练范式升级

优先资格

有推荐、广告、搜索训练系统、千卡/万卡训练、100B+大模型预训练、微调、强化学习、RLHF/RL训练系统经验

有参数服务器、GPU Embedding、多级缓存/存储优化、高性能数据访问经验
有稳定性、监控诊断、Checkpoint、自动恢复、性能建模、自动调优或大规模训练故障治理经验
熟悉GPU架构,具备CUDA或Triton编程经验,深入优化过NCCL、RDMA、网络通信或Collective Communication性能
有多模态表征学习经验,如CLIP、BLIP、VLM,能够将视觉、文本等特征有效融入推荐系统
深入研究过TensorFlow、PyTorch、JAX或其他自研训练框架的代码和设计,或是训练框架、并行库、高性能计算库等知名开源项目的核心贡献者,在RecSys、MLSys、NeurIPS、ICML、ICLR、KDD、SIGIR、CVPR等会议发表过高质量论文,或在ACM-ICPC、Kaggle、天池、KDD Cup、RecSys Challenge等竞赛中取得优异成绩

AI 洞察

优缺点分析

优点

  • 技术前沿性:涉及推荐大模型、LLM训练等最热门方向,个人技术成长快
  • 平台优势:字节跳动核心业务,资源丰富,影响力大,项目规模顶级(千卡/万卡)
  • 技能积累:深入分布式系统、高性能计算、AI基础设施,市场稀缺性强
  • 工作强度高:核心业务高压,需要快速解决复杂的系统问题,可能加班较多
  • 技术门槛高:需要同时掌握系统、算法、硬件等多领域知识,学习曲线陡峭
  • 跨团队协作多:需要与算法、平台、硬件等多个团队频繁沟通,协调难度大

缺点 / 挑战

  • 适合有扎实系统基础、热爱大规模分布式系统、对AI基础设施有强烈兴趣的技术专家,能够承受高强度挑战并追求技术极致的工程师

角色解读

  • 技术纵深发展:成为训练系统的架构师,专攻大规模分布式训练、GPU优化等方向
  • 跨领域拓展:可转向AI平台架构、MLOps、大模型推理优化等新兴方向
  • 管理路线:带领团队负责整个训练基础设施,成为技术负责人或经理
  • 设计和开发支撑推荐、广告、搜索等业务的机器学习训练框架,确保大模型训练稳定高效
  • 参与分布式训练系统核心模块建设,包括样本读取、Checkpoint、容错恢复、可观测性等
  • 深入GPU Embedding、多级存储、高性能通信等方向,优化千卡/万卡规模训练系统
  • 与算法、平台、硬件团队紧密协作,推动训练架构升级和范式演进
  • 扎实的计算机基础:数据结构、算法、操作系统、分布式系统
  • 精通C++/Python,熟悉CUDA/Triton,具备高性能系统开发能力
  • 熟悉PyTorch、TensorFlow等框架底层原理,有分布式训练优化经验
  • 理解常见并行策略(数据并行、模型并行等),有DeepSpeed/Megatron等框架实践

申请策略

  • 在简历中量化成果,例如将训练效率提升X%、支撑X卡训练等
  • 面试前准备好系统设计案例,尤其是分布式训练架构设计
  • 突出分布式训练系统相关项目经验,特别是有大规模GPU集群的优化案例
  • 强调C++/Python高性能编码能力,列举性能调优、算子开发等具体成果
  • 展示对PyTorch/TensorFlow等框架的深入理解,如源码分析、自定义算子等
  • 如有开源贡献或高质量论文(如MLSys、NeurIPS),务必突出
  • 深入学习CUDA编程和GPU架构,掌握Triton等新工具
  • 研究DeepSpeed、Megatron-LM等框架的并行策略和代码实现

面试指南

  • 对于系统设计问题,先明确需求边界,然后从数据流、计算、通信、存储等维度分层阐述,最后给出权衡和优化建议
  • 对于性能优化问题,先定位瓶颈(使用Profiling工具),然后从算法、工程、硬件三个层面提出解决方案,并量化效果
  • 请设计一个支持千卡规模训练的分布式训练架构,需要考虑哪些关键组件?
  • 如何优化PyTorch的DataLoader在大规模训练中的性能?
  • 解释数据并行、模型并行、流水线并行的区别和适用场景
  • 你在实际项目中如何解决训练不收敛或模型不稳定问题?
  • 如何实现高效的Checkpoint和容错恢复机制?
  • 复习分布式系统经典论文和框架源码(如PyTorch DDP、DeepSpeed ZeRO)

职位点评

64
综合评分

字节核心AI基础设施岗位,前沿技术栈,薪资竞争力强,但工作强度大、WLB一般。

更适合这类人
最适合追求技术成长、挑战前沿、不惧高强度工作的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展95
工作生活30
使命价值60

薪资福利

70中等

薪资处于市场偏高水准,字节跳动提供有竞争力的薪酬和股票,但未在JD中明确福利细节。

薪资信号偏高 (40K-60K/月)

成长发展

95较高

技术前沿(大模型、千卡万卡训练),成长空间极大,有明确的系统负责人意识培养。JD提及探索新范式,但未明确晋升通道。

技术前沿前沿/新兴技术
技术栈PyTorch、DeepSpeed、Megatron-LM、CUDA、NCCL、分布式训练、LLM、推荐系统
成长机会系统负责人意识、探索新范式
业务类型profit_center

工作生活

30较低

仅现场办公,上海核心地段,未提及WLB,岗位强度和压力较大。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

60中等

属于高速增长的AI基础设施领域,社会影响力中性,创新性强(探索Scaling laws等),但未强调使命。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 商家IM策略产品运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 直播产品运营(虚拟直播方向)-抖音直播

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • 广告研发风控专家-商业产品与技术

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 算法工程师-TikTok直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 后端/资深后端研发工程师(履约方向)-TikTok Shop

    字节跳动 · 杭州市
    AI 估算 · 25k-45k

相似职位推荐

  • Assoc, FrontEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 15k-25k
  • 算法专家TL(广告商业化-投放算法)

    希音 · 广州市
    AI 估算 · 50k-80k
  • Deep Learning Compiler CI/Infrastructure Engineer

    英伟达 · 上海市
    AI 估算 · 30k-60k
  • Deep Learning Performance Software Engineer

    英伟达 · 上海市
    AI 估算 · 35k-65k
  • Software Architect, Autonomous Vehicles - Backend and AI Agents

    英伟达 · 深圳市
    AI 估算 · 40k-70k

字节跳动 的其他在招职位

  • 商家IM策略产品运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 直播产品运营(虚拟直播方向)-抖音直播

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • 广告研发风控专家-商业产品与技术

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 算法工程师-TikTok直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 后端/资深后端研发工程师(履约方向)-TikTok Shop

    字节跳动 · 杭州市
    AI 估算 · 25k-45k

相似职位推荐

  • Assoc, FrontEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 15k-25k
  • 算法专家TL(广告商业化-投放算法)

    希音 · 广州市
    AI 估算 · 50k-80k
  • Deep Learning Compiler CI/Infrastructure Engineer

    英伟达 · 上海市
    AI 估算 · 30k-60k
  • Deep Learning Performance Software Engineer

    英伟达 · 上海市
    AI 估算 · 35k-65k
  • Software Architect, Autonomous Vehicles - Backend and AI Agents

    英伟达 · 深圳市
    AI 估算 · 40k-70k