Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
机器学习训练框架研发工程师-Data AML
立即应聘

机器学习训练框架研发工程师-Data AML

发布于 大约 11 小时前

普通员工/个人贡献者

杭州市
高级经验
全职员工
仅现场办公
本科
软件工程
GPU
PyTorch
TensorFlow
LLM
JAX
推荐系统
CUDA
RDMA
NCCL

AI 估算 · 28k–50k

大厂核心岗位,技术要求高,薪资处于行业领先水平。

职位详情

关于这个职位

作为机器学习训练框架研发工程师,你将负责字节跳动推荐、广告、搜索等核心业务的大规模分布式训练系统研发,深度参与从单机到万卡集群的训练效率、稳定性和成本优化,并探索大语言模型等前沿技术

这是一个技术挑战大、业务影响深远的岗位

最低要求

计算机、软件工程、人工智能等相关专业背景,具备扎实的数据结构、算法、操作系统、计算机体系结构和分布式系统基础

熟练掌握Linux环境下的C++/Python,熟悉CUDA/Triton者优先,具备优秀的工程实现能力,能够编写高性能、可扩展、可维护的系统代码
熟悉至少一种机器学习框架或训练系统,如PyTorch、TensorFlow、JAX、Megatron-LM、DeepSpeed、FSDP、Ray、verl等,有框架底层原理理解、算子开发、性能调优或分布式训练落地经验者优先
具备较强的系统负责人意识,能够在复杂业务场景中识别核心问题、拆解优先级、推动跨团队协作,并将点状需求抽象为长期可复用的系统能力
熟悉分布式训练系统,理解常见并行策略,如数据并行、模型并行、专家并行、序列并行、流水线并行等,了解DeepSpeed、Megatron等并行训练框架或相关自研系统者优先,具备良好的沟通协作能力、业务理解能力和技术好奇心,能够在效率、稳定性、成本和长期架构之间做合理取舍,愿意探索超长序列建模、万卡训练稳定性等挑战性问题
具备以下至少一类经验:
)分布式系统、训练框架以及复杂业务系统相关研发经验
)参数服务器、GPU Embedding、多级存储、缓存或高性能数据访问
)GPU/NPU编程、CUDA/Triton、算子优化、编译器或性能Profiling
)高性能通信、NCCL/RDMA、Collective Communication或并行训练优化
)分布式系统、Kubernetes、稳定性治理、可观测性或故障诊断系统

工作职责

负责推荐、广告、搜索等训练系统研发,支撑稀疏模型、稠密模型、多模态模型、大语言模型及推荐生成式模型的稳定高效训练,深入业务训练场景,围绕训练效率、稳定性、成本、交付节奏和算法迭代效率,提供端到端系统方案,并沉淀为可复用的平台能力

参与训练分布式系统、样本读取和加速、Checkpoint、容错恢复、可观测性和诊断系统等核心模块建设,提升训练链路的可用性、性能和运维效率,面向推荐大模型方向,支持更长行为序列、更大参数规模和更大训练规模的模型训练,探索推荐领域Scaling laws、推荐生成式模型、多模态推荐和LLM4Rec、LLM CPT、SFT、RL、OPD等新范式
深入GPU Embedding、多级存储、分布式并行训练、高性能通信、算子优化、稳定性治理等重点方向,支撑千卡、万卡规模训练系统演进,与算法、平台、存储、硬件和业务团队紧密协作,推动训练链路中的架构升级、性能优化和稳定性治理,支撑下一代搜广推模型训练范式升级

优先资格

有推荐、广告、搜索训练系统、千卡/万卡训练、100B+大模型预训练、微调、强化学习、RLHF/RL训练系统经验

有参数服务器、GPU Embedding、多级缓存/存储优化、高性能数据访问经验
有稳定性、监控诊断、Checkpoint、自动恢复、性能建模、自动调优或大规模训练故障治理经验
熟悉GPU架构,具备CUDA或Triton编程经验,深入优化过NCCL、RDMA、网络通信或Collective Communication性能
有多模态表征学习经验,如CLIP、BLIP、VLM,能够将视觉、文本等特征有效融入推荐系统
深入研究过TensorFlow、PyTorch、JAX或其他自研训练框架的代码和设计,或是训练框架、并行库、高性能计算库等知名开源项目的核心贡献者,在RecSys、MLSys、NeurIPS、ICML、ICLR、KDD、SIGIR、CVPR等会议发表过高质量论文,或在ACM-ICPC、Kaggle、天池、KDD Cup、RecSys Challenge等竞赛中取得优异成绩

AI 洞察

优缺点分析

优点

  • 参与前沿AI基础设施研发,接触万亿参数模型训练,技术成长空间巨大
  • 字节跳动平台业务场景丰富,技术成果能快速落地并产生巨大影响
  • 薪资待遇优厚,股票期权等长期激励,职业发展通道清晰
  • 工作强度大,需应对高并发、高稳定性要求,常有紧急问题处理
  • 技术深度要求极高,需要持续学习新框架、新硬件、新范式
  • 跨团队协作频繁,沟通成本和项目推进难度较大

缺点 / 挑战

  • 适合热爱底层系统技术、享受解决高难度工程挑战、愿意在快速迭代环境中持续成长的资深工程师

角色解读

  • 技术路线:从资深工程师到技术专家/架构师,主导大规模训练系统设计与落地
  • 业务路线:深入理解推荐/广告业务,成为业务技术双栖人才
  • 管理路线:逐步带领团队,负责系统方向的技术规划与项目管理
  • 设计并优化推荐、广告、搜索业务的分布式训练框架,提升训练效率与稳定性
  • 开发核心模块如样本读取、Checkpoint、容错恢复、可观测性系统
  • 探索大模型训练新范式(如LLM4Rec、Scaling laws),推动千/万卡集群训练演进
  • 精通C++/Python和Linux环境,具备高性能系统编程能力
  • 深入理解分布式系统、并行策略(数据并行、模型并行等)及常用训练框架
  • 熟悉GPU编程(CUDA/Triton)和高性能通信(NCCL/RDMA)者优先

申请策略

  • 提前了解字节AML团队的技术博客或公开分享,面试中展示对团队技术方向的理解
  • 准备一个你主导的复杂系统优化案例,从问题识别到方案落地完整讲述
  • 突出分布式训练项目经验,说明你如何优化通信、提升效率
  • 展示CUDA/Triton优化案例,如算子性能提升具体数据
  • 强调对训练框架(如DeepSpeed、PyTorch)的深入理解或开源贡献
  • 系统学习并行训练策略(数据并行、模型并行、流水线并行等)
  • 动手实践大模型训练,熟悉Megatron-LM、DeepSpeed等框架
  • 补充GPU底层知识,包括CUDA编程模型、NCCL通信原理

面试指南

  • 结构化回答:问题定义 → 方案设计 → 实现细节 → 效果验证
  • 结合具体项目:始终用自己的经验数据支撑观点,避免纯理论
  • 体现系统思维:不仅解决当前问题,还要考虑可扩展性和长期架构
  • 如何优化分布式训练中的通信瓶颈?请举例说明
  • 设计一个大规模Checkpoint系统需要考虑哪些关键因素?
  • 请解释DeepSpeed的ZeRO优化原理,并说明其适用场景
  • 如果遇到训练loss异常发散,你会如何排查和定位?
  • 描述你在万卡集群训练中遇到的一个稳定性问题及解决方案

职位点评

72
综合评分

字节AML核心岗位,前沿AI训练系统研发,高薪资高成长但工作强度大。

更适合这类人
最适合追求技术深度与职业成长,愿意为前沿技术付出高强度努力的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展95
工作生活40
使命价值70

薪资福利

85较高

字节跳动作为大型上市公司,提供具有竞争力的薪资和股票激励,但职位描述未明确福利细节,整体补偿性较好。

薪资信号偏高 (28K-50K/月)

成长发展

95较高

职位涉及最前沿的AI训练系统技术(如万卡集群、大模型新范式),成长信号强烈,有明确的探索方向和系统负责人文化。

技术前沿前沿/新兴技术
技术栈分布式训练、大语言模型、GPU、并行策略、CUDA、NCCL
成长机会探索、新范式、演进、下一代
业务类型profit_center

工作生活

40较低

职位只提及杭州现场办公,未提弹性工作或远程,考虑到字节跳动企业文化,工作强度较大,WLB可能不佳。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

70中等

AI训练系统属于高速增长赛道,对推动技术进步有较大意义,但社会影响力中性,更多体现在商业价值。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 商家IM策略产品运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 直播产品运营(虚拟直播方向)-抖音直播

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • 广告研发风控专家-商业产品与技术

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 算法工程师-TikTok直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 后端/资深后端研发工程师(履约方向)-TikTok Shop

    字节跳动 · 杭州市
    AI 估算 · 25k-45k

相似职位推荐

  • Assoc, FrontEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 15k-25k
  • 算法专家TL(广告商业化-投放算法)

    希音 · 广州市
    AI 估算 · 50k-80k
  • Deep Learning Compiler CI/Infrastructure Engineer

    英伟达 · 上海市
    AI 估算 · 30k-60k
  • Deep Learning Performance Software Engineer

    英伟达 · 上海市
    AI 估算 · 35k-65k
  • Software Architect, Autonomous Vehicles - Backend and AI Agents

    英伟达 · 深圳市
    AI 估算 · 40k-70k

字节跳动 的其他在招职位

  • 商家IM策略产品运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 直播产品运营(虚拟直播方向)-抖音直播

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • 广告研发风控专家-商业产品与技术

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 算法工程师-TikTok直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 后端/资深后端研发工程师(履约方向)-TikTok Shop

    字节跳动 · 杭州市
    AI 估算 · 25k-45k

相似职位推荐

  • Assoc, FrontEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 15k-25k
  • 算法专家TL(广告商业化-投放算法)

    希音 · 广州市
    AI 估算 · 50k-80k
  • Deep Learning Compiler CI/Infrastructure Engineer

    英伟达 · 上海市
    AI 估算 · 30k-60k
  • Deep Learning Performance Software Engineer

    英伟达 · 上海市
    AI 估算 · 35k-65k
  • Software Architect, Autonomous Vehicles - Backend and AI Agents

    英伟达 · 深圳市
    AI 估算 · 40k-70k