Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
豆包大模型算法工程师(火山方舟)-RL Infra
立即应聘

豆包大模型算法工程师(火山方舟)-RL Infra

发布于 大约 11 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
软件工程
PyTorch
强化学习
分布式训练
大模型
RL
SGLang
vLLM
PPO
DPO

AI 估算 · 30k–45k

大厂算法岗,大模型方向热门,技能要求高,北京薪资较高,中级经验,月薪3-4.5万合理。

职位详情

关于这个职位

作为豆包大模型算法工程师,你将专注于强化学习训练系统的改进与优化,包括RL Trainer、采样策略和Reward系统集成

同时负责大模型SFT/RL训练的性能和稳定性,支持Reasoning、Agent等Post-Training任务,并探索前沿训练技术如Off-Policy RL和On-Policy Distillation

最低要求

计算机相关专业本科及以上学历,具有一年及以上大模型算法工作经验,算法与工程能力兼备者优先

熟悉大模型强化学习系统,有OpenRLHF、VeRL使用和开发经验者优先
深入理解Post-Training全流程与核心算法,包括但不限于DPO,PPO,GRPO,Reward Modeling等
熟悉大规模分布式训练框架和分布式并行概念,如PyTorch FSDP2的原理与应用、DeviceMesh抽象、DTensor语义等
掌握高性能推理引擎(如vLLM,SGLang)的原理与优化方法(如Continuous Batching,PagedAttention,Prefix Caching)等
熟练掌握Python,至少熟练使用一种编译型语言(C/C++/Rust/Golang/Java等),拥有扎实的数据结构与算法功底,代码风格规范且高效
出色的分析和解决问题的能力
具备良好的自驱力和沟通协作能力,能和团队一起探索新技术,推动技术进步

工作职责

负责改进RL训练系统,包括基于Ray的RL Trainer功能拓展、Rollout/采样策略探索、Reward系统集成、Agent Loop复杂任务下轨迹管理等

负责大模型SFT/RL训练性能和稳定性优化,支持Reasoning,Agent,VLM等各类Post-Training任务
探索前沿大模型算法和训练技术,包括Off-Policy RL训练效果和效率、SRFT、OnPolicy Distillation等

AI 洞察

优缺点分析

优点

  • 深度参与字节跳动核心大模型产品(豆包),接触大规模分布式训练和前沿RL技术,技术积累价值高
  • 团队技术氛围浓厚,能使用最新框架(如vLLM、FSDP2)并参与其改进,保持技术前沿
  • 大厂平台薪资福利优厚(期权、年终奖等),且大模型赛道持续火热,职业前景广阔
  • 算法与工程双重高要求,需要同时掌握RL理论、分布式系统和工程优化,学习曲线陡峭
  • 大模型训练对计算资源依赖大,可能需要应对高强度的调试和性能调优工作
  • 适合有1年以上大模型经验、热爱强化学习训练系统、兼具算法研究和工程实现能力、希望在头部大厂快速成长的算法工程师

缺点 / 挑战

  • 竞争激烈,需持续跟踪学术前沿并快速落地,工作压力较大

角色解读

  • 在字节跳动大模型团队,可从算法工程师晋升为技术专家或Tech Lead,负责更核心的RL训练框架设计
  • 积累大规模分布式训练和前沿RL经验后,可转向通用AI平台架构或创业公司CTO方向
  • 随着大模型技术迭代,可深入多模态、Agent等方向,成为稀缺的RL训练方向专家
  • 改进和优化大模型强化学习训练系统,涉及RL Trainer、Rollout策略、Reward系统集成等模块开发
  • 负责SFT/RL训练的性能与稳定性,支持Reasoning、Agent、VLM等复杂Post-Training任务
  • 探索前沿算法如Off-Policy RL、SRFT、OnPolicy Distillation,推动训练效率提升
  • 扎实的深度学习基础,熟悉大模型RL训练系统(如OpenRLHF、VeRL)和核心算法(DPO、PPO、GRPO)
  • 精通分布式训练框架(PyTorch FSDP2)和高性能推理引擎(vLLM、SGLang)的原理与优化
  • 熟练掌握Python和至少一种编译型语言(C/C++/Rust等),具备优秀的工程能力和算法功底
  • 良好的自驱力和沟通协作能力,能够独立解决技术难题并推动创新

申请策略

  • 了解字节跳动豆包大模型的技术路线,在面试中展现对RL训练未来方向的思考
  • 提前梳理一个自己主导的分布式训练优化案例,用STAR法则清晰表达
  • 突出RL训练相关项目经验,如使用OpenRLHF或VeRL进行大模型RL训练的具体工作
  • 展示分布式训练优化案例(如FSDP2、vLLM的性能提升)和代码质量(GitHub链接)
  • 强调对DPO/PPO/GRPO等算法的深入理解,以及在实际任务中的应用效果
  • 如果没有RLHF经验,快速学习OpenRLHF/VeRL的代码架构并动手实践
  • 补充高性能推理引擎(vLLM、SGLang)的源码阅读和优化方法
  • 复习C++/Rust等编译型语言的数据结构与算法,准备编程面试

面试指南

  • 对于算法原理问题,先阐述核心公式和流程,再结合项目实践说明调优细节
  • 对于系统优化问题,采用“现象-原因-方案-效果”的框架,从数据、模型、并行策略逐步分析
  • 对于开放性设计问题,明确需求、约束条件,给出分层设计思路,并权衡利弊
  • 请详细解释PPO算法的流程和关键超参数调优经验
  • 如何处理大规模RL训练中的采样效率问题?请举例说明
  • vLLM的PagedAttention原理是什么?Continuous Batching如何提升吞吐?
  • 你如何排查分布式训练中的性能瓶颈(如通信、计算、IO)?
  • 如果让你设计一个支持多任务的Agent训练框架,你会考虑哪些关键设计?

职位点评

71
综合评分

大厂前沿RL训练岗,薪资高、技术新,但WLB一般。

更适合这类人
适合追求技术成长和薪酬回报、能接受高强度工作的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利

85较高

字节跳动大厂薪资待遇行业领先,且有丰厚期权和年终奖,但JD未明确具体福利,整体补偿性较高。

薪资信号未披露(AI估算:30K-45K/月)

成长发展

90较高

该岗位位于前沿大模型领域,技术栈新(RL、分布式、推理优化),成长机会多,但JD未提及晋升通道。

技术前沿前沿/新兴技术
技术栈RL、大模型、OpenRLHF、VeRL、vLLM、SGLang、FSDP2
业务类型profit_center

工作生活

40较低

字节跳动为现场办公,未提及弹性工作或WLB,大模型训练强度通常较大,生活化动机满足度有限。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

大模型技术推动AI进步,社会价值显著,但JD未提及具体使命,行业处于高速增长期。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k