字节跳动的豆包大模型算法工程师（火山方舟）-RL Infra薪资是多少？

该职位薪资范围为 30k–45k（人民币/月）。

豆包大模型算法工程师（火山方舟）-RL Infra的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的豆包大模型算法工程师（火山方舟）-RL Infra有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

豆包大模型算法工程师（火山方舟）-RL Infra

立即应聘

豆包大模型算法工程师（火山方舟）-RL Infra

发布于大约 11 小时前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

强化学习

分布式训练

大模型

SGLang

vLLM

PPO

DPO

AI 估算 · 30k–45k

大厂算法岗，大模型方向热门，技能要求高，北京薪资较高，中级经验，月薪3-4.5万合理。

职位详情

关于这个职位

作为豆包大模型算法工程师，你将专注于强化学习训练系统的改进与优化，包括RL Trainer、采样策略和Reward系统集成

同时负责大模型SFT/RL训练的性能和稳定性，支持Reasoning、Agent等Post-Training任务，并探索前沿训练技术如Off-Policy RL和On-Policy Distillation

最低要求

计算机相关专业本科及以上学历，具有一年及以上大模型算法工作经验，算法与工程能力兼备者优先

熟悉大模型强化学习系统，有OpenRLHF、VeRL使用和开发经验者优先

深入理解Post-Training全流程与核心算法，包括但不限于DPO，PPO，GRPO，Reward Modeling等

熟悉大规模分布式训练框架和分布式并行概念，如PyTorch FSDP2的原理与应用、DeviceMesh抽象、DTensor语义等

掌握高性能推理引擎（如vLLM，SGLang）的原理与优化方法（如Continuous Batching，PagedAttention，Prefix Caching）等

熟练掌握Python，至少熟练使用一种编译型语言（C/C++/Rust/Golang/Java等），拥有扎实的数据结构与算法功底，代码风格规范且高效

出色的分析和解决问题的能力

具备良好的自驱力和沟通协作能力，能和团队一起探索新技术，推动技术进步

工作职责

负责改进RL训练系统，包括基于Ray的RL Trainer功能拓展、Rollout/采样策略探索、Reward系统集成、Agent Loop复杂任务下轨迹管理等

负责大模型SFT/RL训练性能和稳定性优化，支持Reasoning，Agent，VLM等各类Post-Training任务

探索前沿大模型算法和训练技术，包括Off-Policy RL训练效果和效率、SRFT、OnPolicy Distillation等

AI 洞察

优缺点分析

优点

深度参与字节跳动核心大模型产品（豆包），接触大规模分布式训练和前沿RL技术，技术积累价值高
团队技术氛围浓厚，能使用最新框架（如vLLM、FSDP2）并参与其改进，保持技术前沿
大厂平台薪资福利优厚（期权、年终奖等），且大模型赛道持续火热，职业前景广阔
算法与工程双重高要求，需要同时掌握RL理论、分布式系统和工程优化，学习曲线陡峭
大模型训练对计算资源依赖大，可能需要应对高强度的调试和性能调优工作
适合有1年以上大模型经验、热爱强化学习训练系统、兼具算法研究和工程实现能力、希望在头部大厂快速成长的算法工程师

缺点 / 挑战

竞争激烈，需持续跟踪学术前沿并快速落地，工作压力较大

角色解读

在字节跳动大模型团队，可从算法工程师晋升为技术专家或Tech Lead，负责更核心的RL训练框架设计
积累大规模分布式训练和前沿RL经验后，可转向通用AI平台架构或创业公司CTO方向
随着大模型技术迭代，可深入多模态、Agent等方向，成为稀缺的RL训练方向专家
改进和优化大模型强化学习训练系统，涉及RL Trainer、Rollout策略、Reward系统集成等模块开发
负责SFT/RL训练的性能与稳定性，支持Reasoning、Agent、VLM等复杂Post-Training任务
探索前沿算法如Off-Policy RL、SRFT、OnPolicy Distillation，推动训练效率提升
扎实的深度学习基础，熟悉大模型RL训练系统（如OpenRLHF、VeRL）和核心算法（DPO、PPO、GRPO）
精通分布式训练框架（PyTorch FSDP2）和高性能推理引擎（vLLM、SGLang）的原理与优化
熟练掌握Python和至少一种编译型语言（C/C++/Rust等），具备优秀的工程能力和算法功底
良好的自驱力和沟通协作能力，能够独立解决技术难题并推动创新

申请策略

了解字节跳动豆包大模型的技术路线，在面试中展现对RL训练未来方向的思考
提前梳理一个自己主导的分布式训练优化案例，用STAR法则清晰表达
突出RL训练相关项目经验，如使用OpenRLHF或VeRL进行大模型RL训练的具体工作
展示分布式训练优化案例（如FSDP2、vLLM的性能提升）和代码质量（GitHub链接）
强调对DPO/PPO/GRPO等算法的深入理解，以及在实际任务中的应用效果
如果没有RLHF经验，快速学习OpenRLHF/VeRL的代码架构并动手实践
补充高性能推理引擎（vLLM、SGLang）的源码阅读和优化方法
复习C++/Rust等编译型语言的数据结构与算法，准备编程面试

面试指南

对于算法原理问题，先阐述核心公式和流程，再结合项目实践说明调优细节
对于系统优化问题，采用“现象-原因-方案-效果”的框架，从数据、模型、并行策略逐步分析
对于开放性设计问题，明确需求、约束条件，给出分层设计思路，并权衡利弊
请详细解释PPO算法的流程和关键超参数调优经验
如何处理大规模RL训练中的采样效率问题？请举例说明
vLLM的PagedAttention原理是什么？Continuous Batching如何提升吞吐？
你如何排查分布式训练中的性能瓶颈（如通信、计算、IO）？
如果让你设计一个支持多任务的Agent训练框架，你会考虑哪些关键设计？

职位点评

综合评分

大厂前沿RL训练岗，薪资高、技术新，但WLB一般。

更适合这类人

适合追求技术成长和薪酬回报、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

字节跳动大厂薪资待遇行业领先，且有丰厚期权和年终奖，但JD未明确具体福利，整体补偿性较高。

薪资信号未披露（AI估算：30K-45K/月）

成长发展

90较高

该岗位位于前沿大模型领域，技术栈新（RL、分布式、推理优化），成长机会多，但JD未提及晋升通道。

技术前沿前沿/新兴技术

技术栈RL、大模型、OpenRLHF、VeRL、vLLM、SGLang、FSDP2

业务类型profit_center

工作生活

40较低

字节跳动为现场办公，未提及弹性工作或WLB，大模型训练强度通常较大，生活化动机满足度有限。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型技术推动AI进步，社会价值显著，但JD未提及具体使命，行业处于高速增长期。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

豆包大模型算法工程师（火山方舟）-RL Infra

立即应聘

豆包大模型算法工程师（火山方舟）-RL Infra

发布于大约 11 小时前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

强化学习

分布式训练

大模型

SGLang

vLLM

PPO

DPO

AI 估算 · 30k–45k

大厂算法岗，大模型方向热门，技能要求高，北京薪资较高，中级经验，月薪3-4.5万合理。

职位详情

关于这个职位

作为豆包大模型算法工程师，你将专注于强化学习训练系统的改进与优化，包括RL Trainer、采样策略和Reward系统集成

同时负责大模型SFT/RL训练的性能和稳定性，支持Reasoning、Agent等Post-Training任务，并探索前沿训练技术如Off-Policy RL和On-Policy Distillation

最低要求

计算机相关专业本科及以上学历，具有一年及以上大模型算法工作经验，算法与工程能力兼备者优先

熟悉大模型强化学习系统，有OpenRLHF、VeRL使用和开发经验者优先

深入理解Post-Training全流程与核心算法，包括但不限于DPO，PPO，GRPO，Reward Modeling等

熟悉大规模分布式训练框架和分布式并行概念，如PyTorch FSDP2的原理与应用、DeviceMesh抽象、DTensor语义等

掌握高性能推理引擎（如vLLM，SGLang）的原理与优化方法（如Continuous Batching，PagedAttention，Prefix Caching）等

熟练掌握Python，至少熟练使用一种编译型语言（C/C++/Rust/Golang/Java等），拥有扎实的数据结构与算法功底，代码风格规范且高效

出色的分析和解决问题的能力

具备良好的自驱力和沟通协作能力，能和团队一起探索新技术，推动技术进步

工作职责

负责改进RL训练系统，包括基于Ray的RL Trainer功能拓展、Rollout/采样策略探索、Reward系统集成、Agent Loop复杂任务下轨迹管理等

负责大模型SFT/RL训练性能和稳定性优化，支持Reasoning，Agent，VLM等各类Post-Training任务

探索前沿大模型算法和训练技术，包括Off-Policy RL训练效果和效率、SRFT、OnPolicy Distillation等

AI 洞察

优缺点分析

优点

深度参与字节跳动核心大模型产品（豆包），接触大规模分布式训练和前沿RL技术，技术积累价值高
团队技术氛围浓厚，能使用最新框架（如vLLM、FSDP2）并参与其改进，保持技术前沿
大厂平台薪资福利优厚（期权、年终奖等），且大模型赛道持续火热，职业前景广阔
算法与工程双重高要求，需要同时掌握RL理论、分布式系统和工程优化，学习曲线陡峭
大模型训练对计算资源依赖大，可能需要应对高强度的调试和性能调优工作
适合有1年以上大模型经验、热爱强化学习训练系统、兼具算法研究和工程实现能力、希望在头部大厂快速成长的算法工程师

缺点 / 挑战

竞争激烈，需持续跟踪学术前沿并快速落地，工作压力较大

角色解读

在字节跳动大模型团队，可从算法工程师晋升为技术专家或Tech Lead，负责更核心的RL训练框架设计
积累大规模分布式训练和前沿RL经验后，可转向通用AI平台架构或创业公司CTO方向
随着大模型技术迭代，可深入多模态、Agent等方向，成为稀缺的RL训练方向专家
改进和优化大模型强化学习训练系统，涉及RL Trainer、Rollout策略、Reward系统集成等模块开发
负责SFT/RL训练的性能与稳定性，支持Reasoning、Agent、VLM等复杂Post-Training任务
探索前沿算法如Off-Policy RL、SRFT、OnPolicy Distillation，推动训练效率提升
扎实的深度学习基础，熟悉大模型RL训练系统（如OpenRLHF、VeRL）和核心算法（DPO、PPO、GRPO）
精通分布式训练框架（PyTorch FSDP2）和高性能推理引擎（vLLM、SGLang）的原理与优化
熟练掌握Python和至少一种编译型语言（C/C++/Rust等），具备优秀的工程能力和算法功底
良好的自驱力和沟通协作能力，能够独立解决技术难题并推动创新

申请策略

了解字节跳动豆包大模型的技术路线，在面试中展现对RL训练未来方向的思考
提前梳理一个自己主导的分布式训练优化案例，用STAR法则清晰表达
突出RL训练相关项目经验，如使用OpenRLHF或VeRL进行大模型RL训练的具体工作
展示分布式训练优化案例（如FSDP2、vLLM的性能提升）和代码质量（GitHub链接）
强调对DPO/PPO/GRPO等算法的深入理解，以及在实际任务中的应用效果
如果没有RLHF经验，快速学习OpenRLHF/VeRL的代码架构并动手实践
补充高性能推理引擎（vLLM、SGLang）的源码阅读和优化方法
复习C++/Rust等编译型语言的数据结构与算法，准备编程面试

面试指南

对于算法原理问题，先阐述核心公式和流程，再结合项目实践说明调优细节
对于系统优化问题，采用“现象-原因-方案-效果”的框架，从数据、模型、并行策略逐步分析
对于开放性设计问题，明确需求、约束条件，给出分层设计思路，并权衡利弊
请详细解释PPO算法的流程和关键超参数调优经验
如何处理大规模RL训练中的采样效率问题？请举例说明
vLLM的PagedAttention原理是什么？Continuous Batching如何提升吞吐？
你如何排查分布式训练中的性能瓶颈（如通信、计算、IO）？
如果让你设计一个支持多任务的Agent训练框架，你会考虑哪些关键设计？

职位点评

综合评分

大厂前沿RL训练岗，薪资高、技术新，但WLB一般。

更适合这类人

适合追求技术成长和薪酬回报、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

字节跳动大厂薪资待遇行业领先，且有丰厚期权和年终奖，但JD未明确具体福利，整体补偿性较高。

薪资信号未披露（AI估算：30K-45K/月）

成长发展

90较高

该岗位位于前沿大模型领域，技术栈新（RL、分布式、推理优化），成长机会多，但JD未提及晋升通道。

技术前沿前沿/新兴技术

技术栈RL、大模型、OpenRLHF、VeRL、vLLM、SGLang、FSDP2

业务类型profit_center

工作生活

40较低

字节跳动为现场办公，未提及弹性工作或WLB，大模型训练强度通常较大，生活化动机满足度有限。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型技术推动AI进步，社会价值显著，但JD未提及具体使命，行业处于高速增长期。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

豆包大模型算法工程师（火山方舟）-RL Infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

豆包大模型算法工程师（火山方舟）-RL Infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

多媒体处理高级开发工程师

招聘专家-广告

自动化开发专家-TikTok（杭州/上海）

AI业务研发工程师-TikTok Shop

平台产品经理（游戏AI方向）-抖音

相似职位推荐

Student Intern-SYNC

Advanced Software Engineer-C++

Advanced Software Engineer-C++

2027 Campus - Software Development Engineer - Industrial & IoT

大模型推理部署优化实习生-AI引擎

字节跳动 的其他在招职位

多媒体处理高级开发工程师

招聘专家-广告

自动化开发专家-TikTok（杭州/上海）

AI业务研发工程师-TikTok Shop

平台产品经理（游戏AI方向）-抖音

相似职位推荐

Student Intern-SYNC

Advanced Software Engineer-C++

Advanced Software Engineer-C++

2027 Campus - Software Development Engineer - Industrial & IoT

大模型推理部署优化实习生-AI引擎

字节跳动的其他在招职位

字节跳动的其他在招职位