字节跳动的豆包大模型算法工程师-火山方舟薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

豆包大模型算法工程师-火山方舟的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的豆包大模型算法工程师-火山方舟有什么任职要求？

该职位要求本科学历及高级经验工作经验。

字节跳动

豆包大模型算法工程师-火山方舟

立即应聘

豆包大模型算法工程师-火山方舟

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

强化学习

SFT

分布式训练

大模型

vLLM

PPO

Grpo

AI 估算 · 30k–60k

大厂核心算法岗，技术前沿且稀缺，市场竞争力强，薪资有溢价。

职位详情

关于这个职位

该职位专注于大模型强化学习训练系统的开发与优化，包括改进RL训练框架、提升SFT/RL训练性能和稳定性，并探索前沿算法（如Off-Policy RL、SRFT等）

你将加入字节跳动火山方舟团队，参与豆包大模型的核心技术研发，适合具有大模型算法和工程经验的技术专家

最低要求

计算机相关专业本科及以上学历，具有一年及以上大模型算法工作经验，算法与工程能力兼备者优先

熟悉大模型强化学习系统，有OpenRLHF、VeRL使用和开发经验者优先

深入理解Post-Training全流程与核心算法，包括但不限于DPO，PPO，GRPO，Reward Modeling等

熟悉大规模分布式训练框架和分布式并行概念，如PyTorch FSDP2的原理与应用、DeviceMesh抽象、DTensor语义等

掌握高性能推理引擎（如vLLM，SGLang）的原理与优化方法（如Continuous Batching，PagedAttention，Prefix Caching）等

熟练掌握Python，至少熟练使用一种编译型语言（C/C++/Rust/Golang/Java等），拥有扎实的数据结构与算法功底，代码风格规范且高效

出色的分析和解决问题的能力

具备良好的自驱力和沟通协作能力，能和团队一起探索新技术，推动技术进步

工作职责

负责改进RL训练系统，包括基于Ray的RL Trainer功能拓展、Rollout/采样策略探索、Reward系统集成、Agent Loop复杂任务下轨迹管理等

负责大模型SFT/RL训练性能和稳定性优化，支持Reasoning，Agent，VLM等各类Post-Training任务

探索前沿大模型算法和训练技术，包括Off-Policy RL训练效果和效率、SRFT、OnPolicy Distillation等

AI 洞察

优缺点分析

优点

字节跳动核心AI团队，豆包大模型是公司战略级产品，资源充足
技术栈前沿，涵盖RL、分布式训练、高性能推理等热门领域，积累深厚
与大牛共事，成长速度快，职业发展空间大
工作强度较大，互联网大厂节奏快，需适应高强度研发
技术难度高，需持续跟进学术界和工业界最新进展

缺点 / 挑战

团队优秀，内部竞争压力较大
适合热爱大模型技术、追求技术卓越、乐于接受挑战且自驱力强的算法工程师

角色解读

深入大模型训练与强化学习领域，成为行业顶尖算法专家
横向拓展至多模态、Agent等方向，参与前沿技术落地
在字节跳动体系内晋升为技术Leader，带领团队探索下一代AI技术
改进大模型强化学习训练系统，包括基于Ray的Trainer功能拓展和采样策略优化
优化大模型SFT/RL训练的性能和稳定性，支持多种Post-Training任务
探索前沿训练技术，如Off-Policy RL、SRFT、OnPolicy Distillation等
精通大模型强化学习框架（如OpenRLHF、VeRL）和核心算法（PPO、GRPO等）
熟悉大规模分布式训练（PyTorch FSDP2、DeviceMesh）和高性能推理引擎（vLLM、SGLang）
扎实的编程能力（Python + 编译型语言）和算法功底

申请策略

关注字节跳动技术博客和豆包模型动态，了解团队技术方向
准备一个完整的项目案例，体现从算法到工程落地的能力
突出大模型强化学习相关项目经历，尤其是RL训练系统优化或Post-Training实践
强调分布式训练和推理优化经验，附上具体性能提升数据
展示编程能力（Python和C++等）以及算法竞赛或开源贡献
深入学习OpenRLHF、VeRL等强化学习框架原理
实践vLLM、SGLang等推理引擎的优化技术
补充分布式并行计算知识，如FSDP2、DeviceMesh

面试指南

用STAR法则（情境-任务-行动-结果）结构化描述项目经验
从原理到实践层层递进，先理论基础再具体实现
突出对比和权衡，展示技术深度和系统思维
请详细介绍一个你参与的大模型强化学习项目，包括系统架构和遇到的挑战
如何优化RL训练中的采样效率？请结合具体技术方案
解释一下PPO和GRPO的区别以及各自适用场景
描述你使用PyTorch FSDP2进行分布式训练的经验，遇到过什么问题？
如何看待Off-Policy RL在大模型训练中的前景？

职位点评

综合评分

大厂核心前沿算法岗，高成长高薪资，但工作强度大、WLB一般。

更适合这类人

适合以技术成长为核心动力、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活40

使命价值85

薪资福利

80较高

薪资水平在行业内具有竞争力，但JD未明确福利细节，参考字节惯例五险一金+补充医疗，综合补偿性较好。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

95较高

技术前沿性极强，涉及大模型强化学习、分布式训练等最新方向，成长空间巨大。

技术前沿前沿/新兴技术

技术栈大模型、强化学习、RL、SFT、PPO、GRPO、PyTorch、vLLM、Ray、分布式训练

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作制，互联网大厂通常有加班文化，生活平衡一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

85较高

AI大模型处于高速增长赛道，技术创新直接推动行业发展，社会价值较高。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

豆包大模型算法工程师-火山方舟

立即应聘

豆包大模型算法工程师-火山方舟

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

强化学习

SFT

分布式训练

大模型

vLLM

PPO

Grpo

AI 估算 · 30k–60k

大厂核心算法岗，技术前沿且稀缺，市场竞争力强，薪资有溢价。

职位详情

关于这个职位

该职位专注于大模型强化学习训练系统的开发与优化，包括改进RL训练框架、提升SFT/RL训练性能和稳定性，并探索前沿算法（如Off-Policy RL、SRFT等）

你将加入字节跳动火山方舟团队，参与豆包大模型的核心技术研发，适合具有大模型算法和工程经验的技术专家

最低要求

计算机相关专业本科及以上学历，具有一年及以上大模型算法工作经验，算法与工程能力兼备者优先

熟悉大模型强化学习系统，有OpenRLHF、VeRL使用和开发经验者优先

深入理解Post-Training全流程与核心算法，包括但不限于DPO，PPO，GRPO，Reward Modeling等

熟悉大规模分布式训练框架和分布式并行概念，如PyTorch FSDP2的原理与应用、DeviceMesh抽象、DTensor语义等

掌握高性能推理引擎（如vLLM，SGLang）的原理与优化方法（如Continuous Batching，PagedAttention，Prefix Caching）等

熟练掌握Python，至少熟练使用一种编译型语言（C/C++/Rust/Golang/Java等），拥有扎实的数据结构与算法功底，代码风格规范且高效

出色的分析和解决问题的能力

具备良好的自驱力和沟通协作能力，能和团队一起探索新技术，推动技术进步

工作职责

负责改进RL训练系统，包括基于Ray的RL Trainer功能拓展、Rollout/采样策略探索、Reward系统集成、Agent Loop复杂任务下轨迹管理等

负责大模型SFT/RL训练性能和稳定性优化，支持Reasoning，Agent，VLM等各类Post-Training任务

探索前沿大模型算法和训练技术，包括Off-Policy RL训练效果和效率、SRFT、OnPolicy Distillation等

AI 洞察

优缺点分析

优点

字节跳动核心AI团队，豆包大模型是公司战略级产品，资源充足
技术栈前沿，涵盖RL、分布式训练、高性能推理等热门领域，积累深厚
与大牛共事，成长速度快，职业发展空间大
工作强度较大，互联网大厂节奏快，需适应高强度研发
技术难度高，需持续跟进学术界和工业界最新进展

缺点 / 挑战

团队优秀，内部竞争压力较大
适合热爱大模型技术、追求技术卓越、乐于接受挑战且自驱力强的算法工程师

角色解读

深入大模型训练与强化学习领域，成为行业顶尖算法专家
横向拓展至多模态、Agent等方向，参与前沿技术落地
在字节跳动体系内晋升为技术Leader，带领团队探索下一代AI技术
改进大模型强化学习训练系统，包括基于Ray的Trainer功能拓展和采样策略优化
优化大模型SFT/RL训练的性能和稳定性，支持多种Post-Training任务
探索前沿训练技术，如Off-Policy RL、SRFT、OnPolicy Distillation等
精通大模型强化学习框架（如OpenRLHF、VeRL）和核心算法（PPO、GRPO等）
熟悉大规模分布式训练（PyTorch FSDP2、DeviceMesh）和高性能推理引擎（vLLM、SGLang）
扎实的编程能力（Python + 编译型语言）和算法功底

申请策略

关注字节跳动技术博客和豆包模型动态，了解团队技术方向
准备一个完整的项目案例，体现从算法到工程落地的能力
突出大模型强化学习相关项目经历，尤其是RL训练系统优化或Post-Training实践
强调分布式训练和推理优化经验，附上具体性能提升数据
展示编程能力（Python和C++等）以及算法竞赛或开源贡献
深入学习OpenRLHF、VeRL等强化学习框架原理
实践vLLM、SGLang等推理引擎的优化技术
补充分布式并行计算知识，如FSDP2、DeviceMesh

面试指南

用STAR法则（情境-任务-行动-结果）结构化描述项目经验
从原理到实践层层递进，先理论基础再具体实现
突出对比和权衡，展示技术深度和系统思维
请详细介绍一个你参与的大模型强化学习项目，包括系统架构和遇到的挑战
如何优化RL训练中的采样效率？请结合具体技术方案
解释一下PPO和GRPO的区别以及各自适用场景
描述你使用PyTorch FSDP2进行分布式训练的经验，遇到过什么问题？
如何看待Off-Policy RL在大模型训练中的前景？

职位点评

综合评分

大厂核心前沿算法岗，高成长高薪资，但工作强度大、WLB一般。

更适合这类人

适合以技术成长为核心动力、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活40

使命价值85

薪资福利

80较高

薪资水平在行业内具有竞争力，但JD未明确福利细节，参考字节惯例五险一金+补充医疗，综合补偿性较好。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

95较高

技术前沿性极强，涉及大模型强化学习、分布式训练等最新方向，成长空间巨大。

技术前沿前沿/新兴技术

技术栈大模型、强化学习、RL、SFT、PPO、GRPO、PyTorch、vLLM、Ray、分布式训练

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作制，互联网大厂通常有加班文化，生活平衡一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

85较高

AI大模型处于高速增长赛道，技术创新直接推动行业发展，社会价值较高。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

豆包大模型算法工程师-火山方舟

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

豆包大模型算法工程师-火山方舟

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

Backend Developer - AI & Agentic Applications

Data Engineer

（高级）安卓应用开发工程师

Specialist, ML Engineer

VP, Engineering Lead, AI Wealth

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

Backend Developer - AI & Agentic Applications

Data Engineer

（高级）安卓应用开发工程师

Specialist, ML Engineer

VP, Engineering Lead, AI Wealth

字节跳动的其他在招职位

字节跳动的其他在招职位