字节跳动的视频生成RL算法工程师/专家-Seed薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

视频生成RL算法工程师/专家-Seed的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的视频生成RL算法工程师/专家-Seed有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

字节跳动

视频生成RL算法工程师/专家-Seed

立即应聘

视频生成RL算法工程师/专家-Seed

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

Grpo

Reward Model

分布式训练

视频生成

diffusion

DiT

DPO

PyTorch

RLHF

AI 估算 · 30k–60k

字节跳动算法岗位薪资较高，结合北京生活成本和技能稀缺性，预估月薪在3-6万之间，年终奖丰厚。

职位详情

关于这个职位

这个职位负责视频生成模型（基于DiT/Diffusion）的后训练优化，核心是应用强化学习（如RLHF、DPO、GRPO）提升生成效果

你将设计Reward Model，建设训练全链路，并探索视频生成、交互编辑等前沿方向

适合有计算机视觉或多模态背景、对生成式AI有热情的技术人才

最低要求

-5年计算机视觉/多模态方向研究或实践经验，熟悉以下一个或多个方向：

）生成模型后训练（如RLHF、DPO、GRPO、Reward-based Optimization等）

）Reward Model/Verifier构建

）Agentic RL以及大规模训练优化

具备扎实的工程实现能力，熟练使用Python/PyTorch，有分布式训练、性能优化、问题定位与实际落地经验者优先

对生成式AI技术前沿与业务落地有热情，自驱力强，具备良好的学习能力、分析解决问题能力和跨团队协作能力

工作职责

负责基于DiT/Diffusion的视频生成模型研发与后训练优化，提升画质、美感、运动、一致性和指令响应等效果

负责生成模型RL后训练框架及多模态Reward Model/Verifier的设计与迭代，推动RLHF、ReFL、GRPO、DPO等方法在图像/视频生成中的应用

负责后训练全链路建设与业务落地，包括数据构建、模型评测、训练加速、推理优化、蒸馏压缩，并探索视频生成、交互编辑、音视频联合生成、Agent RL等方向

优先资格

在CVPR/ICCV/ECCV/NeurIPS/ICLR/ICML等顶会发表论文者优先，有ACM/ICPC、数学建模、编程竞赛等经历者加分

AI 洞察

优缺点分析

优点

接触视频生成与强化学习交叉的前沿技术，技能成长迅速
字节跳动平台资源丰富，有大量业务场景和数据支持，落地机会多
薪资竞争力强，且算法岗位在AI浪潮中需求旺盛，职业前景广阔
技术难度高，需要同时掌握生成模型和RL，学习曲线陡峭
北京工作，生活成本高，且互联网公司普遍存在一定的工作强度
适合对生成式AI和强化学习有浓厚兴趣、具备较强自驱力和工程能力，且愿意在技术深度上持续深耕的算法工程师

缺点 / 挑战

业务目标导向，可能面临快速迭代和项目 deadline 压力

角色解读

在视频生成+RL方向积累核心经验，逐步成长为算法专家或技术Leader
可向更广泛的AIGC领域（如多模态生成、Agent RL）发展，或转向技术管理岗位
负责视频生成模型（如DiT/Diffusion）的后训练优化，通过RLHF、DPO等方法提升画质、运动一致性等效果
设计并迭代多模态Reward Model，构建强化学习训练框架，推动生成模型与RL的结合
参与全链路建设，包括数据处理、训练加速、推理优化及模型蒸馏，并探索视频交互编辑、音视频联合生成等前沿方向
扎实的计算机视觉/多模态基础，熟悉生成模型（DiT/Diffusion）和强化学习（RLHF、GRPO等）的理论与实践
优秀的工程能力，熟练使用Python/PyTorch，有分布式训练和性能优化经验
对前沿技术有热情，具备自驱力、问题解决能力和跨团队协作能力

申请策略

在简历和面试中突出对视频生成+RL方向的理解和热情，展示学习能力和主动性
了解字节Seed团队的业务方向，思考如何将自己的背景与团队目标结合
突出计算机视觉或多模态项目经验，尤其是生成模型（如扩散模型、VAE、GAN）相关的工作
强调强化学习应用经历（如RLHF、DPO、Reward Model设计），并附上量化成果（如指标提升百分比）
展示工程能力：分布式训练框架、性能优化、模型部署等具体案例
列出顶会论文发表、竞赛获奖等加分项
系统学习强化学习（特别是RLHF、GRPO）和生成模型（Diffusion）的最新论文与开源实现
动手实践：尝试复现DDPO、ReFL等算法的代码，并基于开源视频模型（如VideoCrafter）进行实验

面试指南

首先阐述基本原理（如RLHF的奖励模型+PPO优化），再结合视频生成特性（时序、帧间一致性）指出关键挑战和解决方案
采用STAR法：情境、任务、行动、结果，详细说明项目背景、具体工作、技术细节和最终效果
比较不同方法的优劣时，从理论、实践效果、计算成本等角度分析，并给出自己的见解
请详细解释RLHF在视频生成中的应用流程，与图像生成有何不同？
如何设计Reward Model来评估视频质量（画质、运动一致性、美感等）？
描述一次你使用分布式训练优化模型性能的经历，遇到了哪些问题？
对于视频生成模型的后训练，你如何看待GRPO与DPO的优劣？
如果让你从零搭建一个视频生成RL训练pipeline，你会如何设计数据流和训练循环？

职位点评

综合评分

前沿视频生成+RL技术，优厚薪酬，成长空间极大，但工作强度和通勤压力可能较大。

更适合这类人

最适合追求技术前沿和职业成长，对薪酬有较高期望，且能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活60

使命价值80

薪资福利

85较高

字节跳动算法岗位薪资在业界具有竞争力，但JD未明确薪酬范围，福利亦未提及。综合公司水平和岗位稀缺度，补偿性动机满足程度较高。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

95较高

职位涉及视频生成与强化学习最前沿技术（RLHF、DiT等），技术深度和广度俱佳，成长空间极大。

技术前沿前沿/新兴技术

技术栈视频生成、DiT、Diffusion、RLHF、DPO、GRPO、Reward Model、Python、PyTorch、分布式训练

业务类型ambiguous

工作生活

60中等

工作地点北京，现场办公为主，JD未提及弹性或远程。字节跳动工作强度普遍偏高，但未在JD中明确，故生活方式方面满足度一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

80较高

AI视频生成属于高速增长赛道，技术革新快，对推动行业进步有积极意义，但JD未突出社会使命感，因此意义感动机满足度较高。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

字节跳动的其他在招职位

相似职位推荐

Watch Jobs

视频生成RL算法工程师/专家-Seed

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

视频生成RL算法工程师/专家-Seed

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动的其他在招职位