Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
视频生成RL算法工程师/专家-Seed
立即应聘

视频生成RL算法工程师/专家-Seed

发布于 大约 14 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
PyTorch
视频生成
分布式训练
diffusion
RLHF
DiT
DPO
Grpo
Reward Model

AI 估算 · 30k–60k

字节跳动算法岗位薪资较高,结合北京生活成本和技能稀缺性,预估月薪在3-6万之间,年终奖丰厚。

职位详情

关于这个职位

这个职位负责视频生成模型(基于DiT/Diffusion)的后训练优化,核心是应用强化学习(如RLHF、DPO、GRPO)提升生成效果

你将设计Reward Model,建设训练全链路,并探索视频生成、交互编辑等前沿方向
适合有计算机视觉或多模态背景、对生成式AI有热情的技术人才

最低要求

-5年计算机视觉/多模态方向研究或实践经验,熟悉以下一个或多个方向:

)生成模型后训练(如RLHF、DPO、GRPO、Reward-based Optimization等)
)Reward Model/Verifier构建
)Agentic RL以及大规模训练优化
具备扎实的工程实现能力,熟练使用Python/PyTorch,有分布式训练、性能优化、问题定位与实际落地经验者优先
对生成式AI技术前沿与业务落地有热情,自驱力强,具备良好的学习能力、分析解决问题能力和跨团队协作能力

工作职责

负责基于DiT/Diffusion的视频生成模型研发与后训练优化,提升画质、美感、运动、一致性和指令响应等效果

负责生成模型RL后训练框架及多模态Reward Model/Verifier的设计与迭代,推动RLHF、ReFL、GRPO、DPO等方法在图像/视频生成中的应用
负责后训练全链路建设与业务落地,包括数据构建、模型评测、训练加速、推理优化、蒸馏压缩,并探索视频生成、交互编辑、音视频联合生成、Agent RL等方向

优先资格

在CVPR/ICCV/ECCV/NeurIPS/ICLR/ICML等顶会发表论文者优先,有ACM/ICPC、数学建模、编程竞赛等经历者加分

AI 洞察

优缺点分析

优点

  • 接触视频生成与强化学习交叉的前沿技术,技能成长迅速
  • 字节跳动平台资源丰富,有大量业务场景和数据支持,落地机会多
  • 薪资竞争力强,且算法岗位在AI浪潮中需求旺盛,职业前景广阔
  • 技术难度高,需要同时掌握生成模型和RL,学习曲线陡峭
  • 北京工作,生活成本高,且互联网公司普遍存在一定的工作强度
  • 适合对生成式AI和强化学习有浓厚兴趣、具备较强自驱力和工程能力,且愿意在技术深度上持续深耕的算法工程师

缺点 / 挑战

  • 业务目标导向,可能面临快速迭代和项目 deadline 压力

角色解读

  • 在视频生成+RL方向积累核心经验,逐步成长为算法专家或技术Leader
  • 可向更广泛的AIGC领域(如多模态生成、Agent RL)发展,或转向技术管理岗位
  • 负责视频生成模型(如DiT/Diffusion)的后训练优化,通过RLHF、DPO等方法提升画质、运动一致性等效果
  • 设计并迭代多模态Reward Model,构建强化学习训练框架,推动生成模型与RL的结合
  • 参与全链路建设,包括数据处理、训练加速、推理优化及模型蒸馏,并探索视频交互编辑、音视频联合生成等前沿方向
  • 扎实的计算机视觉/多模态基础,熟悉生成模型(DiT/Diffusion)和强化学习(RLHF、GRPO等)的理论与实践
  • 优秀的工程能力,熟练使用Python/PyTorch,有分布式训练和性能优化经验
  • 对前沿技术有热情,具备自驱力、问题解决能力和跨团队协作能力

申请策略

  • 在简历和面试中突出对视频生成+RL方向的理解和热情,展示学习能力和主动性
  • 了解字节Seed团队的业务方向,思考如何将自己的背景与团队目标结合
  • 突出计算机视觉或多模态项目经验,尤其是生成模型(如扩散模型、VAE、GAN)相关的工作
  • 强调强化学习应用经历(如RLHF、DPO、Reward Model设计),并附上量化成果(如指标提升百分比)
  • 展示工程能力:分布式训练框架、性能优化、模型部署等具体案例
  • 列出顶会论文发表、竞赛获奖等加分项
  • 系统学习强化学习(特别是RLHF、GRPO)和生成模型(Diffusion)的最新论文与开源实现
  • 动手实践:尝试复现DDPO、ReFL等算法的代码,并基于开源视频模型(如VideoCrafter)进行实验

面试指南

  • 首先阐述基本原理(如RLHF的奖励模型+PPO优化),再结合视频生成特性(时序、帧间一致性)指出关键挑战和解决方案
  • 采用STAR法:情境、任务、行动、结果,详细说明项目背景、具体工作、技术细节和最终效果
  • 比较不同方法的优劣时,从理论、实践效果、计算成本等角度分析,并给出自己的见解
  • 请详细解释RLHF在视频生成中的应用流程,与图像生成有何不同?
  • 如何设计Reward Model来评估视频质量(画质、运动一致性、美感等)?
  • 描述一次你使用分布式训练优化模型性能的经历,遇到了哪些问题?
  • 对于视频生成模型的后训练,你如何看待GRPO与DPO的优劣?
  • 如果让你从零搭建一个视频生成RL训练pipeline,你会如何设计数据流和训练循环?

匹配度报告

80
综合匹配度

前沿视频生成+RL技术,优厚薪酬,成长空间极大,但工作强度和通勤压力可能较大。

适合人群
最适合追求技术前沿和职业成长,对薪酬有较高期望,且能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活60
使命价值80

薪资福利匹配

85较高

字节跳动算法岗位薪资在业界具有竞争力,但JD未明确薪酬范围,福利亦未提及。综合公司水平和岗位稀缺度,补偿性动机满足程度较高。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

95较高

职位涉及视频生成与强化学习最前沿技术(RLHF、DiT等),技术深度和广度俱佳,成长空间极大。

技术前沿前沿/新兴技术
技术栈视频生成、DiT、Diffusion、RLHF、DPO、GRPO、Reward Model、Python、PyTorch、分布式训练
业务类型ambiguous

工作生活匹配

60中等

工作地点北京,现场办公为主,JD未提及弹性或远程。字节跳动工作强度普遍偏高,但未在JD中明确,故生活方式方面满足度一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

80较高

AI视频生成属于高速增长赛道,技术革新快,对推动行业进步有积极意义,但JD未突出社会使命感,因此意义感动机满足度较高。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

相似职位推荐

  • 项目计划管理

    中国移动 · 长沙市
    AI 估算 · 8k-18k
  • 智能建模师

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 大模型训练

    中国移动 · 长沙市
    AI 估算 · 3k-5k
  • 【REDstar】大模型 Efficient Inference Infra 工程师

    小红书 · 北京市
    AI 估算 · 30k-60k

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

相似职位推荐

  • 项目计划管理

    中国移动 · 长沙市
    AI 估算 · 8k-18k
  • 智能建模师

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 大模型训练

    中国移动 · 长沙市
    AI 估算 · 3k-5k
  • 【REDstar】大模型 Efficient Inference Infra 工程师

    小红书 · 北京市
    AI 估算 · 30k-60k