快手的多模态视频生成数据与算法工程师（RLHF方向）-【可灵AI】薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

多模态视频生成数据与算法工程师（RLHF方向）-【可灵AI】的工作地点在哪里？

该职位工作地点位于北京市、深圳市。工作形式为仅现场办公。

该职位要求硕士学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：23 天前

这是一个专注于多模态视频生成模型强化学习人类反馈（RLHF）方向的数据与算法工程师岗位

你将负责构建RLHF数据体系、设计偏好建模与奖励机制，并推动DPO、PPO等后训练方法在快手可灵AI业务中的工程化落地

核心目标是提升视频生成模型在运动质量、文本对齐等关键指标上的表现，并通过数据、算法与评测的闭环驱动模型迭代

负责多模态视频生成模型的 RLHF 数据体系建设与工程落地，围绕运动质量、文本对齐、画面稳定性、风格一致性等核心业务指标，构建可规模化、可迭代的数据生产与交付流程

设计并实现面向视频生成的偏好建模与 Reward 机制，将主观质量（美感、合理性、符合指令等）转化为稳定、可优化的训练信号，推动模型在真实场景中的持续提升

在生产环境中落地 DPO / GRPO / ReFL / PPO 等后训练与强化学习方法，结合数据策略与算法设计，提升模型效果并控制训练成本与稳定性

深度对齐业务目标（如生成质量、用户满意度、场景可用性、内容安全等），以 “数据 + 算法 + 评测”闭环驱动模型迭代，对关键指标提升结果负责

与算法、工程、数据、产品及运营团队紧密协作，建设自动化数据管线、评测与回归体系，确保 RLHF 能在多模型、多版本中稳定复用与规模化落地

硕士及以上学历，具备扎实的工程能力与算法背景，对多模态大模型、视频生成和模型后训练有强烈兴趣

以核心成员身份参与过RLHF/偏好数据构建或后训练项目，熟悉数据采集、送标、质检、评测、训练、回归的完整链路

在图像或视频生成任务中，具备 DPO / GRPO / ReFL / PPO 等方法的实际工程经验，理解算法效果、稳定性与成本之间的权衡

熟悉计算机视觉基础与生成建模（图像/视频生成、时序建模、VLM 等），具备VLM微调经验

具备良好的跨团队协作与问题拆解能力，能够在复杂业务环境中推动方案落地，对结果负责

有大规模数据生产系统、自动化评测体系、Reward Model 设计或 RLHF 工程化落地经验

参与过线上模型迭代，对效果指标（质量、稳定性、用户满意度、安全性等）有可量化的实际提升

在ACM/ICPC、Kaggle 等竞赛中取得优异成绩，或在多模态生成、强化学习、大模型工程领域主导过关键项目

多模态视频生成数据与算法工程师（RLHF方向）-【可灵AI】

🤖 AI 估测：¥35K-60K

发布时间：23 天前