负责多模态视频生成模型的 RLHF 数据体系建设与工程落地,围绕运动质量、文本对齐、画面稳定性、风格一致性等核心业务指标,构建可规模化、可迭代的数据生产与交付流程
设计并实现面向视频生成的 偏好建模与 Reward 机制,将主观质量(美感、合理性、符合指令等)转化为稳定、可优化的训练信号,推动模型在真实场景中的持续提升
在生产环境中落地 DPO / GRPO / ReFL / PPO 等后训练与强化学习方法,结合数据策略与算法设计,提升模型效果并控制训练成本与稳定性
深度对齐业务目标(如生成质量、用户满意度、场景可用性、内容安全等),以 “数据 + 算法 + 评测”闭环驱动模型迭代,对关键指标提升结果负责
与算法、工程、数据、产品及运营团队紧密协作,建设 自动化数据管线、评测与回归体系,确保 RLHF 能在多模型、多版本中稳定复用与规模化落地