Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
LLM Post-train 算法工程师 - Varsapura
立即应聘

LLM Post-train 算法工程师 - Varsapura

发布于 大约 12 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
硕士
PyTorch
LLM
SFT
大模型
Megatron-LM
DeepSpeed
vLLM
PPO
RLHF
DPO

AI 估算 · 35k–55k

LLM前沿方向,门槛高,公司平台大,薪资竞争力强

职位详情

关于这个职位

该职位负责大模型后训练算法研发,包括SFT、RLHF、DPO等方法,优化游戏场景中的剧情生成与角色对话能力

需要设计奖励模型、强化学习训练及高质量数据工程,跟踪前沿技术
适合有NLP大模型经验、熟悉Transformer和PyTorch的算法工程师

最低要求

)硕士及以上学历,计算机科学、人工智能、机器学习、NLP 或相关专业

)3年以上大模型训练或 NLP 算法相关经验,有 SFT、RLHF/DPO、Reward Model 训练的实际项目经验
)熟悉 Transformer / MoE 架构原理,熟练使用 PyTorch 及主流大模型训练/推理框架(如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等)
)具备优秀的工程实现能力,能够独立设计和搭建训练流水线,快速复现和改进前沿算法
)对数据质量敏感,具备高质量 SFT/偏好数据构建经验,了解数据对模型效果的影响机制
)具备扎实的强化学习基础,理解 PPO/DPO/GRPO 等算法原理,有将 RL 方法应用于语言模型对齐的实践经验
)具备良好的分析和调试能力,能定位训练过程中的稳定性、收敛性和效果问题

工作职责

)后训练算法研发:参与游戏内容、角色扮演等场景下大模型的后训练(Post-training)算法研发工作,涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化,提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力

)奖励模型与对齐信号:设计和训练 Reward Model,探索多维度奖励信号的构建(如指令遵循、对话连贯性、创意性、安全性等),减少 Reward Hacking 和偏差问题,为强化学习提供高质量训练信号
)强化学习训练与优化:基于 PPO/GRPO 等强化学习算法完成模型对齐训练,探索可规模化(Scalable)的 Verifier 信号与 RL 策略,提升训练稳定性与效率,推动模型在复杂多轮对话和开放域场景中的推理与生成能力
)高质量数据工程:负责后训练阶段的数据治理,包括 SFT 数据构建、偏好数据采集与清洗、合成数据生成、数据混合策略设计,结合业务场景解决数据稀缺性问题
)多类型模型训练:除对话模型外,参与其他辅助模型(如分类器、决策模型等)的训练与调优,支撑整体模型产品体系建设
)前沿技术探索:跟踪 Post-training 领域最新研究进展(如 RLAIF、On-Policy Distillation、推理链压缩等),结合游戏对话业务需求进行技术预研与创新落地

优先资格

)有对话系统、角色扮演、聊天产品方向的模型训练经验,理解开放域对话场景下模型对齐的特殊挑战(如角色一致性维持、多轮上下文建模、情感与事实平衡等)

)在 ICML/ICLR/ACL/EMNLP 等顶级会议上发表过 Post-training、对齐、奖励建模相关论文
)有大规模模型训练经历(如百亿参数以上),了解分布式训练框架及对应的性能调优
)有游戏行业相关经验,理解游戏角色设定、叙事逻辑、世界观一致性对模型训练的特殊需求
)熟悉大规模语料处理、数据合成与数据质量评估方法

AI 洞察

优缺点分析

优点

  • 技术栈前沿,涉及LLM、强化学习、奖励模型等热门方向,能积累稀缺经验
  • 薪资竞争力强,福利待遇好,公司自负盈亏,发展稳定
  • 技术要求高,需要同时掌握NLP、强化学习和分布式训练,学习曲线陡峭
  • 游戏场景对模型角色一致性和对话连贯性要求苛刻,调试优化耗时
  • 适合对LLM对齐和强化学习有浓厚兴趣、具备较强工程能力和钻研精神的算法工程师,尤其有NLP大模型实战经验者

缺点 / 挑战

  • 米哈游作为头部游戏公司,平台大,项目场景真实复杂,技术挑战高
  • 可能面临较大工作强度和压力,尤其是在模型训练和迭代阶段

角色解读

  • 在LLM后训练方向深入成为专家,参与前沿算法研究,推动技术落地于游戏业务
  • 可向技术管理岗位发展,带领团队负责模型训练与优化,或转向更宽泛的AI算法架构
  • 负责大模型后训练算法的研发,包括SFT、RLHF、DPO等对齐方法的实现与优化,提升模型在游戏剧情生成和角色对话中的表现
  • 设计和训练奖励模型,探索多维度奖励信号,减少奖励欺骗问题,为强化学习提供高质量信号
  • 基于PPO/GRPO等算法进行模型对齐训练,提升训练稳定性和效率,并负责高质量SFT数据构建与数据治理
  • 精通Transformer/MoE架构,熟练使用PyTorch及DeepSpeed、Megatron-LM等大模型训练框架
  • 具备SFT、RLHF/DPO、Reward Model的实际项目经验,理解PPO/DPO/GRPO等强化学习算法
  • 优秀的工程实现能力,能独立搭建训练流水线,对数据质量敏感,有偏好数据构建经验

申请策略

  • 深入了解米哈游的游戏产品(如原神、崩坏系列),在面试中结合业务场景展示思考
  • 准备一个完整的后训练项目案例,从数据构建到模型评估,体现工程思维
  • 突出SFT、RLHF/DPO、Reward Model的实际项目经验,包括训练流程、数据构建和效果提升
  • 强调使用PyTorch和DeepSpeed等框架进行大规模训练的经历,以及分布式调优经验
  • 列出发表的顶会论文或相关技术博客,尤其与Post-training或对齐相关的
  • 补充强化学习理论,重点理解PPO、DPO、GRPO的数学原理和实现细节
  • 熟悉游戏对话或角色扮演场景的模型训练特点,如角色一致性、多轮上下文建模

面试指南

  • 项目类问题采用STAR原则:背景、任务、行动、结果,突出技术难点和量化成果
  • 算法对比类问题:先解释基本原理,再分析各自优缺点和适用场景,结合实践经验
  • 开放性设计问题:展示系统性思考,先界定问题,再提出方案,最后讨论权衡
  • 请详细描述你参与的一个SFT/RLHF项目,包括数据构建、训练过程和遇到的挑战
  • PPO和DPO的主要区别是什么?在实际训练中如何选择?
  • 如何设计多维度奖励信号以减少Reward Hacking?
  • 在大规模模型训练中,你如何保证训练稳定性和收敛性?
  • 对于游戏角色对话场景,你认为模型对齐最大的挑战是什么?

匹配度报告

70
综合匹配度

技术前沿、薪资优厚、挑战大、WLB一般

适合人群
适合追求技术成长、热衷前沿AI算法、不介意工作强度和固定办公地点的求职者
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活45
使命价值70

薪资福利匹配

75中等

薪资未在JD中明示,但米哈游作为超大型游戏公司,技术岗位薪资通常具有市场竞争力,且公司自负盈亏,福利稳定。

薪资信号未披露(AI估算:35K-55K/月)

成长发展匹配

90较高

该职位处于LLM后训练前沿技术领域,涉及SFT、RLHF、强化学习等,技术挑战高,成长空间大,公司业务场景丰富,但JD中未明确提及晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、LLM、SFT、RLHF、DPO、PPO、GRPO、Reward Model、Transformer、MoE、PyTorch、DeepSpeed、Megatron-LM、vLLM
业务类型profit_center

工作生活匹配

45较低

要求仅现场办公,未提及弹性工作或WLB,游戏行业通常加班较多,工作地点在上海但未明确区域,通勤可能较长。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

游戏行业属于高速增长赛道,但社会影响力中性。职位涉及创新技术应用,能推动游戏AI发展,具有一定价值感,但未明确使命导向。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • AI 模型评测专家 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 中间件研发工程师-【Serverless】

    快手 · 杭州市
    AI 估算 · 35k-55k
  • 测试

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 拔尖计划-算力专家

    中国移动 · 上海市
    AI 估算 · 40k-70k
  • 数据开发工程师(数据仓库工程师)

    小红书 · 上海市
    AI 估算 · 25k-40k
  • 音视频策略开发工程师/架构师

    小红书 · 北京市
    AI 估算 · 30k-50k

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • AI 模型评测专家 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 中间件研发工程师-【Serverless】

    快手 · 杭州市
    AI 估算 · 35k-55k
  • 测试

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 拔尖计划-算力专家

    中国移动 · 上海市
    AI 估算 · 40k-70k
  • 数据开发工程师(数据仓库工程师)

    小红书 · 上海市
    AI 估算 · 25k-40k
  • 音视频策略开发工程师/架构师

    小红书 · 北京市
    AI 估算 · 30k-50k