Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
LLM Post-train 算法工程师 - 星布谷地
立即应聘

LLM Post-train 算法工程师 - 星布谷地

发布于 大约 12 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
硕士
PyTorch
LLM
SFT
DeepSpeed
PPO
RLHF
DPO
Grpo
Post-Training
Reward Model

AI 估算 · 35k–60k

LLM算法人才稀缺,米哈游游戏大厂薪资竞争力强,上海高级算法岗月薪35k-60k,16薪合理

职位详情

关于这个职位

该职位加入米哈游,负责LLM后训练算法研发,聚焦游戏内容与角色扮演场景

你将参与SFT、RLHF、DPO等对齐方法的实现和优化,设计奖励模型,基于强化学习提升模型在对话连贯性、角色一致性、情感表达等方面的能力
需要扎实的NLP和RL基础,有相关项目经验者优先

最低要求

)硕士及以上学历,计算机科学、人工智能、机器学习、NLP 或相关专业 2)3年以上大模型训练或 NLP 算法相关经验,有 SFT、RLHF/DPO、Reward Model 训练的实际项目经验 3)熟悉 Transformer / MoE 架构原理,熟练使用 PyTorch 及主流大模型训练/推理框架(如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等) 4)具备优秀的工程实现能力,能够独立设计和搭建训练流水线,快速复现和改进前沿算法 5)对数据质量敏感,具备高质量 SFT/偏好数据构建经验,了解数据对模型效果的影响机制 6)具备扎实的强化学习基础,理解 PPO/DPO/GRPO 等算法原理,有将 RL 方法应用于语言模型对齐的实践经验 7)具备良好的分析和调试能力,能定位训练过程中的稳定性、收敛性和效果问题

工作职责

)后训练算法研发:参与游戏内容、角色扮演等场景下大模型的后训练(Post-training)算法研发工作,涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化,提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力 2)奖励模型与对齐信号:设计和训练 Reward Model,探索多维度奖励信号的构建(如指令遵循、对话连贯性、创意性、安全性等),减少 Reward Hacking 和偏差问题,为强化学习提供高质量训练信号 3)强化学习训练与优化:基于 PPO/GRPO 等强化学习算法完成模型对齐训练,探索可规模化(Scalable)的 Verifier 信号与 RL 策略,提升训练稳定性与效率,推动模型在复杂多轮对话和开放域场景中的推理与生成能力 4)高质量数据工程:负责后训练阶段的数据治理,包括 SFT 数据构建、偏好数据采集与清洗、合成数据生成、数据混合策略设计,结合业务场景解决数据稀缺性问题 5)多类型模型训练:除对话模型外,参与其他辅助模型(如分类器、决策模型等)的训练与调优,支撑整体模型产品体系建设 6)前沿技术探索:跟踪 Post-training 领域最新研究进展(如 RLAIF、On-Policy Distillation、推理链压缩等),结合游戏对话业务需求进行技术预研与创新落地

优先资格

)有对话系统、角色扮演、聊天产品方向的模型训练经验,理解开放域对话场景下模型对齐的特殊挑战(如角色一致性维持、多轮上下文建模、情感与事实平衡等) 2)在 ICML/ICLR/ACL/EMNLP 等顶级会议上发表过 Post-training、对齐、奖励建模相关论文 3)有大规模模型训练经历(如百亿参数以上),了解分布式训练框架及对应的性能调优 4)有游戏行业相关经验,理解游戏角色设定、叙事逻辑、世界观一致性对模型训练的特殊需求 5)熟悉大规模语料处理、数据合成与数据质量评估方法

AI 洞察

优缺点分析

优点

  • 米哈游是游戏行业头部公司,技术资源丰富,项目落地场景真实有趣
  • LLM后训练是当前AI前沿方向,职业发展前景广阔,技能积累价值高
  • 团队技术氛围浓厚,有机会与顶级学者和工程师合作,参与前沿研究
  • 游戏场景对模型效果要求苛刻,需处理角色一致性、多轮对话等复杂问题
  • 行业竞争激烈,需要持续跟踪最新论文并快速落地,工作节奏可能较快

缺点 / 挑战

  • 职位要求较高,需要同时具备算法深度和工程能力,学习曲线陡峭
  • 适合有3年以上大模型训练经验、热爱技术挑战、希望在游戏AI方向深耕的算法工程师

角色解读

  • 技术纵深发展:成为大模型后训练与对齐领域的专家,主导核心算法研发
  • 横向拓展:向多模态、推理增强、Agent等方向延伸,参与前沿探索
  • 管理路线:积累经验后晋升为技术负责人或团队Leader,带领算法团队
  • 负责大模型后训练的对齐算法研发,包括SFT、RLHF、DPO等方法的实现和调优
  • 设计和训练Reward Model,构建多维度奖励信号,减少Reward Hacking问题
  • 基于PPO/GRPO等强化学习算法完成模型对齐训练,提升模型对话连贯性和角色一致性
  • 参与高质量数据工程,包括SFT数据构建、偏好数据清洗和合成数据生成
  • 扎实的机器学习/NLP基础,熟悉Transformer/MoE架构
  • 精通PyTorch及主流训练框架(DeepSpeed、Megatron-LM等)
  • 有强化学习(PPO、DPO、GRPO)应用于语言模型对齐的实际经验
  • 对数据质量敏感,具备构建高质量SFT和偏好数据的能力

申请策略

  • 在简历或作品集中展示开源贡献或技术博客,体现技术热情
  • 面试前了解米哈游旗下产品的AI应用(如《星布谷地》尚在开发中),思考可能的优化方向
  • 突出SFT、RLHF/DPO、Reward Model的实际项目经验和成果
  • 展示在强化学习算法(PPO、GRPO等)应用于语言模型的实践
  • 强调数据工程能力,如构建高质量SFT数据、偏好数据清洗等
  • 如有对话系统或角色扮演相关经验,务必详细描述
  • 补强分布式训练框架的使用(DeepSpeed、Megatron-LM等)
  • 熟悉前沿对齐方法(RLAIF、On-Policy Distillation等),阅读最新论文

面试指南

  • 采用STAR法则:描述场景(S)、任务(T)、行动(A)、结果(R),重点突出技术难点和解决方案
  • 对于算法比较问题,从数学原理、实现复杂度、效果差异等维度对比,并结合自己的实践经验
  • 回答挑战性问题时,先承认难度,再展示自己的思考路径和可能的解决方案,体现分析能力
  • 请详细描述你过去在SFT或RLHF项目中的实践经验,遇到了哪些问题?如何解决的?
  • 解释DPO和PPO的区别,以及各自适用的场景
  • 如何设计Reward Model以减少Reward Hacking?请举例说明
  • 在训练大模型时,如何保证训练稳定性?你如何调试训练过程中出现的loss震荡?
  • 对于游戏角色扮演场景,你认为模型对齐面临哪些特殊挑战?如何解决?

匹配度报告

79
综合匹配度

游戏大厂、LLM后训练前沿技术、薪资高、成长快,但需现场办公且工作节奏可能较快。

适合人群
该职位最适合追求技术前沿、渴望在LLM领域深耕的求职者,尤其看重成长性和薪资回报。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活60
使命价值75

薪资福利匹配

85较高

米哈游作为知名游戏公司,薪资待遇在行业中处于较高水平,且福利完善。JD中虽未明示具体薪资,但结合公司规模和职位稀缺度,预估薪资较高。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

95较高

该职位聚焦LLM后训练前沿技术,涉及SFT、RLHF、PPO等最新算法,能极大提升算法和工程能力。公司有技术氛围,鼓励创新,成长空间大。

技术前沿前沿/新兴技术
技术栈LLM、Post-training、SFT、RLHF、DPO、PPO、GRPO、Reward Model、DeepSpeed、Megatron-LM
业务类型profit_center

工作生活匹配

60中等

工作地点在上海,需要现场办公。互联网/游戏行业通常工作节奏较快,但米哈游作为成熟大厂有相对规范的工时管理。JD中未提及WLB相关信息。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

75中等

游戏行业为用户带来快乐,但社会价值相对中性。作为AI算法工程师,通过技术创新提升游戏体验,有行业影响力。JD中未明确提及使命感。

行业发展稳定成熟行业
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • AI 模型评测专家 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 中间件研发工程师-【Serverless】

    快手 · 杭州市
    AI 估算 · 35k-55k
  • 测试

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 拔尖计划-算力专家

    中国移动 · 上海市
    AI 估算 · 40k-70k
  • 数据开发工程师(数据仓库工程师)

    小红书 · 上海市
    AI 估算 · 25k-40k
  • 音视频策略开发工程师/架构师

    小红书 · 北京市
    AI 估算 · 30k-50k

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • AI 模型评测专家 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 中间件研发工程师-【Serverless】

    快手 · 杭州市
    AI 估算 · 35k-55k
  • 测试

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 拔尖计划-算力专家

    中国移动 · 上海市
    AI 估算 · 40k-70k
  • 数据开发工程师(数据仓库工程师)

    小红书 · 上海市
    AI 估算 · 25k-40k
  • 音视频策略开发工程师/架构师

    小红书 · 北京市
    AI 估算 · 30k-50k