
普通员工/个人贡献者
AI 估算 · 35k–60k
LLM算法人才稀缺,米哈游游戏大厂薪资竞争力强,上海高级算法岗月薪35k-60k,16薪合理
该职位加入米哈游,负责LLM后训练算法研发,聚焦游戏内容与角色扮演场景
)硕士及以上学历,计算机科学、人工智能、机器学习、NLP 或相关专业 2)3年以上大模型训练或 NLP 算法相关经验,有 SFT、RLHF/DPO、Reward Model 训练的实际项目经验 3)熟悉 Transformer / MoE 架构原理,熟练使用 PyTorch 及主流大模型训练/推理框架(如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等) 4)具备优秀的工程实现能力,能够独立设计和搭建训练流水线,快速复现和改进前沿算法 5)对数据质量敏感,具备高质量 SFT/偏好数据构建经验,了解数据对模型效果的影响机制 6)具备扎实的强化学习基础,理解 PPO/DPO/GRPO 等算法原理,有将 RL 方法应用于语言模型对齐的实践经验 7)具备良好的分析和调试能力,能定位训练过程中的稳定性、收敛性和效果问题
)后训练算法研发:参与游戏内容、角色扮演等场景下大模型的后训练(Post-training)算法研发工作,涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化,提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力 2)奖励模型与对齐信号:设计和训练 Reward Model,探索多维度奖励信号的构建(如指令遵循、对话连贯性、创意性、安全性等),减少 Reward Hacking 和偏差问题,为强化学习提供高质量训练信号 3)强化学习训练与优化:基于 PPO/GRPO 等强化学习算法完成模型对齐训练,探索可规模化(Scalable)的 Verifier 信号与 RL 策略,提升训练稳定性与效率,推动模型在复杂多轮对话和开放域场景中的推理与生成能力 4)高质量数据工程:负责后训练阶段的数据治理,包括 SFT 数据构建、偏好数据采集与清洗、合成数据生成、数据混合策略设计,结合业务场景解决数据稀缺性问题 5)多类型模型训练:除对话模型外,参与其他辅助模型(如分类器、决策模型等)的训练与调优,支撑整体模型产品体系建设 6)前沿技术探索:跟踪 Post-training 领域最新研究进展(如 RLAIF、On-Policy Distillation、推理链压缩等),结合游戏对话业务需求进行技术预研与创新落地
)有对话系统、角色扮演、聊天产品方向的模型训练经验,理解开放域对话场景下模型对齐的特殊挑战(如角色一致性维持、多轮上下文建模、情感与事实平衡等) 2)在 ICML/ICLR/ACL/EMNLP 等顶级会议上发表过 Post-training、对齐、奖励建模相关论文 3)有大规模模型训练经历(如百亿参数以上),了解分布式训练框架及对应的性能调优 4)有游戏行业相关经验,理解游戏角色设定、叙事逻辑、世界观一致性对模型训练的特殊需求 5)熟悉大规模语料处理、数据合成与数据质量评估方法
优点
缺点 / 挑战
游戏大厂、LLM后训练前沿技术、薪资高、成长快,但需现场办公且工作节奏可能较快。
米哈游作为知名游戏公司,薪资待遇在行业中处于较高水平,且福利完善。JD中虽未明示具体薪资,但结合公司规模和职位稀缺度,预估薪资较高。
该职位聚焦LLM后训练前沿技术,涉及SFT、RLHF、PPO等最新算法,能极大提升算法和工程能力。公司有技术氛围,鼓励创新,成长空间大。
工作地点在上海,需要现场办公。互联网/游戏行业通常工作节奏较快,但米哈游作为成熟大厂有相对规范的工时管理。JD中未提及WLB相关信息。
游戏行业为用户带来快乐,但社会价值相对中性。作为AI算法工程师,通过技术创新提升游戏体验,有行业影响力。JD中未明确提及使命感。