
普通员工/个人贡献者
AI 估算 · 35k–55k
LLM前沿方向,门槛高,公司平台大,薪资竞争力强
该职位负责大模型后训练算法研发,包括SFT、RLHF、DPO等方法,优化游戏场景中的剧情生成与角色对话能力
)硕士及以上学历,计算机科学、人工智能、机器学习、NLP 或相关专业
)后训练算法研发:参与游戏内容、角色扮演等场景下大模型的后训练(Post-training)算法研发工作,涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化,提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力
)有对话系统、角色扮演、聊天产品方向的模型训练经验,理解开放域对话场景下模型对齐的特殊挑战(如角色一致性维持、多轮上下文建模、情感与事实平衡等)
优点
缺点 / 挑战
技术前沿、薪资优厚、挑战大、WLB一般
薪资未在JD中明示,但米哈游作为超大型游戏公司,技术岗位薪资通常具有市场竞争力,且公司自负盈亏,福利稳定。
该职位处于LLM后训练前沿技术领域,涉及SFT、RLHF、强化学习等,技术挑战高,成长空间大,公司业务场景丰富,但JD中未明确提及晋升通道。
要求仅现场办公,未提及弹性工作或WLB,游戏行业通常加班较多,工作地点在上海但未明确区域,通勤可能较长。
游戏行业属于高速增长赛道,但社会影响力中性。职位涉及创新技术应用,能推动游戏AI发展,具有一定价值感,但未明确使命导向。