Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
强化学习算法研究员
立即应聘

强化学习算法研究员

发布于 大约 22 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
团队合作
强化学习
深度强化学习
游戏AI
论文研究
分布式强化学习

AI 估算 · 30k–60k

强化学习研究员稀缺,游戏大厂核心岗位,薪资竞争力强,结合城市和行业溢价。

职位详情

关于这个职位

加入米哈游,作为强化学习算法研究员,你将把前沿的强化学习技术应用于游戏项目,解决实际问题并推动业务落地

该岗位要求扎实的深度强化学习基础、顶会论文或高质量项目经验,以及熟练使用强化学习框架,适合对技术和游戏充满热情的研究者

最低要求

本科以上学历,计算机等相关专业,扎实的深度强化学习和技术积累

发表过强化学习等相关领域的顶会论文或高品质项目开发经验
熟练使用强化学习框架,有分布式强化学习积累优先
具备良好的解决问题与团队沟通能力,对技术和游戏充满热情

工作职责

利用强化学习技术解决项目实际问题,推进相关业务落地

探索最前沿的强化学习理论和算法,并且能够结合运用到项目中

AI 洞察

优缺点分析

优点

  • 站在强化学习应用的最前沿,直接参与大型游戏产品的核心AI研发,技术影响力大
  • 米哈游作为超大型游戏公司,资源丰富,可接触到海量真实玩家数据和复杂场景
  • 团队技术氛围浓厚,有机会与顶级AI研究者合作,并推动创新算法落地
  • 强化学习调参困难,训练周期长,需要强大的耐心和问题定位能力
  • 游戏AI场景的动态性和不确定性要求算法具备高鲁棒性和泛化能力,技术难度高
  • 行业竞争激烈,需要持续跟进前沿论文并快速实验验证,保持技术敏感度
  • 适合对强化学习有深厚热情,具备较强研究能力和工程实现能力,愿意在游戏领域深耕的技术人才

缺点 / 挑战

暂无明显挑战项

角色解读

  • 纵向发展:从算法研究员到高级研究员,再到首席科学家或技术专家,主导核心技术方向
  • 横向发展:可转向游戏AI架构师、技术Leader,或跨领域至自动驾驶、机器人等强化学习应用场景
  • 管理路径:积累团队协作经验后,可担任团队负责人,管理算法团队并推动技术落地
  • 设计并实现强化学习算法,用于游戏中的智能体决策、NPC行为优化等场景,提升游戏体验
  • 研究和引入最新的强化学习理论,如多智能体强化学习、模仿学习等,并适配到实际项目
  • 搭建和优化分布式强化学习训练框架,提高模型训练效率和稳定性
  • 与策划、美术等其他团队协作,将算法模型集成到游戏系统中,并持续迭代
  • 扎实的深度强化学习理论基础,熟悉DQN、PPO、SAC等主流算法及其变体
  • 熟练使用至少一种强化学习框架(如RLlib、Stable-Baselines3、TF-Agents)及深度学习框架(PyTorch/TensorFlow)
  • 具备分布式强化学习经验,能够设计和实现大规模并行训练流程
  • 优秀的编程能力(Python/C++),独立的算法实现和调优能力,以及顶级论文或复杂项目经验

申请策略

  • 准备一个与游戏相关的强化学习项目展示,突出创新性和实际效果,最好有演示视频或数据
  • 了解米哈游技术文化,强调对游戏的热爱和技术梦想,展示长期投入意愿
  • 突出强化学习相关论文发表经历,注明会议等级(如NeurIPS、ICML、ICLR)及个人贡献
  • 详细描述参与的大型项目经验,注重技术难点和解决方案,尤其是分布式训练和实际部署案例
  • 展示开源贡献或个人项目,如GitHub上的强化学习实现或游戏AI Demo
  • 强调编程能力:Python/C++代码质量、框架使用熟练度,以及算法复现能力
  • 如果缺乏分布式经验,可以学习Ray框架或RLlib等分布式强化学习工具
  • 熟悉米哈游旗下游戏(如原神、崩坏系列)的AI机制,思考强化学习可优化的切入点

面试指南

  • 算法原理题:先概述算法核心思想(策略梯度/值函数),再深入推导或代码细节,最后对比其他算法说明优缺点
  • 场景设计题:先明确目标和约束,提出候选方案(如环境建模、网络结构、奖励设计),然后评价可行性和潜在问题
  • 项目经验题:按STAR法则(情境-任务-动作-结果),聚焦技术难点和你的创新点,量化成果(训练效率提升、奖励收敛等)
  • 请详细解释PPO算法的原理、实现细节以及相比TRPO的优势?
  • 在多智能体环境中,你会如何设计强化学习训练框架来解决非平稳性问题?
  • 你过去的强化学习项目遇到了哪些主要挑战?你是如何解决训练不稳定和样本效率问题的?
  • 如果要在游戏中应用强化学习,考虑到玩家交互的实时性,你会如何优化推理延迟?
  • 谈谈你对强化学习在开放世界游戏中应用前景的看法?

匹配度报告

71
综合匹配度

游戏大厂核心算法岗,前沿强化学习技术,高薪高成长,但工作强度大,WLB一般。

适合人群
最适合技术驱动、追求前沿知识和技能成长的求职者,愿意接受高强度工作以换取快速职业提升。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利匹配

85较高

薪资处于行业高位,但JD未披露具体福利,作为超大型企业,稳定性高,整体补偿性较强。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

岗位聚焦前沿强化学习技术,紧跟学术前沿,有大量实践机会,极大促进技能成长和职业发展。

技术前沿前沿/新兴技术
技术栈强化学习、深度强化学习、分布式强化学习、游戏AI
业务类型ambiguous

工作生活匹配

40较低

仅现场办公,未提及弹性工作或WLB信号,游戏公司通常高节奏,生活化动机满足有限。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

游戏行业高速增长,强化学习在AI领域有广泛社会影响,但具体使命感信号不强,中性偏正面。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 资深内网安全专家

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 场记/项目管理(动捕拍摄方向)——第三方编制

    米哈游 · 上海市
    AI 估算 · 8k-15k
  • 内网安全专家

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • Al Infra 推理优化工程师

    米哈游 · 上海市
    AI 估算 · 35k-60k
  • 动作生成研究员实习生

    米哈游 · 上海市
    AI 估算 · 4k-6k

相似职位推荐

  • AI研发创新(实习生)

    中国移动 · 银川市
    AI 估算 · 3k-5k
  • Business R&D Senior Professional

    日立能源 · 重庆市
    AI 估算 · 20k-35k
  • Business R&D Entry Professional

    日立能源 · 合肥市
    AI 估算 · 15k-30k
  • Business R&D Senior Professional

    日立能源 · 重庆市
    AI 估算 · 20k-35k
  • 大模型算法工程师

    京东 · 北京市
    AI 估算 · 35k-65k

米哈游 的其他在招职位

  • 资深内网安全专家

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 场记/项目管理(动捕拍摄方向)——第三方编制

    米哈游 · 上海市
    AI 估算 · 8k-15k
  • 内网安全专家

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • Al Infra 推理优化工程师

    米哈游 · 上海市
    AI 估算 · 35k-60k
  • 动作生成研究员实习生

    米哈游 · 上海市
    AI 估算 · 4k-6k

相似职位推荐

  • AI研发创新(实习生)

    中国移动 · 银川市
    AI 估算 · 3k-5k
  • Business R&D Senior Professional

    日立能源 · 重庆市
    AI 估算 · 20k-35k
  • Business R&D Entry Professional

    日立能源 · 合肥市
    AI 估算 · 15k-30k
  • Business R&D Senior Professional

    日立能源 · 重庆市
    AI 估算 · 20k-35k
  • 大模型算法工程师

    京东 · 北京市
    AI 估算 · 35k-65k