三七互娱的强化学习算法工程师（游戏AI玩家方向）薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

强化学习算法工程师（游戏AI玩家方向）的工作地点在哪里？

该职位工作地点位于广州市。工作形式为仅现场办公。

三七互娱的强化学习算法工程师（游戏AI玩家方向）有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

三七互娱

强化学习算法工程师（游戏AI玩家方向）

立即应聘

强化学习算法工程师（游戏AI玩家方向）

发布于大约 2 个月前

普通员工/个人贡献者

广州市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

PyTorch

强化学习

TensorFlow

模仿学习

SAC

PPO

游戏AI

Dqn

Marl

AI 估算 · 25k–45k

强化学习AI人才稀缺，游戏行业待遇较好，结合广州AI算法市场水平估算。

职位详情

关于这个职位

该职位负责研发游戏AI玩家，使用深度强化学习（PPO、DQN等）和模仿学习，构建高拟人、强对抗的AI策略

你将与策划、客户端协作，完成从算法设计、训练到部署的全链路工作

适合有强化学习实战经验、热爱游戏的算法工程师

最低要求

计算机/人工智能/数学/自动化等相关专业，硕士及以上学历

扎实的强化学习理论与实践，精通 PPO、DQN、SAC、MARL、Self-play

熟练使用PyTorch/TensorFlow，有游戏AI玩家/NPC上线实战经验

热爱游戏，熟悉至少一类游戏（MOBA/射击/卡牌/棋牌）的对战逻辑与策略

具备良好的工程能力，能独立完成算法设计、训练、部署与迭代

工作职责

负责游戏AI玩家/智能对手/NPC的算法研发与落地，覆盖对战、陪练、剧情交互等场景

基于深度强化学习（PPO/DQN/MARL）+模仿学习+规则，构建高拟人、强对抗、多样化的AI策略

设计并实现状态表征、动作空间、奖励函数、课程学习，提升AI学习效率与对战体验

负责模型训练、调优、仿真验证、线上部署与监控，保障AI稳定、高性能运行

跟踪前沿技术（多智能体、Self-play、LLM+RL、分布式训练），推动技术创新与复用

与策划、客户端、服务端协作，理解游戏规则与数值，迭代AI难度与风格

优先资格

加分项

有非完全信息博弈、多智能体对抗、自我对弈项目经验

有LLM+强化学习融合做决策/对话型AI经验

有大规模分布式训练、模型压缩、推理优化经验

顶会论文（ICML/NeurIPS/AAAI）或知名开源项目贡献

游戏开发/策划背景，深刻理解游戏数值与玩家体验

AI 洞察

优缺点分析

优点

技术前沿性强，涉及深度强化学习、多智能体、Self-play等热门方向，技能积累快
公司为上市公司，平台稳定，有充足资源支持算法研发与落地
游戏AI领域应用场景明确，成果可直接提升玩家体验，成就感强
与策划、客户端紧密协作，能培养跨团队沟通和产品思维
强化学习训练复杂度高，调试和调优需要大量耐心和经验

缺点 / 挑战

游戏AI迭代速度快，可能面临高强度开发压力
需同时关注算法效果和工程性能，对综合能力要求较高
适合有强化学习或游戏AI背景、热爱技术挑战、希望在游戏行业深入发展的算法工程师

角色解读

在AI算法领域深耕，从游戏AI扩展到通用强化学习或具身智能等更前沿方向
可向技术专家（Principal/Staff）或AI团队技术负责人（Tech Lead/Manager）发展
积累游戏行业经验后，可转产品策划或AI产品经理，结合技术与设计推动创新
研发游戏AI玩家、智能对手和NPC，覆盖对战、陪练、剧情交互等场景
基于强化学习和模仿学习算法，设计状态表征、动作空间和奖励函数，训练高效AI策略
负责模型训练、调优、仿真验证、线上部署与监控，确保AI稳定高效运行
与策划、客户端、服务端协作，迭代AI难度与风格，提升玩家体验
扎实的强化学习理论基础，精通PPO、DQN、SAC、MARL、Self-play等算法
熟练使用PyTorch或TensorFlow，具备游戏AI或NPC上线实战经验
热爱游戏，熟悉MOBA、射击、卡牌、棋牌等至少一类游戏的对战逻辑与策略
良好的工程能力，能独立完成算法设计、训练、部署与迭代

申请策略

了解三七互娱的游戏产品线，特别是你熟悉的对战类游戏（如SLG、MMO），在面试中展现对游戏数值和玩家体验的理解
准备1-2个完整的AI训练项目案例，能清晰讲述从问题定义到线上效果的全过程
突出强化学习项目经验，特别是游戏AI或对手AI的上线案例，描述技术选型、训练细节和最终效果
强调对PPO、DQN、MARL等算法的深入理解，可附上相关论文或开源贡献
展示工程能力，如模型部署、分布式训练、推理优化等
注明游戏相关经历，包括玩的游戏类型或参与的游戏开发项目
强化对多智能体强化学习（MARL）和Self-play的理解，可阅读近年顶会论文
掌握LLM+RL融合技术，如RLHF、决策Transformer等，提升竞争力

面试指南

STAR原则：说明项目背景、目标、你的具体行动和最终结果，重点突出技术难点和你的解决思路
结构化回答：先给出核心概念，再列举方法，最后结合实际经验，体现理论深度和实践能力
对比分析：针对算法选择问题，对比不同算法的优劣，并结合具体场景说明为什么选某个算法
请详细讲一个你使用PPO或DQN完成的游戏AI项目，包括奖励函数设计和训练技巧
如何解决强化学习中的稀疏奖励问题？有哪些常用方法？
在游戏AI场景中，你如何平衡AI的拟人度和对抗强度？
请描述多智能体强化学习（MARL）中的协作与竞争机制，并举例说明
你如何评估和监控线上AI模型的性能？遇到模型退化怎么处理？

职位点评

综合评分

上市游戏公司，前沿强化学习技术，高薪资高成长，WLB较弱。

更适合这类人

最看重技术成长和前沿领域深耕，对薪资有较高期望，且能接受现场办公和一定强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值65

薪资福利

80较高

该职位提供具有竞争力的薪资（AI算法稀缺、游戏行业领先），且公司为上市大厂，福利稳定，补偿性动机满足度较高。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

90较高

职位涉及前沿技术（深度强化学习、多智能体、LLM+RL），技能成长空间大，且有明确的技术创新要求，发展性动机满足度高。

技术前沿前沿/新兴技术

技术栈强化学习、PPO、DQN、MARL、Self-play、LLM+RL、分布式训练

业务类型profit_center

工作生活

50较低

工作地为现场办公，未提及弹性工作或WLB措施，且游戏行业研发强度可能较高，生活化动机满足度一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

游戏AI提升玩家体验具有一定社会价值，但行业主要为娱乐性质，使命感驱动力中等。技术处于前沿创新，但社会影响力有限。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

三七互娱

强化学习算法工程师（游戏AI玩家方向）

立即应聘

强化学习算法工程师（游戏AI玩家方向）

发布于大约 2 个月前

普通员工/个人贡献者

广州市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

PyTorch

强化学习

TensorFlow

模仿学习

SAC

PPO

游戏AI

Dqn

Marl

AI 估算 · 25k–45k

强化学习AI人才稀缺，游戏行业待遇较好，结合广州AI算法市场水平估算。

职位详情

关于这个职位

该职位负责研发游戏AI玩家，使用深度强化学习（PPO、DQN等）和模仿学习，构建高拟人、强对抗的AI策略

你将与策划、客户端协作，完成从算法设计、训练到部署的全链路工作

适合有强化学习实战经验、热爱游戏的算法工程师

最低要求

计算机/人工智能/数学/自动化等相关专业，硕士及以上学历

扎实的强化学习理论与实践，精通 PPO、DQN、SAC、MARL、Self-play

熟练使用PyTorch/TensorFlow，有游戏AI玩家/NPC上线实战经验

热爱游戏，熟悉至少一类游戏（MOBA/射击/卡牌/棋牌）的对战逻辑与策略

具备良好的工程能力，能独立完成算法设计、训练、部署与迭代

工作职责

负责游戏AI玩家/智能对手/NPC的算法研发与落地，覆盖对战、陪练、剧情交互等场景

基于深度强化学习（PPO/DQN/MARL）+模仿学习+规则，构建高拟人、强对抗、多样化的AI策略

设计并实现状态表征、动作空间、奖励函数、课程学习，提升AI学习效率与对战体验

负责模型训练、调优、仿真验证、线上部署与监控，保障AI稳定、高性能运行

跟踪前沿技术（多智能体、Self-play、LLM+RL、分布式训练），推动技术创新与复用

与策划、客户端、服务端协作，理解游戏规则与数值，迭代AI难度与风格

优先资格

加分项

有非完全信息博弈、多智能体对抗、自我对弈项目经验

有LLM+强化学习融合做决策/对话型AI经验

有大规模分布式训练、模型压缩、推理优化经验

顶会论文（ICML/NeurIPS/AAAI）或知名开源项目贡献

游戏开发/策划背景，深刻理解游戏数值与玩家体验

AI 洞察

优缺点分析

优点

技术前沿性强，涉及深度强化学习、多智能体、Self-play等热门方向，技能积累快
公司为上市公司，平台稳定，有充足资源支持算法研发与落地
游戏AI领域应用场景明确，成果可直接提升玩家体验，成就感强
与策划、客户端紧密协作，能培养跨团队沟通和产品思维
强化学习训练复杂度高，调试和调优需要大量耐心和经验

缺点 / 挑战

游戏AI迭代速度快，可能面临高强度开发压力
需同时关注算法效果和工程性能，对综合能力要求较高
适合有强化学习或游戏AI背景、热爱技术挑战、希望在游戏行业深入发展的算法工程师

角色解读

在AI算法领域深耕，从游戏AI扩展到通用强化学习或具身智能等更前沿方向
可向技术专家（Principal/Staff）或AI团队技术负责人（Tech Lead/Manager）发展
积累游戏行业经验后，可转产品策划或AI产品经理，结合技术与设计推动创新
研发游戏AI玩家、智能对手和NPC，覆盖对战、陪练、剧情交互等场景
基于强化学习和模仿学习算法，设计状态表征、动作空间和奖励函数，训练高效AI策略
负责模型训练、调优、仿真验证、线上部署与监控，确保AI稳定高效运行
与策划、客户端、服务端协作，迭代AI难度与风格，提升玩家体验
扎实的强化学习理论基础，精通PPO、DQN、SAC、MARL、Self-play等算法
熟练使用PyTorch或TensorFlow，具备游戏AI或NPC上线实战经验
热爱游戏，熟悉MOBA、射击、卡牌、棋牌等至少一类游戏的对战逻辑与策略
良好的工程能力，能独立完成算法设计、训练、部署与迭代

申请策略

了解三七互娱的游戏产品线，特别是你熟悉的对战类游戏（如SLG、MMO），在面试中展现对游戏数值和玩家体验的理解
准备1-2个完整的AI训练项目案例，能清晰讲述从问题定义到线上效果的全过程
突出强化学习项目经验，特别是游戏AI或对手AI的上线案例，描述技术选型、训练细节和最终效果
强调对PPO、DQN、MARL等算法的深入理解，可附上相关论文或开源贡献
展示工程能力，如模型部署、分布式训练、推理优化等
注明游戏相关经历，包括玩的游戏类型或参与的游戏开发项目
强化对多智能体强化学习（MARL）和Self-play的理解，可阅读近年顶会论文
掌握LLM+RL融合技术，如RLHF、决策Transformer等，提升竞争力

面试指南

STAR原则：说明项目背景、目标、你的具体行动和最终结果，重点突出技术难点和你的解决思路
结构化回答：先给出核心概念，再列举方法，最后结合实际经验，体现理论深度和实践能力
对比分析：针对算法选择问题，对比不同算法的优劣，并结合具体场景说明为什么选某个算法
请详细讲一个你使用PPO或DQN完成的游戏AI项目，包括奖励函数设计和训练技巧
如何解决强化学习中的稀疏奖励问题？有哪些常用方法？
在游戏AI场景中，你如何平衡AI的拟人度和对抗强度？
请描述多智能体强化学习（MARL）中的协作与竞争机制，并举例说明
你如何评估和监控线上AI模型的性能？遇到模型退化怎么处理？

职位点评

综合评分

上市游戏公司，前沿强化学习技术，高薪资高成长，WLB较弱。

更适合这类人

最看重技术成长和前沿领域深耕，对薪资有较高期望，且能接受现场办公和一定强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值65

薪资福利

80较高

该职位提供具有竞争力的薪资（AI算法稀缺、游戏行业领先），且公司为上市大厂，福利稳定，补偿性动机满足度较高。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

90较高

职位涉及前沿技术（深度强化学习、多智能体、LLM+RL），技能成长空间大，且有明确的技术创新要求，发展性动机满足度高。

技术前沿前沿/新兴技术

技术栈强化学习、PPO、DQN、MARL、Self-play、LLM+RL、分布式训练

业务类型profit_center

工作生活

50较低

工作地为现场办公，未提及弹性工作或WLB措施，且游戏行业研发强度可能较高，生活化动机满足度一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

游戏AI提升玩家体验具有一定社会价值，但行业主要为娱乐性质，使命感驱动力中等。技术处于前沿创新，但社会影响力有限。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

强化学习算法工程师（游戏AI玩家方向）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

强化学习算法工程师（游戏AI玩家方向）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

三七互娱 的其他在招职位

AI视频创作平台实习生

资深战略投资顾问

3D场景美术/地编（试玩）

Spine2D动效师

B端产品经理

相似职位推荐

Early Talent Leadership Development Program - Engineering and Technology

Early Talent Leadership Development Program - Engineering and Technology

Lab Engineer

ACB Lead Engineer

车载目标检测算法工程师

三七互娱 的其他在招职位

AI视频创作平台实习生

资深战略投资顾问

3D场景美术/地编（试玩）

Spine2D动效师

B端产品经理

相似职位推荐

Early Talent Leadership Development Program - Engineering and Technology

Early Talent Leadership Development Program - Engineering and Technology

Lab Engineer

ACB Lead Engineer

车载目标检测算法工程师

三七互娱的其他在招职位

三七互娱的其他在招职位