腾讯的微信小游戏-大模型后训练工程师薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

微信小游戏-大模型后训练工程师的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

腾讯的微信小游戏-大模型后训练工程师有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

腾讯

微信小游戏-大模型后训练工程师

立即应聘

微信小游戏-大模型后训练工程师

发布于大约 18 小时前

普通员工/个人贡献者

深圳市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

强化学习

Megatron-LM

DeepSpeed

PPO

DPO

Verl

Grpo

大模型后训练

Pytorch Fsdp

AI 估算 · 25k–45k

腾讯大厂核心岗位，大模型技术稀缺，深圳薪资水平高，中位数约35k/月，年终奖丰厚。

职位详情

关于这个职位

该职位是腾讯微信小游戏团队的大模型后训练工程师，主要负责将大模型技术应用于游戏业务场景，包括小游戏内容创作、开发者工具提效等

你将参与从数据构造、模型微调到线上效果验证的全链路研发，并跟踪前沿技术如强化学习、代码生成等

适合对AI+游戏有热情、具备分布式训练和强化学习经验的工程师

最低要求

计算机相关专业，具备较强的动手能力

熟悉 Python，具备扎实的系统编程功底和优秀的复杂系统 Debug 能力

训练框架经验：深入理解大模型分布式训练原理，具备 Megatron-LM、DeepSpeed 或 PyTorch FSDP 等主流框架的实际源码级开发与定制经验

RL 与 RL Infra 储备：熟悉大模型后训练与对齐技术（PPO、GRPO、DPO等），熟悉 Verl、ROLL、AReal 等强化学习/分布式计算框架，可以理解并解决 RL 过程中的工程痛点

综合素质：具备极强的技术好奇心与自驱力，面对业界无先例的技术难题，能独立思考并推动解决

工作职责

负责大模型在游戏业务场景的应用落地与全链路研发，覆盖小游戏试玩内容创作（玩法/剧情/素材生成）、开发者工具提效（代码生成与理解、资源生产、自动化测试等）等方向

设计并落地基于执行反馈、自动化评测与定向修复等技术的数据生产、质量保障与优化方案，打通从场景理解、数据构造、模型微调到线上效果验证的闭环，确保大模型在游戏场景中高质量、高标准交付

深度参与游戏大模型能力的专项评测与分析（如试玩内容的可玩性与质量、生成代码的正确性与可运行性、工具提效收益等），制定科学的评价指标体系

通过剖析模型在实际游戏研发与内容创作任务中的弱项，设计并落地高效的数据飞轮机制，定向进行数据补充与配方调整，实现"评测发现问题-数据定向强化-效果闭环提升"，持续驱动模型游戏核心能力的演进

追踪与研究支撑大模型在游戏业务落地的前沿技术，关注基于执行反馈的3、强化学习（RLAIF/RLCE）、代码自验证生成、AI SWE、多模态内容生成、游戏智能体（Game Agent）等方向，能够将最新研究成果快速转化为游戏业务价值

AI 洞察

优缺点分析

优点

涉及大模型前沿方向，如RL、代码生成等，技术积累价值高
团队处于业务扩张期，个人成长空间大，有机会接触全链路研发
技术复杂度高，需要同时掌握大模型训练、强化学习、游戏理解等多领域知识
业务场景新颖，业界可参考经验少，需要自主探索和创新能力

缺点 / 挑战

腾讯大平台，资源丰富，落地场景明确（微信小游戏），技术挑战高
可能面临快速迭代的压力，需要高效产出和持续学习
适合对AI+游戏充满热情、技术自驱力强、喜欢挑战前沿难题的算法工程师

角色解读

向大模型算法专家方向深耕，成为游戏AI领域的核心技术负责人
可转向AI平台架构或产品方向，或进入大模型基础研究团队
通过腾讯内部轮岗或晋升，成长为技术管理或高级技术专家
负责大模型在小游戏场景的应用落地，包括内容生成、代码生成等，从数据构造到模型微调再到效果验证
设计评测指标体系，通过数据飞轮机制持续提升模型能力，解决实际游戏研发中的问题
追踪前沿技术如强化学习、多模态生成等，并转化为业务价值
扎实的Python编程和系统Debug能力，熟悉分布式训练框架如Megatron、DeepSpeed
深入理解大模型后训练与对齐技术（PPO、DPO等），有强化学习框架使用经验
较强的问题分析与解决能力，能独立处理复杂技术难题

申请策略

准备一个完整的项目案例，展示从问题定义、技术选型到落地的过程
了解微信小游戏生态和腾讯游戏AI布局，面试中体现业务理解
突出大模型分布式训练框架的深度使用经验，如对Megatron或DeepSpeed的源码修改
强调强化学习相关项目，特别是PPO、DPO等后训练技术的落地经验
展示代码能力：复杂系统Debug案例、开源贡献或高性能编程项目
如果有游戏相关项目或AI内容生成经验，务必重点提及
补充强化学习框架（如Verl、ROLL）的实操经验，可快速上手
了解游戏开发基础（如Unity、小游戏引擎）会更契合业务

面试指南

分步骤陈述：问题背景 -> 技术选型 -> 具体实现 -> 效果评估 -> 迭代优化
注重对比不同方案的优缺点，体现思考深度
结合具体业务场景（小游戏）说明技术价值
请详细描述你使用Megatron-LM或DeepSpeed进行分布式训练的经验，遇到过什么困难？
如何设计大模型后训练的数据飞轮？请举例说明
请比较PPO和DPO的优劣，在游戏场景中你会选择哪种？
如何评估生成内容的可玩性和质量？请设计一个评测方案
针对代码生成任务，如何保证生成代码的正确性和可运行性？

职位点评

综合评分

腾讯核心业务，前沿大模型技术，高成长性，但工作强度和环境需考量。

更适合这类人

该职位最适合注重技术成长和职业发展的求职者，对于追求WLB的求职者挑战较大。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值70

薪资福利

80较高

腾讯为已上市巨头，薪资竞争力强，福利完善（五险一金、年终奖、股票等），但JD中未明确具体数字， salary_signal判断为'未披露'。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

90较高

职位涉及大模型、强化学习等前沿技术，团队技术氛围浓厚，有明确的成长路径和技术挑战，但JD中未提及正式培训或晋升通道。

技术前沿前沿/新兴技术

技术栈Python、Megatron-LM、DeepSpeed、PyTorch FSDP、PPO、DPO、GRPO、Verl、RL、大模型后训练、Game Agent

业务类型ambiguous

工作生活

40较低

仅现场办公，深圳南山科技园，地点核心但通常互联网大厂工作强度较高，JD中未提及WLB或弹性工作。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

游戏AI领域处于增长期，技术创新能带来玩家体验提升，有一定社会价值，但JD中未提及使命或行业影响力。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

腾讯

微信小游戏-大模型后训练工程师

立即应聘

微信小游戏-大模型后训练工程师

发布于大约 18 小时前

普通员工/个人贡献者

深圳市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

强化学习

Megatron-LM

DeepSpeed

PPO

DPO

Verl

Grpo

大模型后训练

Pytorch Fsdp

AI 估算 · 25k–45k

腾讯大厂核心岗位，大模型技术稀缺，深圳薪资水平高，中位数约35k/月，年终奖丰厚。

职位详情

关于这个职位

该职位是腾讯微信小游戏团队的大模型后训练工程师，主要负责将大模型技术应用于游戏业务场景，包括小游戏内容创作、开发者工具提效等

你将参与从数据构造、模型微调到线上效果验证的全链路研发，并跟踪前沿技术如强化学习、代码生成等

适合对AI+游戏有热情、具备分布式训练和强化学习经验的工程师

最低要求

计算机相关专业，具备较强的动手能力

熟悉 Python，具备扎实的系统编程功底和优秀的复杂系统 Debug 能力

训练框架经验：深入理解大模型分布式训练原理，具备 Megatron-LM、DeepSpeed 或 PyTorch FSDP 等主流框架的实际源码级开发与定制经验

综合素质：具备极强的技术好奇心与自驱力，面对业界无先例的技术难题，能独立思考并推动解决

工作职责

AI 洞察

优缺点分析

优点

涉及大模型前沿方向，如RL、代码生成等，技术积累价值高
团队处于业务扩张期，个人成长空间大，有机会接触全链路研发
技术复杂度高，需要同时掌握大模型训练、强化学习、游戏理解等多领域知识
业务场景新颖，业界可参考经验少，需要自主探索和创新能力

缺点 / 挑战

腾讯大平台，资源丰富，落地场景明确（微信小游戏），技术挑战高
可能面临快速迭代的压力，需要高效产出和持续学习
适合对AI+游戏充满热情、技术自驱力强、喜欢挑战前沿难题的算法工程师

角色解读

向大模型算法专家方向深耕，成为游戏AI领域的核心技术负责人
可转向AI平台架构或产品方向，或进入大模型基础研究团队
通过腾讯内部轮岗或晋升，成长为技术管理或高级技术专家
负责大模型在小游戏场景的应用落地，包括内容生成、代码生成等，从数据构造到模型微调再到效果验证
设计评测指标体系，通过数据飞轮机制持续提升模型能力，解决实际游戏研发中的问题
追踪前沿技术如强化学习、多模态生成等，并转化为业务价值
扎实的Python编程和系统Debug能力，熟悉分布式训练框架如Megatron、DeepSpeed
深入理解大模型后训练与对齐技术（PPO、DPO等），有强化学习框架使用经验
较强的问题分析与解决能力，能独立处理复杂技术难题

申请策略

准备一个完整的项目案例，展示从问题定义、技术选型到落地的过程
了解微信小游戏生态和腾讯游戏AI布局，面试中体现业务理解
突出大模型分布式训练框架的深度使用经验，如对Megatron或DeepSpeed的源码修改
强调强化学习相关项目，特别是PPO、DPO等后训练技术的落地经验
展示代码能力：复杂系统Debug案例、开源贡献或高性能编程项目
如果有游戏相关项目或AI内容生成经验，务必重点提及
补充强化学习框架（如Verl、ROLL）的实操经验，可快速上手
了解游戏开发基础（如Unity、小游戏引擎）会更契合业务

面试指南

分步骤陈述：问题背景 -> 技术选型 -> 具体实现 -> 效果评估 -> 迭代优化
注重对比不同方案的优缺点，体现思考深度
结合具体业务场景（小游戏）说明技术价值
请详细描述你使用Megatron-LM或DeepSpeed进行分布式训练的经验，遇到过什么困难？
如何设计大模型后训练的数据飞轮？请举例说明
请比较PPO和DPO的优劣，在游戏场景中你会选择哪种？
如何评估生成内容的可玩性和质量？请设计一个评测方案
针对代码生成任务，如何保证生成代码的正确性和可运行性？

职位点评

综合评分

腾讯核心业务，前沿大模型技术，高成长性，但工作强度和环境需考量。

更适合这类人

该职位最适合注重技术成长和职业发展的求职者，对于追求WLB的求职者挑战较大。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值70

薪资福利

80较高

腾讯为已上市巨头，薪资竞争力强，福利完善（五险一金、年终奖、股票等），但JD中未明确具体数字， salary_signal判断为'未披露'。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

90较高

职位涉及大模型、强化学习等前沿技术，团队技术氛围浓厚，有明确的成长路径和技术挑战，但JD中未提及正式培训或晋升通道。

技术前沿前沿/新兴技术

技术栈Python、Megatron-LM、DeepSpeed、PyTorch FSDP、PPO、DPO、GRPO、Verl、RL、大模型后训练、Game Agent

业务类型ambiguous

工作生活

40较低

仅现场办公，深圳南山科技园，地点核心但通常互联网大厂工作强度较高，JD中未提及WLB或弹性工作。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

游戏AI领域处于增长期，技术创新能带来玩家体验提升，有一定社会价值，但JD中未提及使命或行业影响力。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

微信小游戏-大模型后训练工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

微信小游戏-大模型后训练工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯 的其他在招职位

微信支付-大模型风控算法工程师

《使命召唤手游》视觉设计师（宣发向）

微信视频号-高级推荐大模型算法工程师-生态方向（北京）

魔方工作室-动作生成算法工程师-角色动画方向

J3-UE5动作游戏-资深动画设计

相似职位推荐

Agent Platform Engineer(MJ035816)

Android客户端开发实习生

测试开发工程师

后端开发工程师

R&D – Linux Android Platform Engineer

腾讯 的其他在招职位

微信支付-大模型风控算法工程师

《使命召唤手游》视觉设计师（宣发向）

微信视频号-高级推荐大模型算法工程师-生态方向（北京）

魔方工作室-动作生成算法工程师-角色动画方向

J3-UE5动作游戏-资深动画设计

相似职位推荐

Agent Platform Engineer(MJ035816)

Android客户端开发实习生

测试开发工程师

后端开发工程师

R&D – Linux Android Platform Engineer

腾讯的其他在招职位

腾讯的其他在招职位