腾讯的微信搜索-AI Infra工程师-大模型后训练与RL方向（北京）（深圳）薪资是多少？

该职位薪资范围为 45k–65k（人民币/月）。

微信搜索-AI Infra工程师-大模型后训练与RL方向（北京）（深圳）的工作地点在哪里？

该职位工作地点位于北京市、深圳市、广州市。工作形式为仅现场办公。

腾讯的微信搜索-AI Infra工程师-大模型后训练与RL方向（北京）（深圳）有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

腾讯

微信搜索-AI Infra工程师-大模型后训练与RL方向（北京）（深圳）

立即应聘

微信搜索-AI Infra工程师-大模型后训练与RL方向（北京）（深圳）

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 深圳市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

Ai Infra

Grpo

Pytorch Fsdp

Verl

分布式训练

大模型后训练

强化学习

Areal

DeepSpeed

AI 估算 · 45k–65k

一线大厂高级AI Infra岗位，大模型方向稀缺，薪资竞争力强，技术难度高，市场溢价明显。

职位详情

关于这个职位

该职位是腾讯微信搜索团队下的AI Infra工程师，专注于大模型后训练与强化学习（RL）方向

你将负责设计和优化大模型后训练框架及RL训练系统，支撑LLM的高效稳定训练，并追踪引入业界最新开源技术

与搜索算法团队紧密合作，加速AI搜索大模型的落地

适合对分布式训练和大模型技术有深入理解的资深工程师

最低要求

具备较强的动手能力

熟悉 Python ，具备扎实的系统编程功底和优秀的复杂系统 Debug 能力

深入理解大模型分布式训练原理，具备 Megatron-LM、DeepSpeed 或 PyTorch FSDP 等主流框架的开发和优化经验

熟悉大模型后训练与对齐技术（PPO、GRPO、DPO等），熟悉 Verl、ROLL，AReal 等强化学习/分布式计算框架，有实际开发部署并解决相关问题的经验

熟悉最新的大模型结构，熟悉各种软硬件架构，能够结合具体的模型结构和软硬件架构做训练过程的深度优化

工作职责

负责大模型后训练框架和RL训练的设计，开发和优化

支撑LLM的高效、稳定训练

持续追踪并引入业界最新开源生态技术（如 Verl, Slime, ROLL, AReal 等）

与搜索算法团队紧密合作，设计实现高性能的AI搜索大模型，加速最新的大模型技术在搜索场景的落地

AI 洞察

优缺点分析

优点

站在大模型技术最前沿，接触最新开源生态，技术成长极快
腾讯微信搜索业务场景丰富，落地价值高，项目影响力大
大厂平台资源充足，薪资福利优厚，职业发展路径清晰
技术难度大，需要深入理解分布式训练和强化学习，学习曲线陡峭
适合有扎实系统编程功底、熟悉大模型分布式训练、对RL和后训练有热情的技术专家

缺点 / 挑战

工作强度较高，大模型训练节奏快，需持续跟进业界进展
岗位要求全面，既要有工程能力又要有算法背景，门槛较高

角色解读

技术专家路线：深耕大模型训练框架，成为AI Infra核心贡献者
架构师路线：转向分布式系统架构设计，主导大规模训练集群建设
管理路线：带团队负责AI训练平台，走向技术管理岗位
设计并优化大模型后训练框架（如PPO、GRPO等），确保LLM训练高效稳定
开发强化学习训练系统，追踪并集成如Verl、ROLL等开源技术
与搜索算法团队协作，将最新大模型技术落地到AI搜索场景
精通Python，具备扎实的系统编程和Debug能力
深入理解大模型分布式训练原理，熟练使用Megatron-LM、DeepSpeed、PyTorch FSDP等框架
熟悉大模型后训练与对齐技术（PPO、GRPO、DPO），并有实际部署经验
了解最新模型结构及软硬件架构，能进行深度训练优化

申请策略

关注腾讯微信搜索团队的业务方向，面试中展示对AI搜索的思考
准备一个完整的训练优化案例，从问题分析到解决方案，展示系统性思维
突出大模型分布式训练项目经验，特别是使用Megatron-LM/DeepSpeed等框架的优化成果
强调后训练或RL相关实战经验，如PPO/GRPO的部署调优
展示系统编程和Debug能力，可附上复杂问题解决案例
补充强化学习理论知识，如PPO、GRPO、DPO的数学原理
实践Verl、ROLL等开源框架，熟悉其架构和部署流程
了解最新大模型结构（如MoE、Multi-Query Attention）对训练的影响

面试指南

对于技术原理问题，先阐述基本概念，再结合项目实际说明选择理由和优化经验
对于工程问题，按问题定位-分析-解决-验证的步骤回答
对于开放性设计问题，先明确需求再给出多方案对比
请解释PPO和GRPO的区别，你在项目中如何选择？
如何优化Megatron-LM中的通信效率？遇到过哪些问题？
描述一次你解决大模型训练中OOM或性能瓶颈的经历
Verl框架的架构是怎样的？如何与Deepspeed集成？
如何评估后训练效果？常用的对齐指标有哪些？

职位点评

综合评分

大厂AI Infra核心岗位，前沿技术栈，发展性极佳，薪资优厚，但工作强度高且WLB一般。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

最适合追求技术成长和前沿挑战的求职者，对薪资和发展高度重视，能接受较高工作强度。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活40

使命价值65

薪资福利

80较高

腾讯作为上市大厂，薪资竞争力强，但JD未明确列出福利，仅从岗位稀缺性看待遇较高。

薪资信号未披露（AI估算：45K-65K/月）

成长发展

95较高

该职位处于AI前沿技术领域，能接触到最新的大模型训练框架和RL技术，发展性极强。

技术前沿前沿/新兴技术

技术栈Megatron-LM、DeepSpeed、PyTorch FSDP、PPO、GRPO、DPO、Verl、ROLL、AReal

业务类型profit_center

工作生活

40较低

未提及远程或弹性办公，大厂AI Infra岗位通常工作强度较高，WLB一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

65中等

大模型技术推动AI搜索发展，有较强的技术价值和社会影响力，但JD未明确使命感。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

腾讯的其他在招职位

相似职位推荐

Watch Jobs

微信搜索-AI Infra工程师-大模型后训练与RL方向（北京）（深圳）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯云-智慧零售-行业解决方案架构师（零售AI方向-FDE Consultant）-商超便利/零食渠道/营养保健滋补等方向

腾讯云-投标策略高级经理（深圳/北京/上海）

腾讯云-投标策略高级经理（深圳/北京/上海）

腾讯云-经营系统产品经理

光子 AI-大模型质量工程师-游戏方向

Linux 驱动资深工程师(J14506)

SSD应用工程师(J13147)

大数据开发工程师(J14247)

软件助理工程师-IOT(J11310)

软件测试工程师(J11601)

腾讯的其他在招职位

腾讯云-智慧零售-行业解决方案架构师（零售AI方向-FDE Consultant）-商超便利/零食渠道/营养保健滋补等方向

腾讯云-投标策略高级经理（深圳/北京/上海）

腾讯云-投标策略高级经理（深圳/北京/上海）

腾讯云-经营系统产品经理

光子 AI-大模型质量工程师-游戏方向

相似职位推荐

Linux 驱动资深工程师(J14506)

SSD应用工程师(J13147)

大数据开发工程师(J14247)

软件助理工程师-IOT(J11310)

软件测试工程师(J11601)

微信搜索-AI Infra工程师-大模型后训练与RL方向（北京）（深圳）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯 的其他在招职位

腾讯云-智慧零售-行业解决方案架构师（零售AI方向-FDE Consultant）-商超便利/零食渠道/营养保健滋补等方向

腾讯云-投标策略高级经理（深圳/北京/上海）

腾讯云-投标策略高级经理（深圳/北京/上海）

腾讯云-经营系统产品经理

光子 AI-大模型质量工程师-游戏方向

相似职位推荐

Linux 驱动资深工程师(J14506)

SSD应用工程师(J13147)

大数据开发工程师(J14247)

软件助理工程师-IOT(J11310)

软件测试工程师(J11601)

腾讯的其他在招职位