腾讯的混元Agent后训练算法工程师（北京/上海/深圳）薪资是多少？

该职位薪资范围为 35k–65k（人民币/月）。

混元Agent后训练算法工程师（北京/上海/深圳）的工作地点在哪里？

该职位工作地点位于北京市、上海市、深圳市。工作形式为仅现场办公。

腾讯的混元Agent后训练算法工程师（北京/上海/深圳）有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

腾讯

混元Agent后训练算法工程师（北京/上海/深圳）

立即应聘

混元Agent后训练算法工程师（北京/上海/深圳）

发布于大约 15 小时前

普通员工/个人贡献者

北京市 / 上海市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

PyTorch

强化学习

SFT

大模型

DeepSpeed

RLHF

后训练

AI 估算 · 35k–65k

腾讯大厂算法岗，Agent方向热门，硕士1年经验，结合市场行情，月薪35-65K，年终丰厚。

职位详情

关于这个职位

加入腾讯混元大模型团队，负责Agent后训练算法的设计与实现，包括指令微调、强化学习优化等

你将构建高质量训练数据体系，并针对复杂任务拆解、工具调用等场景研发创新算法，推动Agent能力突破

该岗位适合对LLM Agent有深入理解、渴望在实战中打磨技术的算法工程师

最低要求

计算机科学、人工智能、机器学习等相关专业硕士及以上学历，1年以上大模型后训练或Agent相关研发经验

扎实的算法基础：精通深度学习、强化学习、自然语言处理核心理论，深入理解大模型训练原理、Transformer架构及Agent决策机制

工程能力扎实：熟练掌握Python编程语言，精通PyTorch/TensorFlow框架及HuggingFace生态，具备大规模数据处理（Spark/Flink）与分布式训练（DDP/FSDP/DeepSpeed）实战经验

后训练实战经验：具备大模型指令微调、RLHF/RLAIF、奖励模型训练等后训练全流程经验，熟悉Agent任务规划、工具调用等核心场景的训练优化方法

工作职责

Agent后训练算法设计与实现：主导基模大模型的Agent化后训练方案研发，包括指令微调（SFT）、奖励模型（RM）训练、强化学习（RLHF/RLAIF）优化，聚焦任务规划、记忆机制、工具调用、多轮对话一致性等核心能力提升

后训练数据体系构建：设计Agent后训练数据的采集、清洗、标注与迭代策略，涵盖通用指令集、任务型对话数据、工具调用样本、多模态交互数据等，建立数据质量评估与筛选机制，优化数据分布与多样性

Agent能力优化与突破：针对Agent在复杂任务拆解、跨领域知识迁移、动态环境适配等场景的痛点，研发创新后训练算法（如分层任务规划训练、多智能体协作训练、反幻觉优化），提升Agent的决策准确性与鲁棒性

工程化落地与系统协作：搭建高效后训练流水线，支持大规模数据并行处理、分布式训练（DDP/FSDP）与模型压缩部署

与产品、工程团队协作，打通“后训练-评测-迭代”闭环，适配不同场景下的Agent产品需求

技术创新与沉淀：跟踪大模型Agent领域前沿技术（如LLM+Planning、Tool Learning、Multi-Agent Interaction），主导核心技术攻关与专利申请

输出可复用的后训练算法组件、技术文档与评测基准，推动团队技术能力沉淀

AI 洞察

优缺点分析

优点

腾讯大平台，资源丰富，混元模型在行业有影响力，技术积累深厚
Agent后训练是当前大模型最热门方向之一，职业前景广阔，技能稀缺性高
工作内容涵盖从数据到算法到工程全链路，个人成长空间大
团队技术氛围浓厚，有机会与顶尖人才共事，参与顶级会议论文和专利申请
工作强度较大，大模型训练周期长，需要快速迭代和解决问题
技术难度高，对算法和工程能力要求都很高，需要持续学习前沿技术
适合对LLM Agent有浓厚兴趣、渴望技术突破、能承受高强度工作、并希望在头部大厂积累核心经验的算法工程师

缺点 / 挑战

竞争激烈，需要产出显著效果才能体现价值，压力较大

角色解读

成为Agent后训练方向的资深专家，主导核心技术突破，推动模型能力跃迁
向技术管理方向转型，带领团队负责整个Agent训练体系的技术规划与迭代
横向拓展至多模态、多智能体协作等前沿方向，成为大模型领域顶尖人才
主导大模型Agent化后训练算法研发，包括指令微调、奖励模型训练、强化学习优化，提升Agent的任务规划、工具调用等能力
构建并迭代训练数据体系，设计数据采集、清洗、标注策略，保证数据质量与多样性
针对复杂任务拆解、跨领域迁移等痛点，研发创新后训练算法，如分层规划训练、反幻觉优化
搭建高效后训练流水线，与工程团队协作实现模型压缩部署和评测闭环
扎实的深度学习、强化学习、NLP理论基础，精通大模型训练原理及Transformer架构
熟练Python，精通PyTorch/TensorFlow及HuggingFace生态，有分布式训练经验（DDP/FSDP/DeepSpeed）
具备后训练全流程实战经验：SFT、RLHF、奖励模型训练，熟悉Agent任务规划与工具调用优化
大规模数据处理经验（Spark/Flink）和良好的工程落地能力

申请策略

深入了解混元Agent的现有能力和业务场景，思考如何通过后训练提升效果
准备一个你主导的后训练项目案例，用STAR法则详细阐述，并突出个人贡献
突出后训练相关项目经验：详细描述你在SFT、RLHF、奖励模型训练中的具体工作和成果
强调Agent方向：列举你在任务规划、工具调用、多轮对话等方面的优化实践，最好有量化指标
展示工程能力：说明你使用过的分布式训练框架、数据处理工具，以及如何搭建训练流水线
如有相关论文或专利，务必列出，体现创新能力
系统学习RLHF原理和实现，参考InstructGPT、Llama等开源模型的后训练方案
熟悉Agent框架如ReAct、AutoGPT等，了解工具调用和规划算法的实现细节

面试指南

对于项目经验类问题，采用STAR法则（情境、任务、行动、结果），并突出你的独特贡献和量化结果
对于开放性问题（如反幻觉、数据设计），先阐述问题背景和挑战，然后提出分步骤的思路，最后说明可能的验证方法
技术细节问题要深入，展示你对原理的理解，同时结合实际场景给出权衡
请详细描述你曾经做过的一个RLHF项目，包括数据构建、奖励模型设计、策略优化等环节，以及最终效果
如何设计Agent的训练数据以保证任务的泛化性和多轮对话的一致性？
在大规模分布式训练中，遇到过什么困难（如显存不足、训练不稳定）？如何解决的？
针对Agent的反幻觉问题，你有什么创新的训练思路？
如何评估Agent后训练的效果？你会设计哪些评测指标？

职位点评

综合评分

腾讯大厂、顶尖Agent后训练方向，高薪高成长，但工作强度大、必须现场办公。

更适合这类人

最适合发展性动机强烈的求职者，希望深耕前沿技术并获得快速成长，对WLB要求不高的候选人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活40

使命价值70

薪资福利

85较高

腾讯大厂提供具有竞争力的薪资和福利，包括六险一金、股票期权等，薪资水平处于行业前列，但具体薪资未在JD中披露，整体补偿性较好。

薪资信号未披露（AI估算：35K-65K/月）

成长发展

95较高

该岗位涉及最前沿的Agent后训练技术，能深度参与核心技术研发，有大量学习和创新机会，成长空间极大。

技术前沿前沿/新兴技术

技术栈Agent、后训练、RLHF、SFT、强化学习、Transformer

成长机会技术创新、专利申请、技术沉淀、前沿技术跟踪

业务类型profit_center

工作生活

40较低

该岗位明确要求现场办公，未提及弹性工作或远程，且大模型训练工作强度较高，WLB较差。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

70中等

腾讯混元大模型在行业有一定影响力，Agent方向有广泛的应用前景，能推动AI技术落地，但社会影响力相对中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

混元Agent后训练算法工程师（北京/上海/深圳）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯的其他在招职位

腾讯云大数据-高级产品架构师

智慧零售算法工程师

Project W-AI游戏工具策划

微信读书/输入法/秒剪-大模型后台开发工程师

微信读书/输入法/秒剪-大模型后台开发工程师

相似职位推荐

上车体布置集成工程师-人机工程方向

算法工程师-大模型

人形机器人全身运动控制算法工程师（强化学习方向）

Senior Algorithm Engineer

Advanced Physics & Algorithm Engineer

腾讯的其他在招职位

腾讯云大数据-高级产品架构师

智慧零售算法工程师

Project W-AI游戏工具策划

微信读书/输入法/秒剪-大模型后台开发工程师

微信读书/输入法/秒剪-大模型后台开发工程师

相似职位推荐

上车体布置集成工程师-人机工程方向

算法工程师-大模型

人形机器人全身运动控制算法工程师（强化学习方向）

Senior Algorithm Engineer

Advanced Physics & Algorithm Engineer

混元Agent后训练算法工程师（北京/上海/深圳）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯 的其他在招职位

腾讯云大数据-高级产品架构师

智慧零售算法工程师

Project W-AI游戏工具策划

微信读书/输入法/秒剪-大模型后台开发工程师

微信读书/输入法/秒剪-大模型后台开发工程师

相似职位推荐

上车体布置集成工程师-人机工程方向

算法工程师-大模型

人形机器人全身运动控制算法工程师（强化学习方向）

Senior Algorithm Engineer

Advanced Physics & Algorithm Engineer

腾讯 的其他在招职位

腾讯云大数据-高级产品架构师

智慧零售算法工程师

Project W-AI游戏工具策划

微信读书/输入法/秒剪-大模型后台开发工程师

微信读书/输入法/秒剪-大模型后台开发工程师

相似职位推荐

上车体布置集成工程师-人机工程方向

算法工程师-大模型

人形机器人全身运动控制算法工程师（强化学习方向）

Senior Algorithm Engineer

Advanced Physics & Algorithm Engineer

腾讯的其他在招职位

腾讯的其他在招职位