Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Tencent logo
腾讯
混元Agent后训练算法工程师(北京/上海/深圳)
立即应聘

混元Agent后训练算法工程师(北京/上海/深圳)

发布于 大约 15 小时前

普通员工/个人贡献者

北京市 / 上海市
中级经验
全职员工
仅现场办公
硕士
研究与开发 (研发)
PyTorch
强化学习
SFT
大模型
DeepSpeed
RLHF
后训练

AI 估算 · 35k–65k

腾讯大厂算法岗,Agent方向热门,硕士1年经验,结合市场行情,月薪35-65K,年终丰厚。

职位详情

关于这个职位

加入腾讯混元大模型团队,负责Agent后训练算法的设计与实现,包括指令微调、强化学习优化等

你将构建高质量训练数据体系,并针对复杂任务拆解、工具调用等场景研发创新算法,推动Agent能力突破
该岗位适合对LLM Agent有深入理解、渴望在实战中打磨技术的算法工程师

最低要求

计算机科学、人工智能、机器学习等相关专业硕士及以上学历,1年以上大模型后训练或Agent相关研发经验

扎实的算法基础:精通深度学习、强化学习、自然语言处理核心理论,深入理解大模型训练原理、Transformer架构及Agent决策机制
工程能力扎实:熟练掌握Python编程语言,精通PyTorch/TensorFlow框架及HuggingFace生态,具备大规模数据处理(Spark/Flink)与分布式训练(DDP/FSDP/DeepSpeed)实战经验
后训练实战经验:具备大模型指令微调、RLHF/RLAIF、奖励模型训练等后训练全流程经验,熟悉Agent任务规划、工具调用等核心场景的训练优化方法

工作职责

Agent后训练算法设计与实现:主导基模大模型的Agent化后训练方案研发,包括指令微调(SFT)、奖励模型(RM)训练、强化学习(RLHF/RLAIF)优化,聚焦任务规划、记忆机制、工具调用、多轮对话一致性等核心能力提升

后训练数据体系构建:设计Agent后训练数据的采集、清洗、标注与迭代策略,涵盖通用指令集、任务型对话数据、工具调用样本、多模态交互数据等,建立数据质量评估与筛选机制,优化数据分布与多样性
Agent能力优化与突破:针对Agent在复杂任务拆解、跨领域知识迁移、动态环境适配等场景的痛点,研发创新后训练算法(如分层任务规划训练、多智能体协作训练、反幻觉优化),提升Agent的决策准确性与鲁棒性
工程化落地与系统协作:搭建高效后训练流水线,支持大规模数据并行处理、分布式训练(DDP/FSDP)与模型压缩部署
与产品、工程团队协作,打通“后训练-评测-迭代”闭环,适配不同场景下的Agent产品需求
技术创新与沉淀:跟踪大模型Agent领域前沿技术(如LLM+Planning、Tool Learning、Multi-Agent Interaction),主导核心技术攻关与专利申请
输出可复用的后训练算法组件、技术文档与评测基准,推动团队技术能力沉淀

AI 洞察

优缺点分析

优点

  • 腾讯大平台,资源丰富,混元模型在行业有影响力,技术积累深厚
  • Agent后训练是当前大模型最热门方向之一,职业前景广阔,技能稀缺性高
  • 工作内容涵盖从数据到算法到工程全链路,个人成长空间大
  • 团队技术氛围浓厚,有机会与顶尖人才共事,参与顶级会议论文和专利申请
  • 工作强度较大,大模型训练周期长,需要快速迭代和解决问题
  • 技术难度高,对算法和工程能力要求都很高,需要持续学习前沿技术
  • 适合对LLM Agent有浓厚兴趣、渴望技术突破、能承受高强度工作、并希望在头部大厂积累核心经验的算法工程师

缺点 / 挑战

  • 竞争激烈,需要产出显著效果才能体现价值,压力较大

角色解读

  • 成为Agent后训练方向的资深专家,主导核心技术突破,推动模型能力跃迁
  • 向技术管理方向转型,带领团队负责整个Agent训练体系的技术规划与迭代
  • 横向拓展至多模态、多智能体协作等前沿方向,成为大模型领域顶尖人才
  • 主导大模型Agent化后训练算法研发,包括指令微调、奖励模型训练、强化学习优化,提升Agent的任务规划、工具调用等能力
  • 构建并迭代训练数据体系,设计数据采集、清洗、标注策略,保证数据质量与多样性
  • 针对复杂任务拆解、跨领域迁移等痛点,研发创新后训练算法,如分层规划训练、反幻觉优化
  • 搭建高效后训练流水线,与工程团队协作实现模型压缩部署和评测闭环
  • 扎实的深度学习、强化学习、NLP理论基础,精通大模型训练原理及Transformer架构
  • 熟练Python,精通PyTorch/TensorFlow及HuggingFace生态,有分布式训练经验(DDP/FSDP/DeepSpeed)
  • 具备后训练全流程实战经验:SFT、RLHF、奖励模型训练,熟悉Agent任务规划与工具调用优化
  • 大规模数据处理经验(Spark/Flink)和良好的工程落地能力

申请策略

  • 深入了解混元Agent的现有能力和业务场景,思考如何通过后训练提升效果
  • 准备一个你主导的后训练项目案例,用STAR法则详细阐述,并突出个人贡献
  • 突出后训练相关项目经验:详细描述你在SFT、RLHF、奖励模型训练中的具体工作和成果
  • 强调Agent方向:列举你在任务规划、工具调用、多轮对话等方面的优化实践,最好有量化指标
  • 展示工程能力:说明你使用过的分布式训练框架、数据处理工具,以及如何搭建训练流水线
  • 如有相关论文或专利,务必列出,体现创新能力
  • 系统学习RLHF原理和实现,参考InstructGPT、Llama等开源模型的后训练方案
  • 熟悉Agent框架如ReAct、AutoGPT等,了解工具调用和规划算法的实现细节

面试指南

  • 对于项目经验类问题,采用STAR法则(情境、任务、行动、结果),并突出你的独特贡献和量化结果
  • 对于开放性问题(如反幻觉、数据设计),先阐述问题背景和挑战,然后提出分步骤的思路,最后说明可能的验证方法
  • 技术细节问题要深入,展示你对原理的理解,同时结合实际场景给出权衡
  • 请详细描述你曾经做过的一个RLHF项目,包括数据构建、奖励模型设计、策略优化等环节,以及最终效果
  • 如何设计Agent的训练数据以保证任务的泛化性和多轮对话的一致性?
  • 在大规模分布式训练中,遇到过什么困难(如显存不足、训练不稳定)?如何解决的?
  • 针对Agent的反幻觉问题,你有什么创新的训练思路?
  • 如何评估Agent后训练的效果?你会设计哪些评测指标?

职位点评

72
综合评分

腾讯大厂、顶尖Agent后训练方向,高薪高成长,但工作强度大、必须现场办公。

更适合这类人
最适合发展性动机强烈的求职者,希望深耕前沿技术并获得快速成长,对WLB要求不高的候选人。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展95
工作生活40
使命价值70

薪资福利

85较高

腾讯大厂提供具有竞争力的薪资和福利,包括六险一金、股票期权等,薪资水平处于行业前列,但具体薪资未在JD中披露,整体补偿性较好。

薪资信号未披露(AI估算:35K-65K/月)

成长发展

95较高

该岗位涉及最前沿的Agent后训练技术,能深度参与核心技术研发,有大量学习和创新机会,成长空间极大。

技术前沿前沿/新兴技术
技术栈Agent、后训练、RLHF、SFT、强化学习、Transformer
成长机会技术创新、专利申请、技术沉淀、前沿技术跟踪
业务类型profit_center

工作生活

40较低

该岗位明确要求现场办公,未提及弹性工作或远程,且大模型训练工作强度较高,WLB较差。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值

70中等

腾讯混元大模型在行业有一定影响力,Agent方向有广泛的应用前景,能推动AI技术落地,但社会影响力相对中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 腾讯云大数据-高级产品架构师

    腾讯 · 深圳市
    AI 估算 · 35k-55k
  • 智慧零售算法工程师

    腾讯 · 武汉市
    AI 估算 · 20k-35k
  • Project W-AI游戏工具策划

    腾讯 · 深圳市
    AI 估算 · 20k-40k
  • 微信读书/输入法/秒剪-大模型后台开发工程师

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • 微信读书/输入法/秒剪-大模型后台开发工程师

    腾讯 · 广州市
    AI 估算 · 25k-45k

相似职位推荐

  • 上车体布置集成工程师-人机工程方向

    小米 · 南京市
    AI 估算 · 15k-25k
  • 算法工程师-大模型

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • 人形机器人全身运动控制算法工程师(强化学习方向)

    三星 · 北京市
    AI 估算 · 25k-40k
  • Senior Algorithm Engineer

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • Advanced Physics & Algorithm Engineer

    飞利浦 · 沈阳市
    AI 估算 · 20k-35k

腾讯 的其他在招职位

  • 腾讯云大数据-高级产品架构师

    腾讯 · 深圳市
    AI 估算 · 35k-55k
  • 智慧零售算法工程师

    腾讯 · 武汉市
    AI 估算 · 20k-35k
  • Project W-AI游戏工具策划

    腾讯 · 深圳市
    AI 估算 · 20k-40k
  • 微信读书/输入法/秒剪-大模型后台开发工程师

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • 微信读书/输入法/秒剪-大模型后台开发工程师

    腾讯 · 广州市
    AI 估算 · 25k-45k

相似职位推荐

  • 上车体布置集成工程师-人机工程方向

    小米 · 南京市
    AI 估算 · 15k-25k
  • 算法工程师-大模型

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • 人形机器人全身运动控制算法工程师(强化学习方向)

    三星 · 北京市
    AI 估算 · 25k-40k
  • Senior Algorithm Engineer

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • Advanced Physics & Algorithm Engineer

    飞利浦 · 沈阳市
    AI 估算 · 20k-35k