Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Tencent logo
腾讯
AI智能体/大模型评测高级工程师
立即应聘

AI智能体/大模型评测高级工程师

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
本科
软件工程
数据分析
PyTorch
自动化测试
TensorFlow
LLM
Swe-Bench
Ai评测
Agentbench
Humaneval

AI 估算 · 30k–55k

腾讯北京高级工程师,AI领域薪资较高,结合大厂标准和岗位要求,月薪区间预估合理。

职位详情

关于这个职位

作为腾讯AI智能体/大模型评测高级工程师,你将负责自研产品(如WorkBuddy、CodeBuddy)的质量保障与AI评测工作

你需要设计并持续演进大语言模型及Agent系统的评测体系,构建Benchmark,并跟踪业界评测基准动态
这个职位适合对AI质量评估有热情、熟悉LLM和Agent技术、具备较强编程和数据分析能力的工程师

最低要求

本科及以上学历,计算机科学、软件工程、人工智能或相关专业

熟练掌握 Python,具备脚本开发与数据处理能力
熟悉业界主流LLM评测基准与方法论(HumanEval、SWE-bench、MMLU、GSM8K等)
了解大语言模型的基本原理(Transformer架构、预训练、微调、RLHF、推理优化等)
具备Agent开发或测试经验,了解ReAct、Function Calling、Tool Use、Planning等核心概念

工作职责

负责腾讯自研龙虾WorkBuddy/腾讯AI IDE CodeBuddy产品质量保障及AI评测工作,推动产品质量体系,生成效果提升

负责大语言模型(LLM)及Agent系统的评测体系设计与持续演进,覆盖模型能力评测、Agent任务评测、端到端产品功能评测等,构建Benchmark
跟踪业界评测基准动态(如 SWE-bench、HumanEval、MMLU、AgentBench 等),结合业务场景进行适配与创新
从无到有参与产品AI评测算法、评测标准和评测流程制定,构建评测集、评测执行器,推进评测刚才体系建设

优先资格

有主流深度学习框架(PyTorch / TensorFlow / JAX)的实践经验者优先

有评测平台或自动化测试框架的开发经验者优先
具备数据分析能力,能从评测数据中提炼有价值的洞察

AI 洞察

优缺点分析

优点

  • 身处AI前沿领域,接触最新的大模型与Agent技术,技能积累速度快,行业前景广阔
  • 腾讯平台资源丰富,有机会参与影响亿级用户的产品质量保障,项目影响力大
  • 工作内容兼具技术深度与广度,从模型原理到工程实现,全面提升综合能力
  • AI评测领域尚在快速发展中,方法论不成熟,需要较强的创新和自驱力
  • 工作可能涉及高强度问题排查与迭代,对细节和耐心要求高
  • 需要持续跟踪学术界和工业界最新基准,保持技术敏感度

缺点 / 挑战

  • 适合对AI质量保障有热情、喜欢技术挑战、具备扎实编程基础和LLM/Agent知识的工程师,尤其是希望在AI评测领域建立专业壁垒的求职者

角色解读

  • 技术专家路线:深耕AI评测领域,成为LLM与Agent质量保障的权威专家,推动行业评测标准
  • 管理路线:未来可带领评测团队,从技术执行者转向团队管理,负责更大范围的产品质量
  • 横向发展:积累AI全栈理解,转向AI产品经理或AI算法工程师,拓宽职业路径
  • 负责腾讯自研AI产品(WorkBuddy、CodeBuddy)的质量保障与AI评测,确保模型生成效果和产品稳定性
  • 设计并持续演进大语言模型及Agent系统的评测体系,包括模型能力、Agent任务和端到端功能评测,构建Benchmark
  • 跟踪业界评测基准(如SWE-bench、HumanEval),结合业务场景进行适配与创新,推动评测算法和标准制定
  • 精通Python编程,具备脚本开发和数据处理能力,能够高效编写评测工具
  • 深入理解LLM基本原理(Transformer、预训练、微调、RLHF等),熟悉主流评测基准和方法论
  • 具备Agent开发或测试经验,掌握ReAct、Function Calling、Tool Use等核心概念
  • 加分项:深度学习框架经验(PyTorch/TensorFlow)、评测平台或自动化测试框架开发经验

申请策略

  • 在简历和面试中展示对腾讯AI产品(如AI助手、代码助手)的理解,提出评测改进想法
  • 关注腾讯技术博客或开源项目,了解公司技术文化,展现匹配度
  • 突出Python编程能力和数据处理经验,展示相关项目或开源贡献
  • 强调对LLM评测基准(如HumanEval、MMLU)的理解和实践,例如参与过类似评测任务
  • 如果有Agent开发或测试经历,详细描述在ReAct、Function Calling等方面的具体工作
  • 提及任何评测平台或自动化测试框架的开发经验,以及从评测数据中提取洞察的案例
  • 深入学习业界主流评测基准的原理和实现,如SWE-bench、AgentBench,尝试复现或改进
  • 掌握深度学习框架(PyTorch/TensorFlow),提升模型调试和实验能力

面试指南

  • STAR法则:描述情境(Situation)、任务(Task)、行动(Action)、结果(Result),特别是分析问题、设计评测方法和改进效果
  • 技术深度结合业务:先解释核心概念(如Benchmark设计原则),再联系腾讯产品实际场景,展示落地能力
  • 批判性思考:指出当前评测方法的不足,并提出创新点,体现主动性和专业性
  • 如何设计一个评测方案来衡量一个LLM在代码生成任务上的表现?
  • 谈谈你对SWE-bench的理解,它主要评测什么?有哪些局限性?
  • 如果你发现Agent在执行任务时频繁失败,你会如何分析原因并优化评测指标?
  • 请描述一个你使用Python进行数据分析和可视化的项目,重点说明从数据中得出了什么结论
  • 为什么选择AI评测方向?你对这个领域的未来有什么看法?

匹配度报告

68
综合匹配度

腾讯AI评测高级工程师,前沿技术栈,成长性好,但工作强度未知,现场办公。

适合人群
适合以技术成长为核心追求、对AI前沿领域有浓厚兴趣,并能接受较高工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展88
工作生活45
使命价值75

薪资福利匹配

65中等

腾讯作为上市公司,薪资水平具有竞争力,但JD未明确薪资和福利,信息不充分。高级工程师岗位通常薪资较高,但稳定性好,福利完善(如五险一金、补充医疗等未在JD中列出)。

薪资信号未披露(AI估算:30K-55K/月)

成长发展匹配

88较高

职位涉及前沿AI技术(大模型、Agent),技术栈新,能快速积累领域知识。虽然JD未提及晋升通道,但腾讯内部技术晋升体系完善,项目挑战性强,成长空间大。

技术前沿前沿/新兴技术
技术栈LLM、Agent、Python、PyTorch、TensorFlow、SWE-bench、HumanEval、MMLU、AgentBench
业务类型ambiguous

工作生活匹配

45较低

JD未提及远程办公或弹性工时,腾讯北京通常为现场办公,通勤可能较长。未提及其他WLB措施,工作强度可能较高。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

75中等

AI行业高速增长,职位直接参与AI产品质量提升,具有技术价值。但社会影响力中性,主要是商业产品导向,使命感有限。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 腾讯文档-AI自动化测试工程师

    腾讯 · 深圳市
    AI 估算 · 30k-50k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 腾讯云-运维工程师(北京)(成都)

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • 混元多模态研发项目经理(北京/深圳)

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • 《洛克王国:世界》-资深3D场景设计-资产制作方向

    腾讯 · 武汉市
    AI 估算 · 25k-40k

相似职位推荐

  • Electron 技术专家-MiMo

    小米 · 北京市
    AI 估算 · 35k-55k
  • 高级后端开发工程师-MiMo

    小米 · 北京市
    AI 估算 · 30k-50k
  • 高级客户端研发工程师-MiMo

    小米 · 北京市
    AI 估算 · 25k-45k
  • 推荐算法工程师-海外电商(redshop)方向

    小红书 · 北京市
    AI 估算 · 30k-50k
  • AI Agent 开发工程师

    小红书 · 上海市
    AI 估算 · 30k-50k

腾讯 的其他在招职位

  • 腾讯文档-AI自动化测试工程师

    腾讯 · 深圳市
    AI 估算 · 30k-50k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 腾讯云-运维工程师(北京)(成都)

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • 混元多模态研发项目经理(北京/深圳)

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • 《洛克王国:世界》-资深3D场景设计-资产制作方向

    腾讯 · 武汉市
    AI 估算 · 25k-40k

相似职位推荐

  • Electron 技术专家-MiMo

    小米 · 北京市
    AI 估算 · 35k-55k
  • 高级后端开发工程师-MiMo

    小米 · 北京市
    AI 估算 · 30k-50k
  • 高级客户端研发工程师-MiMo

    小米 · 北京市
    AI 估算 · 25k-45k
  • 推荐算法工程师-海外电商(redshop)方向

    小红书 · 北京市
    AI 估算 · 30k-50k
  • AI Agent 开发工程师

    小红书 · 上海市
    AI 估算 · 30k-50k