Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Tencent logo
腾讯
微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向
立即应聘

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向

发布于 1 天前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
硕士
研究与开发 (研发)
数据分析
PyTorch
多模态模型
大语言模型
HuggingFace
评测框架
Opencompass
Lm-Evaluation-Harness

AI 估算 · 30k–50k

腾讯大模型方向算法岗,北京薪资较高,硕士学历,竞争力强,整体薪资水平在市场中上。

职位详情

关于这个职位

加入腾讯,参与微信读书、输入法、秒剪等产品的大模型评测工作

你将设计评测体系与自动化工具链,评估LLM及多模态模型能力,与算法团队协作推动模型优化
适合对AI评测有热情、技术扎实的算法工程师

最低要求

计算机科学、人工智能、数学、统计学等相关专业硕士及以上学历

精通 Python,熟悉 PyTorch/HuggingFace 生态
深入理解 Transformer 架构及大模型训练流程(预训练、SFT、RLHF/DPO)
熟悉主流评测框架(如 OpenCompass、lm-evaluation-harness、HF Evaluate 等)及常用指标(BLEU、ROUGE、Pass@k、ELO 等)
具备优秀的数据分析能力和系统化思维
良好的跨团队沟通协作能力,能清晰表达复杂评测结论
对 AI 评测方法论有热情,关注行业最新进展

工作职责

评测体系建设:负责大语言模型(LLM)及多模态模型(语音/视频/图片)的评测体系设计与搭建

评测方案设计与执行: 构建自动化、可扩展的评测工具链,支持模型快速迭代验证
探索前沿评测方法,包括但不限于 LLM-as-a-Judge、动态评测、Arena 对战、复杂推理评估等
模型能力诊断与优化协同:通过量化分析定位模型短板,与算法团队紧密协作,推动模型能力持续提升

AI 洞察

优缺点分析

优点

  • 腾讯大平台,涉及微信读书、输入法等海量用户产品,影响力大
  • 大模型评测是当前AI热点,技术前沿,个人成长快
  • 团队技术氛围浓厚,能与顶尖算法工程师合作,积累宝贵经验
  • 薪资福利优厚,股票期权等
  • 评测定性难度大,需要不断探索新方法,面临技术不确定性
  • 模型迭代速度快,工作强度可能较大,需要快速学习和适应
  • 适合对AI评测有浓厚兴趣、技术基础扎实、善于数据分析且乐于沟通的算法工程师

缺点 / 挑战

  • 跨团队协作频繁,沟通成本较高,需具备较强的表达和推动能力

角色解读

  • 在评测领域深耕,成为AI评测专家,负责整个产品线的模型质量把控
  • 转向算法研发方向,利用评测经验优化模型算法,成为大模型训练专家
  • 向技术管理方向发展,带领评测团队,构建公司级评测体系
  • 设计并搭建大语言模型和多模态模型的评测体系,包括评测指标、数据集和流程
  • 开发自动化评测工具链,支持模型快速迭代和线上验证
  • 探索前沿评测方法,如LLM-as-a-Judge、Arena对战等,提升评测的科学性和全面性
  • 通过数据分析定位模型短板,与算法团队协作推动模型能力提升
  • 精通Python,熟练使用PyTorch和HuggingFace生态,理解Transformer架构和大模型训练流程
  • 熟悉主流评测框架(如OpenCompass、lm-evaluation-harness)和常见评测指标
  • 具备优秀的数据分析能力,能从海量评测数据中提取有效结论
  • 良好的沟通协作能力,能清晰表达复杂评测结论,推动跨团队协作

申请策略

  • 关注腾讯AI Lab的研究动态,了解其在大模型评测方面的布局
  • 准备一个完整的评测案例,展示从设计到结论的闭环能力
  • 突出大模型相关项目经验,尤其是评测或模型优化方面的成果
  • 强调Python、PyTorch等技能熟练度,以及使用过的评测框架和指标
  • 展示数据分析能力,例如通过数据发现模型问题并提出改进方案
  • 如有开源评测工具或论文发表,务必列出
  • 熟悉主流评测框架(OpenCompass、lm-evaluation-harness)的使用和定制
  • 深入理解大模型训练流程(SFT、RLHF),掌握常见模型架构

面试指南

  • 针对评测设计问题:先明确评测目标(能力维度),再选择指标和数据集,考虑自动化与人工结合,最后分析结果闭环
  • 针对技术理解问题:先阐述核心概念,再结合自身经验举例,最后点出优缺点或改进方向
  • 针对协作推动问题:用STAR法则(情境、任务、行动、结果)说明跨团队沟通案例
  • 请介绍你参与过的一个大模型评测项目,如何设计评测指标和流程?
  • 你对LLM-as-a-Judge方法有什么理解?有哪些优缺点?
  • 如何评估一个多模态模型的对话能力?请设计一个评测方案
  • 如果发现模型在某个维度得分低,你会如何分析原因并推动改进?
  • 你熟悉哪些自动化评测工具?如何构建可扩展的评测工具链?

职位点评

75
综合评分

腾讯大模型评测岗,前沿技术栈,薪资高,发展空间大,但需现场办公且强度可能较大。

更适合这类人
适合追求技术成长和前沿挑战,对WLB要求不高,希望在大平台积累经验的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展90
工作生活60
使命价值65

薪资福利

85较高

腾讯作为头部互联网公司,薪资福利具有竞争力,大模型方向薪资溢价明显,能较好满足补偿性动机。

薪资信号未披露(AI估算:30K-50K/月)

成长发展

90较高

职位涉及大模型评测前沿技术,团队专业度高,个人技术成长空间大,发展性动机满足程度高。

技术前沿前沿/新兴技术
技术栈大语言模型、多模态模型、Transformer、PyTorch、HuggingFace、LLM-as-a-Judge、Arena对战
业务类型ambiguous

工作生活

60中等

北京现场办公,互联网大厂工作强度较大,但腾讯比较注重团队氛围,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

65中等

AI评测对技术发展有贡献,但岗位偏技术支撑,社会价值中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 和平精英-高级关卡/战斗策划

    腾讯 · 深圳市
    AI 估算 · 25k-50k
  • 微信-小程序测试开发工程师

    腾讯 · 广州市
    AI 估算 · 20k-35k
  • 《英雄联盟》/《无畏契约》-社区高级产品经理-产品策划

    腾讯 · 深圳市
    AI 估算 · 40k-60k
  • 和平精英-游戏客户端开发工程师(Gameplay)

    腾讯 · 深圳市
    AI 估算 · 25k-50k
  • 《金铲铲之战》-发行运营推广

    腾讯 · 深圳市
    AI 估算 · 15k-25k

相似职位推荐

  • Product Engineer

    默克药厂 · 上海市
    AI 估算 · 20k-35k
  • Low Voltage Switchgear R&D Engineer

    伊顿中国 · 宁波市
    AI 估算 · 12k-20k
  • 算法工程师-TikTok直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • Intern-Software Developer

    爱立信 · 北京市
    AI 估算 · 4k-8k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-25k

腾讯 的其他在招职位

  • 和平精英-高级关卡/战斗策划

    腾讯 · 深圳市
    AI 估算 · 25k-50k
  • 微信-小程序测试开发工程师

    腾讯 · 广州市
    AI 估算 · 20k-35k
  • 《英雄联盟》/《无畏契约》-社区高级产品经理-产品策划

    腾讯 · 深圳市
    AI 估算 · 40k-60k
  • 和平精英-游戏客户端开发工程师(Gameplay)

    腾讯 · 深圳市
    AI 估算 · 25k-50k
  • 《金铲铲之战》-发行运营推广

    腾讯 · 深圳市
    AI 估算 · 15k-25k

相似职位推荐

  • Product Engineer

    默克药厂 · 上海市
    AI 估算 · 20k-35k
  • Low Voltage Switchgear R&D Engineer

    伊顿中国 · 宁波市
    AI 估算 · 12k-20k
  • 算法工程师-TikTok直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • Intern-Software Developer

    爱立信 · 北京市
    AI 估算 · 4k-8k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-25k