Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
豆包AI大模型评测工程师-火山方舟MaaS
立即应聘

豆包AI大模型评测工程师-火山方舟MaaS

发布于 大约 3 小时前

普通员工/个人贡献者

杭州市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
自动化
数据分析
RAG
GPT
多轮对话
大模型评测
Coding

AI 估算 · 20k–35k

杭州AI大厂评测岗,前端技术栈稀缺,薪资水平有竞争力,月薪范围2-3.5万。

职位详情

关于这个职位

作为豆包AI大模型评测工程师,你将深入理解企业客户的需求,构建端到端的评测流程,确保大模型在真实业务场景中的表现达到最优

你将负责设计评测案例、开发自动化工具,并与前沿的AI技术紧密互动
该岗位适合对LLM、Agent、RAG等方向有浓厚兴趣的技术人才

最低要求

获得本科及以上学历,计算机科学、软件工程、人工智能等相关专业

对主流Agent和Vibe coding工具非常熟悉,有丰富的使用经验
对主流大模型(GPT系列、Claude系列、开源模型)有深入使用经验,熟悉各模型能力边界
有数据分析能力,能从评测数据中发现Pattern、定位问题根因
较强的自驱力,能主动提出新的思路,并推动落地执行

工作职责

深入理解豆包AI大模型To B客户需求,将客户反馈转化为评测任务,确保评测结果真实反映客户使用效果

基于真实业务场景构建端到端评测Pipeline(含Agent工具调用、RAG检索、多轮对话等复合链路)
从实际使用视角设计评测案例——模拟客户真实Workflow,评估模型在完整工作流中的表现
设计Agent和Coding场景的过程评测指标(如工具调用准确率、代码通过率、多步规划成功率等),能拆解模型每一步的效果
实现评测自动化,在AI工具的帮助下,实现To B复杂场景的评测自动化

优先资格

硕士学位优先

AI 洞察

优缺点分析

优点

  • 接触最前沿的大模型技术栈,紧跟AI行业趋势
  • 字节跳动大平台,资源丰富,成长空间大
  • 岗位技术含量高,积累的评测经验通用性强
  • 大模型迭代极快,需要持续学习新工具和论文
  • 评测标准对业务理解要求高,沟通成本较大
  • 可能涉及高强度加班,尤其在项目冲刺阶段

缺点 / 挑战

  • 适合对AI评测有热情、动手能力强、喜欢挑战复杂问题的技术人才

角色解读

  • 横向拓展至AI产品经理或解决方案架构师,深入业务
  • 纵向深耕AI评测与质量保障,成为领域专家
  • 向模型训练/调优方向转型,积累数据敏感度
  • 将客户需求转化为可量化的评测任务,设计覆盖Agent调用、RAG检索等场景的Pipeline
  • 从真实Workflow出发构建评测案例,模拟多轮对话和复杂任务链路
  • 开发自动化工具,提升评测效率,并拆解模型步骤级表现
  • 精通主流大模型(GPT/Claude/开源)的能力边界和使用技巧
  • 熟悉Agent框架和Vibe coding工具,能自主搭建评测环境
  • 具备数据分析能力,能从评测数据中定位根因

申请策略

  • 提前了解火山方舟MaaS平台和豆包模型的产品定位
  • 准备一个自己设计的评测方案Demo,体现问题拆解能力
  • 突出在Agent、RAG、多轮对话等场景的实际项目经验
  • 展示对主流大模型的深度使用心得,如Benchmark结果或对比分析
  • 强调自动化测试、数据分析相关技能和成果
  • 熟悉LangChain、AutoGPT等Agent框架的实践
  • 学习Prompt Engineering和评测指标设计
  • 补充Python自动化脚本和CI/CD等工程能力

面试指南

  • 先明确评测目标,再设计指标(如准确率、召回率),考虑边界和噪声
  • 采取“假设-验证”思路:先通过数据统计发现异常,再深入分析case
  • 强调对业务场景的理解,结合模型能力边界提出改进建议
  • 如何设计一个评估Agent工具调用准确率的评测集?
  • 请举例说明你如何从评测数据中定位模型的问题根因
  • 你熟悉哪些大模型?它们的优缺点分别是什么?
  • 如何实现一个端到端的自动化评测Pipeline?
  • 当客户反馈模型效果不佳时,你如何快速定位问题?

匹配度报告

71
综合匹配度

字节AI评测岗,前沿技术栈,薪资优厚,但办公强度和加班风险较高。

适合人群
适合追求技术成长、不畏惧高强度的求职者,尤其希望站上AI浪潮前沿。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活50
使命价值70

薪资福利匹配

75中等

字节跳动薪资水平在行业中属于头部,且岗位为AI核心方向,薪酬竞争力强。但JD未明确福利细节。

薪资信号未披露(AI估算:20K-35K/月)

成长发展匹配

90较高

岗位涉及最前沿的大模型、Agent等方向,技术更新快,成长空间极大。

技术前沿前沿/新兴技术
技术栈大模型、Agent、RAG、GPT、Claude、LLM
业务类型ambiguous

工作生活匹配

50较低

杭州工作,但字节跳动工作强度较大,JD未提及灵活工作安排。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

70中等

AI大模型行业处于高速增长期,赋能企业智能化转型,但岗位本身偏向技术支撑,社会使命感一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 游玩小组负责人-抖音生活服务(山东)

    字节跳动 · 济南市
    AI 估算 · 15k-25k
  • 跨境物流A段流程规划师-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 15k-30k
  • 企业效能顾问-飞书项目

    字节跳动 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 毫米波雷达高级算法工程师

    小米 · 北京市
    AI 估算 · 35k-55k
  • RD Assistant

    利洁时 · 上海市
    AI 估算 · 8k-15k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 12k-20k
  • Sr PD Chemist

    汉高 · 上海市
    AI 估算 · 20k-30k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 15k-25k

字节跳动 的其他在招职位

  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 游玩小组负责人-抖音生活服务(山东)

    字节跳动 · 济南市
    AI 估算 · 15k-25k
  • 跨境物流A段流程规划师-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 15k-30k
  • 企业效能顾问-飞书项目

    字节跳动 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 毫米波雷达高级算法工程师

    小米 · 北京市
    AI 估算 · 35k-55k
  • RD Assistant

    利洁时 · 上海市
    AI 估算 · 8k-15k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 12k-20k
  • Sr PD Chemist

    汉高 · 上海市
    AI 估算 · 20k-30k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 15k-25k