Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
豆包AI大模型评测工程师-火山方舟MaaS
立即应聘

豆包AI大模型评测工程师-火山方舟MaaS

发布于 大约 3 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
数据分析
RAG
多轮对话
火山引擎
Vibe Coding
Ai大模型评测
Claude系列
Gpt系列

AI 估算 · 25k–40k

字节跳动上海大模型核心岗位,技术门槛高,对标互联网大厂中级薪资,15薪覆盖年终奖。

职位详情

关于这个职位

作为豆包AI大模型评测工程师,你将深入理解企业客户的大模型应用需求,构建端到端评测Pipeline,全面评估模型在真实业务场景中的表现

通过设计评测案例、分析数据、定位问题根因,推动模型迭代与落地,是连接技术与业务的核心角色

最低要求

本科及以上学历,硕士学位优先

计算机科学、软件工程、人工智能等相关专业
对主流Agent和Vibe Coding工具非常熟悉,有丰富的使用经验
对主流大模型(GPT系列、Claude系列、开源模型)有深入使用经验,熟悉各模型能力边界
有数据分析能力,能从评测数据中发现Pattern、定位问题根因
较强的自驱力,能主动提出新的思路,并推动落地执行

工作职责

深入理解豆包AI大模型To B客户需求,将客户反馈转化为评测任务,确保评测结果真实反映客户使用效果

基于真实业务场景构建端到端评测Pipeline(含Agent工具调用、RAG检索、多轮对话等复合链路)
从实际使用视角设计评测案例——模拟客户真实Workflow,评估模型在完整工作流中的表现
设计Agent和Coding场景的过程评测指标(如工具调用准确率、代码通过率、多步规划成功率等),能拆解模型每一步的效果
实现评测自动化,在AI工具的帮助下,实现To B复杂场景的评测自动化

优先资格

硕士学位优先

AI 洞察

优缺点分析

优点

  • 字节跳动大平台,火山引擎是AI To B领军者,技术视野广阔
  • 接触前沿大模型技术(豆包、GPT、Claude等),紧跟行业趋势
  • 职位核心性强,工作成果直接影响模型落地效果,成就感高
  • 薪资待遇优厚,互联网大厂福利齐全
  • 工作强度可能较大,需要快速响应客户需求和模型迭代
  • 技术迭代快,需持续学习新模型、新工具,保持知识更新
  • 评测工作涉及大量细节,需耐心和细致的数据分析能力
  • 适合对AI大模型有浓厚兴趣,擅长技术分析、数据驱动决策,且自驱力强的技术人才

缺点 / 挑战

暂无明显挑战项

角色解读

  • 向大模型评测专家方向深耕,成为模型质量把控的核心人才
  • 横向转型为算法工程师或AI应用架构师,参与模型微调与应用开发
  • 晋升技术Leader,带领评测团队服务于企业客户
  • 深入理解To B客户的大模型使用场景,将客户反馈转化为具体的评测任务,确保评测效果贴合实际
  • 基于真实业务构建端到端评测Pipeline,涉及Agent工具调用、RAG检索、多轮对话等复杂链路
  • 设计模拟客户Workflow的评测案例,评估模型在完整任务链条中的表现
  • 制定过程评测指标(如工具调用准确率、代码通过率等),并实现评测自动化流程
  • 熟练掌握主流大模型(GPT、Claude等)的能力边界和使用技巧
  • 精通Agent和Vibe Coding工具,具备丰富的实际使用经验
  • 具备较强的数据分析能力,能从评测数据中定位模型问题根因
  • 自驱力强,能主动提出新思路并推动落地

申请策略

  • 关注火山引擎及豆包大模型的最新动态,在面试中体现对业务的了解
  • 准备好一个完整的评测方案或案例,展示你如何评估模型质量
  • 突出对大模型(GPT、Claude等)的深入使用经验,附上具体项目或评测案例
  • 展示Agent或RAG相关项目的成果,强调Pipeline搭建和指标设计能力
  • 强调数据分析能力,例如通过数据发现模型缺陷并推动改进的经历
  • 体现自驱力和创新性,如主动优化评测流程或引入新工具
  • 建议熟练掌握Python及常见AI框架(Hugging Face、LangChain等)
  • 深入了解Vibe Coding工具(如GitHub Copilot、Cursor等)的使用技巧

面试指南

  • 对于评测设计问题,可采用STAR法则:明确场景(S)、设定任务(T)、描述行动(A)、展示结果(R)
  • 对于问题定位问题,强调数据分析方法:先量化差距,再分维度拆解(如工具调用、多轮对话等),最后定位具体环节
  • 对于模型比较问题,建议从能力边界、使用成本、生态支持等维度对比,结合实测数据
  • 如何设计一个针对大模型Agent的评测Pipeline?请举例说明
  • 你如何从评测数据中定位模型的问题根因?能否分享一个实际案例?
  • 假设客户反馈模型在某些场景下表现不佳,你会如何处理?
  • 你对Vibe Coding工具有哪些使用经验?它们如何提升你的效率?
  • 请比较一下GPT-4和Claude-3在代码生成任务上的优劣

匹配度报告

73
综合匹配度

火山引擎大模型评测,前沿技术栈,高成长高回报,但WLB一般。

适合人群
适合优先看重技术成长和薪资回报,对工作节奏有一定承受能力的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展92
工作生活45
使命价值75

薪资福利匹配

80较高

字节跳动薪资在行业中处于顶尖水平,福利体系完善,但JD中未明确薪资范围,面试时可进一步确认具体待遇。

薪资信号未披露(AI估算:25K-40K/月)

成长发展匹配

92较高

该职位涉及最前沿的大模型技术与评测方法,能深度接触Agent、RAG等热门方向,成长空间极大,但JD未明确提及晋升通道或培训机制。

技术前沿前沿/新兴技术
技术栈AI大模型、Agent、RAG、GPT、Claude、火山引擎、Vibe Coding
业务类型ambiguous

工作生活匹配

45较低

工作地点上海,未提及远程或弹性办公,通常互联网大厂存在一定强度,WLB信号缺失。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

75中等

大模型To B应用是高速增长赛道,工作能直接推动AI技术在企业落地,社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 豆包AI大模型评测工程师-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 20k-35k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 游玩小组负责人-抖音生活服务(山东)

    字节跳动 · 济南市
    AI 估算 · 15k-25k
  • 跨境物流A段流程规划师-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 15k-30k

相似职位推荐

  • 毫米波雷达高级算法工程师

    小米 · 北京市
    AI 估算 · 35k-55k
  • RD Assistant

    利洁时 · 上海市
    AI 估算 · 8k-15k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 12k-20k
  • Sr PD Chemist

    汉高 · 上海市
    AI 估算 · 20k-30k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 15k-25k

字节跳动 的其他在招职位

  • 豆包AI大模型评测工程师-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 20k-35k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 游玩小组负责人-抖音生活服务(山东)

    字节跳动 · 济南市
    AI 估算 · 15k-25k
  • 跨境物流A段流程规划师-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 15k-30k

相似职位推荐

  • 毫米波雷达高级算法工程师

    小米 · 北京市
    AI 估算 · 35k-55k
  • RD Assistant

    利洁时 · 上海市
    AI 估算 · 8k-15k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 12k-20k
  • Sr PD Chemist

    汉高 · 上海市
    AI 估算 · 20k-30k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 15k-25k