字节跳动的豆包AI大模型评测工程师-火山方舟MaaS薪资是多少？

该职位薪资范围为 20k–35k（人民币/月）。

豆包AI大模型评测工程师-火山方舟MaaS的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

字节跳动的豆包AI大模型评测工程师-火山方舟MaaS有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

豆包AI大模型评测工程师-火山方舟MaaS

立即应聘

豆包AI大模型评测工程师-火山方舟MaaS

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Coding

多轮对话

大模型评测

数据分析

自动化

GPT

RAG

AI 估算 · 20k–35k

杭州AI大厂评测岗，前端技术栈稀缺，薪资水平有竞争力，月薪范围2-3.5万。

职位详情

关于这个职位

作为豆包AI大模型评测工程师，你将深入理解企业客户的需求，构建端到端的评测流程，确保大模型在真实业务场景中的表现达到最优

你将负责设计评测案例、开发自动化工具，并与前沿的AI技术紧密互动

该岗位适合对LLM、Agent、RAG等方向有浓厚兴趣的技术人才

最低要求

获得本科及以上学历，计算机科学、软件工程、人工智能等相关专业

对主流Agent和Vibe coding工具非常熟悉，有丰富的使用经验

对主流大模型（GPT系列、Claude系列、开源模型）有深入使用经验，熟悉各模型能力边界

有数据分析能力，能从评测数据中发现Pattern、定位问题根因

较强的自驱力，能主动提出新的思路，并推动落地执行

工作职责

深入理解豆包AI大模型To B客户需求，将客户反馈转化为评测任务，确保评测结果真实反映客户使用效果

基于真实业务场景构建端到端评测Pipeline（含Agent工具调用、RAG检索、多轮对话等复合链路）

从实际使用视角设计评测案例——模拟客户真实Workflow，评估模型在完整工作流中的表现

设计Agent和Coding场景的过程评测指标（如工具调用准确率、代码通过率、多步规划成功率等），能拆解模型每一步的效果

实现评测自动化，在AI工具的帮助下，实现To B复杂场景的评测自动化

优先资格

硕士学位优先

AI 洞察

优缺点分析

优点

接触最前沿的大模型技术栈，紧跟AI行业趋势
字节跳动大平台，资源丰富，成长空间大
岗位技术含量高，积累的评测经验通用性强
大模型迭代极快，需要持续学习新工具和论文
评测标准对业务理解要求高，沟通成本较大
可能涉及高强度加班，尤其在项目冲刺阶段

缺点 / 挑战

适合对AI评测有热情、动手能力强、喜欢挑战复杂问题的技术人才

角色解读

横向拓展至AI产品经理或解决方案架构师，深入业务
纵向深耕AI评测与质量保障，成为领域专家
向模型训练/调优方向转型，积累数据敏感度
将客户需求转化为可量化的评测任务，设计覆盖Agent调用、RAG检索等场景的Pipeline
从真实Workflow出发构建评测案例，模拟多轮对话和复杂任务链路
开发自动化工具，提升评测效率，并拆解模型步骤级表现
精通主流大模型（GPT/Claude/开源）的能力边界和使用技巧
熟悉Agent框架和Vibe coding工具，能自主搭建评测环境
具备数据分析能力，能从评测数据中定位根因

申请策略

提前了解火山方舟MaaS平台和豆包模型的产品定位
准备一个自己设计的评测方案Demo，体现问题拆解能力
突出在Agent、RAG、多轮对话等场景的实际项目经验
展示对主流大模型的深度使用心得，如Benchmark结果或对比分析
强调自动化测试、数据分析相关技能和成果
熟悉LangChain、AutoGPT等Agent框架的实践
学习Prompt Engineering和评测指标设计
补充Python自动化脚本和CI/CD等工程能力

面试指南

先明确评测目标，再设计指标（如准确率、召回率），考虑边界和噪声
采取“假设-验证”思路：先通过数据统计发现异常，再深入分析case
强调对业务场景的理解，结合模型能力边界提出改进建议
如何设计一个评估Agent工具调用准确率的评测集？
请举例说明你如何从评测数据中定位模型的问题根因
你熟悉哪些大模型？它们的优缺点分别是什么？
如何实现一个端到端的自动化评测Pipeline？
当客户反馈模型效果不佳时，你如何快速定位问题？

职位点评

综合评分

字节AI评测岗，前沿技术栈，薪资优厚，但办公强度和加班风险较高。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

适合追求技术成长、不畏惧高强度的求职者，尤其希望站上AI浪潮前沿。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活50

使命价值70

薪资福利

75中等

字节跳动薪资水平在行业中属于头部，且岗位为AI核心方向，薪酬竞争力强。但JD未明确福利细节。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

岗位涉及最前沿的大模型、Agent等方向，技术更新快，成长空间极大。

技术前沿前沿/新兴技术

技术栈大模型、Agent、RAG、GPT、Claude、LLM

业务类型ambiguous

工作生活

50较低

杭州工作，但字节跳动工作强度较大，JD未提及灵活工作安排。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

70中等

AI大模型行业处于高速增长期，赋能企业智能化转型，但岗位本身偏向技术支撑，社会使命感一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

字节跳动的其他在招职位

相似职位推荐

Watch Jobs

豆包AI大模型评测工程师-火山方舟MaaS

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

SIP总监(J10513)

技术经理（影像算法方向）(J10941)

西门子中国研究院人工智能工程师

底盘底层软件工程师Embedded Software Architecture Eng.（长沙）

风电主轴轴承测试工程师Validat. & Verificat. Eng.（南京）

字节跳动的其他在招职位

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

相似职位推荐

SIP总监(J10513)

技术经理（影像算法方向）(J10941)

西门子中国研究院人工智能工程师

底盘底层软件工程师Embedded Software Architecture Eng.（长沙）

风电主轴轴承测试工程师Validat. & Verificat. Eng.（南京）

豆包AI大模型评测工程师-火山方舟MaaS

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

相似职位推荐

SIP总监(J10513)

技术经理（影像算法方向）(J10941)

西门子中国研究院 人工智能工程师

底盘底层软件工程师Embedded Software Architecture Eng.（长沙）

风电主轴轴承测试工程师Validat. & Verificat. Eng.（南京）

字节跳动的其他在招职位

西门子中国研究院人工智能工程师