字节跳动的豆包AI大模型评测工程师-火山方舟MaaS薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

豆包AI大模型评测工程师-火山方舟MaaS的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的豆包AI大模型评测工程师-火山方舟MaaS有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

豆包AI大模型评测工程师-火山方舟MaaS

立即应聘

豆包AI大模型评测工程师-火山方舟MaaS

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

多轮对话

大模型评测

数据分析

自动化

评测Pipeline

Claude系列

Gpt系列

RAG

AI 估算 · 25k–45k

字节跳动，北京，AI大模型评测岗，需掌握Agent、RAG等前沿技术，市场需求高，薪资竞争力强，预估月薪25k-45k。

职位详情

关于这个职位

作为豆包AI大模型评测工程师，你将深入理解To B客户需求，将客户反馈转化为评测任务，并构建端到端的评测Pipeline（含Agent、RAG、多轮对话等复杂场景）

你需要设计过程评测指标，实现自动化评测，确保模型在真实业务场景中的表现

这是一个技术深度高、与前沿AI紧密结合的岗位

最低要求

本科及以上学历，硕士学位优先

计算机科学、软件工程、人工智能等相关专业

对主流Agent和Vibe Coding工具非常熟悉，有丰富的使用经验

对主流大模型（GPT系列、Claude系列、开源模型）有深入使用经验，熟悉各模型能力边界

有数据分析能力，能从评测数据中发现Pattern、定位问题根因

较强的自驱力，能主动提出新的思路，并推动落地执行

工作职责

深入理解豆包AI大模型To B客户需求，将客户反馈转化为评测任务，确保评测结果真实反映客户使用效果

基于真实业务场景构建端到端评测Pipeline（含Agent工具调用、RAG检索、多轮对话等复合链路）

从实际使用视角设计评测案例——模拟客户真实Workflow，评估模型在完整工作流中的表现

设计Agent和Coding场景的过程评测指标（如工具调用准确率、代码通过率、多步规划成功率等），能拆解模型每一步的效果

实现评测自动化，在AI工具的帮助下，实现To B复杂场景的评测自动化

AI 洞察

优缺点分析

优点

接触最前沿的大模型技术和To B应用场景，技术成长快
字节跳动平台资源丰富，团队在AI领域领先，可积累宝贵经验
岗位核心度高，直接影响产品体验和客户满意度，成就感强
领域知识要求全面，需同时掌握大模型、Agent、评测自动化等多个方向
适合对AI大模型有浓厚兴趣、具备较强动手能力和数据分析能力，喜欢解决复杂问题并推动优化的技术型人才

缺点 / 挑战

工作强度可能较高，需要快速响应客户需求和模型迭代
评测结果需高度准确，压力较大，需要精细化的分析能力

角色解读

从评测工程师向AI应用架构师发展，深入参与大模型在To B场景的落地
积累大量模型评测和数据经验，转型为AI算法工程师或机器学习专家
在字节跳动内部可横向迁移至模型训练、产品管理等方向，晋升空间广阔
深入理解客户需求，将业务场景转化为具体的评测任务，确保评测结果贴近实际效果
构建端到端的评测Pipeline，集成Agent工具调用、RAG检索、多轮对话等复杂链路
设计精细的过程评测指标，如工具调用准确率、代码通过率，用于分解模型每一步的表现
实现评测自动化，借助AI工具提升复杂场景的评测效率
精通主流大模型（如GPT-4、Claude、开源模型）的使用方法和能力边界
熟练使用Agent和Vibe Coding工具，有丰富的实践经验和场景理解
强大的数据分析能力，能从评测数据中识别模式、定位问题根因
自驱力强，能主动提出新思路并推动落地，适合快速迭代的AI领域

申请策略

申请时强调对AI评测的热情和对字节跳动火山方舟产品的理解
准备好展示过往评测项目成果，最好有量化的数据支撑
突出大模型使用经验，尤其是Agent、RAG、多轮对话等场景的实战项目
展示评测框架或自动化工具的开发经历，如构建过评测Pipeline
强调数据分析案例，如通过数据发现模型问题并推动改进
如有开源贡献或技术博客，体现技术深度和自驱力
深入学习主流大模型的API和使用技巧，特别是GPT和Claude的agent能力
掌握Vibe Coding工具（如Cursor、Copilot）并积累实际项目经验

面试指南

STAR法则：描述背景、任务、行动和结果，突出个人贡献
结构化思考：先明确目标，再拆解步骤，最后用数据说话
强调闭环：不仅发现问题，还能提出改进方案并验证效果
请描述一个你设计过的评测Pipeline，包括使用的工具和指标
如何评估一个Agent在复杂多轮对话中的表现？你会设计哪些指标？
你如何从评测数据中定位模型的问题根因？请举例
你对主流大模型（如GPT-4、Claude）的能力边界有何理解？
如果客户反馈模型效果不佳，你会如何分析并改进评测方案？

职位点评

综合评分

字节跳动AI大模型评测岗，前沿技术栈、高成长性，但WLB一般。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

最看重技术成长和前沿AI实践的求职者，能接受较高强度工作。

表现最好

成长发展

相对薄弱

工作生活

薪资福利72

成长发展90

工作生活40

使命价值65

薪资福利

72中等

字节跳动作为大厂，薪资福利有竞争力，但JD未提及具体福利（如年终奖、补充医疗），且可能因高强度工作而影响稳定性预期。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

90较高

岗位涉及最前沿的AI大模型、Agent、RAG技术，成长性极强，且字节跳动提供丰富的内部资源和晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、Agent、RAG、多轮对话、Vibe Coding、GPT系列、Claude系列

业务类型profit_center

工作生活

40较低

北京办公，现场工作，未提及弹性工时或远程，互联网大厂通常工作强度大，WLB不突出。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

AI大模型是高速增长赛道，岗位直接参与To B应用落地，有一定社会影响力，但主要服务于商业客户，使命感中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

字节跳动的其他在招职位

相似职位推荐

Watch Jobs

豆包AI大模型评测工程师-火山方舟MaaS

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

音频仿真工程师(J13949)

技术经理（工业视觉方向）(J10940)

Deep Learning Performance Architect

AI Agent 平台高级算法工程师

光学图像-算法工程师-杭州

字节跳动的其他在招职位

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

相似职位推荐

音频仿真工程师(J13949)

技术经理（工业视觉方向）(J10940)

Deep Learning Performance Architect

AI Agent 平台高级算法工程师

光学图像-算法工程师-杭州

豆包AI大模型评测工程师-火山方舟MaaS

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

相似职位推荐

音频仿真工程师(J13949)

技术经理（工业视觉方向）(J10940)

Deep Learning Performance Architect

AI Agent 平台高级算法工程师

光学图像-算法工程师-杭州

字节跳动的其他在招职位