Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
豆包AI大模型评测工程师-火山方舟MaaS
立即应聘

豆包AI大模型评测工程师-火山方舟MaaS

发布于 大约 3 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
自动化
数据分析
RAG
多轮对话
大模型评测
评测Pipeline
Claude系列
Gpt系列

AI 估算 · 25k–45k

字节跳动,北京,AI大模型评测岗,需掌握Agent、RAG等前沿技术,市场需求高,薪资竞争力强,预估月薪25k-45k。

职位详情

关于这个职位

作为豆包AI大模型评测工程师,你将深入理解To B客户需求,将客户反馈转化为评测任务,并构建端到端的评测Pipeline(含Agent、RAG、多轮对话等复杂场景)

你需要设计过程评测指标,实现自动化评测,确保模型在真实业务场景中的表现
这是一个技术深度高、与前沿AI紧密结合的岗位

最低要求

本科及以上学历,硕士学位优先

计算机科学、软件工程、人工智能等相关专业
对主流Agent和Vibe Coding工具非常熟悉,有丰富的使用经验
对主流大模型(GPT系列、Claude系列、开源模型)有深入使用经验,熟悉各模型能力边界
有数据分析能力,能从评测数据中发现Pattern、定位问题根因
较强的自驱力,能主动提出新的思路,并推动落地执行

工作职责

深入理解豆包AI大模型To B客户需求,将客户反馈转化为评测任务,确保评测结果真实反映客户使用效果

基于真实业务场景构建端到端评测Pipeline(含Agent工具调用、RAG检索、多轮对话等复合链路)
从实际使用视角设计评测案例——模拟客户真实Workflow,评估模型在完整工作流中的表现
设计Agent和Coding场景的过程评测指标(如工具调用准确率、代码通过率、多步规划成功率等),能拆解模型每一步的效果
实现评测自动化,在AI工具的帮助下,实现To B复杂场景的评测自动化

AI 洞察

优缺点分析

优点

  • 接触最前沿的大模型技术和To B应用场景,技术成长快
  • 字节跳动平台资源丰富,团队在AI领域领先,可积累宝贵经验
  • 岗位核心度高,直接影响产品体验和客户满意度,成就感强
  • 领域知识要求全面,需同时掌握大模型、Agent、评测自动化等多个方向
  • 适合对AI大模型有浓厚兴趣、具备较强动手能力和数据分析能力,喜欢解决复杂问题并推动优化的技术型人才

缺点 / 挑战

  • 工作强度可能较高,需要快速响应客户需求和模型迭代
  • 评测结果需高度准确,压力较大,需要精细化的分析能力

角色解读

  • 从评测工程师向AI应用架构师发展,深入参与大模型在To B场景的落地
  • 积累大量模型评测和数据经验,转型为AI算法工程师或机器学习专家
  • 在字节跳动内部可横向迁移至模型训练、产品管理等方向,晋升空间广阔
  • 深入理解客户需求,将业务场景转化为具体的评测任务,确保评测结果贴近实际效果
  • 构建端到端的评测Pipeline,集成Agent工具调用、RAG检索、多轮对话等复杂链路
  • 设计精细的过程评测指标,如工具调用准确率、代码通过率,用于分解模型每一步的表现
  • 实现评测自动化,借助AI工具提升复杂场景的评测效率
  • 精通主流大模型(如GPT-4、Claude、开源模型)的使用方法和能力边界
  • 熟练使用Agent和Vibe Coding工具,有丰富的实践经验和场景理解
  • 强大的数据分析能力,能从评测数据中识别模式、定位问题根因
  • 自驱力强,能主动提出新思路并推动落地,适合快速迭代的AI领域

申请策略

  • 申请时强调对AI评测的热情和对字节跳动火山方舟产品的理解
  • 准备好展示过往评测项目成果,最好有量化的数据支撑
  • 突出大模型使用经验,尤其是Agent、RAG、多轮对话等场景的实战项目
  • 展示评测框架或自动化工具的开发经历,如构建过评测Pipeline
  • 强调数据分析案例,如通过数据发现模型问题并推动改进
  • 如有开源贡献或技术博客,体现技术深度和自驱力
  • 深入学习主流大模型的API和使用技巧,特别是GPT和Claude的agent能力
  • 掌握Vibe Coding工具(如Cursor、Copilot)并积累实际项目经验

面试指南

  • STAR法则:描述背景、任务、行动和结果,突出个人贡献
  • 结构化思考:先明确目标,再拆解步骤,最后用数据说话
  • 强调闭环:不仅发现问题,还能提出改进方案并验证效果
  • 请描述一个你设计过的评测Pipeline,包括使用的工具和指标
  • 如何评估一个Agent在复杂多轮对话中的表现?你会设计哪些指标?
  • 你如何从评测数据中定位模型的问题根因?请举例
  • 你对主流大模型(如GPT-4、Claude)的能力边界有何理解?
  • 如果客户反馈模型效果不佳,你会如何分析并改进评测方案?

匹配度报告

67
综合匹配度

字节跳动AI大模型评测岗,前沿技术栈、高成长性,但WLB一般。

适合人群
最看重技术成长和前沿AI实践的求职者,能接受较高强度工作。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利72
成长发展90
工作生活40
使命价值65

薪资福利匹配

72中等

字节跳动作为大厂,薪资福利有竞争力,但JD未提及具体福利(如年终奖、补充医疗),且可能因高强度工作而影响稳定性预期。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

90较高

岗位涉及最前沿的AI大模型、Agent、RAG技术,成长性极强,且字节跳动提供丰富的内部资源和晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、Agent、RAG、多轮对话、Vibe Coding、GPT系列、Claude系列
业务类型profit_center

工作生活匹配

40较低

北京办公,现场工作,未提及弹性工时或远程,互联网大厂通常工作强度大,WLB不突出。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

65中等

AI大模型是高速增长赛道,岗位直接参与To B应用落地,有一定社会影响力,但主要服务于商业客户,使命感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 豆包AI大模型评测工程师-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 20k-35k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 游玩小组负责人-抖音生活服务(山东)

    字节跳动 · 济南市
    AI 估算 · 15k-25k
  • 跨境物流A段流程规划师-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 15k-30k

相似职位推荐

  • 毫米波雷达高级算法工程师

    小米 · 北京市
    AI 估算 · 35k-55k
  • RD Assistant

    利洁时 · 上海市
    AI 估算 · 8k-15k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 12k-20k
  • Sr PD Chemist

    汉高 · 上海市
    AI 估算 · 20k-30k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 15k-25k

字节跳动 的其他在招职位

  • 豆包AI大模型评测工程师-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 20k-35k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 游玩小组负责人-抖音生活服务(山东)

    字节跳动 · 济南市
    AI 估算 · 15k-25k
  • 跨境物流A段流程规划师-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 15k-30k

相似职位推荐

  • 毫米波雷达高级算法工程师

    小米 · 北京市
    AI 估算 · 35k-55k
  • RD Assistant

    利洁时 · 上海市
    AI 估算 · 8k-15k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 12k-20k
  • Sr PD Chemist

    汉高 · 上海市
    AI 估算 · 20k-30k
  • Senior Lab Technician

    汉高 · 上海市
    AI 估算 · 15k-25k