Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型/Agent评测工程师-飞书妙搭
立即应聘

大模型/Agent评测工程师-飞书妙搭

发布于 大约 13 小时前

普通员工/个人贡献者

杭州市
中级经验
全职员工
仅现场办公
本科
分布式系统
数据分析
自动化测试
LLM
大模型
评测体系
Gaia
Agentbench

AI 估算 · 25k–45k

大模型方向热门,字节薪资竞争力强,杭州略低于北京但整体偏高,预计月薪25k-45k。

职位详情

关于这个职位

该职位负责设计大模型与Agent的评测体系,构建标准化评测平台,支持模型迭代与业务落地

你将参与前沿AI技术验证,通过自动化评测和数据分析定位模型问题,推动评测流程智能化
适合对AI质量保障有热情的技术人才

最低要求

计算机科学、人工智能、软件工程等相关专业,本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解,熟悉大模型与Agent的常见评测方法
对主流LLM/Agent评测体系有较好理解,如GAIA、AgentBench等,能够基于评测结果进行结构化分析
具备良好的工程基础,能够参与或主导评测框架、工具或平台的设计与实现
具备良好的业务理解能力、沟通与协作能力,逻辑思维清晰,学习能力强,能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法,支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系,将真实业务流程抽象为可复现、可扩展的评测用例
负责整体评测体系与评测框架的设计与演进,支持大规模、高效率的分布式评测执行
研发大模型与Agent的评测框架与评测平台,支持评测流程标准化、评测结果分析与可视化展示
设计并维护评测指标体系,覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度
负责评测数据、评测样本与Benchmark的建设与治理,保障评测结果的客观性与可复现性
基于评测结果进行分析与诊断,定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题,并输出改进建议

AI 洞察

优缺点分析

优点

  • 切入大模型和Agent前沿赛道,技能积累快,行业前景广阔
  • 字节跳动平台资源丰富,可接触海量业务场景和顶尖技术团队
  • 评测体系需要同时兼顾业务落地和技术前瞻,跨部门协作要求高
  • 适合对AI质量保障有热情、技术功底扎实且善于跨团队协作的工程师,尤其适合希望深耕大模型方向的求职者

缺点 / 挑战

  • 工作内容兼具工程挑战与算法深度,个人成长空间大
  • 大模型评测技术仍在快速演进,需持续学习,知识更新压力较大
  • 互联网大厂工作强度较高,需适应快节奏和不确定性

角色解读

  • 成为AI评测领域的专家,主导评测体系从0到1的搭建,技术影响力辐射全团队
  • 向大模型算法或AI infra方向横向发展,积累模型研发与部署的深度经验
  • 晋升为技术Leader,带领团队负责评测平台的建设与演进,推动AI质量保障体系化
  • 设计并开发大模型与Agent的评测体系,包括通用评测和场景化评测,支撑模型迭代
  • 构建分布式评测框架与平台,实现评测流程标准化、自动化和可视化
  • 分析评测数据,定位模型在推理、规划、工具调用等方面的问题,输出改进建议
  • 维护评测指标体系和Benchmark,保障评测结果的客观性和可复现性
  • 深入理解大模型原理与能力边界,熟悉LLM/Agent常见评测方法
  • 掌握主流评测体系(如GAIA、AgentBench),能基于结果进行结构化分析
  • 扎实的工程能力,能主导或参与评测框架、平台的设计与实现
  • 良好的业务理解和沟通能力,能将复杂业务抽象为评测用例

申请策略

  • 在简历中明确标注评测相关的量化成果,如提升模型准确率X%或减少回归问题Y%
  • 面试前准备一个完整的评测方案设计案例,展示从需求分析到结果分析的全流程思考
  • 突出大模型或Agent相关项目经验,如参与过评测体系建设或模型效果评估
  • 展示工程能力,例如开发过自动化测试框架、分布式系统或数据处理平台
  • 强调对主流评测方法(如GAIA、AgentBench)的理解和应用案例
  • 体现业务抽象能力,如将实际流程转化为评测用例的经历
  • 深入研究GAIA、AgentBench等评测标准,并动手复现部分用例
  • 学习分布式计算框架(如Spark、Ray)和可视化工具(如Grafana),提升平台建设能力

面试指南

  • 结构化思维:先明确评测目标(能力维度/场景),再分层设计(指标、数据、流程),最后考虑效率和可扩展性
  • 案例驱动:用具体项目经历佐证,强调从问题分析到方案落地的闭环,突出数据驱动的决策过程
  • 批判性思考:指出当前方法的不足并提出改进思路,展示对技术前沿的关注
  • 请描述一下你熟悉的大模型评测体系,如何设计一个Agent的评测方案?
  • 如何平衡评测的全面性和执行效率?举例说明
  • 在评测中发现模型出现一致性问题时,你会如何定位和输出改进建议?
  • 如何将复杂的业务场景抽象为可复现的自动化评测用例?
  • 你如何看待现有评测标准(如GAIA)的局限性?如何改进?

匹配度报告

66
综合匹配度

大厂大模型方向,前沿技术栈与高成长性,但现场办公且强度较大。

适合人群
最适合追求技术成长和前沿领域探索的求职者,对薪资和WLB要求不高,愿意在快节奏中积累核心竞争力。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展90
工作生活40
使命价值65

薪资福利匹配

70中等

薪资未在JD中明确,但字节跳动整体薪资具有竞争力,大模型方向通常偏高,但未提及具体福利,补偿性满足中等偏上。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

90较高

职位聚焦大模型与Agent前沿技术,涉及评测体系设计、分布式平台开发,技能成长空间大,是典型的新兴技术岗位。

技术前沿前沿/新兴技术
技术栈大模型、Agent、LLM、GAIA、AgentBench、分布式系统
业务类型ambiguous

工作生活匹配

40较低

JD未提及远程或弹性办公,也未提及WLB福利,字节跳动通常现场办公且强度较高,生活化满足程度有限。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

65中等

大模型与Agent是当前高增长赛道,工作内容具有技术引领价值,但未明确提及社会使命或创新声明,意义感中等偏上。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • BDM-抖音生活服务(北京)

    字节跳动 · 北京市
    AI 估算 · 25k-35k
  • 大数据开发工程师-安全数仓

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 高级游戏SDK客户端开发工程师-绿洲

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 策略算法工程师-抖音直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 大客户广告销售-母婴宠物行业

    字节跳动 · 杭州市
    AI 估算 · 15k-30k

相似职位推荐

  • 高级客户端开发工程师(AFK Journey)

    莉莉丝 · 上海市
    AI 估算 · 25k-40k
  • 用户增长算法工程师

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • MVA LLM Developer

    奔驰 · 北京市
    AI 估算 · 30k-60k
  • 前端开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-7k
  • Android开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • BDM-抖音生活服务(北京)

    字节跳动 · 北京市
    AI 估算 · 25k-35k
  • 大数据开发工程师-安全数仓

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 高级游戏SDK客户端开发工程师-绿洲

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 策略算法工程师-抖音直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 大客户广告销售-母婴宠物行业

    字节跳动 · 杭州市
    AI 估算 · 15k-30k

相似职位推荐

  • 高级客户端开发工程师(AFK Journey)

    莉莉丝 · 上海市
    AI 估算 · 25k-40k
  • 用户增长算法工程师

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • MVA LLM Developer

    奔驰 · 北京市
    AI 估算 · 30k-60k
  • 前端开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-7k
  • Android开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-8k