Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
AI Agent评测工程师(Aime)-Dev Infra
立即应聘

AI Agent评测工程师(Aime)-Dev Infra

发布于 大约 17 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
硕士
数据分析
LLM
数据集构建
AI Agent
自动化评测
大模型评测
Agent评测
对比评测

AI 估算 · 30k–55k

北京大厂硕士岗位,AI Agent方向前沿技术,薪资具有竞争力。

职位详情

关于这个职位

作为字节跳动AI Agent评测工程师,你将深度参与公司Agent产品Aime的全生命周期评测,负责搭建评测体系、构建数据集、研发自动化评测工具,并输出可驱动产品迭代的深度结论

该岗位要求对LLM/Agent有深入理解,具备较强的问题分析与工程实现能力,适合希望在AI评测领域深耕的技术人才

最低要求

硕士及以上学位,计算机、人工智能、软件工程等相关专业,有大模型/LLM/Agent评测、对话系统评估、模型迭代相关经验优先

聪明、学习能力较强,能快速理解复杂Agent逻辑、评测痛点与业务目标,主动思考远多于被动执行
自驱和执行力拉满,追结果、不设限,对高质量有执念,对问题死磕到底
有评测集构建、评测方案设计、数据分析/结论提炼能力,能从数据中发现真问题、给出真方案
熟悉主流大模型生态,有评测工具开发、自动化评测、模型调用经验者优先

工作职责

深度参与字节跳动内部Agent产品Aime的全生命周期评测与迭代,主导评测体系搭建、评测集构建、自动化评测引擎研发,到产品自研评测、行业横向对标等全流程

负责AI Agent全维度评测体系设计与落地,构建高覆盖、高区分度、高可靠性的评测数据集与评测标准
研发和优化自动化评测工具、评测Agent,实现复杂场景、多任务能力的精准量化评估
负责公司Agent产品日常评测、版本迭代验收与问题定位,输出可直接驱动产品迭代的深度结论
开展行业主流Agent产品横向对比评测,挖掘优势与短板,为产品策略与技术方向提供关键依据
主动发现评测盲区、定义新评测维度,持续迭代评测方法论,支撑团队保持业内领先级评测能力

AI 洞察

优缺点分析

  • 字节跳动大平台,资源丰富,能接触到前沿AI Agent技术和海量业务场景
  • 岗位核心,直接参与产品全生命周期,对个人技术视野和影响力提升大
  • 公司发展快,薪资福利优厚,股票激励机会多
  • 评测工作需要高度细心和逻辑思维,重复性验收任务可能较为枯燥
  • AI Agent领域迭代迅速,需持续学习,保持技术敏感度
  • 工作强度可能较高,尤其在版本迭代周期内需交付深度结论
  • 适合对AI评测有热情、自驱力强、追求技术深度且能承受一定压力的求职者

角色解读

  • 可向AI评测专家或工程架构师方向发展,成为评测体系的核心构建者
  • 横向拓展至大模型应用或Agent产品研发,转型为全栈AI工程师
  • 长期可晋升为技术Leader,带领评测团队,影响产品战略方向
  • 主导AI Agent评测体系从0到1的搭建,包括评测维度设计、数据集构建和自动化评测引擎开发
  • 负责Agent产品日常评测与版本迭代验收,定位问题并输出深度分析结论驱动产品改进
  • 开展行业横向对比评测,挖掘产品优势与短板,为技术方向提供关键依据
  • 扎实的计算机基础,熟悉LLM/Agent原理,有评测或对话系统评估经验
  • 较强的编程能力,能独立开发自动化评测工具和脚本,精通Python及相关框架
  • 数据分析与问题定位能力,能从海量数据中发现真问题并给出可落地方案

申请策略

  • 申请时可在简历或求职信中表达对AI Agent领域的热情和深度思考
  • 准备一份关于评测体系设计或对比分析的案例,面试时可能用到
  • 突出大模型、Agent或对话系统的评测/评估经历,包括评测集构建、指标设计等
  • 展示自动化工具开发经验,如测试框架、数据流水线等项目
  • 强调数据分析与结论输出能力,可附上报告或博客链接
  • 提及字节跳动或类似大厂实习/工作经历将加分
  • 深入掌握主流大模型API和评测工具,如LangChain、Hugging Face Evaluate等
  • 加强自动化脚本编写能力,学习CI/CD与测试框架(如pytest)

面试指南

  • 先明确评测目标(质量、鲁棒性、安全性等),再设计方案(数据集、指标、自动化流程),最后举例说明效果
  • 针对开放性问题,采用STAR法则(情境-任务-行动-结果)结构化回答
  • 多联系实际项目经验,展现数据思维和工程能力
  • 你如何设计一个针对AI Agent的评测体系?请举例说明
  • 描述一次你从评测数据中发现产品问题的经历,你是如何分析并推动解决的?
  • 你对目前主流Agent产品的评测方法有什么看法?有哪些改进建议?
  • 请说说你对LLM评估中常见指标(如BLEU, ROUGE, GPT打分)的理解和局限性
  • 假设需要自动化评测Agent在复杂场景下的表现,你会如何设计工具和流程?

匹配度报告

72
综合匹配度

大厂前沿AI Agent评测岗,薪资优厚、技术新、成长快,但工作强度大、WLB一般。

适合人群
该职位最适合追求技术快速成长和高回报的求职者,能接受高强度工作和现场办公。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利90
成长发展95
工作生活40
使命价值65

薪资福利匹配

90较高

字节跳动是上市巨头,薪资福利在业界具有极高竞争力,且AI Agent是当前热门方向,预期薪酬丰厚。

薪资信号未披露 (30K-55K/月)

成长发展匹配

95较高

该岗位深度参与前沿AI Agent产品,技术栈新,成长空间大,且公司鼓励创新,发展导向强。

技术前沿前沿/新兴技术
技术栈AI Agent、LLM、大模型、自动化评测、Python
业务类型profit_center

工作生活匹配

40较低

工作地点为北京仅现场办公,未提及弹性或远程,互联网大厂通常工作强度较大,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

65中等

AI Agent是高速增长赛道,但岗位偏向技术支撑,社会影响力中性,个人使命感可能一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 游戏关卡策划-绿洲

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • Android开发工程师-今日头条

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • AI/大模型网络研发工程师

    字节跳动 · 深圳市
    AI 估算 · 30k-60k
  • 抖音直播服务端核心研发工程师-游戏商业化方向

    字节跳动 · 广州市
    AI 估算 · 25k-45k
  • 大模型Agent研究工程师-Seed

    字节跳动 · 上海市
    AI 估算 · 30k-60k

相似职位推荐

  • 半导体激光器研发工程师

    浪潮 · 济南市
    AI 估算 · 15k-25k
  • 算法工程师(语音合成方向)

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • TMS Electric Component

    大众汽车 · 合肥市
    AI 估算 · 15k-25k
  • 多模态大模型算法实习生(J97978)

    百度 · 北京市
    AI 估算 · 6k-10k

字节跳动 的其他在招职位

  • 游戏关卡策划-绿洲

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • Android开发工程师-今日头条

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • AI/大模型网络研发工程师

    字节跳动 · 深圳市
    AI 估算 · 30k-60k
  • 抖音直播服务端核心研发工程师-游戏商业化方向

    字节跳动 · 广州市
    AI 估算 · 25k-45k
  • 大模型Agent研究工程师-Seed

    字节跳动 · 上海市
    AI 估算 · 30k-60k

相似职位推荐

  • 半导体激光器研发工程师

    浪潮 · 济南市
    AI 估算 · 15k-25k
  • 算法工程师(语音合成方向)

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • TMS Electric Component

    大众汽车 · 合肥市
    AI 估算 · 15k-25k
  • 多模态大模型算法实习生(J97978)

    百度 · 北京市
    AI 估算 · 6k-10k