Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型/Agent评测工程师-剪映
立即应聘

大模型/Agent评测工程师-剪映

发布于 大约 12 小时前

普通员工/个人贡献者

深圳市
其它
全职员工
仅现场办公
本科
机器学习
大模型
Prompt Engineering
评测体系
Llm-As-A-Judge

AI 估算 · 25k–50k

字节跳动大厂AI方向,薪资竞争力强,但技术深度要求高,月薪2.5-5万,15薪。

职位详情

关于这个职位

该职位负责大模型与Agent的评测体系建设,包括制定评测标准、构建评测集、开发评估能力,并对评测结果进行深度分析与归因,以推动模型能力的持续提升

你将与算法、产品等团队紧密协作,跟踪前沿评测技术,输出改进建议
适合对大模型技术有深入理解、热爱评测与质量保障的技术人才

最低要求

本科及以上学历,计算机科学、人工智能、软件工程等相关专业

对主流大模型的原理、能力边界及典型应用场景有较深入理解,熟悉大模型与Agent的常见评测方法
具备良好的工程基础,能够参与或主导评测框架、工具或平台的设计与实现
具备良好的业务理解能力、沟通与协作能力,能够与算法、产品、运营、研发团队高效协作,有技术判断力,逻辑思维清晰,学习能力强,能够推动评测体系在业务中的落地
坦诚清晰、积极乐观,责任心强、有主人翁意识,工作认真细致严谨,热爱技术,有较强的学习能力,有强烈的求知欲、好奇心和进取心,能及时关注和学习业界最新技术,对解决挑战性问题充满激情

工作职责

通用评测体系建设:包括评测标准,评测集,评估能力,评测结果分析与归因等系列能力建设,跟踪前沿评测技术与Benchmark趋势,开展技术调研与创新实践,推动评测体系升级

评测分析:基于评测结果进行分析与诊断,挖掘模型或Agent在推理、规划、工具调用、代码执行等环节的问题,并输出改进建议

优先资格

对大模型技术及其应用有浓厚兴趣,有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-Judge相关经验者优先

有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先
积极参与开源社区,有相关贡献者优先

AI 洞察

优缺点分析

优点

  • 身处AI最热门的大模型赛道,技术前沿,能接触到最新的技术趋势和行业实践
  • 字节跳动平台大,资源丰富,有完善的培训和技术氛围,个人成长快
  • 评测岗位稀缺性强,积累的经验具有高价值,未来跳槽或转型都很有竞争力
  • 工作强度较大,互联网大厂节奏快,可能需要应对紧急评测任务和频繁迭代
  • 技术深度要求高,需要持续学习,快速跟进前沿论文和开源项目
  • 评测工作有时被认为不如算法研发“核心”,需注意定位和发展
  • 适合对大模型技术有浓厚兴趣、热爱钻研、注重细节、乐于通过评测推动技术进步的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 在AI评测领域深耕,成为评测技术专家,主导行业评测标准制定
  • 横向拓展至模型训练、数据工程等方向,成长为全栈AI工程师或算法负责人
  • 向管理路线发展,带领评测团队,负责QA与效能改进
  • 设计和构建大模型与Agent的评测标准、数据集及自动化评估工具,确保模型能力的全面验证
  • 对评测结果进行深度分析与归因,定位模型在推理、规划、代码执行等环节的缺陷,并提出改进方向
  • 跟踪学术界和工业界的最新评测技术(如Benchmark、LLM-as-a-Judge),推动评测体系持续升级
  • 扎实的机器学习和大模型基础,理解Transformer、RLHF等核心原理,熟悉常见评测方法论
  • 优秀的工程能力,能使用Python等语言搭建评测框架,具备系统设计思维
  • 良好的跨团队协作能力,能与算法、产品、运营高效沟通,推动问题闭环

申请策略

  • 在面试中展现对大模型评测的深刻理解,并准备一个你设计的评测方案或对现有方法的改进建议
  • 了解字节剪映的业务方向,将评测与产品实际场景结合,体现业务导向思维
  • 重点突出你在NLP/大模型相关的项目经验,尤其是涉及评测、评估、Benchmark的经历
  • 展示工程能力,列出你搭建的自动化测试框架、数据分析工具等
  • 如果有开源贡献、技术博客或参加相关竞赛的经历,务必提及
  • 强调跨团队协作和推动落地的案例,体现你的沟通和问题解决能力
  • 尽快熟悉LLM-as-Judge、RLHF中的奖励模型评测等前沿方法
  • 动手搭建一个简单的Agent评测Demo,例如用LangChain评估工具调用准确性

面试指南

  • 对于评测设计问题:先明确评测目标(能力维度),再选择或构建评测集(覆盖常见/边缘场景),定义自动评估指标(准确率、鲁棒性、效率),最后设计人工抽检流程
  • 对于分析问题:采用“数据-模型-场景”三层归因法,先检查测试数据质量,再分析模型输出模式,最后联系实际使用场景定位根因
  • 你如何设计一个大模型在特定业务场景下的评测方案?请举例说明
  • 请解释LLM-as-Judge的原理和局限性,如何提高其评估准确性?
  • 当你发现模型在某个测试集上表现不佳时,如何分析原因并确定改进方向?
  • 你参与过的项目中,评测体系遇到的最大挑战是什么?是如何解决的?
  • 你对当前主流的Agent评测方法(如ToolBench、AgentBench)有什么看法?
  • 深入学习至少一个主流大模型(如GPT、Llama、Qwen)的论文和评测报告,熟悉其能力边界

匹配度报告

76
综合匹配度

字节剪映大模型评测岗,前沿技术、薪资优厚,但工作强度大、WLB一般。

适合人群
该职位最适合追求技术成长、看重薪资和行业前景、能接受高工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活50
使命价值80

薪资福利匹配

85较高

字节跳动薪资福利在行业中处于领先水平,但JD未明确披露具体待遇,属于高潜岗位。

薪资信号未披露(AI估算:25K-50K/月)

成长发展匹配

90较高

技术方向处于AI最前沿,涉及大模型和Agent,能快速积累核心技能,但JD未提及培训或晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、Agent、LLM、评测
业务类型ambiguous

工作生活匹配

50较低

大厂常伴高强度工作,JD未提及工作弹性,且深圳办公地点多在核心区,通勤可能较远。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

80较高

AI行业整体高速增长,大模型评测对技术发展有正向推动作用,但社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 视觉设计师(运营方向)-飞书(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 15k-25k
  • 达人内容治理策略运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 大模型应用算法工程师(People)-集团信息系统

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 增长营销资深运营经理(供应商管理方向)-TikTok

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 搜索增长产品经理(AI创作方向)-TikTok

    字节跳动 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 后端开发工程师

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • Technical Specialist – Application Software

    康明斯 · 武汉市
    AI 估算 · 20k-35k

字节跳动 的其他在招职位

  • 视觉设计师(运营方向)-飞书(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 15k-25k
  • 达人内容治理策略运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 大模型应用算法工程师(People)-集团信息系统

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 增长营销资深运营经理(供应商管理方向)-TikTok

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 搜索增长产品经理(AI创作方向)-TikTok

    字节跳动 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 后端开发工程师

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • Technical Specialist – Application Software

    康明斯 · 武汉市
    AI 估算 · 20k-35k