Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
AI算法工程师(自动评测方向)-即梦
立即应聘

AI算法工程师(自动评测方向)-即梦

发布于 5 天前

普通员工/个人贡献者

深圳市
其它
全职员工
仅现场办公
本科
研究与开发 (研发)
数据分析
LLM
多模态
AIGC
VLM
自动化评测
Agent Evaluation

AI 估算 · 25k–45k

字节跳动深圳算法工程师岗位,AI评测方向属于热门领域,薪资具有竞争力,结合大厂和大模型赛道溢价,月薪2.5-4.5万较合理。

职位详情

关于这个职位

作为即梦团队的AI算法工程师(自动评测方向),你将专注于构建自动化评测体系,覆盖Agent的规划、工具调用、多轮交互和创作质量

工作涉及设计LLM/VLM-as-Judge等评测方法,建设诊断能力,并与多个团队协作推动模型和系统迭代
适合对大模型评测和Agentic产品有浓厚兴趣的技术人才

最低要求

本科及以上学历,计算机、人工智能、机器学习、软件工程、数学、统计等相关专业

熟悉大模型评测、Agent Evaluation、Benchmark构建、LLM/VLM-as-Judge、偏好评测中的一种或多种技术
具备良好的数据分析、实验设计和问题归因能力,能够从复杂创作任务中抽象出可量化、可复现、可追踪的评测指标
熟悉Python,具备较强的工程实现能力,能够建设稳定、自动化、可扩展的评测流水线和分析工具

工作职责

负责即梦创作Agent的自动化评测体系建设,覆盖任务规划、工具调用、多轮交互、创作结果质量、长链路任务成功率等核心能力,构建面向图片、视频、多模态编辑与创作场景的Benchmark、评测集、案例集和回归测试体系

设计LLM/VLM-as-Judge、Rubrics-based Evaluation、轨迹评测、工具调用评测、结果偏好评测等方法,提升评测的准确性、稳定性和可解释性
建设Agent运行过程的自动化诊断能力,对失败链路进行归因分析,包括任务理解错误、规划错误、工具选择错误、上下文缺失、执行失败等
与Harness、模型、数据、产品团队协作,打通离线评测、线上反馈、失败案例挖掘和模型/系统迭代闭环
跟进Agent Evaluation、多模态评测、Reward Model、LLM Judge等前沿方向,推动评测方法在真实创作场景中落地

优先资格

了解LLM/VLM、Tool Use、Function Call、多轮对话、AIGC图片/视频生成或编辑任务者优先,具备良好的系统思维和跨团队协作能力,能够推动评测结果转化为模型、数据和产品迭代方向

对Agentic产品、多模态创作产品和自动化评测体系建设有浓厚兴趣

AI 洞察

优缺点分析

优点

  • 字节跳动大平台,即梦产品在AIGC领域快速增长,技术影响力大
  • 接触前沿的LLM/VLM、Agent技术,能积累稀缺的评测方法论
  • 团队协作紧密,有机会与Harness、模型、产品等核心团队合作
  • 评测体系构建需要抽象复杂创作任务,对逻辑和系统思维要求高
  • 适合对大模型评测和Agent系统有浓厚兴趣,具备扎实工程和分析能力,并希望在AI领域前沿技术方向深耕的求职者

缺点 / 挑战

  • 需要持续跟进前沿论文,技术迭代快,学习压力较大
  • 跨团队沟通协调频繁,对协作能力有较高要求

角色解读

  • 深耕AI评测领域,成为Agent Evaluation或LLM Judge方向的专家
  • 向高阶算法工程师或技术Leader发展,主导评测体系架构设计
  • 横向扩展至模型训练、数据工程或产品方向,成为跨领域人才
  • 设计并构建自动化评测体系,覆盖AI Agent的任务规划、工具调用、多轮交互及创作结果质量
  • 开发LLM/VLM-as-Judge等评测方法,提升评测的准确性、稳定性和可解释性
  • 对Agent运行失败链路进行归因分析,推动模型、数据和产品的迭代优化
  • 熟悉大模型评测、Agent Evaluation、Benchmark构建等技术
  • 扎实的Python工程能力,能构建自动化评测流水线
  • 良好的数据分析与实验设计能力,能从复杂任务中抽象出量化指标

申请策略

  • 了解即梦产品的创作场景(图片/视频生成),在面试中展示对AIGC评测痛点的思考
  • 关注字节跳动在Agent和评测方向的技术博客或开源项目,体现主动性
  • 突出大模型评测或Agent Evaluation相关项目经验,如构建过Benchmark或设计过评测方法
  • 展示Python工程能力,尤其自动化流水线、数据分析工具(如Pandas、Jupyter)的使用案例
  • 强调分析归因能力,例如在复杂任务中定位失败原因并推动改进的经历
  • 补充LLM/VLM-as-Judge、Rubrics-based Evaluation等评测技术的理论知识
  • 实践AutoGPT、LangChain等Agent框架,理解Tool Use和Function Call的实现

面试指南

  • 对于评测设计类问题,先明确评测目标和范围,再选择合适的评价维度(如准确性、稳定性、可解释性),最后提出量化指标和验证方法
  • 对于归因分析类问题,采用假设驱动的方法:提出可能的原因,设计实验验证,并基于结果提出改进建议
  • 如何设计一个评估多模态Agent创作质量的Benchmark?请举例说明
  • LLM-as-Judge存在哪些偏差?如何缓解这些偏差?
  • 请描述你过去解决的一个复杂归因分析问题,使用了什么方法?
  • 如何评估Agent在长链路任务中的成功率?你会定义哪些指标?
  • Python中如何构建一个可扩展的自动化评测流水线?考虑哪些架构设计?
  • 复习LLM/VLM官方API调用、Prompt Engineering相关知识,熟悉主流评测基准(如MMLU、HumanEval等)

匹配度报告

71
综合匹配度

字节跳动即梦AI算法岗,前沿评测技术,高成长但加班可能较大,适合技术驱动型人才。

适合人群
最适合追求技术成长和前沿方向、能够接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利匹配

85较高

字节跳动作为上市大厂,薪资福利具有竞争力,但具体薪资未在JD中披露。深圳办公,属于一线城市,整体薪酬处于市场较高水平。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

90较高

该职位聚焦前沿的LLM/VLM评测和Agent技术,能参与核心评测体系建设,技术成长空间大,且团队协作有机会接触多个方向。

技术前沿前沿/新兴技术
技术栈LLM、VLM、Agent Evaluation、多模态、AIGC
业务类型profit_center

工作生活匹配

40较低

大厂算法岗通常工作强度较高,JD未提及弹性办公或WLB,深圳办公无远程可能,生活平衡一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

70中等

AIGC和创作工具领域属于高速增长赛道,产品面向大众创作者,有一定社会价值,但JD未强调使命感。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 商家BD-抖音生活服务

    字节跳动 · 成都市
    AI 估算 · 10k-20k
  • 商家BD-抖音生活服务

    字节跳动 · 三亚市
    AI 估算 · 8k-20k
  • 商家BD-抖音生活服务

    字节跳动 · 东莞市
    AI 估算 · 8k-15k
  • 算法工程师-地理位置中台(北京/上海/深圳)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • AI素材创意策划-ONE Studio

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • AI大模型算法实习生-2027届

    小米 · 北京市
    AI 估算 · 5k-8k
  • 商业算法实习生—base上海通用岗

    小红书 · 上海市
    AI 估算 · 4k-10k
  • 企业微信-评测算法工程师-(北京/成都)

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • Diagnostic Architecture

    大众汽车 · 合肥市
    AI 估算 · 15k-25k
  • R&DWhere your curiosity drives the miracles of science

    赛诺菲 · 苏州市
    AI 估算 · 35k-50k

字节跳动 的其他在招职位

  • 商家BD-抖音生活服务

    字节跳动 · 成都市
    AI 估算 · 10k-20k
  • 商家BD-抖音生活服务

    字节跳动 · 三亚市
    AI 估算 · 8k-20k
  • 商家BD-抖音生活服务

    字节跳动 · 东莞市
    AI 估算 · 8k-15k
  • 算法工程师-地理位置中台(北京/上海/深圳)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • AI素材创意策划-ONE Studio

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • AI大模型算法实习生-2027届

    小米 · 北京市
    AI 估算 · 5k-8k
  • 商业算法实习生—base上海通用岗

    小红书 · 上海市
    AI 估算 · 4k-10k
  • 企业微信-评测算法工程师-(北京/成都)

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • Diagnostic Architecture

    大众汽车 · 合肥市
    AI 估算 · 15k-25k
  • R&DWhere your curiosity drives the miracles of science

    赛诺菲 · 苏州市
    AI 估算 · 35k-50k