Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型算法评测工程师-抖音研发(北京/杭州/深圳/上海)
立即应聘

大模型算法评测工程师-抖音研发(北京/杭州/深圳/上海)

发布于 大约 14 小时前

普通员工/个人贡献者

北京市 / 杭州市
中级经验
全职员工
仅现场办公
本科
分布式系统
LLM
框架开发
VLM
大模型
评测体系
Opencompass
Bigbench

AI 估算 · 25k–45k

大厂核心算法岗,大模型领域热门,技能稀缺,市场薪资偏高,15薪常见。

职位详情

关于这个职位

该职位负责大模型(LLM/VLM等)评测体系的研发,包括设计评测方法、构建业务场景评测、开发分布式评测框架与平台

你将与算法团队紧密合作,支撑模型迭代与业务应用,适合对大模型原理和评测有深入理解的技术人才

最低要求

计算机等相关专业的本科及以上学历

对主流大模型的原理以及相关评测平台相关工作有较深入的理解
对于主流的大模型评测体系有较好的理解,比如Bigbench、Harness、OpenCompass等
具备良好的业务理解能力、协作和沟通能力,逻辑思维和学习能力强

工作职责

设计与研发LLM、VLM及音视频的大模型评测体系,支持大量的模型迭代与研发

构建业务域场景的评测体系,支持各业务域的评测能力
负责设计整体的评测体系、框架、以及大规模快速的分布式评测
研发大模型评测框架与平台,能够可视化支持各种类型的评测

AI 洞察

优缺点分析

优点

  • 大模型是当前最热赛道,技术前沿,学习机会多
  • 字节跳动平台大,资源丰富,项目影响力强
  • 薪资待遇优厚,股票期权有吸引力
  • 岗位涉及从体系设计到工程落地,综合能力提升快
  • 评测体系构建需要严谨和创意,对系统性思维要求高

缺点 / 挑战

  • 大模型领域变化快,需要持续学习,技术迭代压力大
  • 跨城市办公可能涉及合作协调,工作强度较高
  • 适合对AI评测有热情、喜欢技术挑战、适应快节奏的算法工程师,尤其适合有大模型或评测平台经验的候选人

角色解读

  • 在评测领域深耕,成为大模型评测专家,主导评测体系建设
  • 横向拓展到模型训练、推理优化等方向,成为全栈大模型工程师
  • 向技术管理方向发展,领导评测团队或算法团队
  • 设计和研发大模型(LLM/VLM)的评测体系,支持模型迭代与业务场景验证
  • 构建业务域场景的评测能力,确保模型在具体应用中的效果和可靠性
  • 开发分布式评测框架与平台,实现大规模、高效率的评测流程
  • 可视化评测结果,为团队提供数据驱动的决策支持
  • 扎实的计算机基础,精通Python等编程语言,熟悉分布式系统
  • 深入理解大模型原理,掌握主流评测框架如Bigbench、Harness、OpenCompass
  • 具备业务理解能力,能将技术评测与业务需求结合
  • 良好的沟通协作能力,能与算法、产品、业务等多团队配合

申请策略

  • 关注字节跳动技术博客,了解其大模型战略和评测实践
  • 面试前准备一个完整的评测方案案例,体现系统设计能力
  • 突出大模型相关的项目经验,尤其是评测工作
  • 强调使用过的评测框架(如Bigbench、Harness等)和具体成果
  • 展示分布式系统开发能力,如大数据处理、高并发框架
  • 量化业绩,如评测效率提升、模型性能指标改善等
  • 熟悉当前主流大模型(如GPT、Llama、Qwen等)的评测方法
  • 学习开源评测工具的使用和二次开发

面试指南

  • 对于设计题:先明确评测目标,再选指标,然后讲数据、流程、平台,最后讨论局限性
  • 对于改进题:指出当前框架不足,结合业务场景提出具体优化方案
  • 对于问题定位:强调数据验证、交叉分析、A/B测试等方法
  • 请设计一个大模型在对话场景下的评测方案,包括指标和流程
  • 你如何理解Bigbench的评测框架?如果让你改进一个方面,你会怎么做?
  • 遇到评测结果与业务反馈不一致时,如何定位问题?
  • 分布式评测中如何保证数据一致性?请举例说明
  • 你如何看待当前大模型评测的局限性?有什么改进想法?

匹配度报告

70
综合匹配度

大厂核心算法岗,前沿技术栈,薪资优厚,但加班多,WLB差。

适合人群
最适合追求技术成长、高薪回报、能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活40
使命价值60

薪资福利匹配

85较高

字节跳动薪酬竞争力强,大厂福利完善,但工作强度高,加班常见,薪资信号为市场水准偏高。

薪资信号市场水准 (25K-45K/月)

成长发展匹配

95较高

大模型是前沿技术,岗位涉及核心评测体系研发,成长空间极大,技术栈新。

技术前沿前沿/新兴技术
技术栈LLM、VLM、大模型、分布式系统、评测框架
业务类型profit_center

工作生活匹配

40较低

字节跳动工作强度大,且要求现场办公,无弹性工作说明,WLB较差。

工作模式仅现场办公
办公地点未明确
加班情况明确要求弹性/高强度

使命价值匹配

60中等

大模型评测对AI行业有推动作用,但互联网商业属性强,社会影响力中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 品牌广告产品经理(品牌竞价方向)-中国商业产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 商品策略运营(作者方向)-抖音电商

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • 高级抖音用户产品经理-汽水音乐

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • iOS资深研发工程师-TikTok搜索

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • 平台治理前端开发工程师-生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 快手后端实习生(后端/AI方向)

    快手 · 北京市
    AI 估算 · 4k-6k
  • 服务端测试开发工程师-【商业化】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 服务端测试开发工程师-【线索营销】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 后端开发-数智

    中国平安 · 深圳市
    AI 估算 · 25k-40k

字节跳动 的其他在招职位

  • 品牌广告产品经理(品牌竞价方向)-中国商业产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 商品策略运营(作者方向)-抖音电商

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • 高级抖音用户产品经理-汽水音乐

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • iOS资深研发工程师-TikTok搜索

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • 平台治理前端开发工程师-生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 快手后端实习生(后端/AI方向)

    快手 · 北京市
    AI 估算 · 4k-6k
  • 服务端测试开发工程师-【商业化】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 服务端测试开发工程师-【线索营销】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 后端开发-数智

    中国平安 · 深圳市
    AI 估算 · 25k-40k