ByteDance logo
字节跳动
大模型自动评测专家(ToB VLM方向)-AI数据与安全

大模型自动评测专家(ToB VLM方向)-AI数据与安全

发布于 大约 13 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
SFT
数据合成
RL
Prompt Engineering
AI Agent
多模态大模型
Workflow
自动评测

AI 估算 · 30k–50k

大模型评测专家稀缺,字节跳动平台优势明显,薪资竞争力强,一般15薪。

职位详情

关于这个职位

该职位负责为字节跳动B端多模态大模型构建评测体系,包括制定出题策略、建设自动评测流程,并分析模型弱点以优化算法

适合具备Prompt Engineering、数据合成和AI Agent经验,对AI评测充满热情的候选人
你将与算法及产品团队紧密协作,推动多模态模型评估的自动化与高质量

最低要求

本科及以上学历,计算机、人工智能、应用数学、统计学等相关专业优先

对AI方向有了解,搭建过Workflow,有成熟的Prompt Engineering项目实践经验优先
有具体的数据合成项目、自动评估方案实践的同学优先
理解AI Agent工作原理、Function Call机制,掌握SFT与RL等基础概念,对大模型相关工作充满热情

工作职责

贴合B端业务需求制定出题策略,建设多模态模型的评估体系,负责构建大模型在多模态方向的评测题目及相关评测标准,与算法、产品团队协同合作,提升评测的质量与效率

探索多模态需求下的自动化生产方式,实现评测题目的自动生成,并达成自动评测
分析模型当下负面案例,给出模型弱点分布,为算法与数据生产侧提出行之有效的优化建议

AI 洞察

优缺点分析

优点

  • 身处大模型前沿赛道,技术积累含金量高
  • 字节跳动平台资源丰富,数据与算力支持充足
  • 薪资待遇优厚,且为ToB业务,稳定性较好
  • 工作强度较大,项目节奏快,需要持续跟进前沿技术
  • 评测体系构建复杂度高,需与多方团队高效协作
  • 对综合能力要求高,既要懂算法又要有工程落地能力
  • 适合对AI评测有热情、具备工程化思维和算法背景的求职者

缺点 / 挑战

暂无明显挑战项

角色解读

  • 可向AI评测领域专家发展,成为团队技术骨干
  • 有机会转向算法研发岗,深入模型优化
  • 也可向AI产品经理方向发展,主导评测产品设计
  • 制定多模态大模型的评测策略和标准,贴合B端业务需求
  • 建设自动评测流程,实现评测题目的自动生成和结果分析
  • 分析模型负面案例,定位弱点,为算法和数据团队提供优化方向
  • 扎实的多模态AI知识,理解大模型评测原理
  • 熟练的Prompt Engineering能力,能设计高效Workflow
  • 数据合成与自动评估项目实战经验
  • 理解AI Agent、Function Call、SFT、RL等核心概念

申请策略

  • 了解字节跳动AI数据与安全部门的业务方向,提前准备相关思考
  • 关注大模型评测领域的公开基准(如MMBench、MME)
  • 突出Prompt Engineering项目经验,具体说明效果
  • 强调数据合成或自动评估相关的实战案例
  • 展示对AI Agent、SFT、RL的理解,可用博客或项目佐证
  • 补充多模态模型(如CLIP、LLaVA)的评测方法
  • 学习自动化评测工具(如lm-evaluation-harness)
  • 练习使用Python搭建简单的评测流水线

面试指南

  • STAR法则:描述场景、任务、行动和结果,量化指标
  • 对比方案:展示不同方法的优劣,体现深度思考
  • 结合实践:引用实际项目经验,避免空谈理论
  • 如何设计一套自动化的多模态评测方案?
  • 请举例说明你如何通过Prompt Engineering提升模型效果
  • 什么是SFT和RL?它们在模型优化中分别起什么作用?
  • 你过去在数据合成项目中遇到过哪些挑战?如何解决的?
  • 复习多模态模型评估指标(如准确率、FID、CLIP Score)

匹配度报告

69
综合匹配度

字节AI评测专家,前沿技术栈,薪资优厚,但WLB一般。

适合人群
适合优先关注技术成长和薪酬回报,对工作强度有心理准备的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活40
使命价值70

薪资福利匹配

75中等

字节跳动薪资水平具有竞争力,但JD未披露具体范围,福利信息缺失,无法完全确认。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

90较高

岗位聚焦大模型自动评测这一前沿技术方向,能深入接触多模态、Prompt Engineering、AI Agent等新兴技术,成长空间大。

技术前沿前沿/新兴技术
技术栈多模态、大模型、自动评测、Prompt Engineering、AI Agent、SFT、RL
业务类型ambiguous

工作生活匹配

40较低

JD未提及弹性工作或远程办公,工作地点为北京,互联网大厂通常工作强度较大,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

所属AI数据与安全部门服务于B端业务,行业增长迅速,但社会价值导向不明显,使命信号缺失。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs