
字节跳动
大模型自动评测专家(ToB VLM方向)-AI数据与安全
大模型自动评测专家(ToB VLM方向)-AI数据与安全
发布于 大约 13 小时前普通员工/个人贡献者
北京市
中级经验
全职员工
仅现场办公
本科
SFT
数据合成
RL
Prompt Engineering
AI Agent
多模态大模型
Workflow
自动评测
AI 估算 · 30k–50k
大模型评测专家稀缺,字节跳动平台优势明显,薪资竞争力强,一般15薪。
职位详情
关于这个职位
该职位负责为字节跳动B端多模态大模型构建评测体系,包括制定出题策略、建设自动评测流程,并分析模型弱点以优化算法
适合具备Prompt Engineering、数据合成和AI Agent经验,对AI评测充满热情的候选人
你将与算法及产品团队紧密协作,推动多模态模型评估的自动化与高质量
最低要求
本科及以上学历,计算机、人工智能、应用数学、统计学等相关专业优先
对AI方向有了解,搭建过Workflow,有成熟的Prompt Engineering项目实践经验优先
有具体的数据合成项目、自动评估方案实践的同学优先
理解AI Agent工作原理、Function Call机制,掌握SFT与RL等基础概念,对大模型相关工作充满热情
工作职责
贴合B端业务需求制定出题策略,建设多模态模型的评估体系,负责构建大模型在多模态方向的评测题目及相关评测标准,与算法、产品团队协同合作,提升评测的质量与效率
探索多模态需求下的自动化生产方式,实现评测题目的自动生成,并达成自动评测
分析模型当下负面案例,给出模型弱点分布,为算法与数据生产侧提出行之有效的优化建议
AI 洞察
优缺点分析
优点
- 身处大模型前沿赛道,技术积累含金量高
- 字节跳动平台资源丰富,数据与算力支持充足
- 薪资待遇优厚,且为ToB业务,稳定性较好
- 工作强度较大,项目节奏快,需要持续跟进前沿技术
- 评测体系构建复杂度高,需与多方团队高效协作
- 对综合能力要求高,既要懂算法又要有工程落地能力
- 适合对AI评测有热情、具备工程化思维和算法背景的求职者
缺点 / 挑战
暂无明显挑战项
角色解读
- 可向AI评测领域专家发展,成为团队技术骨干
- 有机会转向算法研发岗,深入模型优化
- 也可向AI产品经理方向发展,主导评测产品设计
- 制定多模态大模型的评测策略和标准,贴合B端业务需求
- 建设自动评测流程,实现评测题目的自动生成和结果分析
- 分析模型负面案例,定位弱点,为算法和数据团队提供优化方向
- 扎实的多模态AI知识,理解大模型评测原理
- 熟练的Prompt Engineering能力,能设计高效Workflow
- 数据合成与自动评估项目实战经验
- 理解AI Agent、Function Call、SFT、RL等核心概念
申请策略
- 了解字节跳动AI数据与安全部门的业务方向,提前准备相关思考
- 关注大模型评测领域的公开基准(如MMBench、MME)
- 突出Prompt Engineering项目经验,具体说明效果
- 强调数据合成或自动评估相关的实战案例
- 展示对AI Agent、SFT、RL的理解,可用博客或项目佐证
- 补充多模态模型(如CLIP、LLaVA)的评测方法
- 学习自动化评测工具(如lm-evaluation-harness)
- 练习使用Python搭建简单的评测流水线
面试指南
- STAR法则:描述场景、任务、行动和结果,量化指标
- 对比方案:展示不同方法的优劣,体现深度思考
- 结合实践:引用实际项目经验,避免空谈理论
- 如何设计一套自动化的多模态评测方案?
- 请举例说明你如何通过Prompt Engineering提升模型效果
- 什么是SFT和RL?它们在模型优化中分别起什么作用?
- 你过去在数据合成项目中遇到过哪些挑战?如何解决的?
- 复习多模态模型评估指标(如准确率、FID、CLIP Score)
匹配度报告
69
综合匹配度
字节AI评测专家,前沿技术栈,薪资优厚,但WLB一般。
适合人群
适合优先关注技术成长和薪酬回报,对工作强度有心理准备的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活40
使命价值70
薪资福利匹配
75中等
字节跳动薪资水平具有竞争力,但JD未披露具体范围,福利信息缺失,无法完全确认。
薪资信号未披露(AI估算:30K-50K/月)
成长发展匹配
90较高
岗位聚焦大模型自动评测这一前沿技术方向,能深入接触多模态、Prompt Engineering、AI Agent等新兴技术,成长空间大。
技术前沿前沿/新兴技术
技术栈多模态、大模型、自动评测、Prompt Engineering、AI Agent、SFT、RL
业务类型ambiguous
工作生活匹配
40较低
JD未提及弹性工作或远程办公,工作地点为北京,互联网大厂通常工作强度较大,WLB一般。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值匹配
70中等
所属AI数据与安全部门服务于B端业务,行业增长迅速,但社会价值导向不明显,使命信号缺失。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
字节跳动 的其他在招职位
相似职位推荐
Watch Jobs