字节跳动的大模型自动评测专家（ToB VLM方向）-AI数据与安全薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

大模型自动评测专家（ToB VLM方向）-AI数据与安全的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型自动评测专家（ToB VLM方向）-AI数据与安全有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型自动评测专家（ToB VLM方向）-AI数据与安全

立即应聘

大模型自动评测专家（ToB VLM方向）-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

数据分析与科学

SFT

数据合成

Prompt Engineering

AI Agent

多模态大模型

Workflow

自动评测

AI 估算 · 30k–50k

大模型评测专家稀缺，字节跳动平台优势明显，薪资竞争力强，一般15薪。

职位详情

关于这个职位

该职位负责为字节跳动B端多模态大模型构建评测体系，包括制定出题策略、建设自动评测流程，并分析模型弱点以优化算法

适合具备Prompt Engineering、数据合成和AI Agent经验，对AI评测充满热情的候选人

你将与算法及产品团队紧密协作，推动多模态模型评估的自动化与高质量

最低要求

本科及以上学历，计算机、人工智能、应用数学、统计学等相关专业优先

对AI方向有了解，搭建过Workflow，有成熟的Prompt Engineering项目实践经验优先

有具体的数据合成项目、自动评估方案实践的同学优先

理解AI Agent工作原理、Function Call机制，掌握SFT与RL等基础概念，对大模型相关工作充满热情

工作职责

贴合B端业务需求制定出题策略，建设多模态模型的评估体系，负责构建大模型在多模态方向的评测题目及相关评测标准，与算法、产品团队协同合作，提升评测的质量与效率

探索多模态需求下的自动化生产方式，实现评测题目的自动生成，并达成自动评测

分析模型当下负面案例，给出模型弱点分布，为算法与数据生产侧提出行之有效的优化建议

AI 洞察

优缺点分析

优点

身处大模型前沿赛道，技术积累含金量高
字节跳动平台资源丰富，数据与算力支持充足
薪资待遇优厚，且为ToB业务，稳定性较好
工作强度较大，项目节奏快，需要持续跟进前沿技术
评测体系构建复杂度高，需与多方团队高效协作
对综合能力要求高，既要懂算法又要有工程落地能力
适合对AI评测有热情、具备工程化思维和算法背景的求职者

缺点 / 挑战

暂无明显挑战项

角色解读

可向AI评测领域专家发展，成为团队技术骨干
有机会转向算法研发岗，深入模型优化
也可向AI产品经理方向发展，主导评测产品设计
制定多模态大模型的评测策略和标准，贴合B端业务需求
建设自动评测流程，实现评测题目的自动生成和结果分析
分析模型负面案例，定位弱点，为算法和数据团队提供优化方向
扎实的多模态AI知识，理解大模型评测原理
熟练的Prompt Engineering能力，能设计高效Workflow
数据合成与自动评估项目实战经验
理解AI Agent、Function Call、SFT、RL等核心概念

申请策略

了解字节跳动AI数据与安全部门的业务方向，提前准备相关思考
关注大模型评测领域的公开基准（如MMBench、MME）
突出Prompt Engineering项目经验，具体说明效果
强调数据合成或自动评估相关的实战案例
展示对AI Agent、SFT、RL的理解，可用博客或项目佐证
补充多模态模型（如CLIP、LLaVA）的评测方法
学习自动化评测工具（如lm-evaluation-harness）
练习使用Python搭建简单的评测流水线

面试指南

STAR法则：描述场景、任务、行动和结果，量化指标
对比方案：展示不同方法的优劣，体现深度思考
结合实践：引用实际项目经验，避免空谈理论
如何设计一套自动化的多模态评测方案？
请举例说明你如何通过Prompt Engineering提升模型效果
什么是SFT和RL？它们在模型优化中分别起什么作用？
你过去在数据合成项目中遇到过哪些挑战？如何解决的？
复习多模态模型评估指标（如准确率、FID、CLIP Score）

职位点评

综合评分

字节AI评测专家，前沿技术栈，薪资优厚，但WLB一般。

更适合这类人

适合优先关注技术成长和薪酬回报，对工作强度有心理准备的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活40

使命价值70

薪资福利

75中等

字节跳动薪资水平具有竞争力，但JD未披露具体范围，福利信息缺失，无法完全确认。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

岗位聚焦大模型自动评测这一前沿技术方向，能深入接触多模态、Prompt Engineering、AI Agent等新兴技术，成长空间大。

技术前沿前沿/新兴技术

技术栈多模态、大模型、自动评测、Prompt Engineering、AI Agent、SFT、RL

业务类型ambiguous

工作生活

40较低

JD未提及弹性工作或远程办公，工作地点为北京，互联网大厂通常工作强度较大，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

所属AI数据与安全部门服务于B端业务，行业增长迅速，但社会价值导向不明显，使命信号缺失。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型自动评测专家（ToB VLM方向）-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

新青年-数据分析(ISV)(J19518)

数据分析实习生- 深圳

数据标注实习生（厦门）

Data Analyst

Senior Data Analyst

字节跳动的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

新青年-数据分析(ISV)(J19518)

数据分析实习生- 深圳

数据标注实习生（厦门）

Data Analyst

Senior Data Analyst

大模型自动评测专家（ToB VLM方向）-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

新青年-数据分析(ISV)(J19518)

数据分析实习生- 深圳

数据标注实习生（厦门）

Data Analyst

Senior Data Analyst

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

新青年-数据分析(ISV)(J19518)

数据分析实习生- 深圳

数据标注实习生（厦门）

Data Analyst

Senior Data Analyst

字节跳动的其他在招职位

字节跳动的其他在招职位