字节跳动的大模型评测算法工程师-AI数据与安全薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

大模型评测算法工程师-AI数据与安全的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型评测算法工程师-AI数据与安全有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

字节跳动

大模型评测算法工程师-AI数据与安全

立即应聘

大模型评测算法工程师-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

大模型评测

安全对齐

机器学习

深度学习

红蓝对抗

缺陷检测

自动化工具

PyTorch

对抗性评测

AI 估算 · 25k–45k

字节跳动大厂核心AI岗位，大模型方向稀缺，薪资竞争力强，但评测岗相对算法稍低，综合市场行情估算。

职位详情

关于这个职位

该职位负责大模型评测体系的构建与迭代，包括评测集设计、自动化工具开发、红蓝对抗安全检测等

你将参与前沿评测技术的跟踪与创新，支撑字节跳动核心AI模型的质量提升

适合对AI评测和安全有热情、具备扎实机器学习与编程基础的技术人才

最低要求

硕士学位及以上，计算机科学、人工智能、数学、统计学等相关专业

扎实掌握机器学习、深度学习核心理论，熟悉大模型底层原理，了解常见大模型的特性与评测方法

具备扎实的编程能力，熟悉PyTorch等深度学习框架，能独立完成算法实现与调试

具备良好的逻辑思维与问题解决能力，对大模型评测、缺陷检测、红蓝对抗等领域有强烈的探索欲，能快速跟进前沿技术并落地实践

具备良好的沟通协作能力与团队意识，能清晰表达技术思路，高效推进跨团队协作项目，具备一定的文档撰写能力

工作职责

主导大模型评测集构建与迭代，制定规范与质量校验标准，保障评测数据质量与针对性，支撑模型全面评估

设计算法与工具，实现评测结果自动化量化分析、缺陷定位及根因追溯，输出分析报告，为模型迭代提供数据支撑

探索大模型缺陷检测和红蓝对抗技术，设计对抗性评测方案，挖掘模型安全漏洞和能力边界，提升模型鲁棒性与安全性

跟踪前沿评测技术与Benchmark趋势，开展技术调研与创新实践，推动评测体系升级

参与评测工具算法设计与开发，优化评测效率与自动化水平，提升团队研发效能

优先资格

有大模型评测集构建、自动化评测工具开发经验，熟悉主流评测Benchmark者优先

有大模型缺陷检测、红蓝对抗、安全对齐相关研究或项目经验者优先

熟悉多模态大模型评测技术，有图像、文本跨模态评测经验者优先

在顶会（如NeurIPS、ICML、ACL、EMNLP等）发表过大模型相关论文，或在算法竞赛中取得优异成绩者优先

AI 洞察

优缺点分析

优点

字节跳动大厂平台，资源丰富，数据量大
聚焦前沿大模型评测与安全，技术壁垒高
直接参与核心AI模型的质量保障，有影响力
大模型评测标准不统一，需要创新探索
对抗性评测要求深入的漏洞挖掘能力，技术难度大

缺点 / 挑战

工作可能涉及紧急响应安全事件，压力大
适合对AI评测和安全有浓厚兴趣，喜欢技术挑战和创新，具备扎实ML理论基础的同学

角色解读

成为大模型评测专家，主导评测体系架构
向AI安全方向深入，成为红蓝对抗专家
转向大模型研发岗位，利用评测经验反哺模型优化
主导构建大模型评测数据集，制定质量标准，支撑模型全面评估
设计自动化评测工具，实现结果分析和缺陷定位，输出分析报告
探索红蓝对抗技术，设计对抗性评测方案，挖掘安全漏洞
跟踪前沿评测技术，推动评测体系升级
扎实的机器学习和深度学习理论基础
精通PyTorch框架，具备独立实现和调试算法能力
了解大模型底层原理和常见模型特性
良好的逻辑思维和问题解决能力，对评测、安全领域有探索欲

申请策略

在简历中体现对评测质量的思考，如如何保证评测的可靠性和覆盖度
面试前准备一个完整的评测案例，展示你的方法
突出大模型相关项目经验，尤其是评测集构建或自动化评测工具开发
如果有红蓝对抗、安全对齐经验，重点展示
强调PyTorch使用和算法实现能力
如果发表过顶会论文或参加竞赛，列出
深入学习大模型原理（Transformer、RLHF等）
熟悉主流Benchmark（MMLU, HumanEval等）和自动化评测框架

面试指南

对于设计类问题，先明确目标，再分步骤：定义指标→构建数据集→设计测试方案→分析结果
对于技术实现类问题，先讲原理，再给出代码思路，注意边界条件
对于开放性问题，结合自身经验，提出创新点
如何设计一个评测集来评估大模型的安全性？
你如何自动发现模型中的偏见或缺陷？
解释一下红蓝对抗在模型评测中的作用
你对现有哪些主流Benchmark的理解？有没有改进建议？
用PyTorch实现一个简单的对抗样本生成算法

职位点评

综合评分

大厂核心AI评测岗，技术前沿薪资优，但工作强度较高且办公灵活性一般。

更适合这类人

适合追求技术成长和薪资回报，能接受一定工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展85

工作生活50

使命价值70

薪资福利

70中等

字节跳动薪资水平在行业中具有竞争力，但职位描述未明确薪资范围，福利信息也未提及，因此补偿性动机满足程度中等偏上。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

85较高

该职位聚焦大模型评测与安全前沿技术，涉及创新实践和工具开发，成长空间大，技术深度高，发展性动机得到较好满足。

技术前沿前沿/新兴技术

技术栈大模型、评测、红蓝对抗、PyTorch、自动化评测

成长机会前沿技术、创新实践

业务类型ambiguous

工作生活

50较低

工作地点北京且要求现场办公，未提及弹性工时或远程选项，字节工作强度较高，生活化动机满足程度有限。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

AI大模型是高速增长赛道，评测和安全有一定社会价值，但职位未突出使命感，整体意义感中等偏上。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

字节跳动的其他在招职位

相似职位推荐

Watch Jobs

大模型评测算法工程师-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型评测算法工程师-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动的其他在招职位