字节跳动的大模型评测算法工程师-AI数据与安全薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

大模型评测算法工程师-AI数据与安全的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

字节跳动的大模型评测算法工程师-AI数据与安全有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

字节跳动

大模型评测算法工程师-AI数据与安全

立即应聘

大模型评测算法工程师-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

多模态

大模型评测

安全对齐

机器学习

深度学习

红蓝对抗

自动化评测

NeurIPS

PyTorch

AI 估算 · 25k–45k

大模型方向热门，字节薪资竞争力强，硕士起薪较高，但需扎实技术栈

职位详情

关于这个职位

该职位负责构建和迭代大模型评测体系，设计自动化评测工具与算法，进行安全评测和红蓝对抗，为模型迭代提供数据支撑

你将跟踪前沿评测技术，推动评测体系升级，参与算法设计与开发，优化评测效率

适合对AI安全、大模型评估有强烈兴趣的技术人才

最低要求

硕士学位及以上，计算机科学、人工智能、数学、统计学等相关专业

扎实掌握机器学习、深度学习核心理论，熟悉大模型底层原理，了解常见大模型的特性与评测方法

具备扎实的编程能力，熟悉PyTorch等深度学习框架，能独立完成算法实现与调试

具备良好的逻辑思维与问题解决能力，对大模型评测、缺陷检测、红蓝对抗等领域有强烈的探索欲，能快速跟进前沿技术并落地实践

具备良好的沟通协作能力与团队意识，能清晰表达技术思路，高效推进跨团队协作项目，具备一定的文档撰写能力

工作职责

主导大模型评测集构建与迭代，制定规范与质量校验标准，保障评测数据质量与针对性，支撑模型全面评估

设计算法与工具，实现评测结果自动化量化分析、缺陷定位及根因追溯，输出分析报告，为模型迭代提供数据支撑

探索大模型缺陷检测和红蓝对抗技术，设计对抗性评测方案，挖掘模型安全漏洞和能力边界，提升模型鲁棒性与安全性

跟踪前沿评测技术与Benchmark趋势，开展技术调研与创新实践，推动评测体系升级

参与评测工具算法设计与开发，优化评测效率与自动化水平，提升团队研发效能

优先资格

有大模型评测集构建、自动化评测工具开发经验，熟悉主流评测Benchmark者优先

有大模型缺陷检测、红蓝对抗、安全对齐相关研究或项目经验者优先

熟悉多模态大模型评测技术，有图像、文本跨模态评测经验者优先

在顶会（如NeurIPS、ICML、ACL、EMNLP等）发表过大模型相关论文，或在算法竞赛中取得优异成绩者优先

AI 洞察

优缺点分析

优点

身处AI大模型最前沿赛道，技术迭代快，学习机会多
字节跳动平台资源丰富，能够接触海量数据和实际应用场景
薪资福利具有竞争力，且公司重视技术创新
工作强度较大，需要快速跟进最新技术并产出成果
大模型评测领域尚在早期，方法论不成熟，需要自主探索
跨团队协作频繁，对沟通和文档撰写能力要求高
适合对AI安全、模型评估有强烈兴趣，乐于钻研前沿技术，能适应快节奏工作的技术人才

缺点 / 挑战

职位涉及红蓝对抗和安全评测，具有挑战性和高价值

角色解读

技术专家路线：深耕大模型评测与安全领域，成为行业顶尖专家
跨领域拓展：向安全对齐、多模态评测等方向延伸
管理路线：从技术lead逐步转向团队管理，领导评测团队
主导大模型评测集的构建与迭代，制定数据规范和质量标准
设计自动化分析工具，对评测结果进行量化分析和缺陷定位
探索红蓝对抗技术，挖掘模型安全漏洞，提升鲁棒性
跟踪前沿评测技术，推动评测体系升级和工具优化
扎实的机器学习、深度学习理论基础，熟悉大模型原理
熟练使用PyTorch等框架，具备独立编程和调试能力
良好的逻辑思维，能解决复杂问题并快速跟进前沿技术
较强的沟通协作能力，能清晰表达技术思路，推动跨团队合作

申请策略

了解字节跳动在AI安全和大模型方面的业务布局，展现对公司的兴趣
在简历中突出解决复杂问题的思路和成果，而非仅列举技能
突出大模型相关的项目经验，尤其是评测集构建、自动化工具开发
强调红蓝对抗、安全对齐或缺陷检测等领域的实践经历
如有顶会论文或算法竞赛奖项，务必重点展示
体现编程能力，特别是PyTorch使用和算法实现细节
提前了解主流评测Benchmark（如MMLU、HumanEval等）的原理
补充多模态大模型评测知识，尝试跨模态项目

面试指南

STAR法则：描述情境、任务、行动、结果，突出你的思考和贡献
从数据、模型、评估指标三个层面展开分析，体现系统性思维
结合前沿文献或实际项目，展示你的技术深度和新颖观点
请谈谈你如何设计一个大模型评测集？需要考虑哪些维度？
描述一个你发现的模型缺陷案例，以及你是如何定位和解决？
红蓝对抗中，如何设计对抗样本来测试模型的安全性？
如何评估一个评测工具的效率？你会如何优化？
你对当前大模型评测领域的挑战有什么看法？

职位点评

综合评分

字节大模型评测算法岗位，前沿技术栈，薪资竞争力强，但工作强度大。

更适合这类人

适合追求技术前沿和快速成长，能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展85

工作生活50

使命价值75

薪资福利

70中等

字节跳动薪资水平在业内具有竞争力，但JD未明确薪资和福利细节，稳定性较高。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

85较高

职位聚焦大模型评测前沿技术，提供丰富的技术挑战和成长空间，但JD未明确晋升路径。

技术前沿前沿/新兴技术

技术栈大模型评测、机器学习、深度学习、PyTorch、红蓝对抗、安全对齐

业务类型ambiguous

工作生活

50较低

工作地点在深圳，需现场办公，JD未提及弹性工作或WLB，互联网大厂普遍高强度。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

AI大模型行业处于高速增长，评测工作对模型安全有积极意义，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型评测算法工程师-AI数据与安全

立即应聘

大模型评测算法工程师-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

多模态

大模型评测

安全对齐

机器学习

深度学习

红蓝对抗

自动化评测

NeurIPS

PyTorch

AI 估算 · 25k–45k

大模型方向热门，字节薪资竞争力强，硕士起薪较高，但需扎实技术栈

职位详情

关于这个职位

该职位负责构建和迭代大模型评测体系，设计自动化评测工具与算法，进行安全评测和红蓝对抗，为模型迭代提供数据支撑

你将跟踪前沿评测技术，推动评测体系升级，参与算法设计与开发，优化评测效率

适合对AI安全、大模型评估有强烈兴趣的技术人才

最低要求

硕士学位及以上，计算机科学、人工智能、数学、统计学等相关专业

扎实掌握机器学习、深度学习核心理论，熟悉大模型底层原理，了解常见大模型的特性与评测方法

具备扎实的编程能力，熟悉PyTorch等深度学习框架，能独立完成算法实现与调试

具备良好的逻辑思维与问题解决能力，对大模型评测、缺陷检测、红蓝对抗等领域有强烈的探索欲，能快速跟进前沿技术并落地实践

具备良好的沟通协作能力与团队意识，能清晰表达技术思路，高效推进跨团队协作项目，具备一定的文档撰写能力

工作职责

主导大模型评测集构建与迭代，制定规范与质量校验标准，保障评测数据质量与针对性，支撑模型全面评估

设计算法与工具，实现评测结果自动化量化分析、缺陷定位及根因追溯，输出分析报告，为模型迭代提供数据支撑

探索大模型缺陷检测和红蓝对抗技术，设计对抗性评测方案，挖掘模型安全漏洞和能力边界，提升模型鲁棒性与安全性

跟踪前沿评测技术与Benchmark趋势，开展技术调研与创新实践，推动评测体系升级

参与评测工具算法设计与开发，优化评测效率与自动化水平，提升团队研发效能

优先资格

有大模型评测集构建、自动化评测工具开发经验，熟悉主流评测Benchmark者优先

有大模型缺陷检测、红蓝对抗、安全对齐相关研究或项目经验者优先

熟悉多模态大模型评测技术，有图像、文本跨模态评测经验者优先

在顶会（如NeurIPS、ICML、ACL、EMNLP等）发表过大模型相关论文，或在算法竞赛中取得优异成绩者优先

AI 洞察

优缺点分析

优点

身处AI大模型最前沿赛道，技术迭代快，学习机会多
字节跳动平台资源丰富，能够接触海量数据和实际应用场景
薪资福利具有竞争力，且公司重视技术创新
工作强度较大，需要快速跟进最新技术并产出成果
大模型评测领域尚在早期，方法论不成熟，需要自主探索
跨团队协作频繁，对沟通和文档撰写能力要求高
适合对AI安全、模型评估有强烈兴趣，乐于钻研前沿技术，能适应快节奏工作的技术人才

缺点 / 挑战

职位涉及红蓝对抗和安全评测，具有挑战性和高价值

角色解读

技术专家路线：深耕大模型评测与安全领域，成为行业顶尖专家
跨领域拓展：向安全对齐、多模态评测等方向延伸
管理路线：从技术lead逐步转向团队管理，领导评测团队
主导大模型评测集的构建与迭代，制定数据规范和质量标准
设计自动化分析工具，对评测结果进行量化分析和缺陷定位
探索红蓝对抗技术，挖掘模型安全漏洞，提升鲁棒性
跟踪前沿评测技术，推动评测体系升级和工具优化
扎实的机器学习、深度学习理论基础，熟悉大模型原理
熟练使用PyTorch等框架，具备独立编程和调试能力
良好的逻辑思维，能解决复杂问题并快速跟进前沿技术
较强的沟通协作能力，能清晰表达技术思路，推动跨团队合作

申请策略

了解字节跳动在AI安全和大模型方面的业务布局，展现对公司的兴趣
在简历中突出解决复杂问题的思路和成果，而非仅列举技能
突出大模型相关的项目经验，尤其是评测集构建、自动化工具开发
强调红蓝对抗、安全对齐或缺陷检测等领域的实践经历
如有顶会论文或算法竞赛奖项，务必重点展示
体现编程能力，特别是PyTorch使用和算法实现细节
提前了解主流评测Benchmark（如MMLU、HumanEval等）的原理
补充多模态大模型评测知识，尝试跨模态项目

面试指南

STAR法则：描述情境、任务、行动、结果，突出你的思考和贡献
从数据、模型、评估指标三个层面展开分析，体现系统性思维
结合前沿文献或实际项目，展示你的技术深度和新颖观点
请谈谈你如何设计一个大模型评测集？需要考虑哪些维度？
描述一个你发现的模型缺陷案例，以及你是如何定位和解决？
红蓝对抗中，如何设计对抗样本来测试模型的安全性？
如何评估一个评测工具的效率？你会如何优化？
你对当前大模型评测领域的挑战有什么看法？

职位点评

综合评分

字节大模型评测算法岗位，前沿技术栈，薪资竞争力强，但工作强度大。

更适合这类人

适合追求技术前沿和快速成长，能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展85

工作生活50

使命价值75

薪资福利

70中等

字节跳动薪资水平在业内具有竞争力，但JD未明确薪资和福利细节，稳定性较高。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

85较高

职位聚焦大模型评测前沿技术，提供丰富的技术挑战和成长空间，但JD未明确晋升路径。

技术前沿前沿/新兴技术

技术栈大模型评测、机器学习、深度学习、PyTorch、红蓝对抗、安全对齐

业务类型ambiguous

工作生活

50较低

工作地点在深圳，需现场办公，JD未提及弹性工作或WLB，互联网大厂普遍高强度。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

AI大模型行业处于高速增长，评测工作对模型安全有积极意义，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型评测算法工程师-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型评测算法工程师-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

字节跳动的其他在招职位

字节跳动的其他在招职位