Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型评测算法工程师-AI数据与安全
立即应聘

大模型评测算法工程师-AI数据与安全

发布于 大约 14 小时前

普通员工/个人贡献者

深圳市
中级经验
全职员工
仅现场办公
硕士
机器学习
深度学习
PyTorch
NeurIPS
多模态
红蓝对抗
自动化评测
大模型评测
安全对齐

AI 估算 · 25k–45k

大模型方向热门,字节薪资竞争力强,硕士起薪较高,但需扎实技术栈

职位详情

关于这个职位

该职位负责构建和迭代大模型评测体系,设计自动化评测工具与算法,进行安全评测和红蓝对抗,为模型迭代提供数据支撑

你将跟踪前沿评测技术,推动评测体系升级,参与算法设计与开发,优化评测效率
适合对AI安全、大模型评估有强烈兴趣的技术人才

最低要求

硕士学位及以上,计算机科学、人工智能、数学、统计学等相关专业

扎实掌握机器学习、深度学习核心理论,熟悉大模型底层原理,了解常见大模型的特性与评测方法
具备扎实的编程能力,熟悉PyTorch等深度学习框架,能独立完成算法实现与调试
具备良好的逻辑思维与问题解决能力,对大模型评测、缺陷检测、红蓝对抗等领域有强烈的探索欲,能快速跟进前沿技术并落地实践
具备良好的沟通协作能力与团队意识,能清晰表达技术思路,高效推进跨团队协作项目,具备一定的文档撰写能力

工作职责

主导大模型评测集构建与迭代,制定规范与质量校验标准,保障评测数据质量与针对性,支撑模型全面评估

设计算法与工具,实现评测结果自动化量化分析、缺陷定位及根因追溯,输出分析报告,为模型迭代提供数据支撑
探索大模型缺陷检测和红蓝对抗技术,设计对抗性评测方案,挖掘模型安全漏洞和能力边界,提升模型鲁棒性与安全性
跟踪前沿评测技术与Benchmark趋势,开展技术调研与创新实践,推动评测体系升级
参与评测工具算法设计与开发,优化评测效率与自动化水平,提升团队研发效能

优先资格

有大模型评测集构建、自动化评测工具开发经验,熟悉主流评测Benchmark者优先

有大模型缺陷检测、红蓝对抗、安全对齐相关研究或项目经验者优先
熟悉多模态大模型评测技术,有图像、文本跨模态评测经验者优先
在顶会(如NeurIPS、ICML、ACL、EMNLP等)发表过大模型相关论文,或在算法竞赛中取得优异成绩者优先

AI 洞察

优缺点分析

优点

  • 身处AI大模型最前沿赛道,技术迭代快,学习机会多
  • 字节跳动平台资源丰富,能够接触海量数据和实际应用场景
  • 薪资福利具有竞争力,且公司重视技术创新
  • 工作强度较大,需要快速跟进最新技术并产出成果
  • 大模型评测领域尚在早期,方法论不成熟,需要自主探索
  • 跨团队协作频繁,对沟通和文档撰写能力要求高
  • 适合对AI安全、模型评估有强烈兴趣,乐于钻研前沿技术,能适应快节奏工作的技术人才

缺点 / 挑战

  • 职位涉及红蓝对抗和安全评测,具有挑战性和高价值

角色解读

  • 技术专家路线:深耕大模型评测与安全领域,成为行业顶尖专家
  • 跨领域拓展:向安全对齐、多模态评测等方向延伸
  • 管理路线:从技术lead逐步转向团队管理,领导评测团队
  • 主导大模型评测集的构建与迭代,制定数据规范和质量标准
  • 设计自动化分析工具,对评测结果进行量化分析和缺陷定位
  • 探索红蓝对抗技术,挖掘模型安全漏洞,提升鲁棒性
  • 跟踪前沿评测技术,推动评测体系升级和工具优化
  • 扎实的机器学习、深度学习理论基础,熟悉大模型原理
  • 熟练使用PyTorch等框架,具备独立编程和调试能力
  • 良好的逻辑思维,能解决复杂问题并快速跟进前沿技术
  • 较强的沟通协作能力,能清晰表达技术思路,推动跨团队合作

申请策略

  • 了解字节跳动在AI安全和大模型方面的业务布局,展现对公司的兴趣
  • 在简历中突出解决复杂问题的思路和成果,而非仅列举技能
  • 突出大模型相关的项目经验,尤其是评测集构建、自动化工具开发
  • 强调红蓝对抗、安全对齐或缺陷检测等领域的实践经历
  • 如有顶会论文或算法竞赛奖项,务必重点展示
  • 体现编程能力,特别是PyTorch使用和算法实现细节
  • 提前了解主流评测Benchmark(如MMLU、HumanEval等)的原理
  • 补充多模态大模型评测知识,尝试跨模态项目

面试指南

  • STAR法则:描述情境、任务、行动、结果,突出你的思考和贡献
  • 从数据、模型、评估指标三个层面展开分析,体现系统性思维
  • 结合前沿文献或实际项目,展示你的技术深度和新颖观点
  • 请谈谈你如何设计一个大模型评测集?需要考虑哪些维度?
  • 描述一个你发现的模型缺陷案例,以及你是如何定位和解决?
  • 红蓝对抗中,如何设计对抗样本来测试模型的安全性?
  • 如何评估一个评测工具的效率?你会如何优化?
  • 你对当前大模型评测领域的挑战有什么看法?

匹配度报告

70
综合匹配度

字节大模型评测算法岗位,前沿技术栈,薪资竞争力强,但工作强度大。

适合人群
适合追求技术前沿和快速成长,能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展85
工作生活50
使命价值75

薪资福利匹配

70中等

字节跳动薪资水平在业内具有竞争力,但JD未明确薪资和福利细节,稳定性较高。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

85较高

职位聚焦大模型评测前沿技术,提供丰富的技术挑战和成长空间,但JD未明确晋升路径。

技术前沿前沿/新兴技术
技术栈大模型评测、机器学习、深度学习、PyTorch、红蓝对抗、安全对齐
业务类型ambiguous

工作生活匹配

50较低

工作地点在深圳,需现场办公,JD未提及弹性工作或WLB,互联网大厂普遍高强度。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

75中等

AI大模型行业处于高速增长,评测工作对模型安全有积极意义,但社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

相似职位推荐

  • 项目计划管理

    中国移动 · 长沙市
    AI 估算 · 8k-18k
  • 智能建模师

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 大模型训练

    中国移动 · 长沙市
    AI 估算 · 3k-5k
  • 【REDstar】大模型 Efficient Inference Infra 工程师

    小红书 · 北京市
    AI 估算 · 30k-60k

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

相似职位推荐

  • 项目计划管理

    中国移动 · 长沙市
    AI 估算 · 8k-18k
  • 智能建模师

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 大模型训练

    中国移动 · 长沙市
    AI 估算 · 3k-5k
  • 【REDstar】大模型 Efficient Inference Infra 工程师

    小红书 · 北京市
    AI 估算 · 30k-60k