Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型评测算法工程师-AI数据与安全
立即应聘

大模型评测算法工程师-AI数据与安全

发布于 大约 14 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
硕士
机器学习
深度学习
PyTorch
自动化工具
缺陷检测
红蓝对抗
大模型评测
安全对齐
对抗性评测

AI 估算 · 25k–45k

字节跳动大厂核心AI岗位,大模型方向稀缺,薪资竞争力强,但评测岗相对算法稍低,综合市场行情估算。

职位详情

关于这个职位

该职位负责大模型评测体系的构建与迭代,包括评测集设计、自动化工具开发、红蓝对抗安全检测等

你将参与前沿评测技术的跟踪与创新,支撑字节跳动核心AI模型的质量提升
适合对AI评测和安全有热情、具备扎实机器学习与编程基础的技术人才

最低要求

硕士学位及以上,计算机科学、人工智能、数学、统计学等相关专业

扎实掌握机器学习、深度学习核心理论,熟悉大模型底层原理,了解常见大模型的特性与评测方法
具备扎实的编程能力,熟悉PyTorch等深度学习框架,能独立完成算法实现与调试
具备良好的逻辑思维与问题解决能力,对大模型评测、缺陷检测、红蓝对抗等领域有强烈的探索欲,能快速跟进前沿技术并落地实践
具备良好的沟通协作能力与团队意识,能清晰表达技术思路,高效推进跨团队协作项目,具备一定的文档撰写能力

工作职责

主导大模型评测集构建与迭代,制定规范与质量校验标准,保障评测数据质量与针对性,支撑模型全面评估

设计算法与工具,实现评测结果自动化量化分析、缺陷定位及根因追溯,输出分析报告,为模型迭代提供数据支撑
探索大模型缺陷检测和红蓝对抗技术,设计对抗性评测方案,挖掘模型安全漏洞和能力边界,提升模型鲁棒性与安全性
跟踪前沿评测技术与Benchmark趋势,开展技术调研与创新实践,推动评测体系升级
参与评测工具算法设计与开发,优化评测效率与自动化水平,提升团队研发效能

优先资格

有大模型评测集构建、自动化评测工具开发经验,熟悉主流评测Benchmark者优先

有大模型缺陷检测、红蓝对抗、安全对齐相关研究或项目经验者优先
熟悉多模态大模型评测技术,有图像、文本跨模态评测经验者优先
在顶会(如NeurIPS、ICML、ACL、EMNLP等)发表过大模型相关论文,或在算法竞赛中取得优异成绩者优先

AI 洞察

优缺点分析

优点

  • 字节跳动大厂平台,资源丰富,数据量大
  • 聚焦前沿大模型评测与安全,技术壁垒高
  • 直接参与核心AI模型的质量保障,有影响力
  • 大模型评测标准不统一,需要创新探索
  • 对抗性评测要求深入的漏洞挖掘能力,技术难度大

缺点 / 挑战

  • 工作可能涉及紧急响应安全事件,压力大
  • 适合对AI评测和安全有浓厚兴趣,喜欢技术挑战和创新,具备扎实ML理论基础的同学

角色解读

  • 成为大模型评测专家,主导评测体系架构
  • 向AI安全方向深入,成为红蓝对抗专家
  • 转向大模型研发岗位,利用评测经验反哺模型优化
  • 主导构建大模型评测数据集,制定质量标准,支撑模型全面评估
  • 设计自动化评测工具,实现结果分析和缺陷定位,输出分析报告
  • 探索红蓝对抗技术,设计对抗性评测方案,挖掘安全漏洞
  • 跟踪前沿评测技术,推动评测体系升级
  • 扎实的机器学习和深度学习理论基础
  • 精通PyTorch框架,具备独立实现和调试算法能力
  • 了解大模型底层原理和常见模型特性
  • 良好的逻辑思维和问题解决能力,对评测、安全领域有探索欲

申请策略

  • 在简历中体现对评测质量的思考,如如何保证评测的可靠性和覆盖度
  • 面试前准备一个完整的评测案例,展示你的方法
  • 突出大模型相关项目经验,尤其是评测集构建或自动化评测工具开发
  • 如果有红蓝对抗、安全对齐经验,重点展示
  • 强调PyTorch使用和算法实现能力
  • 如果发表过顶会论文或参加竞赛,列出
  • 深入学习大模型原理(Transformer、RLHF等)
  • 熟悉主流Benchmark(MMLU, HumanEval等)和自动化评测框架

面试指南

  • 对于设计类问题,先明确目标,再分步骤:定义指标→构建数据集→设计测试方案→分析结果
  • 对于技术实现类问题,先讲原理,再给出代码思路,注意边界条件
  • 对于开放性问题,结合自身经验,提出创新点
  • 如何设计一个评测集来评估大模型的安全性?
  • 你如何自动发现模型中的偏见或缺陷?
  • 解释一下红蓝对抗在模型评测中的作用
  • 你对现有哪些主流Benchmark的理解?有没有改进建议?
  • 用PyTorch实现一个简单的对抗样本生成算法

匹配度报告

69
综合匹配度

大厂核心AI评测岗,技术前沿薪资优,但工作强度较高且办公灵活性一般。

适合人群
适合追求技术成长和薪资回报,能接受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展85
工作生活50
使命价值70

薪资福利匹配

70中等

字节跳动薪资水平在行业中具有竞争力,但职位描述未明确薪资范围,福利信息也未提及,因此补偿性动机满足程度中等偏上。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

85较高

该职位聚焦大模型评测与安全前沿技术,涉及创新实践和工具开发,成长空间大,技术深度高,发展性动机得到较好满足。

技术前沿前沿/新兴技术
技术栈大模型、评测、红蓝对抗、PyTorch、自动化评测
成长机会前沿技术、创新实践
业务类型ambiguous

工作生活匹配

50较低

工作地点北京且要求现场办公,未提及弹性工时或远程选项,字节工作强度较高,生活化动机满足程度有限。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

AI大模型是高速增长赛道,评测和安全有一定社会价值,但职位未突出使命感,整体意义感中等偏上。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

相似职位推荐

  • 项目计划管理

    中国移动 · 长沙市
    AI 估算 · 8k-18k
  • 智能建模师

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 大模型训练

    中国移动 · 长沙市
    AI 估算 · 3k-5k
  • 【REDstar】大模型 Efficient Inference Infra 工程师

    小红书 · 北京市
    AI 估算 · 30k-60k

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

相似职位推荐

  • 项目计划管理

    中国移动 · 长沙市
    AI 估算 · 8k-18k
  • 智能建模师

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 大模型训练

    中国移动 · 长沙市
    AI 估算 · 3k-5k
  • 【REDstar】大模型 Efficient Inference Infra 工程师

    小红书 · 北京市
    AI 估算 · 30k-60k