Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型评测研发工程师-AI数据与安全
立即应聘

大模型评测研发工程师-AI数据与安全

发布于 大约 16 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
分布式系统
全栈开发
LLM
数据结构与算法
前后端开发
AI Agent
自动化评测
大模型评测
Llm-As-A-Judge

AI 估算 · 30k–55k

大模型岗位市场需求旺盛,字节跳动薪资竞争力强,但对技术能力要求高,薪资在行业中上水平。

职位详情

关于这个职位

该职位专注于大模型评测体系的工程基础设施开发,包括评测集管理、评测链路采样、自动评测能力建设,并探索AI Agent在评测场景中的应用,实现高效自动化的评测交付

你将与算法、产品、运营团队紧密协作,解决复杂的工程问题,推动大模型评测技术的进步
适合具备全栈开发能力、熟悉大模型与Agent技术、热爱挑战的工程师

最低要求

计算机或相关专业本科及以上学历,具备扎实的编程能力、数据结构与算法基础

具备全栈(前后端、Agent)开发能力,能独立设计开发高性能、高可用的分布式系统,掌握常用的存储与中间件技术,了解前端开发框架,对常用的前后端开发语言有技术鉴赏和判断力
熟悉大模型的原理及应用,具备Agent框架开发经验,能够设计并实现复杂的Agent系统用于解决具体的业务问题
掌握大模型评测相关的关键技术,能够与算法、产品、运营、研发团队高效协作,有技术判断力,具备优秀的系统设计能力和问题解决能力,能够独立分析和解决复杂的工程问题
有良好的业务及产品意识,能够将业务问题转化为定义明确的技术问题,并通过技术手段有效解决
坦诚清晰、积极乐观,责任心强有主人翁意识,工作认真细致严谨,具有优秀的团队沟通与协作能力,热爱技术,有较强的学习能力,有强烈的求知欲、好奇心和进取心,能及时关注和学习业界最新技术,对解决挑战性问题充满激情

工作职责

评测体系建设:参与大模型评测的工程基础设施的开发工作,包括评测集的接入、生产、管理,评测对象的链路采样,人评/机评能力建设,评估结果的分析等评测核心能力的开发工作

评测Agent搭建:探索自动评测、高质量评测集构建等前沿评测方法,在评测场景搭建AI Agent,为评测业务提供端到端的高效、自动化的交付能力

优先资格

加分项:

对大模型技术及其应用有浓厚兴趣,有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-judge相关经验者优先
有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先
积极参与开源社区,有相关贡献者优先

AI 洞察

优缺点分析

优点

  • 字节跳动平台资源丰富,项目影响力大,能快速提升个人能力
  • 薪资竞争力强,福利待遇好,职业发展空间广阔
  • 技术栈要求全面,全栈+Agent+大模型,学习曲线陡峭
  • 行业变化快,需持续跟进最新技术,保持学习状态

缺点 / 挑战

  • 处于AI技术最前沿,接触大模型评测核心挑战,技术积累价值高
  • 高压力环境下工作,需要快速迭代和解决复杂问题
  • 适合技术驱动型、热爱挑战、具备全栈能力和大模型背景的工程师,追求前沿技术和高回报

角色解读

  • 技术方向:成为大模型评测领域的专家,主导评测平台架构演进
  • 管理方向:升级为技术Leader,带领评测研发团队
  • 跨领域发展:向大模型训练、推理优化或AI安全等方向拓展
  • 负责大模型评测基础设施的开发,包括评测集管理、链路采样和自动评测能力建设
  • 搭建AI Agent来优化评测流程,实现端到端的自动化和高效交付
  • 与算法、产品、运营等团队协作,将业务需求转化为技术方案并落地
  • 扎实的编程能力,精通数据结构与算法,能独立设计高性能分布式系统
  • 全栈开发能力,熟悉前后端框架及中间件技术
  • 深入理解大模型原理,具备Agent框架开发经验,能设计复杂Agent系统
  • 了解大模型评测方法,有技术判断力和问题解决能力

申请策略

  • 在简历中量化成果,如评测效率提升百分比
  • 了解字节跳动AI数据与安全团队的业务方向,在面试中展示对评测业务的理解
  • 突出全栈开发项目经验,尤其是高性能分布式系统的设计和实现
  • 强调Agent框架开发或大模型应用相关经历,展示技术深度
  • 提及开源贡献或参与评测体系建设的成果
  • 补强Agent开发经验,学习LangChain、AutoGPT等框架
  • 深化对大模型评测方法的理解,了解LLM-as-a-judge等前沿方向
  • 提升系统设计能力,熟悉分布式系统常见模式

面试指南

  • STAR法则:描述情境、任务、行动、结果,突出技术挑战和解决方案
  • 结构化分析:先拆解问题,再分点论述,最后总结要点
  • 结合实际案例:引用以往项目经验,展示技术判断力和落地能力
  • 请描述一个你设计的高性能分布式系统,如何处理高并发和数据一致性?
  • 如何设计一个Agent系统来自动化执行大模型评测?
  • 你如何理解大模型评测中的LLM-as-a-judge?请举例说明其优缺点
  • 给定一个业务需求,如何将其转化为技术方案并评估可行性?
  • 请谈谈你对大模型技术趋势的看法,以及评测在其中扮演的角色

匹配度报告

68
综合匹配度

字节跳动大模型评测岗,前沿技术栈,高薪但WLB一般,适合技术狂热者。

适合人群
适合追求技术前沿和快速成长的求职者,愿意为高回报接受高强度工作。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展85
工作生活40
使命价值70

薪资福利匹配

75中等

薪资未披露,但字节跳动作为大厂通常提供高薪和优厚福利,但JD中无明确薪资信息,存在一定不确定性。

薪资信号未披露(AI估算:30K-55K/月)

成长发展匹配

85较高

岗位涉及前沿大模型评测技术和Agent开发,技术成长空间大,但JD中未提及明确晋升通道或培训体系。

技术前沿前沿/新兴技术
技术栈大模型、AI Agent、全栈、分布式系统、LLM、数据结构、算法、自动评测
业务类型ambiguous

工作生活匹配

40较低

工作模式为现场办公,未提及弹性工作或远程,字节跳动工作强度较高,生活平衡可能较难。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型是高速增长赛道,岗位对社会智能化有间接贡献,但JD未提及使命或社会价值。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 大模型算法工程师-商品治理

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 芯片DFT工程师(深圳)

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 大模型代码评测专家-大模型数据服务中心

    字节跳动 · 北京市
    AI 估算 · 25k-50k
  • AI客户端开发工程师(应用研究方向)-集团信息系统

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 媒介专家-媒介一组

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 试验工程师

    中国融通集团 · 北京市
    AI 估算 · 10k-10k
  • ADAS Driving System Verification Senior Engineer_智能驾驶辅助系统测试验证高级工程师

    奔驰 · 北京市
    AI 估算 · 25k-40k
  • AIGC算法工程师(创意Agent/文案生成方向)

    小红书 · 北京市
    AI 估算 · 30k-60k
  • Lab Research & Development Intern

    国际香精香料公司 · 肇庆市
    AI 估算 · 3k-5k
  • Lab Research & Development Intern

    国际香精香料公司 · 肇庆市
    AI 估算 · 3k-5k

字节跳动 的其他在招职位

  • 大模型算法工程师-商品治理

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 芯片DFT工程师(深圳)

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 大模型代码评测专家-大模型数据服务中心

    字节跳动 · 北京市
    AI 估算 · 25k-50k
  • AI客户端开发工程师(应用研究方向)-集团信息系统

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 媒介专家-媒介一组

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 试验工程师

    中国融通集团 · 北京市
    AI 估算 · 10k-10k
  • ADAS Driving System Verification Senior Engineer_智能驾驶辅助系统测试验证高级工程师

    奔驰 · 北京市
    AI 估算 · 25k-40k
  • AIGC算法工程师(创意Agent/文案生成方向)

    小红书 · 北京市
    AI 估算 · 30k-60k
  • Lab Research & Development Intern

    国际香精香料公司 · 肇庆市
    AI 估算 · 3k-5k
  • Lab Research & Development Intern

    国际香精香料公司 · 肇庆市
    AI 估算 · 3k-5k