Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型评测研发工程师-AI数据与安全
立即应聘

大模型评测研发工程师-AI数据与安全

发布于 大约 9 小时前

普通员工/个人贡献者

杭州市
中级经验
全职员工
仅现场办公
本科
分布式系统
深度学习
自动化测试
全栈开发
LLM
前端框架
中间件
AI Agent
大模型评测

AI 估算 · 25k–50k

大模型赛道热门,字节跳动薪资竞争力强,需要全栈+AI能力,薪资处于行业高位。

职位详情

关于这个职位

负责大模型评测体系的工程基础设施建设,包括评测集管理、评测链路采样、人评/机评能力开发等核心工作

同时探索自动评测与高质量评测集构建等前沿方法,搭建AI Agent以提供端到端的高效自动化交付能力
该岗位需要扎实的全栈开发能力和对大模型技术的深刻理解

最低要求

计算机或相关专业本科及以上学历,具备扎实的编程能力、数据结构与算法基础

具备全栈(前后端、Agent)开发能力,能独立设计开发高性能、高可用的分布式系统,掌握常用的存储与中间件技术,了解前端开发框架,对常用的前后端开发语言有技术鉴赏和判断力
熟悉大模型的原理及应用,具备Agent框架开发经验,能够设计并实现复杂的Agent系统用于解决具体的业务问题
掌握大模型评测相关的关键技术,能够与算法、产品、运营、研发团队高效协作,有技术判断力,具备优秀的系统设计能力和问题解决能力,能够独立分析和解决复杂的工程问题
有良好的业务及产品意识,能够将业务问题转化为定义明确的技术问题,并通过技术手段有效解决
坦诚清晰、积极乐观,责任心强有负责人意识,工作认真细致严谨,具有优秀的团队沟通与协作能力,热爱技术,有较强的学习能力,有强烈的求知欲、好奇心和进取心,能及时关注和学习业界最新技术,对解决挑战性问题充满激情

工作职责

评测体系建设:参与大模型评测的工程基础设施的开发工作,包括评测集的接入、生产、管理,评测对象的链路采样,人评/机评能力建设,评估结果的分析等评测核心能力的开发工作

评测Agent搭建:探索自动评测、高质量评测集构建等前沿评测方法,在评测场景搭建AI Agent,为评测业务提供端到端的高效、自动化的交付能力

优先资格

加分项:

对大模型技术及其应用有浓厚兴趣,有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-judge相关经验者优先
有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先
积极参与开源社区,有相关贡献者优先

AI 洞察

优缺点分析

优点

  • 身处AI大模型的最热门方向,技术栈前沿,学习机会多
  • 字节跳动平台资源丰富,业务影响力大,项目落地场景真实
  • 薪资待遇优厚,股票期权等福利完善
  • 团队技术氛围浓厚,可接触业界最新实践
  • 大模型技术迭代快速,需要持续学习,保持技术敏感度
  • 工作强度可能较大,涉及跨团队协作,沟通成本高
  • 评测指标体系构建复杂,需要同时兼顾技术深度和业务理解
  • 适合具备全栈开发经验、对大模型技术有强烈热情、喜欢解决复杂工程问题的技术型人才,尤其是希望在AI评测领域深耕的开发者

缺点 / 挑战

暂无明显挑战项

角色解读

  • 技术深耕:成为大模型评测领域的专家,主导评测基础设施架构演进
  • 管理路线:从技术负责人逐步成长为团队管理者,带领评测团队
  • 跨领域发展:转向AI训练平台、模型部署等相邻领域,扩展技术广度
  • 负责大模型评测平台的基础设施开发,包括评测集管理、评测任务调度、结果分析等核心模块
  • 搭建AI Agent,实现自动化评测、高质量评测集生成等前沿功能
  • 与算法、产品、运营团队协作,将业务需求转化为技术方案并落地
  • 持续优化系统性能,保证评测链路的高效和稳定性
  • 扎实的全栈开发能力,包括后端(如Python/Go)和前端(如React/Vue)技术
  • 熟悉分布式系统设计与常用中间件(如Redis、Kafka、MySQL)
  • 深入理解大模型原理(如Transformer、RLHF)及Agent框架(如LangChain、AutoGPT)
  • 掌握大模型评测方法(如Benchmark、LLM-as-a-Judge),具备业务抽象能力

申请策略

  • 在求职信中表达对大模型评测方向的强烈兴趣,并结合自身经验提出改进思路
  • 提前了解字节跳动大模型业务(如豆包、火山引擎),在面试中展现行业认知
  • 突出全栈项目经验,尤其是分布式系统设计和性能优化案例
  • 强调Agent或大模型相关的开发经历,如评测工具、自动化框架
  • 展示业务落地成果,如将评测效率提升的具体数据
  • 如有开源贡献或技术博客,标注在显眼位置
  • 补充LLM-as-a-Judge相关实践,了解主流评测基准(如MMLU、GSM8K)
  • 学习Agent框架(如LangChain、CrewAI)并动手实现一个评测Agent

面试指南

  • 系统设计题:遵循“需求分析-架构选型-模块划分-细节优化”的框架,强调可扩展性和鲁棒性
  • 经验题:采用STAR原则(情境-任务-行动-结果),突出技术难点和自己的贡献
  • 开放题:先界定问题边界,再分点论述,最后总结可能存在的不足和未来方向
  • 如何设计一个高并发的大模型评测系统?请从架构层面展开
  • 请描述一次你使用Agent解决复杂业务问题的经历,遇到了哪些挑战?
  • 你如何评估一个AI Agent的评测结果是否可靠?
  • 对LLM-as-a-Judge方法有什么理解?它有哪些局限性?
  • 假设需要评测一个多轮对话模型,你会设计哪些指标?

匹配度报告

68
综合匹配度

大模型评测前沿岗位,技术成长空间大,薪资竞争力强,但工作强度较高。

适合人群
适合追求技术成长、渴望在大模型前沿领域挑战自己的开发者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展90
工作生活40
使命价值70

薪资福利匹配

70中等

字节跳动薪资水平在行业中处于领先地位,但JD未明确具体薪资,且未提及福利。

薪资信号未披露(AI估算:25K-50K/月)

成长发展匹配

90较高

岗位涉及大模型评测前沿技术,能深入接触AI Agent和分布式系统,成长空间大。

技术前沿前沿/新兴技术
技术栈大模型、AI Agent、分布式系统、LLM、全栈开发
业务类型ambiguous

工作生活匹配

40较低

字节跳动为互联网大厂,通常工作强度较高,JD未提及弹性办公或WLB。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型评测属于AI核心领域,对行业有直接推动作用,但JD未突出社会价值。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 服务器整机结构工程师-Data

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 内容营销经理(飞书AI/Agent方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 游戏动作设计组长/专家

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 后端研发工程师-客服平台(成都)

    字节跳动 · 成都市
    AI 估算 · 20k-35k
  • 内容分发策略产品-红果短剧

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • 向量数据库高级研发工程师

    快手 · 北京市
    AI 估算 · 35k-65k

字节跳动 的其他在招职位

  • 服务器整机结构工程师-Data

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 内容营销经理(飞书AI/Agent方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 游戏动作设计组长/专家

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 后端研发工程师-客服平台(成都)

    字节跳动 · 成都市
    AI 估算 · 20k-35k
  • 内容分发策略产品-红果短剧

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • 向量数据库高级研发工程师

    快手 · 北京市
    AI 估算 · 35k-65k