Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型代码评测专家-大模型数据服务中心
立即应聘

大模型代码评测专家-大模型数据服务中心

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
机器学习
数据科学
深度学习
NLP
自动化评估
算法评估
AI评估
大模型
代码评测

AI 估算 · 25k–50k

大模型方向热门,字节跳动薪资有竞争力,本科+经验,月薪范围合理。

职位详情

关于这个职位

该职位主要负责大模型在代码方向的评测工作,包括调研公开评测方法、集成评测集、开发自动化评估工具,并主导制定评估标准

适合有大模型或代码评估经验、熟悉Python、具备良好沟通能力的技术人才

最低要求

本科及以上学历,计算机科学与技术、软件工程、大数据技术、人工智能等专业优先

具备优秀的沟通协调能力和团队协作意识
熟悉Python程序开发,有良好的编码风格及创新优化意识,具备较强的程序开发能力
了解PE,有大模型训练或模型评估经验,熟悉大模型评测方法

工作职责

调研公开评测方法,并将公开评测集集成至内部平台

探索智能、高效的模型自动化评估方案,主导开发评估工具
制定AI模型评估在代码方向的评估标准,主导评估体系构建,主导AI模型评估工作

优先资格

具备英文文献阅读能力,发表过计算机相关国际论文优先

有项目管理经验优先
大模型产品深度用户优先

AI 洞察

优缺点分析

优点

  • 大模型是当前最前沿的技术方向,该岗位能深入参与核心评测工作,积累稀缺经验
  • 字节跳动平台大、资源多,有海量数据和算力支持,技术成长快
  • 薪资福利优厚,股票激励和年终奖可观,职业发展空间广阔
  • 大模型评测方法尚不成熟,需要不断探索和试错,工作具有一定不确定性
  • 需要同时具备算法理解和工程实现能力,对综合技能要求高
  • 适合对大模型技术有浓厚兴趣、喜欢研究评测方法、具备较强编程和沟通能力的技术人才

缺点 / 挑战

  • 互联网大厂节奏快,可能面临较高的工作强度和压力

角色解读

  • 向大模型评估专家或AI安全/对齐方向深耕,成为团队核心评估决策者
  • 积累代码和模型评估经验后,可转向大模型训练或AI应用开发,打通全链路能力
  • 在字节跳动内部有清晰的职级晋升通道(如T3-T6),并有机会参与行业标准制定
  • 调研公开的大模型评测方法,如HumanEval、MBPP等,并将这些评测集集成到内部平台,确保评估流程标准化
  • 探索并开发智能自动化评估工具,提升评估效率,例如利用大模型自身进行自动评分或代码生成对比
  • 主导制定代码方向的AI模型评估标准,包括正确性、效率、安全性等多维度指标,并主导具体评估项目的执行
  • 扎实的Python编程能力,能够开发评测工具和处理大规模代码数据集
  • 深入了解大模型(如GPT、LLaMA)的评测方法,熟悉开源评测套件(如lm-evaluation-harness)
  • 良好的英文文献阅读能力,能够跟进最新评测论文和技术趋势
  • 优秀的沟通协调能力,能够与算法、工程团队协作推进评估标准落地

申请策略

  • 在简历中展示对字节跳动大模型产品(如豆包、扣子)的深度使用体验和评测想法
  • 面试前准备一个具体的评测方案设计或工具开发思路,展现解决问题的能力
  • 突出大模型相关项目经历,尤其是模型训练、评估或代码生成方向的实践
  • 强调Python开发能力,列出相关工具或框架(如Hugging Face、PyTorch)
  • 如有开源贡献、技术博客、论文发表,务必展示,体现技术影响力
  • 体现跨团队协作和项目管理经验,证明沟通协调能力
  • 深入学习主流大模型评测标准,如HumanEval、MBPP、CodeXGLUE等
  • 提升自动化评估脚本开发能力,熟悉CI/CD流程和测试框架

面试指南

  • 对于开放性问题,采用“问题分析-解决方案-评估效果”的结构,先明确目标,再提出具体方案,最后讨论局限性
  • 对于技术细节问题,结合自身经验举例,并说明技术选型理由,体现深度思考
  • 请介绍你了解的大模型代码评测方法,并比较它们的优缺点
  • 如何设计一个自动化评估工具,能高效评估多个模型在代码生成任务上的表现?
  • 给定一个模型生成的代码,你如何判断其正确性?如果部分正确如何处理?
  • 描述一次你参与大模型评估或训练的项目,你遇到了哪些挑战?如何解决?
  • 你对当前大模型代码能力评测的局限性有什么看法?如何改进?
  • 复习大模型评测相关论文和技术博客,特别是字节跳动公开的评估标准(如CodeGen评估)

匹配度报告

74
综合匹配度

字节跳动大模型评测岗,技术前沿、薪资优厚、成长快,但工作强度大、WLB一般。

适合人群
该职位最适合追求技术深度和职业成长的求职者,尤其是在意薪酬和发展的同学。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活50
使命价值70

薪资福利匹配

85较高

字节跳动薪资在行业内极具竞争力,且提供股票期权、五险一金等福利,补偿性动机满足度高。

薪资信号未披露(AI估算:25K-50K/月)

成长发展匹配

90较高

大模型是前沿技术领域,该岗位能深入参与核心评测工作,技术成长快,且字节跳动内部有完善培训体系,发展性动机强。

技术前沿前沿/新兴技术
技术栈大模型、代码评测、Python、自动化评估、机器学习
业务类型profit_center

工作生活匹配

50较低

北京现场办公,互联网大厂通常节奏较快,WLB一般,但公司有弹性工时政策,生活化动机满足一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型评测对AI安全、代码质量有积极意义,但商业导向较强,意义感动机中等偏上。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 大模型算法工程师-商品治理

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 芯片DFT工程师(深圳)

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • AI客户端开发工程师(应用研究方向)-集团信息系统

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 媒介专家-媒介一组

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 后端开发工程师(Top1)-TikTok搜索

    字节跳动 · 北京市
    AI 估算 · 25k-50k

相似职位推荐

  • 试验工程师

    中国融通集团 · 北京市
    AI 估算 · 10k-10k
  • ADAS Driving System Verification Senior Engineer_智能驾驶辅助系统测试验证高级工程师

    奔驰 · 北京市
    AI 估算 · 25k-40k
  • AIGC算法工程师(创意Agent/文案生成方向)

    小红书 · 北京市
    AI 估算 · 30k-60k
  • Lab Research & Development Intern

    国际香精香料公司 · 肇庆市
    AI 估算 · 3k-5k
  • Lab Research & Development Intern

    国际香精香料公司 · 肇庆市
    AI 估算 · 3k-5k

字节跳动 的其他在招职位

  • 大模型算法工程师-商品治理

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 芯片DFT工程师(深圳)

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • AI客户端开发工程师(应用研究方向)-集团信息系统

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 媒介专家-媒介一组

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 后端开发工程师(Top1)-TikTok搜索

    字节跳动 · 北京市
    AI 估算 · 25k-50k

相似职位推荐

  • 试验工程师

    中国融通集团 · 北京市
    AI 估算 · 10k-10k
  • ADAS Driving System Verification Senior Engineer_智能驾驶辅助系统测试验证高级工程师

    奔驰 · 北京市
    AI 估算 · 25k-40k
  • AIGC算法工程师(创意Agent/文案生成方向)

    小红书 · 北京市
    AI 估算 · 30k-60k
  • Lab Research & Development Intern

    国际香精香料公司 · 肇庆市
    AI 估算 · 3k-5k
  • Lab Research & Development Intern

    国际香精香料公司 · 肇庆市
    AI 估算 · 3k-5k