字节跳动的大模型代码评测专家-大模型数据服务中心薪资是多少？

该职位薪资范围为 25k–50k（人民币/月）。

大模型代码评测专家-大模型数据服务中心的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型代码评测专家-大模型数据服务中心有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型代码评测专家-大模型数据服务中心

立即应聘

大模型代码评测专家-大模型数据服务中心

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

代码评测

大模型

数据科学

机器学习

深度学习

算法评估

自动化评估

AI评估

NLP

AI 估算 · 25k–50k

大模型方向热门，字节跳动薪资有竞争力，本科+经验，月薪范围合理。

职位详情

关于这个职位

该职位主要负责大模型在代码方向的评测工作，包括调研公开评测方法、集成评测集、开发自动化评估工具，并主导制定评估标准

适合有大模型或代码评估经验、熟悉Python、具备良好沟通能力的技术人才

最低要求

本科及以上学历，计算机科学与技术、软件工程、大数据技术、人工智能等专业优先

具备优秀的沟通协调能力和团队协作意识

熟悉Python程序开发，有良好的编码风格及创新优化意识，具备较强的程序开发能力

了解PE，有大模型训练或模型评估经验，熟悉大模型评测方法

工作职责

调研公开评测方法，并将公开评测集集成至内部平台

探索智能、高效的模型自动化评估方案，主导开发评估工具

制定AI模型评估在代码方向的评估标准，主导评估体系构建，主导AI模型评估工作

优先资格

具备英文文献阅读能力，发表过计算机相关国际论文优先

有项目管理经验优先

大模型产品深度用户优先

AI 洞察

优缺点分析

优点

大模型是当前最前沿的技术方向，该岗位能深入参与核心评测工作，积累稀缺经验
字节跳动平台大、资源多，有海量数据和算力支持，技术成长快
薪资福利优厚，股票激励和年终奖可观，职业发展空间广阔
大模型评测方法尚不成熟，需要不断探索和试错，工作具有一定不确定性
需要同时具备算法理解和工程实现能力，对综合技能要求高
适合对大模型技术有浓厚兴趣、喜欢研究评测方法、具备较强编程和沟通能力的技术人才

缺点 / 挑战

互联网大厂节奏快，可能面临较高的工作强度和压力

角色解读

向大模型评估专家或AI安全/对齐方向深耕，成为团队核心评估决策者
积累代码和模型评估经验后，可转向大模型训练或AI应用开发，打通全链路能力
在字节跳动内部有清晰的职级晋升通道（如T3-T6），并有机会参与行业标准制定
调研公开的大模型评测方法，如HumanEval、MBPP等，并将这些评测集集成到内部平台，确保评估流程标准化
探索并开发智能自动化评估工具，提升评估效率，例如利用大模型自身进行自动评分或代码生成对比
主导制定代码方向的AI模型评估标准，包括正确性、效率、安全性等多维度指标，并主导具体评估项目的执行
扎实的Python编程能力，能够开发评测工具和处理大规模代码数据集
深入了解大模型（如GPT、LLaMA）的评测方法，熟悉开源评测套件（如lm-evaluation-harness）
良好的英文文献阅读能力，能够跟进最新评测论文和技术趋势
优秀的沟通协调能力，能够与算法、工程团队协作推进评估标准落地

申请策略

在简历中展示对字节跳动大模型产品（如豆包、扣子）的深度使用体验和评测想法
面试前准备一个具体的评测方案设计或工具开发思路，展现解决问题的能力
突出大模型相关项目经历，尤其是模型训练、评估或代码生成方向的实践
强调Python开发能力，列出相关工具或框架（如Hugging Face、PyTorch）
如有开源贡献、技术博客、论文发表，务必展示，体现技术影响力
体现跨团队协作和项目管理经验，证明沟通协调能力
深入学习主流大模型评测标准，如HumanEval、MBPP、CodeXGLUE等
提升自动化评估脚本开发能力，熟悉CI/CD流程和测试框架

面试指南

对于开放性问题，采用“问题分析-解决方案-评估效果”的结构，先明确目标，再提出具体方案，最后讨论局限性
对于技术细节问题，结合自身经验举例，并说明技术选型理由，体现深度思考
请介绍你了解的大模型代码评测方法，并比较它们的优缺点
如何设计一个自动化评估工具，能高效评估多个模型在代码生成任务上的表现？
给定一个模型生成的代码，你如何判断其正确性？如果部分正确如何处理？
描述一次你参与大模型评估或训练的项目，你遇到了哪些挑战？如何解决？
你对当前大模型代码能力评测的局限性有什么看法？如何改进？
复习大模型评测相关论文和技术博客，特别是字节跳动公开的评估标准（如CodeGen评估）

职位点评

综合评分

字节跳动大模型评测岗，技术前沿、薪资优厚、成长快，但工作强度大、WLB一般。

更适合这类人

该职位最适合追求技术深度和职业成长的求职者，尤其是在意薪酬和发展的同学。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活50

使命价值70

薪资福利

85较高

字节跳动薪资在行业内极具竞争力，且提供股票期权、五险一金等福利，补偿性动机满足度高。

薪资信号未披露（AI估算：25K-50K/月）

成长发展

90较高

大模型是前沿技术领域，该岗位能深入参与核心评测工作，技术成长快，且字节跳动内部有完善培训体系，发展性动机强。

技术前沿前沿/新兴技术

技术栈大模型、代码评测、Python、自动化评估、机器学习

业务类型profit_center

工作生活

50较低

北京现场办公，互联网大厂通常节奏较快，WLB一般，但公司有弹性工时政策，生活化动机满足一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型评测对AI安全、代码质量有积极意义，但商业导向较强，意义感动机中等偏上。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型代码评测专家-大模型数据服务中心

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

大模型代码评测专家-大模型数据服务中心

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动的其他在招职位

字节跳动的其他在招职位