字节跳动的大模型算法评测工程师-抖音研发（北京/杭州/深圳/上海）薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

大模型算法评测工程师-抖音研发（北京/杭州/深圳/上海）的工作地点在哪里？

该职位工作地点位于北京市、杭州市、深圳市、上海市。工作形式为仅现场办公。

字节跳动的大模型算法评测工程师-抖音研发（北京/杭州/深圳/上海）有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型算法评测工程师-抖音研发（北京/杭州/深圳/上海）

立即应聘

大模型算法评测工程师-抖音研发（北京/杭州/深圳/上海）

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 杭州市

中级经验

全职员工

仅现场办公

本科

软件工程

Opencompass

分布式系统

大模型

框架开发

评测体系

Bigbench

LLM

VLM

AI 估算 · 25k–45k

大厂核心算法岗，大模型领域热门，技能稀缺，市场薪资偏高，15薪常见。

职位详情

关于这个职位

该职位负责大模型（LLM/VLM等）评测体系的研发，包括设计评测方法、构建业务场景评测、开发分布式评测框架与平台

你将与算法团队紧密合作，支撑模型迭代与业务应用，适合对大模型原理和评测有深入理解的技术人才

最低要求

计算机等相关专业的本科及以上学历

对主流大模型的原理以及相关评测平台相关工作有较深入的理解

对于主流的大模型评测体系有较好的理解，比如Bigbench、Harness、OpenCompass等

具备良好的业务理解能力、协作和沟通能力，逻辑思维和学习能力强

工作职责

设计与研发LLM、VLM及音视频的大模型评测体系，支持大量的模型迭代与研发

构建业务域场景的评测体系，支持各业务域的评测能力

负责设计整体的评测体系、框架、以及大规模快速的分布式评测

研发大模型评测框架与平台，能够可视化支持各种类型的评测

AI 洞察

优缺点分析

优点

大模型是当前最热赛道，技术前沿，学习机会多
字节跳动平台大，资源丰富，项目影响力强
薪资待遇优厚，股票期权有吸引力
岗位涉及从体系设计到工程落地，综合能力提升快
评测体系构建需要严谨和创意，对系统性思维要求高

缺点 / 挑战

大模型领域变化快，需要持续学习，技术迭代压力大
跨城市办公可能涉及合作协调，工作强度较高
适合对AI评测有热情、喜欢技术挑战、适应快节奏的算法工程师，尤其适合有大模型或评测平台经验的候选人

角色解读

在评测领域深耕，成为大模型评测专家，主导评测体系建设
横向拓展到模型训练、推理优化等方向，成为全栈大模型工程师
向技术管理方向发展，领导评测团队或算法团队
设计和研发大模型（LLM/VLM）的评测体系，支持模型迭代与业务场景验证
构建业务域场景的评测能力，确保模型在具体应用中的效果和可靠性
开发分布式评测框架与平台，实现大规模、高效率的评测流程
可视化评测结果，为团队提供数据驱动的决策支持
扎实的计算机基础，精通Python等编程语言，熟悉分布式系统
深入理解大模型原理，掌握主流评测框架如Bigbench、Harness、OpenCompass
具备业务理解能力，能将技术评测与业务需求结合
良好的沟通协作能力，能与算法、产品、业务等多团队配合

申请策略

关注字节跳动技术博客，了解其大模型战略和评测实践
面试前准备一个完整的评测方案案例，体现系统设计能力
突出大模型相关的项目经验，尤其是评测工作
强调使用过的评测框架（如Bigbench、Harness等）和具体成果
展示分布式系统开发能力，如大数据处理、高并发框架
量化业绩，如评测效率提升、模型性能指标改善等
熟悉当前主流大模型（如GPT、Llama、Qwen等）的评测方法
学习开源评测工具的使用和二次开发

面试指南

对于设计题：先明确评测目标，再选指标，然后讲数据、流程、平台，最后讨论局限性
对于改进题：指出当前框架不足，结合业务场景提出具体优化方案
对于问题定位：强调数据验证、交叉分析、A/B测试等方法
请设计一个大模型在对话场景下的评测方案，包括指标和流程
你如何理解Bigbench的评测框架？如果让你改进一个方面，你会怎么做？
遇到评测结果与业务反馈不一致时，如何定位问题？
分布式评测中如何保证数据一致性？请举例说明
你如何看待当前大模型评测的局限性？有什么改进想法？

职位点评

综合评分

大厂核心算法岗，前沿技术栈，薪资优厚，但加班多，WLB差。

更适合这类人

最适合追求技术成长、高薪回报、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活40

使命价值60

薪资福利

85较高

字节跳动薪酬竞争力强，大厂福利完善，但工作强度高，加班常见，薪资信号为市场水准偏高。

薪资信号市场水准 (25K-45K/月)

成长发展

95较高

大模型是前沿技术，岗位涉及核心评测体系研发，成长空间极大，技术栈新。

技术前沿前沿/新兴技术

技术栈LLM、VLM、大模型、分布式系统、评测框架

业务类型profit_center

工作生活

40较低

字节跳动工作强度大，且要求现场办公，无弹性工作说明，WLB较差。

工作模式仅现场办公

办公地点未明确

加班情况明确要求弹性/高强度

使命价值

60中等

大模型评测对AI行业有推动作用，但互联网商业属性强，社会影响力中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型算法评测工程师-抖音研发（北京/杭州/深圳/上海）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯游戏-高性能算子优化工程师/专家

腾讯游戏-大模型推理性能优化工程师/专家

TAB实验中台-#后台开发工程师#

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型强化学习框架研发工程师/专家

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯游戏-高性能算子优化工程师/专家

腾讯游戏-大模型推理性能优化工程师/专家

TAB实验中台-#后台开发工程师#

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型强化学习框架研发工程师/专家

大模型算法评测工程师-抖音研发（北京/杭州/深圳/上海）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯游戏-高性能算子优化工程师/专家

腾讯游戏-大模型推理性能优化工程师/专家

TAB实验中台-#后台开发工程师#

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型强化学习框架研发工程师/专家

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯游戏-高性能算子优化工程师/专家

腾讯游戏-大模型推理性能优化工程师/专家

TAB实验中台-#后台开发工程师#

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型强化学习框架研发工程师/专家

字节跳动的其他在招职位

字节跳动的其他在招职位