字节跳动的大语言模型评测研究员-Seed薪资是多少？

该职位薪资范围为 35k–65k（人民币/月）。

大语言模型评测研究员-Seed的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大语言模型评测研究员-Seed有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

大语言模型评测研究员-Seed

立即应聘

大语言模型评测研究员-Seed

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

Post-Training

可解释性

大语言模型

火山引擎

评测

豆包

预训练

AGI

AI 估算 · 35k–65k

字节跳动大模型核心岗位，技术前沿且人才稀缺，薪资处于行业领先水平。

职位详情

关于这个职位

该职位主要负责大语言模型的评测研究，包括探索模型预训练与后训练的内在一致性、提出基于可解释性的评测标准、设计新型Benchmark以定义AGI，并通过Red Teaming发现模型短板

你将加入字节跳动Seed团队，参与豆包等核心应用的模型能力评估，推动AI前沿发展

最低要求

聚焦问题本质，从第一性原理思考问题

对模型评测和定义AGI充满兴趣

工作职责

探索模型在预训练阶段与Post-training阶段的内在一致性，跨训练阶段预测模型性能上限

探索从可解释性角度提出更多更深入的基于模型内在机理的评测标准

提出更好的Benchmark，定义模型能力，定义AGI

从评测角度对模型进行Red Teaming，找到模型的短板并针对性提出模型改进

探索全新的模型和智能应用，如Agent Foundation Model，DeepResearch，需要的评测基准

优先资格

有大模型训练或模型评估研究经验，和相关论文优先

AI 洞察

优缺点分析

优点

加入字节跳动Seed核心团队，参与前沿AGI研究，技术影响力大
资源丰富，有机会使用海量数据和计算资源进行实验
与顶尖AI研究员合作，职业成长空间广阔
评测工作涉及大量实验和数据分析，可能较为繁琐
大模型迭代快，需要不断更新知识体系
适合对AI评测有浓厚兴趣、具备扎实机器学习基础、喜欢从第一性原理探索问题的研究型人才

缺点 / 挑战

竞争激烈，需要持续跟进最新技术动态，研究压力较大

角色解读

成为大模型评测领域专家，主导公司级评测体系构建
转向模型训练或算法研究岗，参与核心模型开发
晋升技术专家或团队管理岗位，带领评测团队
设计并实施大模型评测方案，评估模型在预训练和post-training阶段的性能
研究模型内在机理，提出基于可解释性的评测标准，用于定义模型能力
参与Red Teaming，主动发现模型短板并推动针对性改进
跟踪前沿AI应用如Agent Foundation Model，探索其评测基准
深入理解大语言模型原理及训练流程，熟悉常见评测方法（如MMLU, GSM8K）
具备较强的实验设计和数据分析能力，能从第一性原理思考问题
对模型可解释性、AI安全有研究经验者优先
掌握至少一种深度学习框架（PyTorch/TensorFlow），有扎实的编程能力

申请策略

提前研究字节跳动Seed团队发表的论文和技术博客
准备一份针对评测研究的思考总结，展现你的独到见解
突出大模型训练或评估项目经验，展示量化成果
强调发表的相关论文或竞赛成绩（如KDD Cup, Kaggle）
体现对模型内在机理的理解和批判性思维
学习最新大模型评测方法和基准，如BIG-bench, HumanEval
掌握Red Teaming工具和技术，了解AI安全前沿

面试指南

使用STAR法则（情境、任务、行动、结果）描述项目经验
强调实验设计方法论，如控制变量、消融实验、统计显著性
从第一性原理出发，先定义评估目标再选择或设计评测方案
如何设计一个评测任务来评估大模型的推理能力？
你如何判断一个评测基准是否有效？举一个例子
谈谈你对模型可解释性的理解，如何将其用于评测？
描述一次你发现模型短板并推动改进的经历
你认为AGI的评测应该包括哪些维度？

职位点评

综合评分

字节大模型核心研发岗，前沿技术栈，高成长高压力，适合追求技术巅峰的研究型人才。

更适合这类人

最适合追求技术成长和前沿探索、对AGI有热情、能适应高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活40

使命价值85

薪资福利

75中等

字节跳动提供有竞争力的薪资和福利，但JD中未明确提及具体福利，薪资信号未披露。

薪资信号未披露（AI估算：35K-65K/月）

成长发展

90较高

该职位位于大模型前沿，涉及AGI定义和评测，技术挑战大，成长空间极高。

技术前沿前沿/新兴技术

技术栈大语言模型、预训练、Post-training、可解释性、Red Teaming、AGI、Agent Foundation Model

业务类型profit_center

工作生活

40较低

北京现场办公，JD中未提及弹性工作或WLB，互联网大厂通常工作强度较大。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

85较高

参与定义AGI和推动AI发展，具有较高的使命感和行业影响力。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号追求智能上限，为科技和社会发展作出贡献

创新程度开拓性创新（行业首创）

Watch Jobs

字节跳动

大语言模型评测研究员-Seed

立即应聘

大语言模型评测研究员-Seed

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

Post-Training

可解释性

大语言模型

火山引擎

评测

豆包

预训练

AGI

AI 估算 · 35k–65k

字节跳动大模型核心岗位，技术前沿且人才稀缺，薪资处于行业领先水平。

职位详情

关于这个职位

你将加入字节跳动Seed团队，参与豆包等核心应用的模型能力评估，推动AI前沿发展

最低要求

聚焦问题本质，从第一性原理思考问题

对模型评测和定义AGI充满兴趣

工作职责

探索模型在预训练阶段与Post-training阶段的内在一致性，跨训练阶段预测模型性能上限

探索从可解释性角度提出更多更深入的基于模型内在机理的评测标准

提出更好的Benchmark，定义模型能力，定义AGI

从评测角度对模型进行Red Teaming，找到模型的短板并针对性提出模型改进

探索全新的模型和智能应用，如Agent Foundation Model，DeepResearch，需要的评测基准

优先资格

有大模型训练或模型评估研究经验，和相关论文优先

AI 洞察

优缺点分析

优点

加入字节跳动Seed核心团队，参与前沿AGI研究，技术影响力大
资源丰富，有机会使用海量数据和计算资源进行实验
与顶尖AI研究员合作，职业成长空间广阔
评测工作涉及大量实验和数据分析，可能较为繁琐
大模型迭代快，需要不断更新知识体系
适合对AI评测有浓厚兴趣、具备扎实机器学习基础、喜欢从第一性原理探索问题的研究型人才

缺点 / 挑战

竞争激烈，需要持续跟进最新技术动态，研究压力较大

角色解读

成为大模型评测领域专家，主导公司级评测体系构建
转向模型训练或算法研究岗，参与核心模型开发
晋升技术专家或团队管理岗位，带领评测团队
设计并实施大模型评测方案，评估模型在预训练和post-training阶段的性能
研究模型内在机理，提出基于可解释性的评测标准，用于定义模型能力
参与Red Teaming，主动发现模型短板并推动针对性改进
跟踪前沿AI应用如Agent Foundation Model，探索其评测基准
深入理解大语言模型原理及训练流程，熟悉常见评测方法（如MMLU, GSM8K）
具备较强的实验设计和数据分析能力，能从第一性原理思考问题
对模型可解释性、AI安全有研究经验者优先
掌握至少一种深度学习框架（PyTorch/TensorFlow），有扎实的编程能力

申请策略

提前研究字节跳动Seed团队发表的论文和技术博客
准备一份针对评测研究的思考总结，展现你的独到见解
突出大模型训练或评估项目经验，展示量化成果
强调发表的相关论文或竞赛成绩（如KDD Cup, Kaggle）
体现对模型内在机理的理解和批判性思维
学习最新大模型评测方法和基准，如BIG-bench, HumanEval
掌握Red Teaming工具和技术，了解AI安全前沿

面试指南

使用STAR法则（情境、任务、行动、结果）描述项目经验
强调实验设计方法论，如控制变量、消融实验、统计显著性
从第一性原理出发，先定义评估目标再选择或设计评测方案
如何设计一个评测任务来评估大模型的推理能力？
你如何判断一个评测基准是否有效？举一个例子
谈谈你对模型可解释性的理解，如何将其用于评测？
描述一次你发现模型短板并推动改进的经历
你认为AGI的评测应该包括哪些维度？

职位点评

综合评分

字节大模型核心研发岗，前沿技术栈，高成长高压力，适合追求技术巅峰的研究型人才。

更适合这类人

最适合追求技术成长和前沿探索、对AGI有热情、能适应高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活40

使命价值85

薪资福利

75中等

字节跳动提供有竞争力的薪资和福利，但JD中未明确提及具体福利，薪资信号未披露。

薪资信号未披露（AI估算：35K-65K/月）

成长发展

90较高

该职位位于大模型前沿，涉及AGI定义和评测，技术挑战大，成长空间极高。

技术前沿前沿/新兴技术

技术栈大语言模型、预训练、Post-training、可解释性、Red Teaming、AGI、Agent Foundation Model

业务类型profit_center

工作生活

40较低

北京现场办公，JD中未提及弹性工作或WLB，互联网大厂通常工作强度较大。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

85较高

参与定义AGI和推动AI发展，具有较高的使命感和行业影响力。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号追求智能上限，为科技和社会发展作出贡献

创新程度开拓性创新（行业首创）

Watch Jobs

大语言模型评测研究员-Seed

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大语言模型评测研究员-Seed

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Senior Principal Scientist I, Translational Disease Biology

腾讯游戏-大模型评测专家

预研动作手游-资深文案策划（角色方向）

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型训练框架研发工程师/专家

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Senior Principal Scientist I, Translational Disease Biology

腾讯游戏-大模型评测专家

预研动作手游-资深文案策划（角色方向）

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型训练框架研发工程师/专家

字节跳动的其他在招职位

字节跳动的其他在招职位