字节跳动的大模型训练系统与优化工程师（VLM/Agent RL方向）-Data薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型训练系统与优化工程师（VLM/Agent RL方向）-Data有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

字节跳动

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

立即应聘

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

Agent Rl

Ai Infra

Grpo

Megatron

分布式训练

多模态

强化学习

性能优化

DeepSpeed

AI 估算 · 30k–60k

字节跳动高级工程师岗位，大模型赛道热门，薪资竞争力强，参考市场水准与公司薪酬体系。

职位详情

关于这个职位

该职位专注于大模型后训练框架的架构与优化，涉及超大规模分布式训练、强化学习训练框架（Agent RL/Reasoning RL）及多模态模型支持

你将参与100B~1T参数模型的训练效率提升，解决分布式训练瓶颈，并构建标准化的评测基准

适合对AI Infra有热情、追求极致性能的工程师

最低要求

具备2年以上机器学习系统设计、开发与性能调优经验，熟练掌握Python与C++

深入理解并具备PyTorch、DeepSpeed、Megatron或FSDP等主流分布式训练框架的二次开发经验

有100B以上超大模型分布式训练实战经验，能够独立排查并解决收敛性问题与分布式训练瓶颈

具备工程素养，对提升AI Infra的研发效率、代码整洁度与系统稳定性有追求

工作职责

统一训练架构建设与演进：负责大模型后训练（Post-training）框架的代码抽象与底层重构，兼容不同模态、不同训练方式的、正确的、高效的训练框架的建设

超大规模分布式训练优化：面向100B～1T参数级别的超大模型，探索并落地极致的分布式训练策略（DP、TP、PP、EP等组合），通过算子融合、显存优化、分布式策略调整等手段大幅提升集群训练的MFU

Agent RL框架与评估底座建设：攻坚Reasoning RL/Agent RL的训练框架，构建适用于复杂业务环境的标准化评测基准与标准的、稳定的Harness，解决千亿模型在RL阶段的稳定收敛与Rollout效率问题，解决在Agent RL下的长尾问题

多模态与新架构支持：为MoE、Linear Attention等新型模型结构，以及多模态（图、文文、音、视）复杂模态的模型训练提供高效支持与正确性（Convergence）验证

优先资格

在强化学习训练框架（PPO/GRPO/Agent RL）或大模型评测底座、Agentic Harness有深度实践者优先

AI 洞察

优缺点分析

优点

平台优势：字节跳动提供海量算力与数据资源，项目规模业界领先，个人成长空间大
薪资丰厚：大模型人才稀缺，公司给予具有竞争力的薪酬与股权激励
团队氛围：与顶尖工程师合作，技术驱动，鼓励创新与代码质量
技术门槛：要求对底层系统有深刻理解，需要持续学习前沿论文和框架更新
竞争激烈：团队内外部人才密集，需持续产出高价值成果才能脱颖而出

缺点 / 挑战

技术前沿：直接接触大模型训练核心挑战，涉及分布式、强化学习、多模态等最热领域
工作强度：大模型训练周期长、问题复杂，可能需要应对紧急的线上故障和迭代压力
适合对AI系统底层有浓厚兴趣、享受解决分布式性能瓶颈的技术极客，尤其适合有大模型训练或框架开发经验的工程师

角色解读

技术专家方向：成为分布式训练或AI Infra领域的权威，主导核心框架设计与优化
架构师方向：从单一系统扩展至整体训练平台架构，参与公司级AI基础设施规划
管理方向：积累技术影响力后，带领团队攻克更大规模、更复杂的训练挑战
负责大模型后训练框架的底层重构与统一架构建设，确保兼容多种模态和训练方式
针对千亿参数级别的超大模型，设计并优化分布式训练策略（DP/TP/PP/EP），提升集群MFU
构建强化学习训练框架（Reasoning RL/Agent RL）及标准化评测基准，解决RL训练的稳定性和效率问题
为MoE、Linear Attention等新型模型结构及多模态训练提供高效支持与收敛性验证
精通Python和C++，具备2年以上机器学习系统开发与性能调优经验
深入理解PyTorch、DeepSpeed、Megatron或FSDP等分布式框架，并有二次开发能力
有100B以上超大模型分布式训练实战经验，能独立排查收敛问题和训练瓶颈
了解强化学习训练框架（PPO/GRPO/Agent RL）或大模型评测底座者优先

申请策略

字节跳动面试注重系统设计和实际问题解决，准备时多思考分布式训练中的常见瓶颈与解决方案
可主动了解字节跳动在AI Infra方面的公开技术分享（如火山引擎），在面试中展现对公司的关注
突出分布式训练项目经验：详细描述你参与过的千亿参数模型训练案例，包括使用的框架、策略及优化成果
展示框架二次开发能力：列举对PyTorch、DeepSpeed等的修改或插件开发，体现工程能力
强调性能调优成果：用量化数据（如MFU提升、训练加速比）说明你的贡献
如有强化学习相关经验（PPO/GRPO/Agent RL），单独列出并说明应用场景
如果缺乏RL训练经验，可提前学习PPO、GRPO的基础原理，并尝试复现简单RL训练流程
补充对MoE、Linear Attention等新型架构的训练特性了解，阅读相关论文

面试指南

STAR法则：描述情境、任务、行动和结果，突出量化成果
先分析问题本质，再给出方案选择（对比不同策略的优劣），最后说明实践效果
展示系统性思维：从数据、模型、硬件、框架多个维度综合考虑
请描述你如何优化一个千亿参数模型的分布式训练，具体采用了哪些策略？
当模型训练出现Loss不收敛时，你会如何排查和解决？
谈谈你对PPO和GRPO的理解？在分布式环境下实现RL训练有哪些挑战？
如何设计一个支持多模态（文本+图像）的高效训练框架？
你在使用PyTorch或DeepSpeed时，遇到过哪些性能瓶颈？如何解决的？

职位点评

综合评分

字节大模型核心岗，技术前沿薪资顶尖，但WLB一般且需现场办公。

更适合这类人

适合追求技术快速成长和高薪资、愿意投入高强度工作的候选人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利90

成长发展95

工作生活40

使命价值80

薪资福利

90较高

字节跳动提供极具竞争力的薪酬和股票，该岗位属于公司核心AI项目，薪资水平在市场上处于高位，且福利完善。

薪资信号偏高 (30K-60K/月)

成长发展

95较高

岗位聚焦大模型前沿技术（分布式训练、强化学习、多模态），属于高速发展的AI Infra领域，技能成长迅速，但JD中未明确提及晋升机制或培训。

技术前沿前沿/新兴技术

技术栈分布式训练、PyTorch、DeepSpeed、Megatron、FSDP、强化学习、PPO、GRPO、Agent RL、MoE、Linear Attention、多模态

业务类型ambiguous

工作生活

40较低

仅现场办公，无远程选项；工作地点北京，互联网大厂节奏较快，但JD未提及加班情况，无法判断工作强度。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

80较高

AI大模型领域处于高速增长赛道，技术影响力较大，但岗位偏技术支撑，社会价值中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

立即应聘

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

Agent Rl

Ai Infra

Grpo

Megatron

分布式训练

多模态

强化学习

性能优化

DeepSpeed

AI 估算 · 30k–60k

字节跳动高级工程师岗位，大模型赛道热门，薪资竞争力强，参考市场水准与公司薪酬体系。

职位详情

关于这个职位

该职位专注于大模型后训练框架的架构与优化，涉及超大规模分布式训练、强化学习训练框架（Agent RL/Reasoning RL）及多模态模型支持

你将参与100B~1T参数模型的训练效率提升，解决分布式训练瓶颈，并构建标准化的评测基准

适合对AI Infra有热情、追求极致性能的工程师

最低要求

具备2年以上机器学习系统设计、开发与性能调优经验，熟练掌握Python与C++

深入理解并具备PyTorch、DeepSpeed、Megatron或FSDP等主流分布式训练框架的二次开发经验

有100B以上超大模型分布式训练实战经验，能够独立排查并解决收敛性问题与分布式训练瓶颈

具备工程素养，对提升AI Infra的研发效率、代码整洁度与系统稳定性有追求

工作职责

优先资格

在强化学习训练框架（PPO/GRPO/Agent RL）或大模型评测底座、Agentic Harness有深度实践者优先

AI 洞察

优缺点分析

优点

平台优势：字节跳动提供海量算力与数据资源，项目规模业界领先，个人成长空间大
薪资丰厚：大模型人才稀缺，公司给予具有竞争力的薪酬与股权激励
团队氛围：与顶尖工程师合作，技术驱动，鼓励创新与代码质量
技术门槛：要求对底层系统有深刻理解，需要持续学习前沿论文和框架更新
竞争激烈：团队内外部人才密集，需持续产出高价值成果才能脱颖而出

缺点 / 挑战

技术前沿：直接接触大模型训练核心挑战，涉及分布式、强化学习、多模态等最热领域
工作强度：大模型训练周期长、问题复杂，可能需要应对紧急的线上故障和迭代压力
适合对AI系统底层有浓厚兴趣、享受解决分布式性能瓶颈的技术极客，尤其适合有大模型训练或框架开发经验的工程师

角色解读

技术专家方向：成为分布式训练或AI Infra领域的权威，主导核心框架设计与优化
架构师方向：从单一系统扩展至整体训练平台架构，参与公司级AI基础设施规划
管理方向：积累技术影响力后，带领团队攻克更大规模、更复杂的训练挑战
负责大模型后训练框架的底层重构与统一架构建设，确保兼容多种模态和训练方式
针对千亿参数级别的超大模型，设计并优化分布式训练策略（DP/TP/PP/EP），提升集群MFU
构建强化学习训练框架（Reasoning RL/Agent RL）及标准化评测基准，解决RL训练的稳定性和效率问题
为MoE、Linear Attention等新型模型结构及多模态训练提供高效支持与收敛性验证
精通Python和C++，具备2年以上机器学习系统开发与性能调优经验
深入理解PyTorch、DeepSpeed、Megatron或FSDP等分布式框架，并有二次开发能力
有100B以上超大模型分布式训练实战经验，能独立排查收敛问题和训练瓶颈
了解强化学习训练框架（PPO/GRPO/Agent RL）或大模型评测底座者优先

申请策略

字节跳动面试注重系统设计和实际问题解决，准备时多思考分布式训练中的常见瓶颈与解决方案
可主动了解字节跳动在AI Infra方面的公开技术分享（如火山引擎），在面试中展现对公司的关注
突出分布式训练项目经验：详细描述你参与过的千亿参数模型训练案例，包括使用的框架、策略及优化成果
展示框架二次开发能力：列举对PyTorch、DeepSpeed等的修改或插件开发，体现工程能力
强调性能调优成果：用量化数据（如MFU提升、训练加速比）说明你的贡献
如有强化学习相关经验（PPO/GRPO/Agent RL），单独列出并说明应用场景
如果缺乏RL训练经验，可提前学习PPO、GRPO的基础原理，并尝试复现简单RL训练流程
补充对MoE、Linear Attention等新型架构的训练特性了解，阅读相关论文

面试指南

STAR法则：描述情境、任务、行动和结果，突出量化成果
先分析问题本质，再给出方案选择（对比不同策略的优劣），最后说明实践效果
展示系统性思维：从数据、模型、硬件、框架多个维度综合考虑
请描述你如何优化一个千亿参数模型的分布式训练，具体采用了哪些策略？
当模型训练出现Loss不收敛时，你会如何排查和解决？
谈谈你对PPO和GRPO的理解？在分布式环境下实现RL训练有哪些挑战？
如何设计一个支持多模态（文本+图像）的高效训练框架？
你在使用PyTorch或DeepSpeed时，遇到过哪些性能瓶颈？如何解决的？

职位点评

综合评分

字节大模型核心岗，技术前沿薪资顶尖，但WLB一般且需现场办公。

更适合这类人

适合追求技术快速成长和高薪资、愿意投入高强度工作的候选人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利90

成长发展95

工作生活40

使命价值80

薪资福利

90较高

字节跳动提供极具竞争力的薪酬和股票，该岗位属于公司核心AI项目，薪资水平在市场上处于高位，且福利完善。

薪资信号偏高 (30K-60K/月)

成长发展

95较高

岗位聚焦大模型前沿技术（分布式训练、强化学习、多模态），属于高速发展的AI Infra领域，技能成长迅速，但JD中未明确提及晋升机制或培训。

技术前沿前沿/新兴技术

技术栈分布式训练、PyTorch、DeepSpeed、Megatron、FSDP、强化学习、PPO、GRPO、Agent RL、MoE、Linear Attention、多模态

业务类型ambiguous

工作生活

40较低

仅现场办公，无远程选项；工作地点北京，互联网大厂节奏较快，但JD未提及加班情况，无法判断工作强度。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

80较高

AI大模型领域处于高速增长赛道，技术影响力较大，但岗位偏技术支撑，社会价值中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位