快手的【快Star】基础大模型强化学习工程师薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

【快Star】基础大模型强化学习工程师的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

快手的【快Star】基础大模型强化学习工程师有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

快手

【快Star】基础大模型强化学习工程师

立即应聘

【快Star】基础大模型强化学习工程师

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

分布式系统

强化学习

Megatron-LM

PyTorch

RLHF

AI 估算 · 30k–60k

大厂核心大模型岗位，技能稀缺，薪资竞争力强，综合市场行情估算。

职位详情

关于这个职位

该职位负责快手多模态视频理解大模型的强化学习后训练基础设施建设，专注于推理-训练协同系统优化，提升RL训练吞吐与样本效率

你将参与Agent框架构建、分布式奖励评估系统开发，并解决可观测性与可解释性问题

适合有分布式系统经验、熟悉Ray及RL框架的工程师

最低要求

熟练掌握Linux环境下的Python/C++等1至2种以上语言

熟悉Ray架构和生态，有Ray应用或者Ray Core开发经验

掌握分布式系统原理，参与过分布式系统的设计、开发和维护

有优秀的逻辑分析能力，能够对业务逻辑进行合理的抽象和拆分

有强烈的工作责任心，较好的学习能力、沟通能力和自驱力，能够快速的响应和行动

工作职责

负责强化学习任务性能优化，提升模型训练效率

负责构建Agent、Function Call、Sandbox以及其他环境交互场景下的强化学习下的分布式训练奖励评估系统

负责构建Agent框架与平台，支持复杂交互下的强化学习模型训练

负责强化学习环境下的可观测性、可解释性的系统建设

负责强化学习任务性能优化，提升模型迭代效率

优先资格

熟悉至少一种主流的机器学习框架，如PyTorch/Megatron-LM/DeepSpeed等

熟悉至少一种主流的RLHF框架，如OpenRLHF/VeRL/ChatLearn等

熟悉Ray框架或其他强化学习相关计算框架

AI 洞察

优缺点分析

优点

快手为上市公司，平台大，资源充足，大模型方向为战略重点
涉及前沿RL技术（Agentic RL、RLHF），技术深度高，薪资待遇好
可接触大规模分布式训练系统，积累宝贵架构经验
大模型领域竞争激烈，技术迭代快，需要持续学习
系统优化工作复杂度高，需解决大规模训练中的工程难题
工作强度可能较大，需适应快速响应和行动

缺点 / 挑战

适合对强化学习和大模型训练系统有浓厚兴趣、具备分布式系统背景、喜欢挑战技术难题的工程师

角色解读

从强化学习基础设施工程师成长为系统架构师，主导大模型训练平台设计
深入多模态视频理解领域，成为AI agent与强化学习交叉方向的专家
有机会参与前沿研究，发表顶会论文，推动技术落地
设计和优化强化学习训练系统，提升模型训练效率与吞吐量
构建Agent交互环境下的分布式奖励评估系统，支持复杂训练场景
开发Agent框架与平台，实现可观测性与可解释性系统
扎实的编程能力，精通Python/C++，掌握Linux开发环境
熟悉Ray框架及其生态，具备分布式系统设计与开发经验
了解主流RL框架如PyTorch、DeepSpeed，以及RLHF框架如OpenRLHF

申请策略

了解快手在多模态大模型和视频理解方面的业务，准备相关技术方案
面试时可展示对大规模训练系统的性能优化思路
突出分布式系统或Ray框架的项目经验，展示设计、开发与维护能力
强调在RL训练优化或RLHF方面的具体成果，如提升训练效率的量化指标
展示Python/C++编程能力，可附带GitHub或开源贡献
提前学习Ray Core和Ray Serve，掌握分布式调度原理
熟悉主流RLHF框架（如VeRL、OpenRLHF）的使用与内部机制

面试指南

先描述系统整体架构，再聚焦具体设计决策和优化手段，给出量化结果
使用STAR原则（情境-任务-行动-结果）组织项目经验
请描述你在Ray框架上开发或优化的一个分布式训练系统
RLHF训练中如何解决奖励模型的稳定性问题？
如何设计一个支持Agent交互的分布式奖励评估系统？
在大规模RL训练中，你如何监控和优化训练效率？
请解释Function Call在强化学习环境中的作用
复习Ray核心概念，准备一个熟悉的Ray项目实例

职位点评

综合评分

大厂核心大模型岗位，前沿技术栈，高成长性，但工作强度可能较大。

更适合这类人

该职位最适合追求技术前沿与职业成长的求职者，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值65

薪资福利

80较高

快手为上市公司，薪酬竞争力强，但JD未明确薪资福利细节，仅从公司规模和岗位稀缺性判断。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

岗位涉及前沿RL技术，技术栈现代，成长空间大，JD明确涉及多个技术方向。

技术前沿前沿/新兴技术

技术栈强化学习、Ray、PyTorch、RLHF、Agent、分布式系统

业务类型ambiguous

工作生活

40较低

JD未提及远程办公或弹性工时，工作地点北京，互联网大厂通常强度较高。

工作模式未明确

办公地点未明确

加班情况未提及（无法判断）

使命价值

65中等

多模态视频理解与AI agent技术属于高速增长领域，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

快手

【快Star】基础大模型强化学习工程师

立即应聘

【快Star】基础大模型强化学习工程师

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

分布式系统

强化学习

Megatron-LM

PyTorch

RLHF

AI 估算 · 30k–60k

大厂核心大模型岗位，技能稀缺，薪资竞争力强，综合市场行情估算。

职位详情

关于这个职位

该职位负责快手多模态视频理解大模型的强化学习后训练基础设施建设，专注于推理-训练协同系统优化，提升RL训练吞吐与样本效率

你将参与Agent框架构建、分布式奖励评估系统开发，并解决可观测性与可解释性问题

适合有分布式系统经验、熟悉Ray及RL框架的工程师

最低要求

熟练掌握Linux环境下的Python/C++等1至2种以上语言

熟悉Ray架构和生态，有Ray应用或者Ray Core开发经验

掌握分布式系统原理，参与过分布式系统的设计、开发和维护

有优秀的逻辑分析能力，能够对业务逻辑进行合理的抽象和拆分

有强烈的工作责任心，较好的学习能力、沟通能力和自驱力，能够快速的响应和行动

工作职责

负责强化学习任务性能优化，提升模型训练效率

负责构建Agent、Function Call、Sandbox以及其他环境交互场景下的强化学习下的分布式训练奖励评估系统

负责构建Agent框架与平台，支持复杂交互下的强化学习模型训练

负责强化学习环境下的可观测性、可解释性的系统建设

负责强化学习任务性能优化，提升模型迭代效率

优先资格

熟悉至少一种主流的机器学习框架，如PyTorch/Megatron-LM/DeepSpeed等

熟悉至少一种主流的RLHF框架，如OpenRLHF/VeRL/ChatLearn等

熟悉Ray框架或其他强化学习相关计算框架

AI 洞察

优缺点分析

优点

快手为上市公司，平台大，资源充足，大模型方向为战略重点
涉及前沿RL技术（Agentic RL、RLHF），技术深度高，薪资待遇好
可接触大规模分布式训练系统，积累宝贵架构经验
大模型领域竞争激烈，技术迭代快，需要持续学习
系统优化工作复杂度高，需解决大规模训练中的工程难题
工作强度可能较大，需适应快速响应和行动

缺点 / 挑战

适合对强化学习和大模型训练系统有浓厚兴趣、具备分布式系统背景、喜欢挑战技术难题的工程师

角色解读

从强化学习基础设施工程师成长为系统架构师，主导大模型训练平台设计
深入多模态视频理解领域，成为AI agent与强化学习交叉方向的专家
有机会参与前沿研究，发表顶会论文，推动技术落地
设计和优化强化学习训练系统，提升模型训练效率与吞吐量
构建Agent交互环境下的分布式奖励评估系统，支持复杂训练场景
开发Agent框架与平台，实现可观测性与可解释性系统
扎实的编程能力，精通Python/C++，掌握Linux开发环境
熟悉Ray框架及其生态，具备分布式系统设计与开发经验
了解主流RL框架如PyTorch、DeepSpeed，以及RLHF框架如OpenRLHF

申请策略

了解快手在多模态大模型和视频理解方面的业务，准备相关技术方案
面试时可展示对大规模训练系统的性能优化思路
突出分布式系统或Ray框架的项目经验，展示设计、开发与维护能力
强调在RL训练优化或RLHF方面的具体成果，如提升训练效率的量化指标
展示Python/C++编程能力，可附带GitHub或开源贡献
提前学习Ray Core和Ray Serve，掌握分布式调度原理
熟悉主流RLHF框架（如VeRL、OpenRLHF）的使用与内部机制

面试指南

先描述系统整体架构，再聚焦具体设计决策和优化手段，给出量化结果
使用STAR原则（情境-任务-行动-结果）组织项目经验
请描述你在Ray框架上开发或优化的一个分布式训练系统
RLHF训练中如何解决奖励模型的稳定性问题？
如何设计一个支持Agent交互的分布式奖励评估系统？
在大规模RL训练中，你如何监控和优化训练效率？
请解释Function Call在强化学习环境中的作用
复习Ray核心概念，准备一个熟悉的Ray项目实例

职位点评

综合评分

大厂核心大模型岗位，前沿技术栈，高成长性，但工作强度可能较大。

更适合这类人

该职位最适合追求技术前沿与职业成长的求职者，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值65

薪资福利

80较高

快手为上市公司，薪酬竞争力强，但JD未明确薪资福利细节，仅从公司规模和岗位稀缺性判断。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

岗位涉及前沿RL技术，技术栈现代，成长空间大，JD明确涉及多个技术方向。

技术前沿前沿/新兴技术

技术栈强化学习、Ray、PyTorch、RLHF、Agent、分布式系统

业务类型ambiguous

工作生活

40较低

JD未提及远程办公或弹性工时，工作地点北京，互联网大厂通常强度较高。

工作模式未明确

办公地点未明确

加班情况未提及（无法判断）

使命价值

65中等

多模态视频理解与AI agent技术属于高速增长领域，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

【快Star】基础大模型强化学习工程师

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

【快Star】基础大模型强化学习工程师

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

快手 的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

高级软件研发工程师

营销增长工程师/架构师

高级专家工程师-实线TL（运力平台方向）

高级算法工程师

高级/资深 agent研发工程师

快手 的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

高级软件研发工程师

营销增长工程师/架构师

高级专家工程师-实线TL（运力平台方向）

高级算法工程师

高级/资深 agent研发工程师

快手的其他在招职位

快手的其他在招职位