Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Kwai logo
快手
【快Star】基础大模型强化学习工程师
立即应聘

【快Star】基础大模型强化学习工程师

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
分布式系统
PyTorch
强化学习
Megatron-LM
RLHF

AI 估算 · 30k–60k

大厂核心大模型岗位,技能稀缺,薪资竞争力强,综合市场行情估算。

职位详情

关于这个职位

该职位负责快手多模态视频理解大模型的强化学习后训练基础设施建设,专注于推理-训练协同系统优化,提升RL训练吞吐与样本效率

你将参与Agent框架构建、分布式奖励评估系统开发,并解决可观测性与可解释性问题
适合有分布式系统经验、熟悉Ray及RL框架的工程师

最低要求

熟练掌握Linux环境下的Python/C++等1至2种以上语言

熟悉Ray架构和生态,有Ray应用或者Ray Core开发经验
掌握分布式系统原理,参与过分布式系统的设计、开发和维护
有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动

工作职责

负责强化学习任务性能优化,提升模型训练效率

负责构建Agent、Function Call、Sandbox以及其他环境交互场景下的强化学习下的分布式训练奖励评估系统
负责构建Agent框架与平台,支持复杂交互下的强化学习模型训练
负责强化学习环境下的可观测性、可解释性的系统建设
负责强化学习任务性能优化,提升模型迭代效率

优先资格

熟悉至少一种主流的机器学习框架,如PyTorch/Megatron-LM/DeepSpeed等

熟悉至少一种主流的RLHF框架,如OpenRLHF/VeRL/ChatLearn等
熟悉Ray框架或其他强化学习相关计算框架

AI 洞察

优缺点分析

优点

  • 快手为上市公司,平台大,资源充足,大模型方向为战略重点
  • 涉及前沿RL技术(Agentic RL、RLHF),技术深度高,薪资待遇好
  • 可接触大规模分布式训练系统,积累宝贵架构经验
  • 大模型领域竞争激烈,技术迭代快,需要持续学习
  • 系统优化工作复杂度高,需解决大规模训练中的工程难题
  • 工作强度可能较大,需适应快速响应和行动

缺点 / 挑战

  • 适合对强化学习和大模型训练系统有浓厚兴趣、具备分布式系统背景、喜欢挑战技术难题的工程师

角色解读

  • 从强化学习基础设施工程师成长为系统架构师,主导大模型训练平台设计
  • 深入多模态视频理解领域,成为AI agent与强化学习交叉方向的专家
  • 有机会参与前沿研究,发表顶会论文,推动技术落地
  • 设计和优化强化学习训练系统,提升模型训练效率与吞吐量
  • 构建Agent交互环境下的分布式奖励评估系统,支持复杂训练场景
  • 开发Agent框架与平台,实现可观测性与可解释性系统
  • 扎实的编程能力,精通Python/C++,掌握Linux开发环境
  • 熟悉Ray框架及其生态,具备分布式系统设计与开发经验
  • 了解主流RL框架如PyTorch、DeepSpeed,以及RLHF框架如OpenRLHF

申请策略

  • 了解快手在多模态大模型和视频理解方面的业务,准备相关技术方案
  • 面试时可展示对大规模训练系统的性能优化思路
  • 突出分布式系统或Ray框架的项目经验,展示设计、开发与维护能力
  • 强调在RL训练优化或RLHF方面的具体成果,如提升训练效率的量化指标
  • 展示Python/C++编程能力,可附带GitHub或开源贡献
  • 提前学习Ray Core和Ray Serve,掌握分布式调度原理
  • 熟悉主流RLHF框架(如VeRL、OpenRLHF)的使用与内部机制

面试指南

  • 先描述系统整体架构,再聚焦具体设计决策和优化手段,给出量化结果
  • 使用STAR原则(情境-任务-行动-结果)组织项目经验
  • 请描述你在Ray框架上开发或优化的一个分布式训练系统
  • RLHF训练中如何解决奖励模型的稳定性问题?
  • 如何设计一个支持Agent交互的分布式奖励评估系统?
  • 在大规模RL训练中,你如何监控和优化训练效率?
  • 请解释Function Call在强化学习环境中的作用
  • 复习Ray核心概念,准备一个熟悉的Ray项目实例

匹配度报告

69
综合匹配度

大厂核心大模型岗位,前沿技术栈,高成长性,但工作强度可能较大。

适合人群
该职位最适合追求技术前沿与职业成长的求职者,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值65

薪资福利匹配

80较高

快手为上市公司,薪酬竞争力强,但JD未明确薪资福利细节,仅从公司规模和岗位稀缺性判断。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

岗位涉及前沿RL技术,技术栈现代,成长空间大,JD明确涉及多个技术方向。

技术前沿前沿/新兴技术
技术栈强化学习、Ray、PyTorch、RLHF、Agent、分布式系统
业务类型ambiguous

工作生活匹配

40较低

JD未提及远程办公或弹性工时,工作地点北京,互联网大厂通常强度较高。

工作模式未明确
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

65中等

多模态视频理解与AI agent技术属于高速增长领域,但社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k