Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Kunlun Tech logo
昆仑万维
2050-大模型强化学习研究员
立即应聘

2050-大模型强化学习研究员

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
硕士
研究与开发 (研发)
PyTorch
强化学习
NeurIPS
算法研究
分布式训练
大模型
DeepSpeed
RLHF
Rft

AI 估算 · 30k–60k

大模型研究员岗位稀缺,核心技术要求高,市场竞争激烈,薪资处于行业上游。

职位详情

关于这个职位

这是一个专注于大模型强化学习的研究岗位,核心工作是优化RLHF、RFT等对齐算法,设计训练管道,提升模型在Agent任务上的表现

你将研究前沿算法,并落地到大规模分布式训练中,适合有扎实RL和DL背景的技术人才

最低要求

有RLHF对齐策略经验,能优化人类偏好建模

参与过开放领域大模型训练(如ChatGPT、Gemini方式的RL训练)
计算机科学、机器学习、人工智能等相关专业,硕士及以上学历(博士优先)
深入理解强化学习(RL)原理和在大模型领域的应用
具备数学功底(统计、优化、信息论等),能独立阅读顶会论文(NeurIPS/ICLR/ICML)并实现
有大规模分布式训练经验,熟悉DeepSpeed、FSDP、Ray RLlib、RLHF训练框架等
精通PyTorch / JAX / TensorFlow,具备深度强化学习代码落地能力,能够优化训练pipeline

工作职责

研究和优化大模型强化学习(RLHF、RFT、ReFT、RL等)相关的核心算法

设计并实现强化学习训练管道,包括奖励建模、策略优化、数据收集等
结合SFT(监督微调)+ RL 训练范式,提升大模型在Agent开放领域任务(如Computer Use、搜索、自动代码软件开发等)上的表现
关注大模型强化学习最新进展,撰写技术文档和研究报告,为团队提供技术支持

优先资格

参与过大模型训练或RLHF项目,有开源贡献或论文发表者优先

有参与过Agent模型和系统开发的经验优先
在人工智能顶会发表过相关论文或有影响力的Technical Report,顶会论文、开源项目等

AI 洞察

优缺点分析

优点

  • 处于大模型最前沿,接触RLHF、Agent等热门方向,技术积累含金量高
  • 昆仑万维上市企业,资源充足,有实际落地场景,研究能快速转化
  • 团队技术导向,可参与顶会论文发表,提升个人学术影响力
  • 技术要求全面,需同时掌握RL、DL、分布式系统,学习曲线陡峭
  • 研究型岗位,需要持续跟进最新论文并快速实验,工作强度较大
  • 适合有扎实RL和DL背景、热爱前沿技术、渴望在AI核心领域做出成果的研究型工程师或博士

缺点 / 挑战

  • 大模型竞争激烈,项目周期短,可能需要应对快速迭代的压力

角色解读

  • 技术纵深:深入大模型对齐与Agent方向,成为RLHF领域的专家
  • 横向拓展:掌握多模态训练、世界模型等前沿技术,拓宽研究视野
  • 领导力:带团队攻关关键技术,成为首席研究员或算法负责人
  • 研究并优化大模型强化学习算法,包括RLHF、RFT、ReFT等,提升模型与人类偏好的对齐效果
  • 设计和实现大规模强化学习训练管道,涵盖奖励建模、策略优化、数据收集等环节
  • 结合监督微调(SFT)与强化学习,提升模型在Agent任务(如Computer Use、自动编程)上的表现
  • 扎实的强化学习理论基础,熟悉RLHF、PPO等算法原理
  • 精通PyTorch等深度学习框架,具备大规模分布式训练经验(DeepSpeed、FSDP、Ray RLlib)
  • 较强的数学功底(统计、优化、信息论),能独立复现顶会论文(NeurIPS/ICLR/ICML)算法

申请策略

  • 提前了解昆仑万维的大模型业务方向(如天工大模型),在面试中展现对业务的思考
  • 准备一个与RLHF或Agent相关的项目演示,展示从问题定义到实现的全流程
  • 突出RLHF或强化学习相关项目经验,包括训练框架、模型效果提升等量化指标
  • 强调分布式训练实践,如使用DeepSpeed、FSDP进行大规模模型训练
  • 列出顶会论文或开源贡献,体现学术和工程双重能力
  • 系统学习强化学习理论,特别是PPO、DPO等算法,可阅读Spinning Up等教程
  • 动手复现NeurIPS/ICLR上的RLHF或Agent论文,积累代码实战经验

面试指南

  • 结构化回答:先给出核心概念,再分步骤阐述流程,最后总结关键点
  • STAR法则:情境-任务-行动-结果,清晰展示项目背景和你的贡献
  • 对比分析:将不同方法(如RLHF与DPO)进行比较,体现深度思考
  • 请详细解释RLHF的完整流程,包括奖励模型训练和PPO优化
  • 在大规模分布式训练中,如何处理数据并行和模型并行的负载均衡?
  • 描述一个你使用强化学习解决实际问题的项目,遇到了哪些挑战?
  • 如何评估一个强化学习训练管道的效率?有哪些优化手段?
  • 你对Agent领域未来的研究方向有什么看法?

职位点评

71
综合评分

前沿大模型RL研究岗,技术成长极高,薪资可观,但WLB一般。

更适合这类人
最看重技术成长和前沿探索的求职者,对工作地点固定和加班有一定承受力。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展95
工作生活40
使命价值80

薪资福利

70中等

薪资水平高,但未明确提及福利,且需面试确认具体待遇。

薪资信号未披露(AI估算:30K-60K/月)

成长发展

95较高

处于大模型技术最前沿,有大量研究机会,能快速积累核心技能。

技术前沿前沿/新兴技术
技术栈大模型、强化学习、RLHF、RFT、DeepSpeed、PyTorch、分布式训练
业务类型profit_center

工作生活

40较低

仅现场办公,未提及弹性工作或远程,且大模型研发可能强度较大。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

80较高

大模型是高速增长赛道,推动AI前沿发展,有社会影响力。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

昆仑万维 的其他在招职位

  • 音频算法

    昆仑万维 · 北京市
    AI 估算 · 30k-55k
  • 海外增长策略产品

    昆仑万维 · 北京市
    AI 估算 · 25k-40k
  • 文案策划

    昆仑万维 · 广州市
    AI 估算 · 10k-18k
  • AI 社交-算法研究员/专家 - AIGC (NLP)

    昆仑万维 · 北京市
    AI 估算 · 30k-60k
  • 地编设计师

    昆仑万维 · 广州市
    AI 估算 · 10k-20k

相似职位推荐

  • Product Engineer

    采埃孚 · 上海市
    AI 估算 · 12k-25k
  • Algorithm Engineer

    采埃孚 · 上海市
    AI 估算 · 20k-35k
  • Function & Baseline Management

    大众汽车 · 合肥市
    AI 估算 · 20k-30k
  • Senior R&D Engineer

    魏德米勒 · 苏州市
    AI 估算 · 20k-35k
  • 双电源开关研发结构工程师

    溯高美索克曼 · 杭州市
    AI 估算 · 15k-25k

昆仑万维 的其他在招职位

  • 音频算法

    昆仑万维 · 北京市
    AI 估算 · 30k-55k
  • 海外增长策略产品

    昆仑万维 · 北京市
    AI 估算 · 25k-40k
  • 文案策划

    昆仑万维 · 广州市
    AI 估算 · 10k-18k
  • AI 社交-算法研究员/专家 - AIGC (NLP)

    昆仑万维 · 北京市
    AI 估算 · 30k-60k
  • 地编设计师

    昆仑万维 · 广州市
    AI 估算 · 10k-20k

相似职位推荐

  • Product Engineer

    采埃孚 · 上海市
    AI 估算 · 12k-25k
  • Algorithm Engineer

    采埃孚 · 上海市
    AI 估算 · 20k-35k
  • Function & Baseline Management

    大众汽车 · 合肥市
    AI 估算 · 20k-30k
  • Senior R&D Engineer

    魏德米勒 · 苏州市
    AI 估算 · 20k-35k
  • 双电源开关研发结构工程师

    溯高美索克曼 · 杭州市
    AI 估算 · 15k-25k