Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Kunlun Tech logo
昆仑万维
2050-强化学习算法研究员
立即应聘

2050-强化学习算法研究员

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
研究与开发 (研发)
PyTorch
强化学习
大模型
DeepSpeed
PPO
RLHF
DPO
Megatron
Grpo

AI 估算 · 40k–70k

强化学习高需求,北京大厂高级算法岗月薪范围4-7万,14薪,技术门槛高

职位详情

关于这个职位

该职位是昆仑万维的强化学习算法研究员,主要负责在大模型上开展强化学习的前沿探索,优化RL训练Pipeline,提升模型推理与指令跟随能力,并推动RL在复杂Agent任务中的落地应用

适合对RLHF、推理模型有深入研究和实践经验的同学

最低要求

跟进RLHF/RFT主流研究方向,熟悉RLHF的pipeline,了解DPO/PPO/GRPO等常见算法的细节与差异,对reasoning model的最新进展有跟进,优先考虑有相关训练算法训练与优化经验的同学

有扎实的机器学习、深度学习、强化学习基础,能对训练中的现象进行合理分析,客观给出结论,并针对训练中的问题提出合理的新思路
熟悉大模型和RLHF的常见训练框架,例如Deepspeed、Megatron、Verl、Openrlhf等主流框架,编程功底扎实,能快速且正确实现自己的实验需求

工作职责

开展强化学习在大模型上的探索工作,通过前沿研究和技术创新,优化RL训练Pipeline,提高模型的复杂推理和通用指令跟随能力

开展强化学习在复杂Agent任务(例如Computer Use,Deep Research,AI IDE等)上的落地探索,拓宽大模型的应用边界
对学术前沿保持跟进,鼓励将研究工作开源,并撰写论文或技术报告,促进团队内部以及与外部的技术交流

优先资格

在NeurIPS/ICML/ICLR/CVPR等国际会议上发表过相关论文者优先

有ACM-ICPC,NOI/OI参赛经验者优先
有大规模RL落地经验者优先

AI 洞察

优缺点分析

优点

  • 前沿技术方向,RL+大模型是当前AI热点,技能含金量高
  • 上市公司资源充足,鼓励开源和发论文,学术氛围浓厚
  • 团队优秀,技术交流机会多,能快速成长
  • 技术门槛高,需要深入理解RLHF和推理模型
  • 工作节奏可能较快,需要持续跟进前沿研究
  • 竞争激烈,需要不断产出创新成果
  • 适合对强化学习和大模型有浓厚兴趣,具备扎实理论基础和工程能力,渴望在技术前沿深耕的研究型人才

缺点 / 挑战

暂无明显挑战项

角色解读

  • 在RLHF和推理模型领域深耕,成为技术专家
  • 向大模型训练架构师或AI研究员方向发展
  • 有机会晋升为团队技术负责人或研究员
  • 优化大模型的强化学习训练流程,提升推理和指令跟随能力
  • 探索强化学习在Computer Use、Deep Research等复杂Agent任务中的应用
  • 跟进学术前沿,通过开源和论文促进技术交流
  • 扎实的机器学习、深度学习和强化学习基础,熟悉RLHF及相关算法(PPO/DPO/GRPO)
  • 熟练使用大模型训练框架如Deepspeed、Megatron、Verl等
  • 优秀的编程能力(Python),能快速实现实验需求

申请策略

  • 关注昆仑万维在AI领域的布局,展示与之契合的研究兴趣
  • 准备一份技术简报,展示你在RLHF或推理模型上的思考
  • 突出强化学习相关项目经验,尤其是RLHF或推理模型训练
  • 强调发表论文或竞赛获奖(如NeurIPS、ACM-ICPC)
  • 展示大规模RL落地经验或开源贡献
  • 深入学习PPO/GRPO等算法原理及实现
  • 熟悉至少一种大模型训练框架(如Deepspeed)
  • 了解最新reasoning model(如GPT-o1)的技术细节

面试指南

  • 从理论基础出发,结合具体实验现象进行解释
  • 使用STAR方法描述项目经历(情境-任务-行动-结果)
  • 展示对前沿技术的跟踪和理解,并提出自己的见解
  • 请详细解释PPO算法的工作原理,并对比DPO和GRPO的优缺点
  • 你在RLHF训练中遇到过哪些问题?如何解决的?
  • 如何评估强化学习模型的推理能力?有哪些改进方向?
  • 描述一个你使用Deepspeed或Megatron进行大规模训练的项目
  • 你对reasoning model的最新进展有哪些了解?

职位点评

71
综合评分

顶级AI研究员岗位,技术前沿、成长快,但需加班且薪资面议。

更适合这类人
适合注重技术成长和前沿探索,能接受一定工作强度的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展90
工作生活50
使命价值75

薪资福利

70中等

薪资属市场偏高,上市大厂福利齐全,但具体薪资未披露,补偿性动机满足较好。

薪资信号未披露(AI估算:40K-70K/月)

成长发展

90较高

职位要求前沿技术,鼓励开源和发表论文,成长空间大,发展性动机极强。

技术前沿前沿/新兴技术
技术栈强化学习、RLHF、大模型、PPO、DPO、GRPO、Deepspeed、Megatron
成长机会鼓励将研究工作开源,并撰写论文或技术报告
业务类型profit_center

工作生活

50较低

仅现场办公,未提及WLB,可能工作强度较大,生活化动机满足一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

75中等

AI前沿研究推动技术边界,社会影响力中性偏正,意义感较强。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

昆仑万维 的其他在招职位

  • 音频算法

    昆仑万维 · 北京市
    AI 估算 · 30k-55k
  • 海外增长策略产品

    昆仑万维 · 北京市
    AI 估算 · 25k-40k
  • 文案策划

    昆仑万维 · 广州市
    AI 估算 · 10k-18k
  • AI 社交-算法研究员/专家 - AIGC (NLP)

    昆仑万维 · 北京市
    AI 估算 · 30k-60k
  • 地编设计师

    昆仑万维 · 广州市
    AI 估算 · 10k-20k

相似职位推荐

  • Product Engineer

    采埃孚 · 上海市
    AI 估算 · 12k-25k
  • Algorithm Engineer

    采埃孚 · 上海市
    AI 估算 · 20k-35k
  • Function & Baseline Management

    大众汽车 · 合肥市
    AI 估算 · 20k-30k
  • Senior R&D Engineer

    魏德米勒 · 苏州市
    AI 估算 · 20k-35k
  • 双电源开关研发结构工程师

    溯高美索克曼 · 杭州市
    AI 估算 · 15k-25k

昆仑万维 的其他在招职位

  • 音频算法

    昆仑万维 · 北京市
    AI 估算 · 30k-55k
  • 海外增长策略产品

    昆仑万维 · 北京市
    AI 估算 · 25k-40k
  • 文案策划

    昆仑万维 · 广州市
    AI 估算 · 10k-18k
  • AI 社交-算法研究员/专家 - AIGC (NLP)

    昆仑万维 · 北京市
    AI 估算 · 30k-60k
  • 地编设计师

    昆仑万维 · 广州市
    AI 估算 · 10k-20k

相似职位推荐

  • Product Engineer

    采埃孚 · 上海市
    AI 估算 · 12k-25k
  • Algorithm Engineer

    采埃孚 · 上海市
    AI 估算 · 20k-35k
  • Function & Baseline Management

    大众汽车 · 合肥市
    AI 估算 · 20k-30k
  • Senior R&D Engineer

    魏德米勒 · 苏州市
    AI 估算 · 20k-35k
  • 双电源开关研发结构工程师

    溯高美索克曼 · 杭州市
    AI 估算 · 15k-25k