Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Kunlun Tech logo
昆仑万维
2050-Agent算法研究员
立即应聘

2050-Agent算法研究员

发布于 大约 15 小时前

普通员工/个人贡献者

北京市
初级经验
全职员工
仅现场办公
学历未注明
研究与开发 (研发)
强化学习
论文撰写
算法研究
大模型
RL训练
Ai Ide
Deep Research
Computer Use

AI 估算 · 20k–35k

北京校招算法岗,大模型方向热门,薪资有竞争力,中位数合理。

职位详情

关于这个职位

该职位主要从事强化学习与大模型结合的前沿研究,优化RL训练Pipeline,提升模型推理和指令跟随能力,并探索强化学习在复杂Agent任务(如Computer Use、Deep Research等)中的落地应用

适合对AI Agent和强化学习有浓厚兴趣、希望从事学术研究与技术创新的应届毕业生

工作职责

开展强化学习在大模型上的探索工作,通过前沿研究和技术创新,优化RL训练Pipeline,提高模型的复杂推理和通用指令跟随能力

开展强化学习在复杂Agent任务(例如Computer Use,Deep Research,AI IDE等)上的落地探索,拓宽大模型的应用边界
对学术前沿保持跟进,鼓励将研究工作开源,并撰写论文或技术报告,促进团队内部以及与外部的技术交流

AI 洞察

优缺点分析

优点

  • 大模型和Agent方向是当前最前沿的技术热点,技术积累价值高
  • 公司上市,平台稳定,资源充足,鼓励开源和论文发表
  • 作为校招岗,导师制和完善的培训体系有助于快速成长
  • 校招入职后需要快速掌握复杂的RL和大模型工程,竞争激烈
  • 工作地点北京,生活成本高,WLB一般
  • 适合对强化学习和大型语言模型有浓厚兴趣,具备较强算法能力和研究潜力,希望在AI前沿领域快速成长的应届毕业生

缺点 / 挑战

  • 研究难度大,需要持续学习最新论文和算法,工作压力可能较大

角色解读

  • 成长为强化学习/大模型领域的算法专家
  • 向AI Agent方向的技术Leader发展
  • 通过论文发表和技术交流,提升学术影响力
  • 开展强化学习在大模型上的探索研究,优化RL训练Pipeline
  • 探索强化学习在复杂Agent任务(如Computer Use、Deep Research)上的落地
  • 跟踪学术前沿,撰写论文或技术报告,参与开源工作
  • 扎实的强化学习和深度学习理论基础
  • 熟悉大模型训练框架和RL算法(如PPO、GRPO等)
  • 较强的编程能力(Python、PyTorch等),有工程实践经验
  • 良好的文献阅读和创新思维,能独立提出研究思路

申请策略

  • 关注昆仑万维在AI Agent领域的产品(如Skywork、天工等),面试中展现对公司业务的理解
  • 准备一个自己感兴趣的研究想法,展示你的创新思维
  • 突出强化学习相关项目或论文经历,详细描述你的贡献和成果
  • 展示大模型或Agent相关实践经验,例如使用RL微调模型或构建Agent系统
  • 强调编程能力、数学基础和算法实现细节
  • 提及任何开源贡献、技术博客或竞赛获奖
  • 补充强化学习最新算法(如PPO、DPO、GRPO)的原理和代码实现
  • 熟悉大模型训练框架(DeepSpeed、Megatron-LM等)和部署工具

面试指南

  • 用STAR法则描述项目经验:情境、任务、行动、结果
  • 从理论基础到实践细节分步回答,展现系统性思考
  • 结合自己的见解和反思,体现创新性和学习能力
  • 请解释PPO算法的原理和实现细节,并说明如何应用到RLHF
  • 如何优化RL训练Pipeline以提高效率和稳定性?
  • 什么是ReAct框架?如何结合大模型实现Agent?
  • 你读过哪些强化学习+大模型的最新论文?谈谈你的理解
  • 设计一个智能体(Agent)任务,说明如何用强化学习训练它

职位点评

71
综合评分

前沿算法校招岗,技术成长快,鼓励学术产出,但工作强度和生活平衡一般。

更适合这类人
最适合追求技术成长和前沿研究的应届生,对薪资和WLB要求适中。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展88
工作生活45
使命价值80

薪资福利

70中等

薪资未明确,但校招算法岗通常有竞争力;公司上市,福利较完善。

薪资信号未披露(AI估算:20K-35K/月)

成长发展

88较高

岗位聚焦前沿技术,鼓励开源和论文发表,成长空间大。

技术前沿前沿/新兴技术
技术栈强化学习、大模型、RL、Agent
成长机会鼓励开源、撰写论文或技术报告
业务类型ambiguous

工作生活

45较低

仅现场办公,未提及弹性工作或WLB,北京生活压力大。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

80较高

AI前沿研究,对社会有潜在正面影响,技术探索意义强。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

昆仑万维 的其他在招职位

  • 2050-大模型框架开发工程师

    昆仑万维 · 北京市
    AI 估算 · 20k-30k
  • AI剧剪辑师(实习生)

    昆仑万维 · 重庆市
    AI 估算 · 3k-5k
  • 短剧平台-H5开发工程师(海外短剧)-校招

    昆仑万维 · 北京市
    AI 估算 · 12k-20k
  • AI剧剪辑-广州

    昆仑万维 · 广州市
    AI 估算 · 12k-22k
  • StarMaker-推荐算法实习生

    昆仑万维 · 北京市
    AI 估算 · 5k-8k

相似职位推荐

  • Lamination & Gluing Engineer - Process

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-25k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 18k-30k
  • Scientist, Makeup Formulation

    欧莱雅 · 上海市
    AI 估算 · 15k-25k
  • Head of Application Engineering

    德科斯米尔 · 沈阳市
    AI 估算 · 25k-40k
  • NVH Development Engineer_ EM

    博世 · 上海市
    AI 估算 · 20k-35k

昆仑万维 的其他在招职位

  • 2050-大模型框架开发工程师

    昆仑万维 · 北京市
    AI 估算 · 20k-30k
  • AI剧剪辑师(实习生)

    昆仑万维 · 重庆市
    AI 估算 · 3k-5k
  • 短剧平台-H5开发工程师(海外短剧)-校招

    昆仑万维 · 北京市
    AI 估算 · 12k-20k
  • AI剧剪辑-广州

    昆仑万维 · 广州市
    AI 估算 · 12k-22k
  • StarMaker-推荐算法实习生

    昆仑万维 · 北京市
    AI 估算 · 5k-8k

相似职位推荐

  • Lamination & Gluing Engineer - Process

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-25k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 18k-30k
  • Scientist, Makeup Formulation

    欧莱雅 · 上海市
    AI 估算 · 15k-25k
  • Head of Application Engineering

    德科斯米尔 · 沈阳市
    AI 估算 · 25k-40k
  • NVH Development Engineer_ EM

    博世 · 上海市
    AI 估算 · 20k-35k