Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/百度/Summer Camp - Agentic RL 算法实习生(J98028)
Baidu logo
B
百度 (Baidu)

职位信息

北京市
初级经验
实习生
仅现场办公
硕士
实习/见习

标签

PyTorch强化学习实验设计分布式训练DeepSpeedPPORLHFGrpo奖励模型设计
💡

核心评价

百度核心AI业务实习,前沿Agentic RL技术栈,成长性极佳,薪资有竞争力,工作模式为现场办公。

Summer Camp - Agentic RL 算法实习生(J98028)

🤖 AI 估测:¥8K-15K

发布时间:22 天前

立即应聘

ℹ️关于这个职位

这是一个面向真实Agent场景的强化学习算法实习岗位
你将负责搭建RL训练体系,研究并优化GRPO、PPO等算法在长链路、多工具Agent任务上的应用,并设计奖励模型以提升训练稳定性
该职位深度服务于百度千帆MaaS平台的高价值行业场景,能接触到复杂多样的多步骤任务数据,模型迭代直接对齐真实业务效果

✓工作职责

负责面向真实agent场景的强化学习训练体系搭建,包括环境构建、奖励设计、rollout采样与模型训练全流程
研究并落地GRPO、PPO等RL算法在长链路、多工具agent任务上的适配与优化
设计process reward model(PRM)与outcome reward model(ORM),提升稀疏奖励场景下的训练稳定性
与业务团队协作,将真实用户agent使用数据转化为高质量训练信号,构建持续改进的数据飞轮
建立agent能力评估体系,持续跟踪与分析模型迭代效果,推动模型上线落地

⭐最低要求

教育背景:计算机、人工智能、数学等相关专业硕士及以上学历
熟悉强化学习核心算法(PPO、GRPO、REINFORCE等)
理解agentic系统架构,熟悉tool use、ReAct、function calling等agent范式
熟练掌握PyTorch
具备较强的实验设计与数据分析能力,能独立推进研究课题并产出高质量结论

👍优先资格

有RLHF或LLM post-training实战经验者优先
有大规模分布式训练经验(DeepSpeed / FSDP等)优先
有顶会论文发表(NeurIPS / ICML / ICLR / ACL等)或知名开源项目贡献者背景加分
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

百度 的其他在招职位

  • Agent产品经理(J99599)

    百度

    北京市 · 仅现场办公

  • 开发测试工程师(实习生)(J99576)

    百度

    北京市 · 仅现场办公

  • Agent产品经理(J99563)

    百度

    北京市 · 仅现场办公

  • 平台产品经理(J99562)

    百度

    北京市 · 仅现场办公

  • Agent工程架构师(J99561)

    百度

    北京市 · 仅现场办公

相似职位推荐

  • 【NOVA训练营】游戏活动运营实习生-无限暖暖

    叠纸游戏

    上海市 · 仅现场办公

  • 欧美生态营销实习生-无限暖暖

    叠纸游戏

    欧美生态营销实习生-无限暖暖 · 仅现场办公

  • 实习生

    中国平安

    上海市 · 仅现场办公

  • 【NOVA训练营】日本运营实习生

    叠纸游戏

    【NOVA训练营】日本运营实习生 · 仅现场办公

  • 英文商务实习生

    叠纸游戏

    上海市 · 仅现场办公