Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小红书/【Ace顶尖实习生】Agentic RL技术研究
Xiaohongshu logo
X
小红书 (Xiaohongshu)

职位信息

北京市 / 上海市 / 浙江省-杭州市
无经验要求
实习生
仅现场办公
本科
实习/见习

标签

机器学习深度学习算法研究LLM多模态理解大规模模型训练强化学习 (Rl)
💡

核心评价

顶尖互联网公司前沿AI研究实习,技术成长性极强,薪资竞争力佳,工作模式传统。

【Ace顶尖实习生】Agentic RL技术研究

🤖 AI 估测:¥6K-12K

发布时间:29 天前

立即应聘

ℹ️关于这个职位

这是一个专注于Agentic强化学习(RL)技术研究的实习岗位
你将参与将RL技术引入工业级Agent平台系统,直接对‘规划—执行—反馈’的完整轨迹进行优化
工作内容包括研究轨迹级奖励构建、工具调用与多步推理中的信用分配,以及在高成本环境下的高效离线/在线混合训练

✓工作职责

关注如何将RL引入工业级Agent平台系统,直接对“规划—执行—反馈”的完整轨迹进行优化
研究重点包括:如何构建trajectory-level reward、如何在工具调用与多步推理中进行credit assignment,以及如何在高成本环境下进行高效的offline/online混合训练

⭐最低要求

不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先
扎实的编程能力和算法功底,熟练掌握Python/C++/Java等至少一种编程语言
扎实的机器学习/深度学习理论基础,有大规模推荐系统、计算广告、搜索引擎等核心算法项目经验
良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步

👍优先资格

有LLM/MLLM等多模态理解技术背景,或大规模模型训练实际项目经验者优先
在TPAMI/CVPR/NeurIPS/ICCV/ICML/ICLR等顶级期刊会议上发表相关论文者优先
在顶级学术会议或期刊发表论文,或ACM编程竞赛/机器学习等竞赛获奖
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • AI产品运营实习生

    小红书

    上海市 · 仅现场办公

  • 点点AI运营实习生 · AI图像创作

    小红书

    上海市 · 仅现场办公

  • AI Agent算法工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】OLAP研发工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】Ray研发工程师

    小红书

    北京市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公