Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小米/Agentic RL 算法实习生
Xiaomi logo
X
小米 (Xiaomi)

职位信息

北京市
初级经验
实习生
仅现场办公
学历未注明
实习/见习

标签

数据处理LangGraph多机多卡Agent框架强化学习 (Rl)OpenrlhfVerlAgentscope并行训练
💡

核心评价

顶尖大厂的前沿AI算法实习,技术成长性极佳,是进入AI核心领域的优质跳板。

Agentic RL 算法实习生

🤖 AI 估测:¥8K-15K

发布时间:29 天前

立即应聘

ℹ️关于这个职位

这是一个专注于Agentic强化学习(RL)的算法实习岗位
你将负责搭建和优化支持高并发的RL训练环境与Agent框架,并针对DeepResearch、CodeAgent等复杂推理场景设计能力增强方案
此外,你还需要围绕业务需求,为模型训练构建和优化高质量的Agent行为数据与知识增强语料

✓工作职责

RL训练环境搭建:负责构建易用、稳定且支持高并发的工具调用环境,搭建和优化 Agent 框架
推理能力提升: 针对 DeepResearch、CodeAgent 等复杂推理场景,设计并实现高效的能力增强方案
数据合成与优化:围绕业务需求构建、筛选和优化 Agent 行为数据与知识增强语料,为对齐训练、RL 训练和持续预训练提供高质量数据支撑

⭐最低要求

计算机相关专业
在CCF-A类会议发表过相关论文者优先考虑
熟悉主流 Agent 框架(如 Claude Code、LangGraph、AgentScope、Qwen-Agent 等),具备实际开发或使用经验
熟练掌握主流 Agentic RL 训练框架(如 VeRL、OpenRLHF),具备后训练(post-training)和数据处理相关项目经验者优先
理解并掌握并行训练框架,有多机多卡训练经验者优先

👍优先资格

在CCF-A类会议发表过相关论文者优先考虑
具备后训练(post-training)和数据处理相关项目经验者优先
有多机多卡训练经验者优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小米 的其他在招职位

  • 材料及轻量化实习生

    小米

    上海市 · 仅现场办公

  • 安全事务经理(网安)

    小米

    北京市 · 仅现场办公

  • 大模型技术专家(Agent方向)

    小米

    北京市 · 仅现场办公

  • 参控股公司管理实习生-2027届

    小米

    北京市 · 仅现场办公

  • 小米汽车-自动驾驶行车产品经理实习生

    小米

    北京市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公