Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/智谱/多模态强化学习算法实习生 (VLM Agentic RL 方向)
GLM logo
G
智谱 (GLM)

职位信息

北京市
初级经验
实习生
仅现场办公
硕士
实习/见习

标签

强化学习DeepSpeed多模态大模型PPOMegatron工具调用Cogvlm
💡

核心评价

顶尖AI公司的前沿技术实习岗,成长空间巨大,工作强度高,WLB预期低。

多模态强化学习算法实习生 (VLM Agentic RL 方向)

🤖 AI 估测:¥8K-15K

发布时间:19 天前

立即应聘

ℹ️关于这个职位

这是一个专注于多模态强化学习前沿探索的实习岗位
你将参与构建和优化VLM Agentic RL算法框架,负责从代码实现、模型训练到性能评估的全链路工作
核心目标是攻克多步强化学习中的技术难点,推动智能体在复杂任务中的自主决策能力

✓工作职责

代码框架构建与深入理解: 深入研究并掌握CogVLM(GLM-V)系列模型的基础架构,优化现有的RL训练与推理链路
Agentic RL 框架搭建: 负责搭建 VLM RL with Tools 的算法框架,实现模型在 Rollout 过程中对工具的自主调用与逻辑闭环
算法方法创新: 针对多步 RL 迭代中的核心难点和挑战,探索创新性 RL 架构,优化trace-level奖励分配策略,优化 PPO/GRPO/HRPO 等对齐算法
模型训练与全链路优化: 负责多模态 Agentic 数据的合成、模型迭代训练以及在主流 Benchmark(如 MMSearch, V*, Facts 等)上的性能测试与调优

⭐最低要求

教育背景: 985 高校计算机、电子、自动化等相关专业在读硕士或博士
专业基础: 深入理解常用的多模态算法(如 CLIP, ViT, LLaVA系列)及强化学习基础理论(PPO, DPO, GRPO 等)
项目经验: 具备多模态大模型、Agent 智能体或强化学习相关的实际项目经历
工程能力: 熟练运用Megatron或DeepSpeed 等主流深度学习框架,具备优秀的编程习惯
综合素质: 具备较强的科研敏锐度,能够独立阅读并复现前沿论文
工作态度认真负责,具备良好的团队协作与沟通能力,能适应高强度的科研节奏

👍优先资格

有VLM + Tool Use相关经验者优先考虑
在 CVPR, ICCV, NeurIPS, ICLR 等 CCF-A 类会议发表过多模态或 RL 相关论文
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

智谱 的其他在招职位

  • 大模型交付工程师/架构师-北京

    智谱

    北京市 · 仅现场办公

  • 业务拓展实习生

    智谱

    北京市 · 仅现场办公

  • 安卓开发工程师

    智谱

    北京市 · 仅现场办公

  • MaaS-SRE/DBA

    智谱

    北京市 · 仅现场办公

  • 解决方案架构师-深圳

    智谱

    深圳市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公