智谱的多模态强化学习算法实习生 (VLM Agentic RL 方向)薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

多模态强化学习算法实习生 (VLM Agentic RL 方向)的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求硕士学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：19 天前

这是一个专注于多模态强化学习前沿探索的实习岗位

你将参与构建和优化VLM Agentic RL算法框架，负责从代码实现、模型训练到性能评估的全链路工作

核心目标是攻克多步强化学习中的技术难点，推动智能体在复杂任务中的自主决策能力

代码框架构建与深入理解：深入研究并掌握CogVLM（GLM-V）系列模型的基础架构，优化现有的RL训练与推理链路

Agentic RL 框架搭建：负责搭建 VLM RL with Tools 的算法框架，实现模型在 Rollout 过程中对工具的自主调用与逻辑闭环

算法方法创新：针对多步 RL 迭代中的核心难点和挑战，探索创新性 RL 架构，优化trace-level奖励分配策略，优化 PPO/GRPO/HRPO 等对齐算法

模型训练与全链路优化：负责多模态 Agentic 数据的合成、模型迭代训练以及在主流 Benchmark（如 MMSearch, V*, Facts 等）上的性能测试与调优

教育背景： 985 高校计算机、电子、自动化等相关专业在读硕士或博士

专业基础：深入理解常用的多模态算法（如 CLIP, ViT, LLaVA系列）及强化学习基础理论（PPO, DPO, GRPO 等）

项目经验：具备多模态大模型、Agent 智能体或强化学习相关的实际项目经历

工程能力：熟练运用Megatron或DeepSpeed 等主流深度学习框架，具备优秀的编程习惯

综合素质：具备较强的科研敏锐度，能够独立阅读并复现前沿论文

工作态度认真负责，具备良好的团队协作与沟通能力，能适应高强度的科研节奏

有VLM + Tool Use相关经验者优先考虑

在 CVPR, ICCV, NeurIPS, ICLR 等 CCF-A 类会议发表过多模态或 RL 相关论文

多模态强化学习算法实习生 (VLM Agentic RL 方向)

🤖 AI 估测：¥8K-15K

发布时间：19 天前