小米的Agentic RL 算法实习生薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

Agentic RL 算法实习生的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：29 天前

这是一个专注于Agentic强化学习（RL）的算法实习岗位

你将负责搭建和优化支持高并发的RL训练环境与Agent框架，并针对DeepResearch、CodeAgent等复杂推理场景设计能力增强方案

此外，你还需要围绕业务需求，为模型训练构建和优化高质量的Agent行为数据与知识增强语料

RL训练环境搭建：负责构建易用、稳定且支持高并发的工具调用环境，搭建和优化 Agent 框架

推理能力提升：针对 DeepResearch、CodeAgent 等复杂推理场景，设计并实现高效的能力增强方案

数据合成与优化：围绕业务需求构建、筛选和优化 Agent 行为数据与知识增强语料，为对齐训练、RL 训练和持续预训练提供高质量数据支撑

计算机相关专业

在CCF-A类会议发表过相关论文者优先考虑

熟悉主流 Agent 框架（如 Claude Code、LangGraph、AgentScope、Qwen-Agent 等），具备实际开发或使用经验

熟练掌握主流 Agentic RL 训练框架（如 VeRL、OpenRLHF），具备后训练（post-training）和数据处理相关项目经验者优先

理解并掌握并行训练框架，有多机多卡训练经验者优先

在CCF-A类会议发表过相关论文者优先考虑

具备后训练（post-training）和数据处理相关项目经验者优先

有多机多卡训练经验者优先

Agentic RL 算法实习生

🤖 AI 估测：¥8K-15K

发布时间：29 天前