小米的MiMo算法研究员-后训练薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

MiMo算法研究员-后训练的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：29 天前

该职位是小米MiMo团队的后训练算法研究员，专注于大语言模型（LLM）的后训练阶段，包括模型对齐、强化学习和AI智能体等前沿方向

你将参与构建世界级的AI模型，致力于提升模型在推理、工具使用和复杂任务解决方面的能力，探索通往更高级人工智能的路径

主要研究方向：

AI 智能体 (AI Agent)

Agent 基础能力：研发大规模、高质量的 Agent 数据合成管线，提升模型在 Code、Search 及 General Tool Use 使用等场景下的能力

高级 Agent 系统：探索多智能体协作、长时记忆系统及交互环境的构建，提升模型解决复杂任务能力

大语言模型推理 (LLM Reasoning)

强化学习与推理：探索高效、稳定的强化学习算法

推理能力提升：增强模型在数学、代码与逻辑等复杂任务中的推理能力，提升模型的智能上限

可扩展对齐 (Scalable Alignment)

模型对齐与 RLHF：持续提升模型的指令遵循度、有用性与诚实性

AI 安全与价值观：为大模型构建可靠、可信的行为准则，提升 AI 安全性

拥有大语言模型 Post-train（如 SFT, RLHF, RLVR, Agent）相关的研究或项目实践经验

具备扎实的 Data Sense 和 Evaluation Sense，能够以问题为导向，通过严谨的实验设计和数据分析驱动模型迭代

具备出色的编程与工程能力，熟练掌握 PyTorch 等深度学习框架，并对 Verl、Megatron 等分布式训练方法有深入理解

熟悉 SGLang、vLLM 等高性能推理引擎

作为主要贡献者主导或参与过有影响力的开源项目

在 NeurIPS、ICML、ICLR、ACL、EMNLP 等人工智能顶级会议或学术期刊上发表过高质量论文

在 IMO/CMO、IOI/NOI、ACM-ICPC 等国内外知名竞赛中取得过优异成绩

MiMo算法研究员-后训练

🤖 AI 估测：¥35K-60K

发布时间：29 天前