小米的自动驾驶与机器人VLA实习生薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

自动驾驶与机器人VLA实习生的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：大约 1 个月前

这是一个专注于前沿人工智能技术研发的实习岗位

你将参与设计和构建领先的具身多模态大模型（VLA），探索世界模型，并致力于在自动驾驶与机器人领域实现复杂语义推理与决策等核心能力的突破

前沿算法研究与构建：负责设计和实现领先的具身多模态大模型

您的研究将不仅限于现有的VLA框架，更将探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)

核心模型能力攻关：主导模型在以下关键能力上的突破：多模态场景理解：融合视觉、语言、雷达等多源信息，实现对动态、开放环境的深刻理解和空间感知

复杂语义推理与决策：让模型能够理解模糊、抽象的人类指令，并结合对物理世界的空间推理，生成安全、合理、可解释的行动序列

学习与适应机制：深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法，使模型能从海量数据和与环境的交互中持续学习和进化

技术愿景与路线图：主导构建可泛化、高效率的具身智能基座模型，为未来1-3年的技术演进提供核心支撑，并探索其在自动驾驶和通用机器人领域的统一应用潜力

学术影响力与合作：与全球顶尖高校及研究机构合作，探索表征学习、因果推理、世界模型等长期议题

在CVPR、NeurIPS、ICLR、CoRL等顶级会议上发表高水平论文，构建团队的学术护城河

候选人需在以下一个或多个领域具备深入的研究和实践经验：

编程与算法能力：精通Python，熟练使用至少一种主流深度学习框架（优先考虑PyTorch）

具备强大的算法设计与实现能力，能够处理大规模数据并高效进行模型训练

多模态大模型：深入理解视觉语言模型（VLM）和视觉-语言-行动模型（VLA），具备从零到一构建或优化这些模型的实践经验

具身智能与自动驾驶：优先考虑有复现具身智能和自动驾驶相关视觉语言模型（VLM）和视觉语言架构（VLA）经验的候选人

科研能力：作为主要作者在CVPR、ICCV、ECCV、ICML、NeurIPS、ICLR、CoRL等顶级会议上发表过高质量论文，或在相关领域的权威竞赛中取得优异成绩

对科研有热情，励志做有影响力的工作优先