小米的顶尖实习-强化学习端到端规划算法研究员-自动驾驶薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

顶尖实习-强化学习端到端规划算法研究员-自动驾驶的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

小米的顶尖实习-强化学习端到端规划算法研究员-自动驾驶有什么任职要求？

该职位要求博士学历及专家级经验工作经验。

小米

顶尖实习-强化学习端到端规划算法研究员-自动驾驶

立即应聘

顶尖实习-强化学习端到端规划算法研究员-自动驾驶

发布于大约 3 小时前

实习/见习

北京市

专家级经验

实习生

仅现场办公

博士

实习与临时职位

强化学习

自动驾驶

仿真系统

模仿学习

大规模训练

策略优化

Actor-Critic

Ilql

离线Rl

AI 估算 · 8k–15k

博士实习岗位，北京，自动驾驶方向，小米大厂，薪资竞争力强，随技术难度和项目经验浮动。

职位详情

关于这个职位

该职位是小米自动驾驶团队的实习岗位，专注于使用强化学习、模仿学习等方法进行端到端规划算法的研究与开发

你将研究并实现适用于自动驾驶场景的策略优化算法，推动其在实车和仿真环境中的迁移与部署，并与量产团队协作完成真实系统的落地与评估

适合对自动驾驶和深度强化学习有深厚背景的博士生

最低要求

人工智能、机器人、控制理论、计算机等相关专业博士

扎实的强化学习基础，熟悉Actor-Critic、离线RL、行为克隆、ILQL等方法

有大规模训练/模拟系统搭建经验

对自动驾驶系统有一定理解，了解驾驶决策的关键约束（舒适性、安全性）

工作职责

研究并实现适用于自动驾驶场景的强化学习/模仿学习/混合学习策略

推动策略优化算法在实车数据和仿真数据间的迁移落地

联合量产团队完成RL策略在真实驾驶系统中的部署与评估

优先资格

强化学习相关方向顶会（ICLR/NeurIPS/RSS/CoRL）发表经验

熟悉环境建模与场景驱动的RL设计

具备从RL策略到控制输出落地的系统经验

AI 洞察

优缺点分析

优点

小米是大型科技公司，自动驾驶业务投入大，平台资源丰富
岗位涉及前沿的强化学习技术，技术含量高，能积累核心竞争力
有机会接触从研究到量产的全流程，锻炼复合能力
要求博士学历，门槛高，竞争激烈
自动驾驶领域落地复杂，算法迁移存在不确定性
适合具备深度强化学习研究背景、对自动驾驶有强烈兴趣、希望将学术成果转化为实际产品的博士生

缺点 / 挑战

实习期可能需要快速产出成果，压力较大

角色解读

从实习研究员成长为自动驾驶算法专家，深入RL在复杂场景中的应用
有机会转向量产端，将算法落地到实际产品中，积累工程经验
未来可向技术leader或高级研究员方向发展，推动行业创新
研究并实现强化学习/模仿学习算法，用于自动驾驶场景的端到端规划
推动策略优化算法在实车数据和仿真数据之间的迁移与落地
与量产团队合作，将RL策略部署到真实驾驶系统中并进行评估
扎实的强化学习基础，熟悉Actor-Critic、离线RL、行为克隆等主流方法
具备大规模训练/模拟系统搭建经验，能够处理海量数据
对自动驾驶系统有深入理解，尤其是驾驶决策的舒适性和安全性约束

申请策略

在简历中展示对自动驾驶决策约束的理解，体现工程思维
准备一个RL算法落地案例，说明从研究到部署的全过程
突出强化学习相关的项目经验，尤其是自动驾驶或机器人领域的成果
列出顶会论文发表经历，如ICLR、NeurIPS等
强调大规模训练系统搭建经验，例如分布式RL框架
补充自动驾驶领域的知识，如车辆动力学、规划控制基础
熟悉仿真环境如CARLA、SUMO或公司内部模拟器
掌握C++和Python，了解常用的RL库如Stable-Baselines3

面试指南

先用简短定义引出问题，再结合实际项目阐述方法，最后总结关键点
对于开放性问题，采用STAR法（情境-任务-行动-结果）结构化回答
涉及对比类问题，先列出维度，再分别说明优缺点
请解释离线强化学习在自动驾驶中的挑战及解决方案
如何在仿真环境中设计有效的奖励函数？
你如何确保RL策略在真实车辆上的安全性和舒适性？
描述一个你参与的大规模训练系统，包括数据流和分布式架构
对比Actor-Critic和Q-learning在自动驾驶规划中的优劣

职位点评

综合评分

前沿RL技术、强大平台，成长空间大但工作强度高。

更适合这类人

适合以技术成长为首要目标、愿意投入高强度研究的博士生。

表现最好

成长发展

相对薄弱

工作生活

薪资福利65

成长发展90

工作生活50

使命价值80

薪资福利

65中等

实习薪资在行业中属于较高水平，且有小米品牌背书，但作为实习岗位，福利和稳定性相对有限。

薪资信号未披露（AI估算：8K-15K/月）

成长发展

90较高

该岗位技术前沿，涉及强化学习在自动驾驶中的创新应用，且有量产落地机会，成长空间极大。

技术前沿前沿/新兴技术

技术栈强化学习、模仿学习、Actor-Critic、离线RL、行为克隆、ILQL、自动驾驶

业务类型profit_center

工作生活

50较低

北京岗位，现场办公，实习期间可能需要投入大量精力进行实验和调试，工作生活平衡一般。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

80较高

自动驾驶是提升交通安全和效率的重要领域，技术贡献具有显著社会价值，且行业发展迅速。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度积极采用新技术

Watch Jobs

小米

顶尖实习-强化学习端到端规划算法研究员-自动驾驶

立即应聘

顶尖实习-强化学习端到端规划算法研究员-自动驾驶

发布于大约 3 小时前

实习/见习

北京市

专家级经验

实习生

仅现场办公

博士

实习与临时职位

强化学习

自动驾驶

仿真系统

模仿学习

大规模训练

策略优化

Actor-Critic

Ilql

离线Rl

AI 估算 · 8k–15k

博士实习岗位，北京，自动驾驶方向，小米大厂，薪资竞争力强，随技术难度和项目经验浮动。

职位详情

关于这个职位

该职位是小米自动驾驶团队的实习岗位，专注于使用强化学习、模仿学习等方法进行端到端规划算法的研究与开发

你将研究并实现适用于自动驾驶场景的策略优化算法，推动其在实车和仿真环境中的迁移与部署，并与量产团队协作完成真实系统的落地与评估

适合对自动驾驶和深度强化学习有深厚背景的博士生

最低要求

人工智能、机器人、控制理论、计算机等相关专业博士

扎实的强化学习基础，熟悉Actor-Critic、离线RL、行为克隆、ILQL等方法

有大规模训练/模拟系统搭建经验

对自动驾驶系统有一定理解，了解驾驶决策的关键约束（舒适性、安全性）

工作职责

研究并实现适用于自动驾驶场景的强化学习/模仿学习/混合学习策略

推动策略优化算法在实车数据和仿真数据间的迁移落地

联合量产团队完成RL策略在真实驾驶系统中的部署与评估

优先资格

强化学习相关方向顶会（ICLR/NeurIPS/RSS/CoRL）发表经验

熟悉环境建模与场景驱动的RL设计

具备从RL策略到控制输出落地的系统经验

AI 洞察

优缺点分析

优点

小米是大型科技公司，自动驾驶业务投入大，平台资源丰富
岗位涉及前沿的强化学习技术，技术含量高，能积累核心竞争力
有机会接触从研究到量产的全流程，锻炼复合能力
要求博士学历，门槛高，竞争激烈
自动驾驶领域落地复杂，算法迁移存在不确定性
适合具备深度强化学习研究背景、对自动驾驶有强烈兴趣、希望将学术成果转化为实际产品的博士生

缺点 / 挑战

实习期可能需要快速产出成果，压力较大

角色解读

从实习研究员成长为自动驾驶算法专家，深入RL在复杂场景中的应用
有机会转向量产端，将算法落地到实际产品中，积累工程经验
未来可向技术leader或高级研究员方向发展，推动行业创新
研究并实现强化学习/模仿学习算法，用于自动驾驶场景的端到端规划
推动策略优化算法在实车数据和仿真数据之间的迁移与落地
与量产团队合作，将RL策略部署到真实驾驶系统中并进行评估
扎实的强化学习基础，熟悉Actor-Critic、离线RL、行为克隆等主流方法
具备大规模训练/模拟系统搭建经验，能够处理海量数据
对自动驾驶系统有深入理解，尤其是驾驶决策的舒适性和安全性约束

申请策略

在简历中展示对自动驾驶决策约束的理解，体现工程思维
准备一个RL算法落地案例，说明从研究到部署的全过程
突出强化学习相关的项目经验，尤其是自动驾驶或机器人领域的成果
列出顶会论文发表经历，如ICLR、NeurIPS等
强调大规模训练系统搭建经验，例如分布式RL框架
补充自动驾驶领域的知识，如车辆动力学、规划控制基础
熟悉仿真环境如CARLA、SUMO或公司内部模拟器
掌握C++和Python，了解常用的RL库如Stable-Baselines3

面试指南

先用简短定义引出问题，再结合实际项目阐述方法，最后总结关键点
对于开放性问题，采用STAR法（情境-任务-行动-结果）结构化回答
涉及对比类问题，先列出维度，再分别说明优缺点
请解释离线强化学习在自动驾驶中的挑战及解决方案
如何在仿真环境中设计有效的奖励函数？
你如何确保RL策略在真实车辆上的安全性和舒适性？
描述一个你参与的大规模训练系统，包括数据流和分布式架构
对比Actor-Critic和Q-learning在自动驾驶规划中的优劣

职位点评

综合评分

前沿RL技术、强大平台，成长空间大但工作强度高。

更适合这类人

适合以技术成长为首要目标、愿意投入高强度研究的博士生。

表现最好

成长发展

相对薄弱

工作生活

薪资福利65

成长发展90

工作生活50

使命价值80

薪资福利

65中等

实习薪资在行业中属于较高水平，且有小米品牌背书，但作为实习岗位，福利和稳定性相对有限。

薪资信号未披露（AI估算：8K-15K/月）

成长发展

90较高

该岗位技术前沿，涉及强化学习在自动驾驶中的创新应用，且有量产落地机会，成长空间极大。

技术前沿前沿/新兴技术

技术栈强化学习、模仿学习、Actor-Critic、离线RL、行为克隆、ILQL、自动驾驶

业务类型profit_center

工作生活

50较低

北京岗位，现场办公，实习期间可能需要投入大量精力进行实验和调试，工作生活平衡一般。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

80较高

自动驾驶是提升交通安全和效率的重要领域，技术贡献具有显著社会价值，且行业发展迅速。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度积极采用新技术

Watch Jobs

顶尖实习-强化学习端到端规划算法研究员-自动驾驶

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

顶尖实习-强化学习端到端规划算法研究员-自动驾驶

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

小米 的其他在招职位

专卖店店长-无锡

小米汽车-发动机旋转往复系统高级工程师

专卖店店长（宜兴）

法务专员实习生

小米汽车-测试工程师-热管理系统测试

小米 的其他在招职位

专卖店店长-无锡

小米汽车-发动机旋转往复系统高级工程师

专卖店店长（宜兴）

法务专员实习生

小米汽车-测试工程师-热管理系统测试

小米的其他在招职位

小米的其他在招职位