哈啰出行的强化学习算法工程师/专家（端到端）-【自动驾驶】薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

强化学习算法工程师/专家（端到端）-【自动驾驶】的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

哈啰出行的强化学习算法工程师/专家（端到端）-【自动驾驶】有什么任职要求？

该职位要求本科学历及中级经验工作经验。

哈啰出行

强化学习算法工程师/专家（端到端）-【自动驾驶】

立即应聘

强化学习算法工程师/专家（端到端）-【自动驾驶】

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

软件工程

强化学习

自动驾驶

PPO

DPO

端到端

Grpo

Uniad

AI 估算 · 30k–60k

自动驾驶强化学习岗位稀缺，技术难度高，上海薪资水平高，大型企业提供有竞争力薪酬。

职位详情

关于这个职位

该职位专注于自动驾驶领域的强化学习算法研发，涉及端到端模型训练与路径规划决策

你将设计训练框架，解决L4 Robotaxi场景中的博弈与安全问题，需要精通Python/C++及主流强化学习算法（如PPO、GRPO）

加入哈啰出行，参与前沿技术落地，推动自动驾驶商业化

最低要求

本科及以上学历，专业方向包括计算机、软件、自动化、模式识别等理工科，工作经验不小于2年

具备较强的编程能力，精通Python及C++语言，熟悉Docker容器化部署，有良好的编程习惯和标准化的代码风格

熟悉UniAD、Pluto、Diffusion Planner等主流的端到端模型

熟悉GRPO、PPO和DPO等强化学习算法，有自动驾驶强化学习业务应用的经验者优先

工作职责

设计并实现面向自动驾驶的强化学习训练框架，提升端到端大模型在稀疏场景下的训练效率和泛化能力

研发适用于驾驶决策、路径规划与交互博弈的强化学习算法，包括但不限于GRPO、PPO和DPO等，解决L4 Robotaxi场景中的安全性、强交互博弈和长尾场景等问题

优先资格

具备数据驱动算法的研发能力，有端到端模型算法的开发和优化经验

在CVPR/ICCV/ECCV/ICLR/ICRA/IROS/CoRL/NeurlPS等发表过RL相关论文

AI 洞察

优缺点分析

优点

处于自动驾驶行业最前沿，端到端+强化学习是未来趋势，技术积累价值高
哈啰出行作为大型平台，资源丰富，有真实L4场景落地机会，项目含金量大
团队技术氛围浓厚，有机会与顶级CVPR/ICLR论文作者合作，快速提升研究能力
端到端模型训练需要大量计算资源，且对数据质量要求高，可能涉及繁重的数据处理工作
行业竞争激烈，需要持续学习最新论文和算法，保持技术敏感度

缺点 / 挑战

自动驾驶场景复杂，长尾问题多，算法需要极高的安全性与鲁棒性，工作压力较大
适合对自动驾驶和强化学习有浓厚兴趣、具备扎实编程和算法功底、追求技术前沿并愿意接受挑战的工程师

角色解读

技术方向：强化学习算法专家→自动驾驶首席科学家，主导核心算法研发与创新
管理方向：技术负责人→AI团队经理，带领团队攻克L4级别自动驾驶难题
跨界发展：向机器人、游戏AI等强化学习应用领域拓展，或转向通用人工智能研究
设计和实现面向自动驾驶的强化学习训练框架，优化端到端大模型在稀疏场景下的训练效率和泛化能力
研发驾驶决策、路径规划与交互博弈的强化学习算法，如GRPO、PPO、DPO，解决L4 Robotaxi场景的安全性和博弈问题
与工程团队协作，将算法集成到自动驾驶系统中，并进行仿真和实车验证
跟踪前沿论文，持续改进算法性能，推动技术落地
精通Python和C++编程，具备良好的代码风格和Docker容器化部署能力
深入理解强化学习算法（PPO、GRPO、DPO等），并有自动驾驶或机器人相关应用经验
熟悉主流端到端自动驾驶模型如UniAD、Pluto、Diffusion Planner
具备数据驱动算法研发经验，能够处理大规模数据集并进行模型训练优化

申请策略

了解哈啰出行在自动驾驶领域的布局（如共享出行、Robotaxi），在面试中展现对业务场景的理解
准备一个完整的项目案例，从问题定义、算法设计到结果分析，突出自己的贡献和思考过程
重点突出强化学习相关项目经验，尤其是自动驾驶或机器人领域的应用，写明具体算法（如PPO、SAC）和效果
详细描述端到端模型（如UniAD）的优化经历，包括数据增强、奖励设计、训练技巧等
列出发表的论文或开源贡献，特别是在CVPR、ICLR等顶会上的RL相关工作
展示编程能力，如Python/C++项目、代码风格、Docker使用经验
深入了解最新强化学习算法（如GRPO、DPO），阅读相关论文并尝试复现
熟悉L4自动驾驶仿真平台（如CARLA、SUMO），积累端到端仿真验证经验

面试指南

针对算法问题：先给出核心概念，然后对比不同算法的优劣，最后结合实际项目举例
针对项目问题：按照STAR法则（情境-任务-行动-结果）结构化回答，突出技术难点和解决思路
针对开放问题：展现对行业的深入思考，引用近期论文或公司动态，提出自己的观点
请详细介绍一个你使用强化学习解决的实际问题，包括状态空间、动作空间、奖励函数设计
解释PPO和GRPO的区别，以及它们在自动驾驶中分别适用什么场景
如何设计一个安全高效的端到端自动驾驶模型？如何处理长尾场景？
请描述你在C++或Python中优化深度学习模型推理性能的经验
如何看待当前端到端自动驾驶的局限性和未来发展方向？

匹配度报告

综合匹配度

自动驾驶强化学习前沿岗位，技术成长快，薪资有竞争力，但工作强度可能较大，WLB需自行判断。

适合人群

最适合追求技术前沿和职业发展的求职者，对于注重工作生活平衡的人可能挑战较大。

最强匹配

成长发展匹配

最弱匹配

工作生活匹配

薪资福利70

成长发展85

工作生活50

使命价值75

薪资福利匹配

70中等

薪资未明确但属于高技能岗位，大型公司通常有竞争力；福利未在JD中提及，但互联网大厂标配可能包含。综合来看补偿性处于中等偏上。

薪资信号未披露（AI估算：30K-60K/月）

成长发展匹配

85较高

职位处于自动驾驶和强化学习前沿，要求掌握最新端到端模型，技术成长空间大；但JD未明确提到内部培训或晋升通道，发展主要依靠个人。

技术前沿前沿/新兴技术

技术栈强化学习、PPO、GRPO、DPO、UniAD、端到端、自动驾驶、Python、C++、Docker

业务类型profit_center

工作生活匹配

50较低

JD未提及远程或弹性工作，默认现场办公；工作地点为上海，未明确具体区域；无加班相关信息，但自动驾驶行业通常压力较大。生活方式满足程度有限。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值匹配

75中等

自动驾驶是高速增长的赛道，技术本身对社会有正面影响（提升出行安全），但JD未强调使命感或社会价值，所以意义感动机中等偏上。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

哈啰出行

强化学习算法工程师/专家（端到端）-【自动驾驶】

立即应聘

强化学习算法工程师/专家（端到端）-【自动驾驶】

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

软件工程

强化学习

自动驾驶

PPO

DPO

端到端

Grpo

Uniad

AI 估算 · 30k–60k

自动驾驶强化学习岗位稀缺，技术难度高，上海薪资水平高，大型企业提供有竞争力薪酬。