Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

DiDi logo
滴滴出行
强化学习资深工程师
立即应聘

强化学习资深工程师

发布于 大约 15 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
硕士
软件工程
机器学习
深度学习
强化学习
NeurIPS
分布式训练
PPO
Grpo
Dapo
Gspo

AI 估算 · 25k–45k

滴滴资深强化学习工程师,北京一线大厂,1-3年经验,薪资范围较宽,考虑技术稀缺性和公司平台,预计月薪25k-45k。

职位详情

关于这个职位

该职位负责强化学习算法在滴滴业务场景中的研究与落地,设计高效模型解决复杂策略问题

你将与顶尖团队合作,优化算法性能,跟踪前沿技术,处理大规模数据和状态空间挑战,适合有强化学习实战经验的算法工程师

最低要求

硕士及以上学历,计算机科学、人工智能、机器学习、数据科学或应用数学等相关专业,1-3年相关工作经验

具有强化学习算法在实际业务场景中的应用经验,有大规模机器学习/深度学习项目经验,熟悉常见的强化学习算法(如PPO,GRPO,DAPO, GSPO)等
了解常用的强化学习算法框架(如Verl,Slime等),具备良好的沟通表达能力和团队协作精神,具有较强的问题分析和解决能力

工作职责

负责强化学习算法在业务场景中的研究与应用,设计和实现高效的强化学习模型,解决业务中的复杂策略问题

持续优化算法性能,提升业务指标,跟踪业界最新技术进展,将前沿算法应用到实际业务中
解决强化学习理论与实际业务场景有效结合的挑战,处理大规模数据和高维状态空间的技术难题
在复杂多变的业务环境中保持算法的稳定性和适应性,平衡算法复杂度与工程实现的可行性

优先资格

具备良好的学习能力和创新精神,有在顶级会议(如NeurIPS, ICML, ICLR等)发表过相关论文、开源项目贡献或个人技术博客、熟悉分布式训练和大规模数据处理经验者优先

AI 洞察

优缺点分析

优点

  • 滴滴拥有海量真实业务场景和数据,强化学习落地机会丰富
  • L Lab团队技术氛围浓厚,可接触前沿算法并发表顶会论文
  • 公司已上市,薪资和福利有竞争力,职业发展路径清晰
  • 强化学习在工业场景中调优难度大,需要较强的工程和算法结合能力
  • 与强背景同事竞争,需要持续学习和创新

缺点 / 挑战

  • 业务压力可能较大,需要快速迭代算法以满足业务指标
  • 适合具有强化学习研究或应用经验,渴望在真实场景中验证算法价值,且能承受技术挑战的算法工程师

角色解读

  • 纵向成为强化学习算法专家,深耕决策智能领域
  • 横向扩展至机器学习其他方向,或转向技术管理岗位
  • 在滴滴内部可晋升至高级工程师、技术专家,参与更具影响力的项目
  • 设计并实现强化学习模型,解决滴滴业务中的策略优化问题,例如派单、定价等
  • 持续优化算法性能,跟踪业界最新进展,将前沿算法(如PPO、GRPO)应用到实际业务
  • 处理大规模数据和高维状态空间,平衡算法复杂度与工程可行性
  • 扎实的强化学习理论基础,熟悉PPO、GRPO等主流算法
  • 掌握深度学习框架(如PyTorch/TensorFlow),有大规模分布式训练经验
  • 具备Python编程能力,了解强化学习框架(如Verl、Slime)
  • 良好的问题分析和团队协作能力,能独立解决复杂技术难题

申请策略

  • 准备一段强化学习项目介绍,强调算法设计与业务效果
  • 了解滴滴L Lab的研究方向,在面试中展现技术热情
  • 突出强化学习项目经验,尤其是在实际业务中的应用成果
  • 展示对PPO、GRPO等算法的深入理解,以及分布式训练经验
  • 提及顶会论文、开源贡献或技术博客,体现学习和创新能力
  • 熟悉分布式训练框架(如Ray、Horovod)和大数据处理工具(Spark等)
  • 补充业务理解能力,了解出行领域场景
  • 实践强化学习框架Verl或Slime,积累工程经验

面试指南

  • 使用STAR法则回答项目问题:情境、任务、行动、结果,突出算法选择和工程挑战
  • 对比算法时,从原理、适用场景、优缺点展开,体现深度思考
  • 对于调试类问题,从数据、模型、工程三方面分析,展示系统性方法
  • 请详细介绍一个你使用强化学习解决实际问题的项目
  • PPO和GRPO的区别是什么?在什么场景下选择?
  • 如何处理强化学习中的探索与利用平衡?
  • 大规模分布式训练中,如何保证模型收敛和效率?
  • 如果模型在线上效果不如预期,你会如何调试?

职位点评

72
综合评分

滴滴强化学习资深岗,前沿技术、真实场景、发展空间大,但加班不确定且需现场办公。

更适合这类人
该职位最适合追求技术成长和学术成果的算法工程师,对薪资和WLB有一定要求但可接受。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展85
工作生活60
使命价值70

薪资福利

75中等

滴滴上市大厂,薪资在北京有竞争力,福利完善,但未在JD中明确薪资范围,需面议。

薪资信号面议 (25K-45K/月)

成长发展

85较高

强化学习是前沿技术,滴滴提供实际业务场景和论文发表机会,成长空间大。

技术前沿前沿/新兴技术
技术栈强化学习、PPO、GRPO、DAPO、GSPO、分布式训练
成长机会在顶级会议发表过相关论文
业务类型ambiguous

工作生活

60中等

现场办公,未提及弹性工作,互联网大厂可能有加班。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

出行行业稳定,强化学习算法可提升效率,具有一定社会价值,但JD未强调使命感。

行业发展稳定成熟行业
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

滴滴出行 的其他在招职位

  • 产品与用户运营

    滴滴出行 · 北京市
    AI 估算 · 25k-40k
  • 贷前风险策略分析师(滴水贷)

    滴滴出行 · 上海市
    AI 估算 · 20k-35k
  • 反作弊专家工程师

    滴滴出行 · 北京市
    AI 估算 · 20k-40k
  • 资深风险策略分析师

    滴滴出行 · 上海市
    AI 估算 · 20k-35k
  • 运力运营专家

    滴滴出行 · 金华市
    AI 估算 · 15k-25k

相似职位推荐

  • 操作系统实习生-2027届

    小米 · 北京市
    AI 估算 · 4k-7k
  • 国际化搜推算法工程师

    小红书 · 上海市
    AI 估算 · 6k-10k
  • SW Engineering (OS/Middleware)

    大众汽车 · 合肥市
    AI 估算 · 18k-30k
  • 微信读书/输入法/秒剪-大模型后台开发工程师

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • 微信读书/输入法/秒剪-大模型后台开发工程师

    腾讯 · 广州市
    AI 估算 · 25k-45k

滴滴出行 的其他在招职位

  • 产品与用户运营

    滴滴出行 · 北京市
    AI 估算 · 25k-40k
  • 贷前风险策略分析师(滴水贷)

    滴滴出行 · 上海市
    AI 估算 · 20k-35k
  • 反作弊专家工程师

    滴滴出行 · 北京市
    AI 估算 · 20k-40k
  • 资深风险策略分析师

    滴滴出行 · 上海市
    AI 估算 · 20k-35k
  • 运力运营专家

    滴滴出行 · 金华市
    AI 估算 · 15k-25k

相似职位推荐

  • 操作系统实习生-2027届

    小米 · 北京市
    AI 估算 · 4k-7k
  • 国际化搜推算法工程师

    小红书 · 上海市
    AI 估算 · 6k-10k
  • SW Engineering (OS/Middleware)

    大众汽车 · 合肥市
    AI 估算 · 18k-30k
  • 微信读书/输入法/秒剪-大模型后台开发工程师

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • 微信读书/输入法/秒剪-大模型后台开发工程师

    腾讯 · 广州市
    AI 估算 · 25k-45k