Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

dewu logo
得物
客服算法AI赔付工程师/专家
立即应聘

客服算法AI赔付工程师/专家

发布于 大约 16 小时前

普通员工/个人贡献者

上海市 / 杭州市
中级经验
全职员工
仅现场办公
硕士
软件工程
NLP
强化学习
XGBoost
RLHF
DPO
CoT
Grpo
Uplift Model

AI 估算 · 30k–60k

AI算法专家岗位,大型电商平台,技术复杂度高,市场薪资竞争力强。

职位详情

关于这个职位

该职位负责利用机器学习与强化学习技术优化客服赔付策略,构建Uplift模型量化补贴增量效果,并通过大模型SFT/RLHF提升纠纷场景的定责与赔付建议能力

工作涉及前沿算法如DPO、GRPO、CoT等,需要深入理解因果推断和强化学习,适合有算法落地经验的技术人才

最低要求

硕士及以上学历,计算机、人工智能、信号处理、模式识别等相关专业,优秀本科生可放宽条件

熟悉机器学习常用算法模型原理,有一定的实践经验,包括但不限于LR,XGB,S-learner,X-learner、uplift tree等
具备 NLP / CV 技术应用经验,包括但不限于语义分析、检索模型、知识库构建、视觉大模型、多模态大模型等
熟练掌握 Python/C++/Java 等至少一门编程语言
有扎实的算法基础和代码实现能力,能独立完成复杂系统开发

工作职责

构建 Uplift Model(R/X-Learner),从"反事实"视角量化赔付策略对 GMV/留存/用户满意度的绝对增量,拒绝无效补贴

负责大模型在纠纷场景下的 SFT与 RLHF,运用 GRPO、DPO 等算法提升模型对复杂平台规则的逻辑推演能力
探索 CoT与 PRM 技术,确保模型在定责与赔付建议上的高度一致性与可解释
强化学习:探索 Agent 架构与过程奖励模型,在动态博弈环境下优化赔付路径,实现长期 ROI 最大化

优先资格

深入理解强化学习的核心算法(如 PPO、DPO、GRPO)以及常用框架(ray、verl、openrlhf),有相关项目实践经验

有个性化优惠券、智能补贴、push算法、智能投放等领域经验者优先
在顶级会议(如 ACL、NeurIPS、ICLR 等)发表过相关论文,或高水平竞赛取得优秀名次

AI 洞察

优缺点分析

优点

  • 涉及Uplift建模、强化学习、大模型等前沿技术,技能积累价值高,市场稀缺性强
  • 得物作为头部电商平台,业务场景丰富,数据量大,算法落地机会多,个人成长快
  • 团队技术氛围浓厚,有机会与顶级会议论文作者合作,适合追求技术深度的求职者
  • 技术栈跨度大,需要同时掌握因果推断、强化学习、大模型等多个领域,学习曲线陡峭
  • 行业竞争激烈,需要持续跟进前沿论文并快速实验,对自驱力要求高

缺点 / 挑战

  • 赔付策略与业务GMV直接挂钩,模型效果要求高,工作压力可能较大
  • 适合有扎实算法基础、热爱挑战、希望在因果推断和强化学习领域深耕的技术型人才,尤其适合有相关项目经验或学术背景的硕士/博士

角色解读

  • 从算法工程师向高级算法专家发展,深入掌握因果推断与强化学习在商业场景中的应用
  • 可向技术负责人(Tech Lead)转型,主导AI策略团队,负责业务与技术决策
  • 也可横向扩展至搜索、推荐、广告等算法领域,成为复合型AI人才
  • 构建Uplift模型从反事实视角量化赔付策略对GMV和用户满意度的影响,识别高效补贴方案
  • 运用强化学习(GRPO、DPO)和大模型SFT/RLHF技术优化纠纷场景的定责与赔付推理能力
  • 探索Agent架构和过程奖励模型,在动态博弈环境下实现赔付路径的长期ROI最大化
  • 扎实的机器学习基础,熟悉因果推断模型(Uplift、S-learner、X-learner)及GBDT类算法
  • 精通NLP/CV技术应用,有语义分析、检索模型或多模态大模型经验
  • 熟练掌握Python/C++/Java,能独立实现复杂算法并部署
  • 深入理解强化学习核心算法(PPO、DPO、GRPO)及相关框架(Ray、veRL、OpenRLHF)

申请策略

  • 提前了解得物的业务模式(二手球鞋、潮流电商)及客服场景特点,面试中结合业务谈算法设计
  • 关注该团队在技术博客或会议上的分享,展现对公司和团队技术方向的理解
  • 突出Uplift模型、强化学习(PPO/DPO/GRPO)、大模型SFT/RLHF的项目经验,用具体数据量化效果
  • 强调在商业场景中应用因果推断或算法策略的经历,如补贴优化、智能投放等
  • 展示编程能力:独立开发的复杂系统或算法框架,GitHub链接或代码示例
  • 如有顶级会议论文或竞赛获奖,务必显著标注
  • 补强强化学习框架(Ray、OpenRLHF)的实际使用经验,可自行复现PPO等算法
  • 深入理解Uplift模型的不同实现(S/X-learner、T-learner)及其在因果推断中的优劣势

面试指南

  • 对于方法论问题,先用一句话概括核心思想,然后结合具体案例展开,最后总结优缺点
  • 对于项目经验问题,采用STAR法则(情境-任务-行动-结果),突出量化指标和技术难点
  • 对于开放设计问题,先明确目标(如ROI最大化),再分步骤提出方案框架,考虑约束条件
  • 请解释Uplift Model与传统点击率模型的区别,如何评估Uplift模型的效果?
  • 你在项目中如何应用PPO或DPO?请描述具体的训练流程和调参经验
  • 面对一个纠纷场景,你如何设计赔付策略的强化学习reward函数?
  • 请介绍CoT和PRM在大模型推理中的作用,以及如何保证定责的可解释性?
  • 你有过因果推断在商业场景落地的经验吗?遇到了哪些挑战?

匹配度报告

65
综合匹配度

前沿AI算法岗位,技术栈新颖,成长空间极大,但薪资未明示且工作强度可能较大。

适合人群
最适合追求技术深度与前沿挑战、愿意投入时间换取技能快速成长的求职者,对WLB要求较高者需谨慎考虑。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展90
工作生活45
使命价值55

薪资福利匹配

70中等

AI算法专家薪酬通常处于市场高端,但JD未披露具体薪资及福利(如年终奖、股票等),实际福利依赖公司惯例,补偿性动机中等偏好。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

职位涉及Uplift模型、强化学习、大模型训练等前沿技术,技能成长空间极大;有望接触顶级会议论文与合作,发展性动机满足度很高。

技术前沿前沿/新兴技术
技术栈Uplift Model、GRPO、DPO、RLHF、CoT、PRM、Agent、强化学习、大模型
业务类型profit_center

工作生活匹配

45较低

JD未提及远程办公或弹性工时,工作地点在上海/杭州(市中心可能性高),且算法岗位通常加班较多,生活化动机满足度偏低。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

55较低

虽然电商行业增速稳定,但赔付策略优化直接服务于商业目标,社会影响力有限;且JD未提及使命愿景,意义感动机满足度一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

得物 的其他在招职位

  • 商品质检运营-95分

    得物 · 上海市
    AI 估算 · 9k-15k
  • 球类运动商家运营

    得物 · 上海市
    AI 估算 · 15k-25k
  • HR法务

    得物 · 上海市
    AI 估算 · 30k-50k
  • 手表商家运营(欧美表/瑞德表)

    得物 · 上海市
    AI 估算 · 20k-40k
  • 解决方案产品(机器视觉方向)

    得物 · 上海市
    AI 估算 · 25k-40k

相似职位推荐

  • Electron 技术专家-MiMo

    小米 · 北京市
    AI 估算 · 35k-55k
  • 高级后端开发工程师-MiMo

    小米 · 北京市
    AI 估算 · 30k-50k
  • 高级客户端研发工程师-MiMo

    小米 · 北京市
    AI 估算 · 25k-45k
  • 推荐算法工程师-海外电商(redshop)方向

    小红书 · 北京市
    AI 估算 · 30k-50k
  • AI Agent 开发工程师

    小红书 · 上海市
    AI 估算 · 30k-50k

得物 的其他在招职位

  • 商品质检运营-95分

    得物 · 上海市
    AI 估算 · 9k-15k
  • 球类运动商家运营

    得物 · 上海市
    AI 估算 · 15k-25k
  • HR法务

    得物 · 上海市
    AI 估算 · 30k-50k
  • 手表商家运营(欧美表/瑞德表)

    得物 · 上海市
    AI 估算 · 20k-40k
  • 解决方案产品(机器视觉方向)

    得物 · 上海市
    AI 估算 · 25k-40k

相似职位推荐

  • Electron 技术专家-MiMo

    小米 · 北京市
    AI 估算 · 35k-55k
  • 高级后端开发工程师-MiMo

    小米 · 北京市
    AI 估算 · 30k-50k
  • 高级客户端研发工程师-MiMo

    小米 · 北京市
    AI 估算 · 25k-45k
  • 推荐算法工程师-海外电商(redshop)方向

    小红书 · 北京市
    AI 估算 · 30k-50k
  • AI Agent 开发工程师

    小红书 · 上海市
    AI 估算 · 30k-50k