得物的客服算法AI赔付工程师/专家薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

客服算法AI赔付工程师/专家的工作地点在哪里？

该职位工作地点位于上海市、杭州市。工作形式为仅现场办公。

得物的客服算法AI赔付工程师/专家有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

得物

客服算法AI赔付工程师/专家

立即应聘

客服算法AI赔付工程师/专家

发布于大约 2 个月前

普通员工/个人贡献者

上海市 / 杭州市

中级经验

全职员工

仅现场办公

硕士

软件工程

Grpo

强化学习

CoT

DPO

NLP

RLHF

Uplift Model

XGBoost

AI 估算 · 30k–60k

AI算法专家岗位，大型电商平台，技术复杂度高，市场薪资竞争力强。

职位详情

关于这个职位

该职位负责利用机器学习与强化学习技术优化客服赔付策略，构建Uplift模型量化补贴增量效果，并通过大模型SFT/RLHF提升纠纷场景的定责与赔付建议能力

工作涉及前沿算法如DPO、GRPO、CoT等，需要深入理解因果推断和强化学习，适合有算法落地经验的技术人才

最低要求

硕士及以上学历，计算机、人工智能、信号处理、模式识别等相关专业，优秀本科生可放宽条件

熟悉机器学习常用算法模型原理，有一定的实践经验，包括但不限于LR，XGB，S-learner，X-learner、uplift tree等

具备 NLP / CV 技术应用经验，包括但不限于语义分析、检索模型、知识库构建、视觉大模型、多模态大模型等

熟练掌握 Python/C++/Java 等至少一门编程语言

有扎实的算法基础和代码实现能力，能独立完成复杂系统开发

工作职责

构建 Uplift Model（R/X-Learner），从"反事实"视角量化赔付策略对 GMV/留存/用户满意度的绝对增量，拒绝无效补贴

负责大模型在纠纷场景下的 SFT与 RLHF，运用 GRPO、DPO 等算法提升模型对复杂平台规则的逻辑推演能力

探索 CoT与 PRM 技术，确保模型在定责与赔付建议上的高度一致性与可解释

强化学习：探索 Agent 架构与过程奖励模型，在动态博弈环境下优化赔付路径，实现长期 ROI 最大化

优先资格

深入理解强化学习的核心算法（如 PPO、DPO、GRPO）以及常用框架(ray、verl、openrlhf)，有相关项目实践经验

有个性化优惠券、智能补贴、push算法、智能投放等领域经验者优先

在顶级会议（如 ACL、NeurIPS、ICLR 等）发表过相关论文，或高水平竞赛取得优秀名次

AI 洞察

优缺点分析

优点

涉及Uplift建模、强化学习、大模型等前沿技术，技能积累价值高，市场稀缺性强
得物作为头部电商平台，业务场景丰富，数据量大，算法落地机会多，个人成长快
团队技术氛围浓厚，有机会与顶级会议论文作者合作，适合追求技术深度的求职者
技术栈跨度大，需要同时掌握因果推断、强化学习、大模型等多个领域，学习曲线陡峭
行业竞争激烈，需要持续跟进前沿论文并快速实验，对自驱力要求高

缺点 / 挑战

赔付策略与业务GMV直接挂钩，模型效果要求高，工作压力可能较大
适合有扎实算法基础、热爱挑战、希望在因果推断和强化学习领域深耕的技术型人才，尤其适合有相关项目经验或学术背景的硕士/博士

角色解读

从算法工程师向高级算法专家发展，深入掌握因果推断与强化学习在商业场景中的应用
可向技术负责人（Tech Lead）转型，主导AI策略团队，负责业务与技术决策
也可横向扩展至搜索、推荐、广告等算法领域，成为复合型AI人才
构建Uplift模型从反事实视角量化赔付策略对GMV和用户满意度的影响，识别高效补贴方案
运用强化学习（GRPO、DPO）和大模型SFT/RLHF技术优化纠纷场景的定责与赔付推理能力
探索Agent架构和过程奖励模型，在动态博弈环境下实现赔付路径的长期ROI最大化
扎实的机器学习基础，熟悉因果推断模型（Uplift、S-learner、X-learner）及GBDT类算法
精通NLP/CV技术应用，有语义分析、检索模型或多模态大模型经验
熟练掌握Python/C++/Java，能独立实现复杂算法并部署
深入理解强化学习核心算法（PPO、DPO、GRPO）及相关框架（Ray、veRL、OpenRLHF）

申请策略

提前了解得物的业务模式（二手球鞋、潮流电商）及客服场景特点，面试中结合业务谈算法设计
关注该团队在技术博客或会议上的分享，展现对公司和团队技术方向的理解
突出Uplift模型、强化学习（PPO/DPO/GRPO）、大模型SFT/RLHF的项目经验，用具体数据量化效果
强调在商业场景中应用因果推断或算法策略的经历，如补贴优化、智能投放等
展示编程能力：独立开发的复杂系统或算法框架，GitHub链接或代码示例
如有顶级会议论文或竞赛获奖，务必显著标注
补强强化学习框架（Ray、OpenRLHF）的实际使用经验，可自行复现PPO等算法
深入理解Uplift模型的不同实现（S/X-learner、T-learner）及其在因果推断中的优劣势

面试指南

对于方法论问题，先用一句话概括核心思想，然后结合具体案例展开，最后总结优缺点
对于项目经验问题，采用STAR法则（情境-任务-行动-结果），突出量化指标和技术难点
对于开放设计问题，先明确目标（如ROI最大化），再分步骤提出方案框架，考虑约束条件
请解释Uplift Model与传统点击率模型的区别，如何评估Uplift模型的效果？
你在项目中如何应用PPO或DPO？请描述具体的训练流程和调参经验
面对一个纠纷场景，你如何设计赔付策略的强化学习reward函数？
请介绍CoT和PRM在大模型推理中的作用，以及如何保证定责的可解释性？
你有过因果推断在商业场景落地的经验吗？遇到了哪些挑战？

职位点评

综合评分

前沿AI算法岗位，技术栈新颖，成长空间极大，但薪资未明示且工作强度可能较大。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

最适合追求技术深度与前沿挑战、愿意投入时间换取技能快速成长的求职者，对WLB要求较高者需谨慎考虑。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展90

工作生活45

使命价值55

薪资福利

70中等

AI算法专家薪酬通常处于市场高端，但JD未披露具体薪资及福利（如年终奖、股票等），实际福利依赖公司惯例，补偿性动机中等偏好。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

职位涉及Uplift模型、强化学习、大模型训练等前沿技术，技能成长空间极大；有望接触顶级会议论文与合作，发展性动机满足度很高。

技术前沿前沿/新兴技术

技术栈Uplift Model、GRPO、DPO、RLHF、CoT、PRM、Agent、强化学习、大模型

业务类型profit_center

工作生活

45较低

JD未提及远程办公或弹性工时，工作地点在上海/杭州（市中心可能性高），且算法岗位通常加班较多，生活化动机满足度偏低。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

55较低

虽然电商行业增速稳定，但赔付策略优化直接服务于商业目标，社会影响力有限；且JD未提及使命愿景，意义感动机满足度一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

得物的其他在招职位

相似职位推荐

Watch Jobs

客服算法AI赔付工程师/专家

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

心智传播运营

社区内容互动产品经理

跨境治理运营（偏履约/逆向）

货品补贴leader

财务BP-识货

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

得物的其他在招职位

心智传播运营

社区内容互动产品经理

跨境治理运营（偏履约/逆向）

货品补贴leader

财务BP-识货

相似职位推荐

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

客服算法AI赔付工程师/专家

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

得物 的其他在招职位

心智传播运营

社区内容互动产品经理

跨境治理运营（偏履约/逆向）

货品补贴leader

财务BP-识货

相似职位推荐

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

得物的其他在招职位