深度求索的后训练（数据/算法）研究员薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

后训练（数据/算法）研究员的工作地点在哪里？

该职位工作地点位于杭州市、北京市。工作形式为仅现场办公。

深度求索的后训练（数据/算法）研究员有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

深度求索

后训练（数据/算法）研究员

立即应聘

后训练（数据/算法）研究员

发布于大约 11 小时前

普通员工/个人贡献者

杭州市 / 北京市

高级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

数据工程

强化学习

大模型

PPO

RLHF

后训练

Grpo

模型评测

自动化管线

AI 估算 · 30k–60k

前沿AI研究岗位，技术要求高，市场稀缺，薪资竞争力强。

职位详情

关于这个职位

这是一个前沿的大模型后训练研究员岗位，你将专注于通过强化学习算法和数据工程手段提升模型性能

工作内容涵盖算法迭代、数据管线构建和评测体系设计，涉及RLHF、PPO等先进技术，适合追求技术深度的AI人才

最低要求

满足其一即可：

对大模型后训练有深入理解，熟悉 RLHF / RLVR / PPO / GRPO 等主流强化学习框架与范式，具备从算法设计到工程落地的完整经验

具备扎实的数据直觉与工程能力，能够从复杂、多源的数据中提炼信号，并将数据清洗、筛选与合成流程系统化、自动化

对模型评测有方法论层面的思考，不满足于"刷benchmark"，而是能设计出真正反映模型能力边界与短板的评测方案

工作职责

持续迭代与优化强化学习算法，在预训练模型与数据既定的条件下，最大限度地释放模型潜力

跨部门团队紧密协作，构建高质量、高多样性的后训练数据集

设计并落地自动化数据清洗、评测及合成管线，系统性提升模型在写作、问答、Agent 等核心场景的表现

建立科学、敏捷、多维度的模型能力评测体系，覆盖通用能力与 Agent 场景，精准定位模型短板并驱动针对性优化

AI 洞察

优缺点分析

优点

接触最前沿的大模型后训练技术，紧跟AI发展浪潮
跨部门协作，参与写作、问答、Agent等核心场景的模型提升
公司技术氛围浓厚，鼓励创新和深度思考
技术迭代极快，需要持续学习新框架和算法
应聘者竞争激烈，对项目经验和理论深度要求高
适合对强化学习和数据工程充满热情，追求技术极致，且能适应高强度研发节奏的AI从业者

缺点 / 挑战

工作强度可能较高，尤其在模型调优和评测阶段

角色解读

成为大模型后训练领域的专家，主导核心算法方向
晋升为技术负责人或研究科学家，带领团队攻关关键问题
拓展至Agent、通用人工智能等更前沿的研究领域
持续迭代强化学习算法（如RLHF、PPO），在预训练模型基础上进一步释放模型潜力
构建高质量、高多样性的后训练数据集，设计自动化数据清洗、合成管线
建立科学的多维度评测体系，覆盖通用能力和Agent场景，定位模型短板并推动优化
深入理解RLHF、PPO、GRPO等强化学习框架，具备算法设计到落地能力
扎实的数据工程能力，能从多源数据中提炼信号，实现流程自动化
模型评测方法论，不满足于标准benchmark，能设计有洞察力的评测方案

申请策略

关注公司技术博客和开源项目，了解团队成果与技术方向
准备一两个深入的项目案例，在面试中详细阐述技术细节
突出大模型后训练或强化学习相关项目经验，特别是RLHF落地案例
展示数据流水线自动化设计、数据清洗与合成的工程成果
体现评测方案设计的创新性，如自定义benchmark或指标
补强GRPO、RLVR等新型强化学习框架的实践经验
提升数据处理和合成能力，熟悉常见工具（如Python、Spark）
了解Agent相关技术，如工具调用、多轮交互等

面试指南

用STAR方法描述项目，突出你的贡献和量化结果
对比不同算法的优缺点，结合具体场景说明选择依据
从指标设计、数据多样性、人工评估等角度构建评测体系
讨论正则化、对抗训练、多样性采样等缓解过拟合的方法
描述pipeline设计：数据源、清洗规则、合成策略、质量控制
请详细介绍你做大模型后训练的一个项目，包括算法选择和效果
RLHF与PPO的区别是什么？你如何选择使用哪种？
如何设计一个能反映模型能力短板的评测方案？

职位点评

综合评分

前沿AI大模型后训练岗位，技术驱动，薪资有竞争力但工作强度较高。

更适合这类人

适合高度重视技术成长和行业前沿，愿意为职业发展投入大量时间，对生活灵活性要求不高的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展85

工作生活30

使命价值75

薪资福利

70中等

该职位薪资预计处于行业较高水平，但未明确披露具体薪资范围，福利信息缺失，总体补偿性中等偏上。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

85较高

技术栈属于前沿新兴领域，日常工作涉及核心算法和工程创新，成长空间巨大，但未明确提及培训或晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、后训练、RLHF、PPO、GRPO、强化学习、数据工程、模型评测、Agent

业务类型profit_center

工作生活

30较低

仅现场办公，工作地点为杭州或北京，未提及弹性工作或远程，生活化动机满足程度低。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

人工智能是高速增长赛道，职位直接推动模型能力提升，社会影响力正面，创新水平高。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号释放Base模型潜能、打造兼具强大智能与深度意图理解力的AI模型

创新程度开拓性创新（行业首创）

Watch Jobs

后训练（数据/算法）研究员

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

深度求索的其他在招职位

IT 基础设施团队

Frontier（持续学习/自进化/新范式）研究员

HR团队

法务团队

情感智能数据产品经理

相似职位推荐

小米汽车-上车体布置集成工程师

《王者荣耀》游戏AI Bot算法研究员

算法工程师（医疗服务AI产品）

Verification Engineer

Applied Research Intern, Robotics - 2026

深度求索的其他在招职位

IT 基础设施团队

Frontier（持续学习/自进化/新范式）研究员

HR团队

法务团队

情感智能数据产品经理

相似职位推荐

小米汽车-上车体布置集成工程师

《王者荣耀》游戏AI Bot算法研究员

算法工程师（医疗服务AI产品）

Verification Engineer

Applied Research Intern, Robotics - 2026

后训练（数据/算法）研究员

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

深度求索 的其他在招职位

IT 基础设施团队

Frontier（持续学习/自进化/新范式）研究员

HR团队

法务团队

情感智能数据产品经理

相似职位推荐

小米汽车-上车体布置集成工程师

《王者荣耀》游戏AI Bot算法研究员

算法工程师（医疗服务AI产品）

Verification Engineer

Applied Research Intern, Robotics - 2026

深度求索 的其他在招职位

IT 基础设施团队

Frontier（持续学习/自进化/新范式）研究员

HR团队

法务团队

情感智能数据产品经理

相似职位推荐

小米汽车-上车体布置集成工程师

《王者荣耀》游戏AI Bot算法研究员

算法工程师（医疗服务AI产品）

Verification Engineer

Applied Research Intern, Robotics - 2026

深度求索的其他在招职位

深度求索的其他在招职位