Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Deepseek logo
深度求索
后训练(数据/算法)研究员
立即应聘

后训练(数据/算法)研究员

发布于 大约 11 小时前

普通员工/个人贡献者

杭州市 / 北京市
高级经验
全职员工
仅现场办公
学历未注明
研究与开发 (研发)
数据工程
强化学习
大模型
PPO
RLHF
后训练
Grpo
模型评测
自动化管线

AI 估算 · 30k–60k

前沿AI研究岗位,技术要求高,市场稀缺,薪资竞争力强。

职位详情

关于这个职位

这是一个前沿的大模型后训练研究员岗位,你将专注于通过强化学习算法和数据工程手段提升模型性能

工作内容涵盖算法迭代、数据管线构建和评测体系设计,涉及RLHF、PPO等先进技术,适合追求技术深度的AI人才

最低要求

满足其一即可:

对大模型后训练有深入理解,熟悉 RLHF / RLVR / PPO / GRPO 等主流强化学习框架与范式,具备从算法设计到工程落地的完整经验
具备扎实的数据直觉与工程能力,能够从复杂、多源的数据中提炼信号,并将数据清洗、筛选与合成流程系统化、自动化
对模型评测有方法论层面的思考,不满足于"刷benchmark",而是能设计出真正反映模型能力边界与短板的评测方案

工作职责

持续迭代与优化强化学习算法,在预训练模型与数据既定的条件下,最大限度地释放模型潜力

跨部门团队紧密协作,构建高质量、高多样性的后训练数据集
设计并落地自动化数据清洗、评测及合成管线,系统性提升模型在写作、问答、Agent 等核心场景的表现
建立科学、敏捷、多维度的模型能力评测体系,覆盖通用能力与 Agent 场景,精准定位模型短板并驱动针对性优化

AI 洞察

优缺点分析

优点

  • 接触最前沿的大模型后训练技术,紧跟AI发展浪潮
  • 跨部门协作,参与写作、问答、Agent等核心场景的模型提升
  • 公司技术氛围浓厚,鼓励创新和深度思考
  • 技术迭代极快,需要持续学习新框架和算法
  • 应聘者竞争激烈,对项目经验和理论深度要求高
  • 适合对强化学习和数据工程充满热情,追求技术极致,且能适应高强度研发节奏的AI从业者

缺点 / 挑战

  • 工作强度可能较高,尤其在模型调优和评测阶段

角色解读

  • 成为大模型后训练领域的专家,主导核心算法方向
  • 晋升为技术负责人或研究科学家,带领团队攻关关键问题
  • 拓展至Agent、通用人工智能等更前沿的研究领域
  • 持续迭代强化学习算法(如RLHF、PPO),在预训练模型基础上进一步释放模型潜力
  • 构建高质量、高多样性的后训练数据集,设计自动化数据清洗、合成管线
  • 建立科学的多维度评测体系,覆盖通用能力和Agent场景,定位模型短板并推动优化
  • 深入理解RLHF、PPO、GRPO等强化学习框架,具备算法设计到落地能力
  • 扎实的数据工程能力,能从多源数据中提炼信号,实现流程自动化
  • 模型评测方法论,不满足于标准benchmark,能设计有洞察力的评测方案

申请策略

  • 关注公司技术博客和开源项目,了解团队成果与技术方向
  • 准备一两个深入的项目案例,在面试中详细阐述技术细节
  • 突出大模型后训练或强化学习相关项目经验,特别是RLHF落地案例
  • 展示数据流水线自动化设计、数据清洗与合成的工程成果
  • 体现评测方案设计的创新性,如自定义benchmark或指标
  • 补强GRPO、RLVR等新型强化学习框架的实践经验
  • 提升数据处理和合成能力,熟悉常见工具(如Python、Spark)
  • 了解Agent相关技术,如工具调用、多轮交互等

面试指南

  • 用STAR方法描述项目,突出你的贡献和量化结果
  • 对比不同算法的优缺点,结合具体场景说明选择依据
  • 从指标设计、数据多样性、人工评估等角度构建评测体系
  • 讨论正则化、对抗训练、多样性采样等缓解过拟合的方法
  • 描述pipeline设计:数据源、清洗规则、合成策略、质量控制
  • 请详细介绍你做大模型后训练的一个项目,包括算法选择和效果
  • RLHF与PPO的区别是什么?你如何选择使用哪种?
  • 如何设计一个能反映模型能力短板的评测方案?

职位点评

65
综合评分

前沿AI大模型后训练岗位,技术驱动,薪资有竞争力但工作强度较高。

更适合这类人
适合高度重视技术成长和行业前沿,愿意为职业发展投入大量时间,对生活灵活性要求不高的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展85
工作生活30
使命价值75

薪资福利

70中等

该职位薪资预计处于行业较高水平,但未明确披露具体薪资范围,福利信息缺失,总体补偿性中等偏上。

薪资信号未披露(AI估算:30K-60K/月)

成长发展

85较高

技术栈属于前沿新兴领域,日常工作涉及核心算法和工程创新,成长空间巨大,但未明确提及培训或晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、后训练、RLHF、PPO、GRPO、强化学习、数据工程、模型评测、Agent
业务类型profit_center

工作生活

30较低

仅现场办公,工作地点为杭州或北京,未提及弹性工作或远程,生活化动机满足程度低。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

75中等

人工智能是高速增长赛道,职位直接推动模型能力提升,社会影响力正面,创新水平高。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号释放Base模型潜能、打造兼具强大智能与深度意图理解力的AI模型
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 情感智能数据产品经理

    深度求索 · 杭州市
    AI 估算 · 4k-8k

相似职位推荐

  • 小米汽车-上车体布置集成工程师

    小米 · 南京市
    AI 估算 · 15k-25k
  • 《王者荣耀》游戏AI Bot算法研究员

    腾讯 · 成都市
    AI 估算 · 25k-45k
  • 算法工程师(医疗服务AI产品)

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • Verification Engineer

    飞利浦 · 沈阳市
    AI 估算 · 20k-30k
  • Applied Research Intern, Robotics - 2026

    英伟达 · 上海市
    AI 估算 · 6k-10k

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 情感智能数据产品经理

    深度求索 · 杭州市
    AI 估算 · 4k-8k

相似职位推荐

  • 小米汽车-上车体布置集成工程师

    小米 · 南京市
    AI 估算 · 15k-25k
  • 《王者荣耀》游戏AI Bot算法研究员

    腾讯 · 成都市
    AI 估算 · 25k-45k
  • 算法工程师(医疗服务AI产品)

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • Verification Engineer

    飞利浦 · 沈阳市
    AI 估算 · 20k-30k
  • Applied Research Intern, Robotics - 2026

    英伟达 · 上海市
    AI 估算 · 6k-10k