Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Deepseek logo
深度求索
预训练数据研究员/研发工程师
立即应聘

预训练数据研究员/研发工程师

发布于 1 天前

普通员工/个人贡献者

杭州市 / 北京市
高级经验
全职员工
仅现场办公
本科
RAG
多模态
数据清洗
大模型训练
预训练数据
Duckdb
消融实验

AI 估算 · 30k–60k

AI大模型预训练岗位,技能稀缺,一线城市,B轮中大型企业,薪资竞争力强

职位详情

关于这个职位

作为预训练数据研究员/研发工程师,你将直接参与大模型的核心迭代,专注于数据清洗、质量评估和配方优化

工作涉及大规模数据处理、消融实验设计和多模态数据研究,旨在探索数据驱动AI的极限
这是一个技术深度高、与模型性能紧密相关的岗位

最低要求

CS/AI相关专业,本科及以上学历,pretrain/posttrain数据和其他大规模数据如信息检索相关研究或工作经验

熟悉主流大模型训练流程(Pretrain / SFT / RL / OPD),理解数据对模型行为的驱动机制
熟练使用 Python 及任意一种常用数据处理工具链(pandas / spark / duckdb 等)
具备扎实的实验设计与统计分析能力,能独立设计严谨的消融实验并得出可靠结论
有预训练数据、信息检索方向、多模态研究背景
(需要满足 2 条以上)

工作职责

数据质量与治理:设计并执行大规模训练数据清洗流程,构建数据质量评估体系,持续优化数据配比与筛选策略

研究预训练数据 quality, diversity, repetition 随 model scaling 的最优学习机制
与上下游深度协作,制定标注规范与质量标准
模型消融与评估:针对数据配方、数据质量、数据规模等维度设计消融实验
构建多维度模型评估体系(自动+人工)
垂直能力研究:多模态数据(图文、音视频)采集与清洗
优化RAG场景下的检索数据质量,参与embedding模型训练数据构建
研究情感智能及意图理解相关数据策略
跨团队协作与标准共建:与模型策略产品经理共建数据-模型-产品质量标准
将业务需求转化为数据需求,协调多方资源

优先资格

对世界有好奇心,有自己对模型行为的独特理解

具备良好的研究taste,善于思考和发现jagged intelligence的低点
优秀的跨团队沟通能力,能与标注、产品、工程等多角色高效协作
有顶会论文发表或核心模型贡献
有大规模数据清洗 pipeline 落地经验(TB级别tokens)

AI 洞察

优缺点分析

优点

  • 核心业务岗位:直接参与大模型迭代,工作成果影响显著,技术成就感强
  • 技术前沿性强:接触Data-centric AI最前沿,积累预训练、多模态等高价值经验
  • 公司平台优秀:深度求索为AI领域明星企业,发展迅速,资源充足
  • 工作强度大:预训练数据研究节奏紧凑,需快速迭代实验,加班可能较多
  • 适合对数据驱动AI有浓厚兴趣、具备扎实工程和研究能力、追求技术极致的技术型人才

缺点 / 挑战

  • 技术要求全面:需同时掌握数据处理、模型训练和实验设计,上手门槛较高
  • 竞争激烈:吸引顶尖AI人才,面试和绩效考核压力较大

角色解读

  • 技术纵深:从数据研究员成长为数据策略专家,主导模型数据方向的核心决策
  • 管理方向:可晋升为数据团队负责人,带领团队构建数据基础设施
  • 跨界发展:转向模型算法或AI产品经理,利用数据洞察驱动模型创新
  • 设计并执行大规模训练数据清洗流程,构建数据质量评估体系,优化数据配比与筛选策略
  • 设计消融实验量化数据变更对模型能力的影响,构建多维度模型评估体系
  • 参与多模态数据采集与清洗,优化RAG场景下的检索数据质量,研究情感智能数据策略
  • 与模型策略产品经理及其他团队协作,推动数据驱动的模型迭代闭环
  • 扎实的Python编程能力和数据处理工具链使用经验(pandas/spark/duckdb)
  • 深入理解大模型训练流程(Pretrain/SFT/RL/OPD)及数据对模型行为的驱动机制
  • 具备严谨的实验设计与统计分析能力,能独立完成消融实验
  • 熟悉预训练数据、信息检索或多模态方向的研究背景

申请策略

  • 深入理解深度求索的技术路线和模型特点,在面试中展现对Data-centric AI的独到见解
  • 准备一个你过去在数据清洗或质量评估中解决复杂问题的案例,突出量化成果
  • 突出大规模数据处理经验,如TB级tokens清洗实战或相关pipeline
  • 强调论文或项目成果,尤其是预训练数据、信息检索、多模态方向
  • 展示对模型训练流程的理解,如参与过Pretrain/SFT/RL项目
  • 系统学习大模型训练框架(如DeepSpeed、Megatron),加深对训练机制的理解
  • 实践消融实验设计,掌握因果推断和A/B测试统计方法
  • 补充多模态数据处理知识,熟悉图文/音视频库工具

面试指南

  • 结构化叙述:问题定义→假设→实验设计→指标选择→结果分析→迭代
  • 量化优先:用具体数据(如Token量、准确率提升百分比)和图表说明
  • 体现思考深度:对比不同方案的trade-off,展示对模型和数据关系的理解
  • 如何设计实验评估不同数据配比对大模型下游任务的影响?
  • 你处理过哪些大规模数据质量问题?如何清洗和验证?
  • 解释预训练数据中的diversity和repetition如何影响模型性能?
  • 在多模态数据中,如何保证数据质量并控制噪声?
  • 你对RAG中检索数据质量的理解,如何优化embedding召回?

匹配度报告

66
综合匹配度

前沿AI公司核心数据岗位,技术成长快,薪资未明但预期高,WLB可能一般。

适合人群
最适合理想驱动、追求技术极致和高速成长的求职者,不适合追求平衡工作生活或稳定福利的人。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利60
成长发展95
工作生活40
使命价值70

薪资福利匹配

60中等

薪资未明确,但根据岗位稀缺性和公司融资阶段,预计薪资有竞争力,但福利和稳定性不如成熟大厂。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

95较高

岗位直接驱动核心模型迭代,技术前沿性强,能深入掌握Data-centric AI,成长空间巨大。

技术前沿前沿/新兴技术
技术栈大模型训练、预训练数据、多模态、RAG、embedding、数据清洗、消融实验
业务类型profit_center

工作生活匹配

40较低

多个城市可选有一定灵活性,但未提及远程或弹性工时,AI公司节奏快,WLB可能一般。

工作模式未明确
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

AI大模型行业高速增长,岗位对技术推动有意义,但社会影响力中性,无明显使命感信号。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

深度求索 的其他在招职位

  • 数据中心网络运维工程师(超算 / RDMA / 数通)

    深度求索 · 杭州市
    AI 估算 · 20k-35k
  • 采购经理(云服务方向)

    深度求索 · 杭州市
    AI 估算 · 15k-25k
  • 大模型平台运营

    深度求索 · 杭州市
    AI 估算 · 15k-25k
  • IDC采购经理

    深度求索 · 杭州市
    AI 估算 · 25k-40k
  • IDC商务经理

    深度求索 · 杭州市
    AI 估算 · 12k-20k

相似职位推荐

  • 医疗行业解决方案架构师-火山引擎

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 3D视觉仿真工程师/专家-PICO

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 多媒体算法工程师(AI Infra)-视频与边缘

    字节跳动 · 上海市
    AI 估算 · 35k-65k
  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k

深度求索 的其他在招职位

  • 数据中心网络运维工程师(超算 / RDMA / 数通)

    深度求索 · 杭州市
    AI 估算 · 20k-35k
  • 采购经理(云服务方向)

    深度求索 · 杭州市
    AI 估算 · 15k-25k
  • 大模型平台运营

    深度求索 · 杭州市
    AI 估算 · 15k-25k
  • IDC采购经理

    深度求索 · 杭州市
    AI 估算 · 25k-40k
  • IDC商务经理

    深度求索 · 杭州市
    AI 估算 · 12k-20k

相似职位推荐

  • 医疗行业解决方案架构师-火山引擎

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 3D视觉仿真工程师/专家-PICO

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 多媒体算法工程师(AI Infra)-视频与边缘

    字节跳动 · 上海市
    AI 估算 · 35k-65k
  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k