Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Deepseek logo
深度求索
预训练数据工程师
立即应聘

预训练数据工程师

发布于 大约 11 小时前

普通员工/个人贡献者

杭州市 / 北京市
中级经验
全职员工
仅现场办公
本科
软件工程
分布式系统
PyTorch
数据湖
数据采集
Minhash
向量去重

AI 估算 · 20k–40k

AI大模型赛道,技术壁垒高,薪资竞争力强。

职位详情

关于这个职位

负责大模型预训练数据的采集、清洗、多模态数据处理和数据基础设施建设,为模型训练提供高质量、大规模的数据燃料

你将参与构建从数据采集到模型消费的完整数据体系,驱动模型智能的持续提升

最低要求

数据采集 pipeline 方向:计算机或数学相关专业,本科及以上学历

熟练使用至少一种编程语言,包括但不限于 Python/C++/Rust
语言数据处理方向:计算机、人工智能相关专业,本科及以上学历
熟练使用 Python 及任意一种常用数据处理工具链(pandas / spark / duckdb 等)
多模态数据方向:计算机基础扎实,熟悉 Python,了解 PyTorch
具备系统性能分析与调优能力
熟悉常见数据处理与存储格式
对多模态大模型有一定的认识和了解
对大规模多模态数据生产与管理有强烈兴趣
数据基建方向:计算机相关专业
扎实 Rust/C++/Python 编程能力
扎实的工程能力与系统功底
深入理解分析型数据处理引擎的计算和数据存储格式
能灵活运用文献和开源项目中数据库系统的常见范式和经验

工作职责

数据采集 pipeline 方向:全网数据选取策略设计开发

全网数据采集环路的设计与开发
链接规模控制
语言数据处理方向:参与大模型预训练语料清洗框架研发
研发核心语料清洗能力(MinHash 去重、向量去重等)
维护日常生产流水线
优化大规模数据清洗系统的性能、稳定性和可观测性
多模态数据方向:负责大规模多模态数据的结构设计、存储架构规划与全生命周期管理
负责多模态数据清洗与标注链路的工程优化
针对不同训练阶段设计优化数据存储方案
建设数据分析与可视化体系
数据基建方向:负责键值数据库、消息队列等核心数据组件的开发、维护与调优
面向多模态海量数据负责数据管理与数据湖方案的设计与落地
设计与开发分布式数据处理框架
负责在线与批处理任务的 CPU、内存、网络调优
与数据采集处理、模型训练等团队紧密协作

优先资格

数据采集 pipeline 方向:数学或信息学竞赛中取得优秀成绩

有大规模数据采集、爬虫或数据 pipeline 系统研发经验
语言数据处理方向:对世界有好奇心,对模型行为有自己独特的理解
对模型能力边界有敏锐判断
优秀的跨团队沟通能力
有大规模数据清洗 pipeline 落地经验(TB级别 tokens)
多模态数据方向:有大规模分布式数据处理系统的研发与性能优化经验
具备高并发、异步编程经验
了解多模态模型的常见训练与部署框架(如 Megatron、vLLM 等)
在算法竞赛(NOI/IOI/ICPC/CCPC 等)中取得优异成绩
数据基建方向:有大规模存储、分布式 KV、数据库或数据湖、分布式数据处理框架的设计/研发/运维等经验
在高水平系统会议论文上发表过论文

AI 洞察

优缺点分析

优点

  • 前沿AI赛道,参与大模型核心数据环节,技术成长快
  • 团队技术氛围浓厚,与顶尖算法和工程团队合作
  • 数据处理规模大,系统复杂度高,需处理各种异常
  • 需要持续学习新技术,适应快速迭代的AI领域
  • 工作强度可能较大,需应对紧急线上问题

缺点 / 挑战

  • 数据规模巨大,挑战性强,积累宝贵经验
  • 适合对数据工程充满热情、有大规模系统开发经验、喜欢挑战的工程师

角色解读

  • 成为数据工程领域的专家,主导大规模数据系统
  • 晋升为技术负责人或架构师,管理技术团队
  • 转向大模型算法或AI基础设施方向,拓展职业宽度
  • 设计数据采集策略和调度系统,从全网抓取高质量数据
  • 开发大规模数据清洗框架,处理TB级数据,确保数据质量
  • 管理多模态数据(图像、视频等)的存储和全生命周期
  • 构建分布式数据基础设施,包括KV数据库和数据湖
  • 熟练掌握 Python/C++/Rust 等编程语言
  • 熟悉分布式数据处理框架(如 Spark、DuckDB)和系统设计
  • 了解大模型训练数据的特性和需求
  • 具备系统性能分析和调优能力,解决大规模数据链路瓶颈

申请策略

  • 关注深度求索的技术博客和开源项目,了解团队方向
  • 在简历中体现对数据质量和模型训练的思考
  • 突出大规模数据系统设计或开发经验,如爬虫、数据清洗工具
  • 展示在竞赛或工作中处理TB级数据的成果
  • 强调编程能力和系统性能优化案例
  • 学习分布式系统原理和常见组件(如Kafka、Spark)
  • 掌握数据湖技术(如Delta Lake、Iceberg)和多模态数据处理

面试指南

  • 从系统设计角度:考虑分治、并行、容错、监控等
  • 从算法原理出发,结合实际工程挑战和解决方案
  • 使用STAR方法描述项目经验:情境、任务、行动、结果
  • 如何设计一个高吞吐、可容错的分布式数据采集系统?
  • 解释MinHash去重的原理,并讨论如何在大规模数据中实现?
  • 如何处理多模态数据(如图像和文本)的清洗和结构化?
  • 在分布式系统中,如何保证数据处理的Exactly-Once语义?
  • 描述一次你优化大规模数据处理管道性能的经历

职位点评

71
综合评分

AI预训练数据工程师,前沿技术栈,薪资优厚,工作强度未知。

更适合这类人
适合追求技术成长和行业前沿的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展85
工作生活50
使命价值80

薪资福利

70中等

薪资未明确披露,但AI行业普遍高薪,福利未提及,整体补偿性中等偏上。

薪资信号未披露(AI估算:20K-40K/月)

成长发展

85较高

技术栈前沿,涉及大规模系统和AI,成长空间大,团队使命强调技术深度。

技术前沿前沿/新兴技术
技术栈分布式系统、MinHash、多模态、数据湖、KV数据库
成长机会构建了从数据采集、清洗处理到底层基础设施的完整数据体系
业务类型profit_center

工作生活

50较低

需现场办公,未明确WLB,可能有一定强度,但一线城市办公。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

80较高

AI大模型行业高速增长,工作有推动技术进步的意义,创新性强。

行业发展高速增长赛道
社会影响中性/一般
使命信号驱动模型强大能力、拓展模型的世界知识边界
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 后训练(数据/算法)研究员

    深度求索 · 杭州市
    AI 估算 · 30k-60k

相似职位推荐

  • 企业数智化全栈开发工程师(AI驱动)8227

    新紫光集团 · 上海市
    AI 估算 · 25k-40k
  • AI中医项目算法工程师

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • IOT Camera Software Engineer

    高通 · 成都市
    AI 估算 · 20k-35k
  • Test Engineer (Up to Senior Staff)

    高通 · 深圳市
    AI 估算 · 30k-50k
  • Senior Software Engineer- Control Software App

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 后训练(数据/算法)研究员

    深度求索 · 杭州市
    AI 估算 · 30k-60k

相似职位推荐

  • 企业数智化全栈开发工程师(AI驱动)8227

    新紫光集团 · 上海市
    AI 估算 · 25k-40k
  • AI中医项目算法工程师

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • IOT Camera Software Engineer

    高通 · 成都市
    AI 估算 · 20k-35k
  • Test Engineer (Up to Senior Staff)

    高通 · 深圳市
    AI 估算 · 30k-50k
  • Senior Software Engineer- Control Software App

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k