Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型预训练工程师-AI Data
立即应聘

大模型预训练工程师-AI Data

发布于 大约 18 小时前

普通员工/个人贡献者

杭州市
中级经验
全职员工
仅现场办公
本科
GO
LLM
数据合成
vLLM
Reward Model

AI 估算 · 30k–60k

AI大模型前沿岗位,字节跳动薪酬竞争力强,杭州研发薪资中上,叠加高技能需求,月薪3-6万合理。

职位详情

关于这个职位

你将成为字节跳动AI数据团队的核心成员,负责大模型预训练数据的全流程建设,包括数据采集、清洗、合成和评估

你将探索前沿的数据合成技术,如Self-Instruct和Agent模拟,并搭建自动化数据工程平台,为顶尖大模型提供高质量的训练数据
这是一个深度参与AI基础设施、挑战与机遇并存的技术岗位

最低要求

本科及以上学历,计算机、人工智能、数学或相关专业,具备扎实的编程基础,精通Python,并掌握至少一种编程语言(Java/Go/C++)

具备AI数据开发经验,掌握大模型预训练基本原理,熟悉至少一类核心场景(代码生成或通用NLP)的数据特性
在数据合成或基础工程方面,需具备以下任一方向的专业能力
研究方向:深入理解主流大模型架构及训练机制,熟悉各类Prompt技巧及数据增强机制,对大模型对齐(RLHF/DPO等)背后的数据构建逻辑有深入研究
工程方向:熟悉Spark、Flink、Ray等分布式计算框架,具备海量数据全流程清洗与处理经验,熟悉vLLM等推理加速框架者优先
具备数据质量指标设计能力,能够熟练使用机器学习算法优化数据筛选与评估效率,沟通高效,能精准对接需求并协调资源

工作职责

主导大模型数据生产的Pipeline建设,涵盖寻源、采集、解析、处理、实验与分析等环节,为各基础模型提供稳定、大规模且高质量的预训练数据

进行前沿数据合成研究,探索基于LLM的数据合成与增强技术(如Self-Instruct、Agent交互模拟等),设计高效生成策略以补充数据缺口
建立针对合成数据的自动化评估体系(如Reward Model、LLM-as-a-Judge),并结合模型评测与数据分析反馈,反向迭代生产线与数据生成策略
搭建并优化大模型预训练的数据工程底座,开发自动化框架与平台,支持海量数据的清洗、去重与格式化处理,提升底层资源调度与数据策略迭代效率
沉淀全网高质量预训练数据,建设端到端的数据质量、多样性体系及场景化标签,与算法及基建团队高效协同,探索真实与合成数据的最优配比

优先资格

参与过大模型数据准备,或有合成数据训练大模型成功落地经验者优先

在自然语言处理或大模型相关领域(ACL、EMNLP、NeurIPS等)发表过高水平论文,或在GitHub开源项目(特别涉及合成数据、数据处理)有活跃贡献者优先

AI 洞察

优缺点分析

优点

  • 站在AI前沿,接触大模型核心技术,积累稀缺的大规模数据处理经验
  • 字节跳动平台资源丰富,数据场景多样,能快速提升技术深度
  • 岗位涉及研究和工程双方向,能力发展全面,行业认可度高
  • 跨团队协作频繁,沟通成本不低,需具备较强协调能力

缺点 / 挑战

  • 大模型数据领域技术迭代极快,需要持续学习,压力较大
  • 数据质量评估和合成策略需要反复实验,可能面临重复性调整工作
  • 适合对AI大模型有浓厚兴趣、技术功底扎实、喜欢挑战性工作的工程师,尤其是有数据处理或NLP经验的求职者

角色解读

  • 技术深专:成为大模型数据合成和工程领域的专家,主导核心数据策略
  • 管理方向:晋升为AI数据团队的技术负责人或架构师,带领团队
  • 跨界发展:向大模型训练、推理优化方向拓展,成为全栈AI工程师
  • 建设和优化大模型预训练数据的pipeline,包括数据采集、清洗、处理等全链路工作
  • 研究和实现数据合成技术,如Self-Instruct、Agent模拟,生成高质量合成数据
  • 建立自动化评估体系,利用Reward Model等方法评估数据质量,并基于反馈迭代
  • 开发数据工程底座,支持大规模分布式数据处理,提升资源调度效率
  • 精通Python,并掌握Java/Go/C++中的至少一门,具备扎实的编程和工程能力
  • 深入理解大模型预训练原理,熟悉数据合成或分布式数据处理框架如Spark、Flink
  • 具备数据质量指标设计能力,能运用机器学习算法优化数据筛选
  • 良好的沟通协作能力,能高效对接算法、基建团队

申请策略

  • 了解字节跳动AI数据团队的现有工作,在面试中展现对数据价值和技术挑战的深刻理解
  • 关注岗位的业务方向(代码生成或NLP),准备对应场景的案例分析
  • 突出大模型数据处理或合成相关项目经验,特别是全流程pipeline建设
  • 强调分布式数据处理框架的实际使用经验,如Spark、Flink
  • 展示Python及多语言编程能力,以及算法优化数据质量的成果
  • 若有相关论文或GitHub项目,务必列出,证明研究或开源贡献
  • 补充大模型对齐(RLHF/DPO)和数据合成技术的基础知识
  • 熟悉Spark或Ray的实战应用,尤其是数据清洗和ETL流程

面试指南

  • STAR法则:描述情境、任务、行动和结果,突出技术细节和量化成果
  • 问题分解法:将复杂问题拆解为数据采集、处理、评估等环节,逐一说明技术选型和优化思路
  • 请描述你参与过的一个大模型数据pipeline项目,包括数据来源、处理流程和质量评估方法
  • 你如何设计合成数据策略来补充真实数据的不足?请举例说明
  • 分布式处理中遇到数据倾斜问题如何解决?请分享你的经验
  • 如何评估合成数据的质量?你会设计哪些指标?
  • 你对大模型对齐(如RLHF)的数据构建有何理解?
  • 复习大模型预训练和微调的基本原理,特别是数据角色

匹配度报告

76
综合匹配度

大厂前沿AI岗位,高薪高成长,技术氛围浓厚,但工作强度可能较大。

适合人群
最适合追求技术成长、薪资回报和前沿挑战的求职者,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活60
使命价值75

薪资福利匹配

80较高

字节跳动作为上市大厂,薪资水平行业领先,但JD未明确列出福利细节,推测年终奖、股票等福利较优。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

岗位涉及大模型前沿技术,包括数据合成、分布式处理等,技能成长空间巨大,且内部技术氛围浓厚。

技术前沿前沿/新兴技术
技术栈Python、LLM、数据合成、Spark、Flink、Ray、vLLM、Reward Model
业务类型ambiguous

工作生活匹配

60中等

未提及远程或弹性办公,杭州字节跳动通常需要现场办公,且大厂节奏快,WLB可能一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

75中等

大模型是高速增长赛道,社会影响力较高,但JD未明确提及具体社会价值,因此评分中等偏上。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 后端开发工程师-TikTok搜索

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 网关运维SRE工程师

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 人事产品应用实施顾问-飞书

    字节跳动 · 广州市
    AI 估算 · 25k-35k
  • 模型训练-CQC

    字节跳动 · 成都市
    AI 估算 · 25k-40k
  • 用户治理平台产品经理-TikTok安全产品

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 客户端开发实习生-【回森】

    快手 · 北京市
    AI 估算 · 5k-8k
  • 客户端实习生(快影)-【主站】

    快手 · 北京市
    AI 估算 · 6k-10k
  • 服务端开发实习生(影像)-【主站】

    快手 · 北京市
    AI 估算 · 4k-8k
  • Java开发实习生(回森方向)-【主站】

    快手 · 北京市
    AI 估算 · 4k-6k
  • Senior Software Engineer - Tech Foundations

    锐完游戏 · 上海市
    AI 估算 · 25k-45k

字节跳动 的其他在招职位

  • 后端开发工程师-TikTok搜索

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 网关运维SRE工程师

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 人事产品应用实施顾问-飞书

    字节跳动 · 广州市
    AI 估算 · 25k-35k
  • 模型训练-CQC

    字节跳动 · 成都市
    AI 估算 · 25k-40k
  • 用户治理平台产品经理-TikTok安全产品

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 客户端开发实习生-【回森】

    快手 · 北京市
    AI 估算 · 5k-8k
  • 客户端实习生(快影)-【主站】

    快手 · 北京市
    AI 估算 · 6k-10k
  • 服务端开发实习生(影像)-【主站】

    快手 · 北京市
    AI 估算 · 4k-8k
  • Java开发实习生(回森方向)-【主站】

    快手 · 北京市
    AI 估算 · 4k-6k
  • Senior Software Engineer - Tech Foundations

    锐完游戏 · 上海市
    AI 估算 · 25k-45k