字节跳动的大模型预训练工程师-AI Data薪资是多少？

该职位薪资范围为 25k–50k（人民币/月）。

大模型预训练工程师-AI Data的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型预训练工程师-AI Data有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型预训练工程师-AI Data

立即应聘

大模型预训练工程师-AI Data

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

大模型预训练

数据合成

数据处理

LLM

RLHF

AI 估算 · 25k–50k

大模型赛道热门，字节薪资竞争力强，技术门槛高，月薪较高。

职位详情

关于这个职位

该职位主要负责大模型预训练数据的全流程Pipeline建设，包括数据采集、处理、合成与评估

你将主导前沿数据合成技术（如Self-Instruct）的探索与应用，并搭建自动化评估体系，与算法团队协同优化模型训练数据质量

适合对NLP、大模型训练及数据处理有深入理解的技术人才

最低要求

本科及以上学历，计算机、人工智能、数学或相关专业，具备扎实的编程基础，精通Python，并掌握至少一种编程语言（Java/Go/C++）

具备AI数据开发经验，掌握大模型预训练基本原理，熟悉至少一类核心场景（代码生成或通用NLP）的数据特性

在数据合成或基础工程方面，需具备以下任一方向的专业能力

研究方向：深入理解主流大模型架构及训练机制，熟悉各类Prompt技巧及数据增强机制，对大模型对齐（RLHF/DPO等）背后的数据构建逻辑有深入研究

工程方向：熟悉Spark、Flink、Ray等分布式计算框架，具备海量数据全流程清洗与处理经验，熟悉vLLM等推理加速框架者优先

具备数据质量指标设计能力，能够熟练使用机器学习算法优化数据筛选与评估效率，沟通高效，能精准对接需求并协调资源

工作职责

主导大模型数据生产的Pipeline建设，涵盖寻源、采集、解析、处理、实验与分析等环节，为各基础模型提供稳定、大规模且高质量的预训练数据

负责前沿数据合成研究，探索基于LLM的数据合成与增强技术（如Self-Instruct、Agent交互模拟等），设计高效生成策略以补充数据缺口

建立针对合成数据的自动化评估体系（如Reward Model、LLM-as-a-Judge），并结合模型评测与数据分析反馈，反向迭代生产线与数据生成策略

搭建并优化大模型预训练的数据工程底座，开发自动化框架与平台，支持海量数据的清洗、去重与格式化处理，提升底层资源调度与数据策略迭代效率

沉淀全网高质量预训练数据，建设端到端的数据质量、多样性体系及场景化标签，与算法及基建团队高效协同，探索真实与合成数据的最优配比

优先资格

参与过大模型数据准备，或有合成数据训练大模型成功落地经验者优先

在自然语言处理或大模型相关领域（ACL、EMNLP、NeurIPS等）发表过高水平论文，或在GitHub开源项目（特别涉及合成数据、数据处理）有活跃贡献者优先

AI 洞察

优缺点分析

优点

大模型方向前沿，技术成长快，接触最新数据合成技术
字节跳动平台资源丰富，薪酬有竞争力，福利完善
参与核心数据基建，积累大规模数据处理经验，行业认可度高
工作强度较大，可能需要应对业务快速迭代和紧急需求
技术更新快，需要持续学习保持竞争力
适合对NLP和大模型充满热情，具备较强数据处理和工程能力，追求技术前沿且能适应高强度工作的技术人才

缺点 / 挑战

对数据质量和效果要求高，压力较大

角色解读

向大模型数据专家发展，主导数据策略和合成技术
可转向AI算法研究员或架构师，深入模型训练核心
在字节跳动积累经验后可担任技术Leader，带领数据团队
主导大模型预训练数据Pipeline建设，包括数据采集、处理、合成与评估
探索LLM数据合成技术如Self-Instruct、Agent交互模拟，设计高效生成策略
建立自动化评估体系，通过Reward Model等反馈优化数据质量和生成策略
搭建数据处理平台，提升资源调度效率，支持海量数据清洗去重
精通Python，掌握Java/Go/C++之一，具备扎实的编程基础
理解大模型预训练原理及数据特性，熟悉NLP或代码生成场景
熟悉分布式计算框架Spark/Flink/Ray，具备海量数据处理经验
具备数据质量指标设计能力，能使用机器学习优化数据筛选

申请策略

准备展示数据处理的具体案例和数据质量提升效果，最好有量化指标
了解字节跳动AI Data团队的业务方向和技术博客，面试时体现匹配度
突出大模型或NLP项目经验，尤其是数据处理Pipeline相关
展示使用Spark/Flink/Ray等处理海量数据的成果
如有合成数据训练或RLHF经验，重点描述方法与效果
强调数据质量提升的具体指标和收益
熟悉Spark/Flink/Ray的实际应用，可以刷题或做小项目
了解LLM训练流程和数据合成方法，如Self-Instruct、数据增强

面试指南

用STAR法则描述项目背景、任务、行动、结果，突出个人贡献
从数据质量、多样性、规模等维度回答评估问题，结合具体技术
对比不同合成方法的适用场景，举例说明选择的理由
请介绍你参与过的大模型数据处理项目，包括Pipeline设计和难点
如何保证预训练数据的质量？有哪些评估指标？
数据合成有哪些方法？Self-Instruct的原理和优缺点？
如何处理海量数据中的噪音和重复？你有什么经验？
如何设计数据Pipeline提升处理效率？遇到过什么瓶颈？

职位点评

综合评分

字节大模型预训练核心岗位，技术前沿薪资高，但工作强度大，WLB一般。

更适合这类人

适合追求技术成长和高薪资，能承受一定工作压力的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

该职位薪酬水平偏高，字节福利完善，能满足对经济回报的较高需求。

薪资信号偏高 (25K-50K/月)

成长发展

90较高

技术前沿，涉及大模型预训练、数据合成等新方向，成长空间巨大。

技术前沿前沿/新兴技术

技术栈Python、Spark、Flink、Ray、LLM、RLHF、数据合成

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作制或远程，北京通勤压力大，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型是高速增长赛道，对社会和行业有较大影响，但职位本身未强调使命感。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型预训练工程师-AI Data

立即应聘

大模型预训练工程师-AI Data

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

大模型预训练

数据合成

数据处理

LLM

RLHF

AI 估算 · 25k–50k

大模型赛道热门，字节薪资竞争力强，技术门槛高，月薪较高。

职位详情

关于这个职位

该职位主要负责大模型预训练数据的全流程Pipeline建设，包括数据采集、处理、合成与评估

你将主导前沿数据合成技术（如Self-Instruct）的探索与应用，并搭建自动化评估体系，与算法团队协同优化模型训练数据质量

适合对NLP、大模型训练及数据处理有深入理解的技术人才

最低要求

本科及以上学历，计算机、人工智能、数学或相关专业，具备扎实的编程基础，精通Python，并掌握至少一种编程语言（Java/Go/C++）

具备AI数据开发经验，掌握大模型预训练基本原理，熟悉至少一类核心场景（代码生成或通用NLP）的数据特性

在数据合成或基础工程方面，需具备以下任一方向的专业能力

研究方向：深入理解主流大模型架构及训练机制，熟悉各类Prompt技巧及数据增强机制，对大模型对齐（RLHF/DPO等）背后的数据构建逻辑有深入研究

工程方向：熟悉Spark、Flink、Ray等分布式计算框架，具备海量数据全流程清洗与处理经验，熟悉vLLM等推理加速框架者优先

具备数据质量指标设计能力，能够熟练使用机器学习算法优化数据筛选与评估效率，沟通高效，能精准对接需求并协调资源

工作职责

主导大模型数据生产的Pipeline建设，涵盖寻源、采集、解析、处理、实验与分析等环节，为各基础模型提供稳定、大规模且高质量的预训练数据

负责前沿数据合成研究，探索基于LLM的数据合成与增强技术（如Self-Instruct、Agent交互模拟等），设计高效生成策略以补充数据缺口

建立针对合成数据的自动化评估体系（如Reward Model、LLM-as-a-Judge），并结合模型评测与数据分析反馈，反向迭代生产线与数据生成策略

搭建并优化大模型预训练的数据工程底座，开发自动化框架与平台，支持海量数据的清洗、去重与格式化处理，提升底层资源调度与数据策略迭代效率

沉淀全网高质量预训练数据，建设端到端的数据质量、多样性体系及场景化标签，与算法及基建团队高效协同，探索真实与合成数据的最优配比

优先资格

参与过大模型数据准备，或有合成数据训练大模型成功落地经验者优先

在自然语言处理或大模型相关领域（ACL、EMNLP、NeurIPS等）发表过高水平论文，或在GitHub开源项目（特别涉及合成数据、数据处理）有活跃贡献者优先

AI 洞察

优缺点分析

优点

大模型方向前沿，技术成长快，接触最新数据合成技术
字节跳动平台资源丰富，薪酬有竞争力，福利完善
参与核心数据基建，积累大规模数据处理经验，行业认可度高
工作强度较大，可能需要应对业务快速迭代和紧急需求
技术更新快，需要持续学习保持竞争力
适合对NLP和大模型充满热情，具备较强数据处理和工程能力，追求技术前沿且能适应高强度工作的技术人才

缺点 / 挑战

对数据质量和效果要求高，压力较大

角色解读

向大模型数据专家发展，主导数据策略和合成技术
可转向AI算法研究员或架构师，深入模型训练核心
在字节跳动积累经验后可担任技术Leader，带领数据团队
主导大模型预训练数据Pipeline建设，包括数据采集、处理、合成与评估
探索LLM数据合成技术如Self-Instruct、Agent交互模拟，设计高效生成策略
建立自动化评估体系，通过Reward Model等反馈优化数据质量和生成策略
搭建数据处理平台，提升资源调度效率，支持海量数据清洗去重
精通Python，掌握Java/Go/C++之一，具备扎实的编程基础
理解大模型预训练原理及数据特性，熟悉NLP或代码生成场景
熟悉分布式计算框架Spark/Flink/Ray，具备海量数据处理经验
具备数据质量指标设计能力，能使用机器学习优化数据筛选

申请策略

准备展示数据处理的具体案例和数据质量提升效果，最好有量化指标
了解字节跳动AI Data团队的业务方向和技术博客，面试时体现匹配度
突出大模型或NLP项目经验，尤其是数据处理Pipeline相关
展示使用Spark/Flink/Ray等处理海量数据的成果
如有合成数据训练或RLHF经验，重点描述方法与效果
强调数据质量提升的具体指标和收益
熟悉Spark/Flink/Ray的实际应用，可以刷题或做小项目
了解LLM训练流程和数据合成方法，如Self-Instruct、数据增强

面试指南

用STAR法则描述项目背景、任务、行动、结果，突出个人贡献
从数据质量、多样性、规模等维度回答评估问题，结合具体技术
对比不同合成方法的适用场景，举例说明选择的理由
请介绍你参与过的大模型数据处理项目，包括Pipeline设计和难点
如何保证预训练数据的质量？有哪些评估指标？
数据合成有哪些方法？Self-Instruct的原理和优缺点？
如何处理海量数据中的噪音和重复？你有什么经验？
如何设计数据Pipeline提升处理效率？遇到过什么瓶颈？

职位点评

综合评分

字节大模型预训练核心岗位，技术前沿薪资高，但工作强度大，WLB一般。

更适合这类人

适合追求技术成长和高薪资，能承受一定工作压力的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

该职位薪酬水平偏高，字节福利完善，能满足对经济回报的较高需求。

薪资信号偏高 (25K-50K/月)

成长发展

90较高

技术前沿，涉及大模型预训练、数据合成等新方向，成长空间巨大。

技术前沿前沿/新兴技术

技术栈Python、Spark、Flink、Ray、LLM、RLHF、数据合成

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作制或远程，北京通勤压力大，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型是高速增长赛道，对社会和行业有较大影响，但职位本身未强调使命感。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型预训练工程师-AI Data

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型预训练工程师-AI Data

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动的其他在招职位

字节跳动的其他在招职位