Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型预训练工程师-AI Data
立即应聘

大模型预训练工程师-AI Data

发布于 大约 17 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
LLM
数据质量
数据合成
自动化评估
大模型
Ai数据

AI 估算 · 35k–65k

大模型预训练为核心技术岗位,上海一线大厂薪资竞争力强,技能稀缺度高。

职位详情

关于这个职位

这个职位主要负责大模型预训练数据的全流程建设,包括数据采集、清洗、合成及自动化评估,需要结合工程和算法能力,从数据层面提升模型性能

适合对NLP和大模型有扎实基础、同时具备工程开发经验的工程师

最低要求

本科及以上学历,计算机、人工智能、数学或相关专业,具备扎实的编程基础,精通Python,并掌握至少一种编程语言(Java/Go/C++)

具备AI数据开发经验,掌握大模型预训练基本原理,熟悉至少一类核心场景(代码生成或通用NLP)的数据特性
在数据合成或基础工程方面,需具备以下任一方向的专业能力
研究方向:深入理解主流大模型架构及训练机制,熟悉各类Prompt技巧及数据增强机制,对大模型对齐(RLHF/DPO等)背后的数据构建逻辑有深入研究
工程方向:熟悉Spark、Flink、Ray等分布式计算框架,具备海量数据全流程清洗与处理经验,熟悉vLLM等推理加速框架者优先
具备数据质量指标设计能力,能够熟练使用机器学习算法优化数据筛选与评估效率,沟通高效,能精准对接需求并协调资源

工作职责

主导大模型数据生产的Pipeline建设,涵盖寻源、采集、解析、处理、实验与分析等环节,为各基础模型提供稳定、大规模且高质量的预训练数据

进行前沿数据合成研究,探索基于LLM的数据合成与增强技术(如Self-Instruct、Agent交互模拟等),设计高效生成策略以补充数据缺口
建立针对合成数据的自动化评估体系(如Reward Model、LLM-as-a-Judge),并结合模型评测与数据分析反馈,反向迭代生产线与数据生成策略
搭建并优化大模型预训练的数据工程底座,开发自动化框架与平台,支持海量数据的清洗、去重与格式化处理,提升底层资源调度与数据策略迭代效率
沉淀全网高质量预训练数据,建设端到端的数据质量、多样性体系及场景化标签,与算法及基建团队高效协同,探索真实与合成数据的最优配比

优先资格

参与过大模型数据准备,或有合成数据训练大模型成功落地经验者优先

在自然语言处理或大模型相关领域(ACL、EMNLP、NeurIPS等)发表过高水平论文,或在GitHub开源项目(特别涉及合成数据、数据处理)有活跃贡献者优先

AI 洞察

优缺点分析

优点

  • 身处大模型核心领域,接触前沿技术(LLM、数据合成、RLHF),技能成长快
  • 字节跳动平台资源丰富,数据量大,有落地大规模系统的机会
  • 薪资具有竞争力,且16薪制,整体收入可观
  • 工作强度可能较大,大模型迭代速度快,需要紧跟技术前沿
  • 对综合能力要求高,既要有算法深度,又要有工程落地能力
  • 数据质量和合成策略的探索充满不确定性,需要较强的实验和迭代能力

缺点 / 挑战

  • 适合技术栈全面、热爱挑战、对AI数据和大模型有浓厚兴趣的工程师,尤其是希望在数据工程与算法交叉领域深耕的求职者

角色解读

  • 技术方向:从数据工程专家成长为AI数据架构师,或转向大模型算法研发,负责模型训练与优化
  • 管理方向:可带领数据团队,负责数据策略与平台建设,逐步成为技术管理者
  • 业务方向:深入理解业务需求,成为AI数据产品负责人,驱动数据驱动的模型迭代
  • 主导大模型预训练数据的全流程Pipeline,包括数据源探索、采集、清洗、去重和格式化处理
  • 研究并实现基于LLM的数据合成技术,如Self-Instruct、Agent模拟等,补充训练数据缺口
  • 搭建自动化评估体系,通过Reward Model或LLM-as-a-Judge评估合成数据质量,并基于反馈迭代优化策略
  • 与算法和基建团队协作,探索真实数据与合成数据的最佳配比,提升模型训练效果
  • 精通Python,并掌握至少一门其他语言(Java/Go/C++),具备扎实的编程基础
  • 深入理解大模型架构和训练机制,熟悉数据增强、RLHF/DPO等对齐技术
  • 熟悉Spark、Flink、Ray等分布式计算框架,具备海量数据处理经验
  • 具备数据质量指标设计能力,能使用机器学习优化筛选与评估

申请策略

  • 了解字节跳动的AI业务布局,尤其是豆包等大模型产品方向,在面试中展示对业务的理解
  • 准备好项目案例分析,重点说明你在数据工程和算法结合上的独特贡献
  • 突出AI数据处理经验,包括具体的数据清洗、预处理、质量评估项目
  • 如有大模型预训练或合成数据相关项目,详细描述方法、规模和效果
  • 强调分布式计算框架(Spark/Flink/Ray)的使用经验,以及处理TB级数据的案例
  • 展示开源贡献或顶会论文,特别是NLP/大模型方向的成果
  • 若缺乏数据合成经验,可系统学习Self-Instruct、RLHF原理,并在小型项目上实践
  • 深入掌握至少一种分布式计算框架,练习大规模数据处理的性能优化

面试指南

  • 首先明确问题背景,然后描述标准流程或现有方案,接着指出挑战和改进点,最后给出量化结果或优化收益
  • 对于技术方案类问题,可按照“目标-架构-实施-评估”的逻辑分步阐述
  • 注重数据驱动和迭代优化思维,强调实验方法和反馈闭环
  • 请描述你处理过最大规模的数据集,以及遇到的数据质量问题和解决方案
  • 解释Self-Instruct和RLHF的数据构建流程,以及如何评估合成数据质量
  • 如何设计一个高效的分布式数据清洗Pipeline?有哪些关键优化点?
  • 如何平衡真实数据与合成数据的比例?有哪些评估指标?
  • 你对大模型对齐技术的理解,以及数据在其中扮演的角色

匹配度报告

74
综合匹配度

大厂核心岗位,前沿技术栈,高薪但工作强度可能较大。

适合人群
适合追求技术突破和职业快速成长的求职者,能接受一定的工作强度。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值85

薪资福利匹配

80较高

薪资处于行业顶尖水平,但JD未披露具体福利,整体补偿性回报较高。

薪资信号未披露(AI估算:35K-65K/月)

成长发展匹配

90较高

技术栈前沿,涉及大模型、数据合成等新兴领域,成长空间巨大。

技术前沿前沿/新兴技术
技术栈Python、LLM、数据合成、Spark、Flink、Ray、RLHF
业务类型ambiguous

工作生活匹配

40较低

工作地点在公司园区,未提及弹性工作,互联网大厂通常工作强度较大。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

85较高

大模型技术属于高速增长赛道,对社会智能化有重要推动作用,使命感较强。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 高级/资深前端研发工程师-Dev Infra

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 大数据后端开发工程师-内容质量

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • B端营销专家-抖音电商

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 多模态大模型数据策略专家-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 40k-70k
  • AI搜索评测运营(评测分析方向)-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • AI工程化岗

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • AI工程化岗(安全领域)

    中国平安 · 深圳市
    AI 估算 · 35k-60k
  • AI工程化岗

    中国平安 · 深圳市
    AI 估算 · 35k-55k
  • AI工程化岗

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • AI工程化岗

    中国平安 · 深圳市
    AI 估算 · 20k-40k

字节跳动 的其他在招职位

  • 高级/资深前端研发工程师-Dev Infra

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 大数据后端开发工程师-内容质量

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • B端营销专家-抖音电商

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 多模态大模型数据策略专家-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 40k-70k
  • AI搜索评测运营(评测分析方向)-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • AI工程化岗

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • AI工程化岗(安全领域)

    中国平安 · 深圳市
    AI 估算 · 35k-60k
  • AI工程化岗

    中国平安 · 深圳市
    AI 估算 · 35k-55k
  • AI工程化岗

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • AI工程化岗

    中国平安 · 深圳市
    AI 估算 · 20k-40k