Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Code大模型工程师(数据方向)-搜索
立即应聘

Code大模型工程师(数据方向)-搜索

发布于 大约 11 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
软件工程
数据工程
GO
数据合成
HDFS
大模型
Self-Evolve
Code大模型

AI 估算 · 30k–60k

大模型方向,字节跳动北京,薪资有竞争力,但需一定经验。

职位详情

关于这个职位

该职位负责Code大模型训练数据的生产与管理,设计数据加工链路和合成方案,并开发高效的数据处理框架

适合对大数据和大模型技术有热情、具备编程能力的工程师,加入字节跳动搜索团队,参与前沿AI基础设施建设

最低要求

熟悉至少一种编程语言,如Go、Python、Java等

有面对技术挑战的热情,能独立思考,具有好奇心和快速学习能力

工作职责

聚焦集团研发提效场景,负责Code大模型训练数据的生产与管理

深入研究大模型训练各阶段数据需求,设计和开发多类型数据的加工处理链路
设计和建设Code数据合成方案,支持数据Scale等工作
根据Code大模型训练数据特点,抽象并开发高效、可靠的数据加工框架&引擎,提升数据处理工程效率
探索使用Agent、Self-Evolve的方式来构建下一代更高效的Pretrain数据Pipeline

优先资格

对大数据技术有深入的理解加分,熟练掌握如Spark、Flink、Kafka、Hive、HDFS等工具加分

有数据中台、机器学习相关的系统平台开发经验加分
有大模型Pretrain、CT训练或者数据相关经验加分

AI 洞察

优缺点分析

优点

  • 人工智能大模型是当前最热门赛道,技术红利显著,技能积累价值高
  • 字节跳动作为头部互联网公司,平台大、资源多,能接触海量数据和真实应用场景
  • 工作强度可能较大,字节跳动通常节奏快、项目周期紧
  • 适合热爱技术、有较强编程和大数据背景,希望深入大模型数据方向的工程师

缺点 / 挑战

  • 职位聚焦数据方向,是大模型训练的关键环节,工作内容有挑战性和成就感
  • 大模型数据工程涉及大数据、深度学习等多领域知识,技术门槛较高
  • 需要不断跟进前沿技术,持续学习压力大

角色解读

  • 可向资深Code大模型数据专家发展,成为数据Pipeline架构师
  • 也可转向大模型训练、推理优化等方向,拓宽技术广度
  • 在字节跳动搜索团队,有机会参与核心AI基础设施建设,职业发展空间大
  • 负责Code大模型训练数据的全流程生产与管理,确保数据质量和规模
  • 设计并开发数据加工链路、合成方案以及高效的数据处理引擎,提升数据生产效率
  • 探索利用Agent和自演化方法构建下一代预训练数据管道,推动技术前沿
  • 精通至少一种编程语言(Go/Python/Java),具备扎实的工程能力
  • 熟悉大数据生态工具(Spark/Flink/Kafka/Hive/HDFS),有实际数据处理经验
  • 对机器学习和大模型训练数据流程有深入理解,有相关项目经验者优先
  • 具备独立思考和快速学习能力,能应对技术挑战

申请策略

  • 投递时附上能展示数据工程能力的GitHub链接或技术博客
  • 了解字节跳动搜索业务和Code大模型的应用方向,面试中体现业务理解
  • 突出大数据处理和大规模数据管道的项目经验,量化数据规模和性能指标
  • 展示编程能力(Go/Python/Java)和系统设计经验,如有开源贡献更佳
  • 强调任何与大模型、机器学习相关的数据工作,如数据清洗、合成、预训练数据准备
  • 巩固Spark、Flink等大数据框架的实操能力,可完成一些数据ETL项目
  • 学习大模型预训练的基本原理,了解数据需求(如去重、质量过滤、Tokenization)
  • 可尝试搭建一个简单的数据Pipeline,使用Agent或数据合成方法

面试指南

  • 用STAR原则回答项目经历:情境、任务、行动、结果,突出数据规模和技术难点
  • 对于设计问题,先明确目标和约束,再分模块阐述方案,最后评估折中
  • 展现对大数据和大模型交叉领域的理解,表明学习能力和技术热情
  • 请描述一次你设计并实现大规模数据Pipeline的经历
  • 你如何保证训练数据的质量和多样性?有没有具体方案?
  • 解释数据合成在Code大模型中的作用,你有哪些想法?
  • 谈谈你对Spark或Flink的底层原理理解,遇到过哪些性能问题?
  • 如果让你构建一个高效的Pretrain数据Pipeline,你会怎么做?

职位点评

71
综合评分

大厂核心方向,前沿技术,高薪但工作强度大。

更适合这类人
适合追求技术成长、高薪酬、能接受高强度工作的技术型人才。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展88
工作生活40
使命价值80

薪资福利

75中等

字节跳动薪资在行业中有竞争力,但JD未明确说明具体薪酬和福利,存在不确定性。

薪资信号未披露(AI估算:30K-60K/月)

成长发展

88较高

该职位涉及大模型前沿技术,能深度参与核心数据基建,技术成长空间大,但JD未明确提及培训或晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、Code大模型、Spark、Flink、Kafka、Hive、HDFS、Agent、Self-Evolve
业务类型cost_center

工作生活

40较低

仅现场办公,且字节跳动普遍工作节奏快,JD未提及弹性工时或WLB措施,生活平衡可能较挑战。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

80较高

大模型赛道高速增长,职位对集团研发提效有直接价值,社会影响中性偏正面。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k