Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
机器学习训练框架研发工程师-Data AML
立即应聘

机器学习训练框架研发工程师-Data AML

发布于 大约 11 小时前

普通员工/个人贡献者

杭州市
高级经验
全职员工
仅现场办公
本科
软件工程
PyTorch
TensorFlow
编译器
JAX
GPU编程
分布式存储
高性能网络
分布式训练
集群调度

AI 估算 · 30k–50k

高级机器学习工程师,技术要求高,涉及分布式系统与硬件优化,市场稀缺度高,薪资在杭州处于领先水平。

职位详情

关于这个职位

该职位负责字节跳动内部多个日活十亿级应用的推荐广告模型分布式训练框架的研发,核心挑战是同时支持超大规模稀疏模型和稠密模型,并深度优化硬件性能与分布式框架能力

你将与算法团队紧密合作,探索下一代训练范式,是机器学习基础设施的关键岗位

最低要求

熟练掌握Linux环境下的C/C++与Python语言,有良好的编程习惯及Coding能力

接触过至少一种机器学习框架(TensorFlow/PyTorch/Jax或其他自研框架)优先
有以下至少一项的背景知识与经验的优先:GPU编程,编译器,高性能网络,分布式存储,集群调度
具有独立解决问题的能力,良好的团队合作精神
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力

工作职责

负责研发支持字节跳动内部多个日活十亿级应用的推荐广告模型的分布式训练框架

探索世界领先的分布式训练框架新范式,解决如何同时支持超大规模的稀疏模型和稠密模型的难题
深度优化和利用国产新硬件和海外新型硬件,做到硬件性能的机制优化
深度优化分布式框架能力,打造支持万卡规模训练能力的分布式训练框架
与全公司算法部门紧密合作,为探索下一代推荐广告模型训练新范式做前沿探索和深度优化

AI 洞察

优缺点分析

优点

  • 字节跳动技术栈前沿,使用自研框架和最新硬件,有利于保持技术领先性
  • 团队为字节跳动中台,与多个核心业务部门合作,影响面广,职业发展空间大
  • 公司平台强大,薪酬福利具有竞争力,且技术氛围浓厚
  • 技术领域涉及面广(硬件、网络、编译、系统等),学习曲线陡峭
  • 需要快速迭代和响应业务需求,可能存在一定加班情况
  • 适合对系统性能有极致追求、热爱底层技术、喜欢解决复杂分布式难题的技术专家或资深工程师

缺点 / 挑战

  • 接触亿级用户业务场景,技术挑战极大,能快速积累大规模分布式系统经验
  • 工作强度较高,需应对超高并发和大规模系统的稳定性与性能压力

角色解读

  • 技术深度方向:成为分布式训练框架专家,主导核心组件设计与优化,推动业界技术发展
  • 架构方向:从单一框架到整体机器学习平台架构,参与超大规模集群调度与资源管理
  • 管理方向:随着经验积累,可带领团队负责特定技术方向,向技术经理或总监发展
  • 研发与优化支撑十亿级应用的推荐广告分布式训练框架,解决超大规模稀疏与稠密模型混合训练的难题
  • 深度优化GPU、国产芯片等硬件性能,利用编译器、高性能网络等技术提升训练效率
  • 打造支持万卡规模训练的分布式框架,并与算法团队合作探索新训练范式
  • 关注业界前沿技术,将新技术引入并落地到实际业务中
  • 精通C/C++和Python,具备扎实的系统编程能力
  • 熟悉至少一种主流深度学习框架(TensorFlow/PyTorch/Jax)的底层原理
  • 在GPU编程、编译器、高性能网络、分布式存储、集群调度等领域有深入经验
  • 具备独立问题解决能力和团队协作精神,良好的学习与沟通能力

申请策略

  • 了解字节跳动Data AML团队的博客或技术分享,在面试中展示对团队工作的兴趣
  • 准备一两道系统设计题,如设计一个支持万卡训练的分布式调度器
  • 突出分布式训练框架相关项目经验,如大规模模型训练、集群调优、硬件加速等
  • 强调C/C++和Python的熟练程度,以及具体优化案例(如性能提升百分比)
  • 展示在GPU编程、编译器、网络或存储等领域的实践成果,最好有量化数据
  • 如果有参与开源框架或自研框架的经历,务必重点描述
  • 深入学习一个主流分布式训练框架(如PyTorch Distributed)的源码和设计思想
  • 补充编译器(如XLA、TVM)或高性能网络(如RDMA)的相关知识

面试指南

  • 结构化回答:背景 - 问题 - 方案 - 结果 - 反思,重点突出量化成果
  • 系统设计题:先明确需求和数据规模,再给出分层设计(网络、存储、计算),最后讨论权衡
  • 问题定位:采用自上而下的方法,从网络、I/O、计算、调度等方面逐层排查
  • 请描述你参与过的一个大规模分布式训练框架的优化案例,包括遇到的挑战和解决方案
  • 如何设计一个支持稀疏模型和稠密模型混合训练的分布式训练系统?
  • GPU显存优化有哪些常用技术?请举例说明
  • 谈谈你对All-Reduce通信模式的理解,如何在大规模集群中优化通信效率?
  • 如何调试和定位分布式训练中的性能瓶颈?

职位点评

72
综合评分

字节跳动核心AI中台岗位,技术前沿含量极高,薪资优厚,但工作强度较大,适合技术狂热者。

更适合这类人
最适合将技术成长和职业发展放在首位的求职者,愿意接受高强度工作以换取前沿技术积累和薪资回报。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展95
工作生活40
使命价值70

薪资福利

85较高

薪资水平在杭州极具竞争力,字节跳动提供较高的薪酬和福利(虽未在JD中明确,但公司声誉较好),但JD未披露具体薪资,需面试确认。

薪资信号未披露(AI估算:30K-50K/月)

成长发展

95较高

该职位处于AI基础设施前沿,涉及分布式训练、硬件优化、编译器等高技术含量领域,能极大提升个人技术深度和广度,成长空间巨大。

技术前沿前沿/新兴技术
技术栈分布式训练、GPU编程、编译器、高性能网络、分布式存储、集群调度、TensorFlow、PyTorch、Jax
业务类型profit_center

工作生活

40较低

工作地点杭州,仅现场办公,未提及弹性或远程。字节跳动整体工作强度较高,JD未提到WLB相关,可能加班较多。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

70中等

职位服务于亿级用户产品,技术影响力大;属于AI高速增长赛道,但JD未突出社会使命感,更多是技术驱动。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k