Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Tencent logo
腾讯
混元训练 Infra 工程师-Dataloader/Checkpoint 方向-(北京/深圳/上海/杭州)
立即应聘

混元训练 Infra 工程师-Dataloader/Checkpoint 方向-(北京/深圳/上海/杭州)

发布于 大约 13 小时前

普通员工/个人贡献者

北京市 / 深圳市
高级经验
全职员工
仅现场办公
本科
软件工程
分布式系统
PyTorch
HPC
Linux内核
Ai Infra
Dataloader
Io优化
Checkpoint

AI 估算 · 30k–55k

腾讯高级AI Infra岗,一线大厂+AI热门方向,技能稀缺,薪资在大厂中属于头部水平,月薪3-5.5万合理。

职位详情

关于这个职位

该职位是腾讯混元大模型训练的核心基础设施岗,专注于分布式数据加载和Checkpoint管理系统的研发与优化

你将为大规模AI训练构建高吞吐、低延迟的数据流水线,并设计高效的模型状态持久化方案,确保训练稳定高效
适合深耕AI Infra、精通C++/Python且有分布式系统经验的工程师

最低要求

本科及以上学历,3 年 + AI Infra / 分布式系统 / HPC 经验

精通 Python/C++,深入理解 Linux 内核、IO 模型,熟悉 PyTorch(优先)及分布式训练原理
有分布式 Dataloader 研发与 IO 密集型任务优化相关经验
有 checkpoint 存储 / 加载 / 压缩优化相关经验
熟悉对象存储 / 分布式文件系统与缓存、分片策略
具备系统性能瓶颈分析与 GPU/CPU 优化案例

工作职责

分布式 Dataloader:多源数据加载框架研发,优化预处理流水线、IO 瓶颈与数据倾斜,对接对象存储 / 分布式文件系统,支持动态采样与增量更新

Checkpoint 管理:设计高吞吐存储 / 加载方案,优化压缩、分片与冷热分层,实现版本管理、备份恢复与分布式训练框架兼容
系统优化:监控吞吐 / 延迟 / 显存指标,定位性能瓶颈,保障极端场景下训练连续性
跨团队协作:对齐业务需求,沉淀技术最佳实践

AI 洞察

优缺点分析

优点

  • 腾讯大平台,资源丰富,可接触前沿硬件(GPU集群、高速网络)和开源生态
  • 团队技术氛围浓厚,与顶尖工程师合作,职业发展空间大
  • 技术栈复杂,需要同时掌握底层系统、深度学习框架和存储多个领域知识
  • 对性能要求极致,调试IO和分布式问题需要极强的耐心和系统思维
  • 适合热爱底层系统编程、对AI训练有热情、擅长性能优化,并且能在高压下解决问题的资深工程师

缺点 / 挑战

  • 深度参与万亿参数大模型训练基础设施,技术挑战大,积累稀缺的分布式系统经验
  • 工作强度较高,需要随时响应训练异常,保障长时间训练任务稳定

角色解读

  • 技术深耕:成为AI Infra领域的专家,主导大规模训练系统的架构设计
  • 横向扩展:转向更广泛的分布式计算或存储系统,如HPC、云原生存储
  • 管理进阶:带领Infra团队,负责训练平台的整体规划与落地
  • 开发高性能分布式数据加载器,解决海量训练数据的IO瓶颈和预处理流水线延迟问题
  • 设计并优化Checkpoint存储与加载机制,包括压缩、分片、冷热分层,确保训练故障时可快速恢复
  • 深入分析系统性能指标(吞吐、延迟、显存),定位并消除分布式训练中的瓶颈
  • 与算法、平台等团队协作,将底层Infra能力产品化,提升训练效率
  • 精通Python和C++,具备出色的系统编程和调试能力
  • 熟悉Linux内核IO模型和分布式文件系统,如Ceph、Lustre等
  • 有PyTorch分布式训练实践经验,理解DDP/FSDP等框架原理
  • 掌握数据加载、Checkpoint相关的IO优化技术,如内存映射、异步预取、压缩算法等

申请策略

  • 了解腾讯混元大模型的技术路线和现有Infra架构,在面试中展示对业务的思考
  • 准备好一个完整的系统设计案例,详细阐述从问题分析到解决方案落地的过程
  • 突出分布式系统、HPC或AI Infra的相关项目经验,尤其是Dataloader或Checkpoint优化案例
  • 展示性能调优的具体成果,如IO吞吐量提升、训练加速百分比等量化指标
  • 强调C++/Python的熟练程度,以及PyTorch分布式框架的使用深度
  • 如参与过开源项目(如PyTorch、Megatron等)或发表过相关论文,务必提及
  • 系统学习Linux内核IO栈(VFS、page cache、异步IO),掌握strace/perf等分析工具
  • 熟悉常见分布式存储系统(如Ceph、MinIO)的架构和调优方法

面试指南

  • 对于系统设计题,先明确需求(规模、延迟、容错等),然后分模块给出方案,最后分析trade-off
  • 对于性能优化题,强调使用工具(perf、火焰图)进行量化分析,逐步缩小瓶颈范围
  • 对于经验题,采用STAR法则:情境、任务、行动、结果,突出你的思考和量化成果
  • 请设计一个高吞吐的分布式数据加载器,如何处理数据倾斜?
  • Checkpoint存储时如何平衡存储开销和恢复速度?你会采用哪些压缩和分片策略?
  • 训练过程中出现IO瓶颈,如何系统性地定位和优化?
  • 描述一次你优化分布式训练性能的经历,遇到过哪些挑战?
  • Linux下读写大文件时,mmap和read的性能差异及适用场景?

匹配度报告

74
综合匹配度

腾讯AI Infra岗位,薪资高、技术前沿,但工作强度大、WLB一般。

适合人群
最适合追求技术深度和职业发展的工程师,愿意在高压环境下快速成长,对薪资和福利有较高期望。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活40
使命价值75

薪资福利匹配

85较高

腾讯为上市大厂,AI Infra岗位薪资竞争力强(30k-55k/月),福利体系完善,但JD未披露具体薪资和福利细节。

薪资信号偏高 (30K-55K/月)

成长发展匹配

95较高

该岗位涉及前言AI训练基础设施,技术栈前沿(分布式系统、HPC、PyTorch),成长空间巨大,且JD未明确提及晋升路径。

技术前沿前沿/新兴技术
技术栈PyTorch、分布式系统、HPC、IO优化、对象存储
业务类型profit_center

工作生活匹配

40较低

工作地点为一线城市科技园或产业园,通勤时间可能较长;JD未提及远程办公选项,且腾讯工作节奏较快,WLB一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

75中等

AI训练基础设施属于高速增长赛道,对AI技术进步有推动作用,但社会影响力中立,创新水平属于积极采用新技术。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 天天酷跑-2D原画

    腾讯 · 上海市
    AI 估算 · 15k-25k
  • 游戏模型数据专家-研发数据

    腾讯 · 深圳市
    AI 估算 · 30k-50k
  • 游戏模型评测专家

    腾讯 · 深圳市
    AI 估算 · 30k-50k
  • 游戏模型数据专家-运营数据

    腾讯 · 深圳市
    AI 估算 · 35k-55k
  • 模型数据算法专家/负责人-数据方向

    腾讯 · 深圳市
    AI 估算 · 40k-80k

相似职位推荐

  • 系统软件研发实习生

    小米 · 武汉市
    AI 估算 · 4k-6k
  • 实习生-软件测试开发实习生

    阅文集团 · 上海市
    AI 估算 · 4k-6k
  • 推荐算法实习生(MJ035505)

    携程 · 上海市
    AI 估算 · 4k-6k
  • FDE工程师(苏州)

    中国机械工业集团有限公司 · 苏州市
    AI 估算 · 12k-20k
  • VP, CL, Full Stack Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 30k-50k

腾讯 的其他在招职位

  • 天天酷跑-2D原画

    腾讯 · 上海市
    AI 估算 · 15k-25k
  • 游戏模型数据专家-研发数据

    腾讯 · 深圳市
    AI 估算 · 30k-50k
  • 游戏模型评测专家

    腾讯 · 深圳市
    AI 估算 · 30k-50k
  • 游戏模型数据专家-运营数据

    腾讯 · 深圳市
    AI 估算 · 35k-55k
  • 模型数据算法专家/负责人-数据方向

    腾讯 · 深圳市
    AI 估算 · 40k-80k

相似职位推荐

  • 系统软件研发实习生

    小米 · 武汉市
    AI 估算 · 4k-6k
  • 实习生-软件测试开发实习生

    阅文集团 · 上海市
    AI 估算 · 4k-6k
  • 推荐算法实习生(MJ035505)

    携程 · 上海市
    AI 估算 · 4k-6k
  • FDE工程师(苏州)

    中国机械工业集团有限公司 · 苏州市
    AI 估算 · 12k-20k
  • VP, CL, Full Stack Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 30k-50k