Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Tencent logo
腾讯
AI ⽹络集合通信库运营⼯程师
立即应聘

AI ⽹络集合通信库运营⼯程师

发布于 大约 14 小时前

普通员工/个人贡献者

深圳市
中级经验
全职员工
仅现场办公
本科
信息技术与基础设施
HPC
GO
CUDA
RDMA
NCCL
AI训练
NVLINK
Rocev2
Gpu Direct Rdma

AI 估算 · 25k–45k

腾讯是头部互联网大厂,深圳技术岗薪资较高,该职位要求两年以上经验且技能稀缺,月薪预计在2.5万-4.5万之间,中位数3.5万,年终奖通常4-6个月。

职位详情

关于这个职位

该职位负责腾讯AI集群中集合通信库(如NCCL)的运营与优化,确保大规模AI训练/推理的通信高效稳定

你需要监控通信性能、快速诊断故障,并开发自动化工具提升运维效率
适合对AI基础设施底层技术有热情、具备全栈问题排查能力的工程师

最低要求

一.基本要求

计算机科学、通信工程、电子工程或相关专业,本科及以上学历
两年以上相关工作经验(集合通信库开发、HPC通信优化、AI基础设施运营等方向均可)
二、专业技能
集合通信原理:深入理解集合通信算子(AllReduce、AllGather、ReduceScatter、All-to-All等)的原理和实现算法(Ring、Tree、Double Binary Tree等),了解算法选择对性能的影响
通信库实践:熟悉NCCL架构(Channel、Protocol、Transport、Proxy等核心模块),有NCCL调优、问题排查或二次开发经验者优先
了解DeepEP、Gloo、MSCCL等其他通信库者加分
底层通信机制:理解GPU机内通信机制(NVLink、NVSwitch、PCIe P2P、DMA、GPU Direct RDMA),掌握RDMA通信原理(InfiniBand或RoCEv2)
AI训练业务理解:了解大模型训练的主流并行策略(数据并行、张量并行、流水线并行、专家并行等),能理解不同并行模式对通信的带宽和延迟需求
系统与工具:熟悉Linux系统环境,能熟练使用nvidia-smi、DCGM、nccl-tests、Nsight Systems等诊断工具
编程能力:熟练掌握Python/go/bash等之一,熟悉AI辅助编程工具,具备阅读和修改通信库源码的能力
有CUDA编程经验者优先
三、能力素质
问题定位能力:具备从业务现象到底层硬件的全栈排查思维,能在高压下快速缩小问题范围
协作沟通能力:能与训练工程师、网络工程师、硬件工程师高效协同,用业务语言翻译技术问题
持续学习意愿:AI基础设施技术迭代快,需要持续跟进新硬件、新通信库版本和新并行范式
工程化思维:注重自动化、可观测性、标准化,推动运营向

工作职责

通信库运营保障:负责集合通信库(如 NCCL 等)在大规模 AI 训练/推理集群中的部署、配置、升级与日常运营,确保通信服务的高可用性和性能达标

性能监控与优化:建设通信性能监控体系,持续跟踪 AllReduce/AllGather/All-to-All 等关键通信算子的带宽和延迟指标,识别性能退化并驱动优化
故障诊断与恢复:快速响应训练 hang、通信超时、性能下降等故障,具备从业务现象出发逐层定位到通信库、传输层、硬件层根因的能力,缩短 MTTR
业务支撑协同:与上层训练/推理框架团队紧密协作,理解不同并行策略(TP/PP/DP/EP/CP)对通信的需求,提供通信层面的调优建议
工具与自动化建设:参与或主导通信诊断工具、自动化巡检、异常检测等运营工具的开发,提升运营效率和故障自愈能力
容量规划与技术演进:根据业务增长和新硬件(NVLink/InfiniBand/RoCE)的引入,参与集群通信架构规划和通信库版本选型评估

AI 洞察

优缺点分析

优点

  • 前沿技术栈:深度接触NCCL、RDMA、InfiniBand等高性能通信技术,紧跟AI基础设施最前沿
  • 大厂平台:腾讯有大规模AI集群和丰富的业务场景,能积累宝贵的大规模系统运维经验
  • 技能稀缺性:集合通信库运维人才稀缺,市场竞争力强,职业发展空间大
  • 工作强度高:AI训练集群7x24小时运行,故障响应要求高,可能需要on-call
  • 技术门槛高:需要同时掌握底层通信、GPU架构、训练框架等多领域知识,学习曲线陡峭
  • 适合对底层系统和高性能计算有浓厚兴趣、具备系统性排查思维和抗压能力、乐于持续学习新技术的工程师

缺点 / 挑战

  • 高压环境:训练hang或性能下降直接影响业务进度,需要在巨大压力下快速定位问题

角色解读

  • 技术深化:成为AI基础设施领域的通信专家,主导集群通信架构设计
  • 横向扩展:向AI训练/推理框架优化或高性能网络方向拓展
  • 管理路径:晋升为技术负责人或团队leader,带领运营团队
  • 负责NCCL等集合通信库在AI集群中的部署、配置和升级,保障通信服务稳定运行
  • 建设通信性能监控体系,分析AllReduce等关键算子的带宽和延迟,识别并解决性能瓶颈
  • 快速诊断训练hang、通信超时等故障,从业务层逐层定位到硬件层原因
  • 与训练框架团队合作,为不同并行策略提供通信优化建议,并开发自动化运维工具
  • 深入理解集合通信原理和算法(Ring、Tree等),熟悉NCCL架构及调优
  • 掌握GPU通信机制(NVLink、NVSwitch、RDMA)及诊断工具(nvidia-smi、nccl-tests等)
  • 了解大模型并行策略(TP/PP/DP/EP)对通信的需求
  • 具备Python/Go编程能力,能阅读和修改通信库源码

申请策略

  • 在面试中准备一个你解决过的复杂通信故障案例,清晰讲述定位过程和解决思路
  • 关注腾讯AI基础设施团队的技术博客或公开分享,了解其技术栈和工具链
  • 突出NCCL或类似通信库的实际部署、调优或二次开发经验,用具体性能指标(如带宽提升、延迟降低)量化成果
  • 展示故障排查案例:描述从现象到根因的完整分析过程,体现全栈思维
  • 强调并行策略理解:说明对不同并行模式(TP/PP/DP)的通信需求有实际认知
  • 列出自动化工具开发经历,如监控系统、诊断脚本等,体现工程化能力
  • 深入学习NCCL源码架构,尝试阅读源码并理解Channel/Proxy等模块
  • 动手实践RDMA编程(如使用libibverbs),加深对InfiniBand/RoCE的理解

面试指南

  • 对于原理题:先清晰定义概念,然后分步骤解释工作机制,最后提及其他算法对比
  • 对于问题排查题:采用分层思维,从应用层->通信层->传输层->硬件层逐步缩小范围,具体说明每一步的检查方法和工具
  • 对于优化题:结合业务场景,明确优化目标(带宽/延迟),提出具体参数调整、拓扑优化或代码修改方案
  • 请描述NCCL中AllReduce的Ring算法实现流程,以及不同数据量下算法的选择依据
  • 当你发现训练任务AllReduce带宽远低于理论值时,你会如何排查?
  • 并行策略(如TP和PP)对通信模式有何不同要求?如何针对性地优化通信配置?
  • 你曾用过哪些工具诊断通信性能问题?请举例说明
  • 如果训练hang了,你会从哪些层面逐步定位?

职位点评

75
综合评分

腾讯AI基础设施核心岗位,前沿技术栈,高成长性,但工作强度大。

更适合这类人
最适合追求技术深度和职业发展、愿意接受高强度工作的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展95
工作生活40
使命价值80

薪资福利

85较高

腾讯作为头部大厂,薪资福利具有竞争力,但具体薪资未披露,推测处于市场偏高水平。福利方面JD未明确列出,但大厂通常有完善保障。

薪资信号未披露(AI估算:25K-45K/月)

成长发展

95较高

该职位聚焦AI基础设施前沿技术(NCCL、RDMA、InfiniBand),技术迭代快,成长空间极大。JD明确要求持续学习新硬件和并行范式,自我驱动力强者进步飞速。

技术前沿前沿/新兴技术
技术栈NCCL、RDMA、InfiniBand、RoCEv2、GPU Direct RDMA、NVLink、CUDA、AI训练
成长机会持续学习意愿
业务类型profit_center

工作生活

40较低

职位为现场办公,未提及远程或弹性工作。AI集群运营可能涉及on-call,工作强度较高。JD未明确WLB信号,但大厂技术岗通常加班较多。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

80较高

AI基础设施是高速增长赛道,对推动AI发展有直接贡献。但职位更多是支撑角色,社会影响力中性偏正面。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 腾讯云全球CDN后台开发工程师(深圳)

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 《使命召唤手游》-音频策划

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • PUBG Mobile-安全运营-新星引力计划

    腾讯 · 深圳市
    AI 估算 · 20k-35k

相似职位推荐

  • Transition Mgmt: Technology Platform & Production Support, AVP

    道富公司 · 杭州市
    AI 估算 · 30k-50k
  • 安全管理工程师

    中国平安 · 上海市
    AI 估算 · 15k-25k
  • SRE运维工程师(基础架构)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • SRE运维工程师(企业效能)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • 基础环境专员-苏州/上海

    富士胶片 · 上海市
    AI 估算 · 10k-18k

腾讯 的其他在招职位

  • 腾讯云全球CDN后台开发工程师(深圳)

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 《使命召唤手游》-音频策划

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 北京市
    AI 估算 · 25k-45k
  • PUBG Mobile-安全运营-新星引力计划

    腾讯 · 深圳市
    AI 估算 · 20k-35k

相似职位推荐

  • Transition Mgmt: Technology Platform & Production Support, AVP

    道富公司 · 杭州市
    AI 估算 · 30k-50k
  • 安全管理工程师

    中国平安 · 上海市
    AI 估算 · 15k-25k
  • SRE运维工程师(基础架构)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • SRE运维工程师(企业效能)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • 基础环境专员-苏州/上海

    富士胶片 · 上海市
    AI 估算 · 10k-18k