Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Tencent logo
腾讯
AI ⽹络集合通信库运营⼯程师
立即应聘

AI ⽹络集合通信库运营⼯程师

发布于 大约 14 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
信息技术与基础设施
GPU
HPC
GO
CUDA
RDMA
故障诊断
NCCL
AI训练
RoCE

AI 估算 · 30k–60k

腾讯大厂AI岗位,技能稀缺性高,薪资竞争力强。

职位详情

关于这个职位

作为腾讯AI网络集合通信库运营工程师,你将负责大规模AI训练/推理集群中通信库的部署、监控与优化,与训练框架团队协作保障业务高效运行

这个职位要求深入理解NCCL等通信库原理和底层通信机制,需要快速诊断故障并推动自动化工具建设,适合对高性能计算和AI基础设施有热情的工程师

最低要求

一、基本要求:

计算机科学、通信工程、电子工程或相关专业,本科及以上学历
两年以上相关工作经验(集合通信库开发、HPC通信优化、AI基础设施运营等方向均可)
二、专业技能:
集合通信原理:深入理解集合通信算子(AllReduce、AllGather、ReduceScatter、All-to-All等)的原理和实现算法(Ring、Tree、Double Binary Tree等),了解算法选择对性能的影响
通信库实践:熟悉NCCL架构(Channel、Protocol、Transport、Proxy等核心模块),有NCCL调优、问题排查或二次开发经验者优先
了解DeepEP、Gloo、MSCCL等其他通信库者加分
底层通信机制:理解GPU机内通信机制(NVLink、NVSwitch、PCIe P2P、DMA、GPU Direct RDMA),掌握RDMA通信原理(InfiniBand或RoCEv2)
AI训练业务理解:了解大模型训练的主流并行策略(数据并行、张量并行、流水线并行、专家并行等),能理解不同并行模式对通信的带宽和延迟需求
系统与工具:熟悉Linux系统环境,能熟练使用nvidia-smi、DCGM、nccl-tests、Nsight Systems等诊断工具
编程能力:熟练掌握Python/go/bash等之一,熟悉AI辅助编程工具,具备阅读和修改通信库源码的能力
有CUDA编程经验者优先
三、能力素质:
问题定位能力:具备从业务现象到底层硬件的全栈排查思维,能在高压下快速缩小问题范围
协作沟通能力:能与训练工程师、网络工程师、硬件工程师高效协同,用业务语言翻译技术问题
持续学习意愿:AI基础设施技术迭代快,需要持续跟进新硬件、新通信库版本和新并行范式
工程化思维:注重自动化、可观测性、标准化,推动运营向智能化演进

工作职责

通信库运营保障:负责集合通信库(如 NCCL 等)在⼤规模 AI 训练/推理集群中的部署、配置、升级与⽇常运营,确保通信服务的⾼可⽤性和性能达标

性能监控与优化:建设通信性能监控体系,持续跟踪 AllReduce/AllGather/All-to-All 等关键通信算⼦的带宽和延迟指标,识别性能退化并驱动优化
故障诊断与恢复:快速响应训练 hang、通信超时、性能下降等故障,具备从业务现象出发逐层定位到通信库、传输层、硬件层根因的能⼒,缩短 MTTR
业务⽀撑协同:与上层训练/推理框架团队紧密协作,理解不同并⾏策略(TP/PP/DP/EP/CP)对通信的需求,提供通信层⾯的调优建议
⼯具与⾃动化建设:参与或主导通信诊断⼯具、⾃动化巡检、异常检测等运营⼯具的开发,提升运营效率和故障⾃愈能⼒
容量规划与技术演进:根据业务增⻓和新硬件(NVLink/InfiniBand/RoCE)的引⼊,参与集群通信架构规划和通信库版本选型评估

优先资格

有NCCL二次开发经验者优先

了解DeepEP、Gloo、MSCCL等其他通信库者加分
有CUDA编程经验者优先

AI 洞察

优缺点分析

优点

  • 职位聚焦前沿AI基础设施通信领域,技能稀缺,市场价值高
  • 与顶尖训练工程师协作,能深入理解大模型训练全栈
  • 技术迭代快,需持续学习新硬件和通信库版本,学习成本高
  • 大厂节奏快,可能需要应对高强度工作与紧急故障处理
  • 适合对高性能计算和底层通信有浓厚兴趣、喜欢解决疑难问题、能适应快节奏的工程师

缺点 / 挑战

  • 身处腾讯大平台,接触超大规模AI集群,技术挑战大,成长快
  • 需要全栈排查能力,从应用到硬件,问题定位压力大

角色解读

  • 成为AI基础设施领域的通信专家,深入底层硬件与协议优化
  • 向系统架构师方向发展,参与大规模集群通信架构规划
  • 横向拓展到AI训练框架优化或网络架构设计,技术影响力广泛
  • 负责AI集群中集合通信库的部署、配置、升级与日常运营,确保通信服务的高可用性
  • 建设通信性能监控体系,跟踪关键通信算子的性能指标,识别并推动优化
  • 快速响应训练hang、通信超时等故障,从业务现象定位到通信库、传输层、硬件层根因
  • 与训练框架团队合作,理解并行策略对通信的需求,提供调优建议
  • 深入理解集合通信原理和算法(如Ring、Tree),熟悉NCCL架构与调优
  • 掌握底层通信机制,包括GPU机内通信(NVLink等)和RDMA(InfiniBand/RoCE)
  • 熟悉Linux系统及诊断工具(nvidia-smi、DCGM、nccl-tests、Nsight Systems)
  • 具备编程能力(Python/Go/Bash),能阅读和修改通信库源码

申请策略

  • 在面试中准备一个完整的故障诊断案例,展示从业务现象到根因定位的思维过程
  • 关注腾讯AI基础设施团队的技术博客或开源项目,了解其技术栈和方向
  • 突出集合通信库(特别是NCCL)的实际使用或调优经验,提供具体性能提升案例
  • 展示对底层通信机制(NVLink、RDMA)的理解,可附上相关项目或实验
  • 强调故障排查案例,如如何定位和解决训练hang或通信超时问题
  • 体现编程能力,尤其是Python/Go和CUDA相关代码片段或开源贡献
  • 如果缺乏NCCL实战,可通过官方文档和nccl-tests深入学习其架构和调优参数
  • 补充RDMA知识,特别是InfiniBand和RoCEv2的区别与配置

面试指南

  • 对于原理类问题,先阐述基本概念,再对比不同方案的优缺点,最后举例实际应用场景
  • 对于排查问题,按层次思维:从业务层现象出发,先确认是否通信问题,再检查通信库配置、网络状态、硬件健康,最后定位根因
  • 对于经验类问题,用STAR法则(情境、任务、行动、结果)描述具体案例,突出你的思考和量化结果
  • 请解释NCCL中AllReduce算法的Ring和Tree实现的区别及适用场景
  • 如何排查一个训练任务出现通信超时的问题?请描述排查步骤
  • 请介绍你过去对NCCL或类似通信库进行调优的经验,具体优化了哪些参数?
  • 大模型训练中,数据并行和张量并行对通信带宽和延迟的要求有何不同?
  • 你对InfiniBand和RoCEv2的理解是什么?在部署中如何选择?

职位点评

70
综合评分

腾讯AI通信库运营工程师,前沿技术栈,高成长性,但工作强度较大。

更适合这类人
最适合追求技术深度与前沿发展、愿意投入高强度学习与工作的工程师。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展90
工作生活40
使命价值80

薪资福利

70中等

薪资未在JD中明确,但腾讯薪酬体系具有竞争力,福利完善。由于未披露具体薪资,评分适中偏上。

薪资信号未披露(AI估算:30K-60K/月)

成长发展

90较高

职位聚焦AI基础设施前沿技术,涉及NCCL、RDMA、大模型并行策略等高价值技能,成长空间巨大。

技术前沿前沿/新兴技术
技术栈NCCL、AllReduce、InfiniBand、RoCE、GPU、CUDA、RDMA
业务类型ambiguous

工作生活

40较低

北京现场办公,未提及弹性工作或远程选项,大厂节奏可能需应对高强度任务,WLB信号较弱。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值

80较高

AI基础设施推动技术进步,行业高速增长,但社会影响力偏中性。职位本身创新性强。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • AI ⽹络集合通信库运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 腾讯云全球CDN后台开发工程师(深圳)

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 《使命召唤手游》-音频策划

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • Transition Mgmt: Technology Platform & Production Support, AVP

    道富公司 · 杭州市
    AI 估算 · 30k-50k
  • 安全管理工程师

    中国平安 · 上海市
    AI 估算 · 15k-25k
  • SRE运维工程师(基础架构)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • SRE运维工程师(企业效能)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • 基础环境专员-苏州/上海

    富士胶片 · 上海市
    AI 估算 · 10k-18k

腾讯 的其他在招职位

  • AI ⽹络集合通信库运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 腾讯云全球CDN后台开发工程师(深圳)

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 《使命召唤手游》-音频策划

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • Transition Mgmt: Technology Platform & Production Support, AVP

    道富公司 · 杭州市
    AI 估算 · 30k-50k
  • 安全管理工程师

    中国平安 · 上海市
    AI 估算 · 15k-25k
  • SRE运维工程师(基础架构)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • SRE运维工程师(企业效能)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • 基础环境专员-苏州/上海

    富士胶片 · 上海市
    AI 估算 · 10k-18k