Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Tencent logo
腾讯
AI数据中⼼⽹络运营⼯程师
立即应聘

AI数据中⼼⽹络运营⼯程师

发布于 大约 14 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
信息技术与基础设施
BGP
RDMA
数据中心网络
RoCE
SONiC
AI网络
自动化运维
ECN
PFC

AI 估算 · 25k–45k

腾讯数据中心网络工程师,技术栈前沿,AI业务驱动薪资高于市场平均水平,参考北京同类岗位。

职位详情

关于这个职位

作为腾讯AI数据中心的网络运营工程师,你将负责维护大规模RoCE无损网络,保障AI训练集群的高可用性和低延迟

你需要主导故障诊断、性能调优和自动化运维,与研发团队协作推动网络架构演进,是保障业务稳定运行的关键角色

最低要求

一、基本要求

计算机科学、通信工程、电子信息或相关专业本科及以上学历
年以上数据中心网络运维/运营经验
熟悉数据中心网络架构(Spine-Leaf / Clos / Fat-Tree),有大规模(千台交换机以上)网络运营经验优先
二、专业技能
路由与交换:熟练掌握 BGP(eBGP/iBGP)、ECMP、VLAN、LACP / MLAG(M-LAG)等协议的原理与配置
RoCE 网络:理解 RoCEv2 协议栈、无损以太网设计原则,熟悉 PFC / ECN 机制与 DCQCN 算法参数调优
交换机操作:熟悉至少一种主流数据中心交换机平台(如 SONiC、Cumulus、NX-OS、EOS、CloudEngine)的配置与故障排查
网卡与驱动:了解 RDMA 网卡(如 NVIDIA ConnectX 系列)的基本配置,包括 QoS 映射、PFC 配置、固件升级等
监控与遥测:了解网络遥测技术(gNMI Streaming Telemetry、INT 带内遥测)及流采样(sFlow / NetFlow),能基于计数器与时序数据进行根因分析
三、能力素质
较强的逻辑分析能力和故障排查思维,能在压力下快速定位复杂网络问题
良好的沟通协作能力,能与开发、架构、业务团队高效配合
责任心强,能接受 oncall 轮值,保障关键业务的网络可用性
持续学习意愿,关注业界 RoCE/无损网络/AI 网络的技术演进

工作职责

网络运营保障:负责数据中心 RoCE 网络的日常运维,包括网络监控、告警处理、变更管理,保障网络高可用和低延迟

故障诊断与应急:主导网络故障的快速定位与恢复,尤其是 PFC Storm / PFC Deadlock、丢包、链路降级、拥塞扩散等无损以太网典型问题的诊断处理
性能调优:根据业务负载特征,调整拥塞控制策略(PFC 阈值 / ECN 标记 / DCQCN 算法参数)、交换机 Buffer 策略(Headroom / Shared Buffer / α 值)、ECMP 负载均衡策略等,持续优化网络吞吐和延迟表现
容量规划:参与网络架构评审和容量规划,评估现网瓶颈,为扩容/新建集群提供技术方案
自动化运维:协同开发团队,推动网络运维工具和自动化平台的需求定义与落地,提升运维效率
文档与知识沉淀:建设网络运营知识库,输出最佳实践、故障案例库和操作手册

优先资格

有大规模(千台交换机以上)网络运营经验优先

AI 洞察

优缺点分析

优点

  • 腾讯平台,AI数据中心前沿技术栈,接触大规模RoCE网络,技能稀缺性高
  • 薪资有竞争力,福利完善(五险一金、年终奖、补充医疗等)
  • 与顶尖团队合作,参与自动化运维平台建设,技术成长快
  • 技术栈更新快,需持续学习RoCE/无损网络的新技术
  • 大规模网络运营对细节和稳定性要求极高,容错率低
  • 适合对数据中心网络有热情、喜欢解决复杂技术问题、抗压能力强且愿意不断学习的网络工程师

缺点 / 挑战

  • 需要处理复杂的网络故障,压力较大,且需oncall轮值

角色解读

  • 横向发展为网络架构师,负责整体网络方案设计
  • 纵向深入AI网络优化,成为无损网络领域专家
  • 可转向云计算或AI基础设施的其他方向,如系统架构、AI平台运维
  • 负责腾讯AI数据中心RoCE网络的日常运维,确保高可用和低延迟
  • 主导网络故障的快速定位与恢复,处理PFC风暴、丢包等复杂问题
  • 根据业务负载调整拥塞控制参数和负载均衡策略,持续优化性能
  • 参与网络架构评审与容量规划,推动自动化运维工具的建设
  • 深入理解数据中心网络架构(Spine-Leaf)和路由交换协议(BGP、ECMP)
  • 精通RoCEv2无损网络原理,掌握PFC/ECN机制及DCQCN算法调优
  • 熟悉主流交换机平台(SONiC、Cumulus等)的配置与故障排查
  • 具备自动化运维思维,熟悉监控遥测技术(gNMI、sFlow等)

申请策略

  • 在简历中量化成果,例如将网络延迟降低XX%,故障恢复时间缩短XX%
  • 提前了解腾讯AI数据中心业务方向,在面试中展示对AI网络需求的思考
  • 突出数据中心网络运维经验,尤其是RoCE/无损网络相关项目
  • 详细描述故障排查案例,体现逻辑分析和快速恢复能力
  • 强调自动化脚本开发经验(如Python、Ansible)和工具建设成果
  • 展示对网络协议(BGP、PFC、ECN等)的深入理解及调优实践
  • 学习RoCEv2协议栈和DCQCN算法,通过实验环境模拟配置
  • 熟悉主流数据中心交换机平台(如SONiC)的部署和调试

面试指南

  • 对于故障排查题:采用STAR法则(情境、任务、行动、结果),重点描述分析思路和根因
  • 对于设计题:先明确需求,再给出架构方案,考虑高可用、可扩展和自动化
  • 对于原理题:先解释核心概念,再结合实际场景说明参数调优的考量
  • 请描述一次你处理PFC死锁或丢包问题的经历,你是如何定位和解决的?
  • RoCE网络中ECN和PFC的协同工作原理是什么?如何调整参数优化性能?
  • 如何设计一个大规模数据中心网络的监控告警体系?
  • 如果出现交换机故障导致大量连接中断,你的应急处理步骤是什么?
  • 你认为AI数据中心网络与传统数据中心网络有哪些关键区别?

职位点评

73
综合评分

腾讯AI数据中心网络工程师,前沿技术栈,薪资优厚,但需oncall,WLB一般。

更适合这类人
最适合追求技术深度和前沿栈、愿意接受挑战和oncall的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展92
工作生活45
使命价值70

薪资福利

85较高

薪资福利位于市场高位,腾讯品牌提供稳定保障,但未明确披露具体薪资范围。

薪资信号未披露(AI估算:25K-45K/月)

成长发展

92较高

职位涉及前沿AI网络技术,技能稀缺性强,有明确的技术成长路径和自动化平台建设机会。

技术前沿前沿/新兴技术
技术栈RoCE、DCQCN、SONiC、INT、RDMA
成长机会持续学习意愿、关注技术演进
业务类型ambiguous

工作生活

45较低

要求oncall轮值,工作地点仅现场办公,WLB信号不明显,但腾讯通常双休。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

AI数据中心网络是高速增长赛道,但职位本身偏支撑,社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • AI ⽹络集合通信库运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 腾讯云全球CDN后台开发工程师(深圳)

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 《使命召唤手游》-音频策划

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • PUBG Mobile-安全运营-新星引力计划

    腾讯 · 深圳市
    AI 估算 · 20k-35k

相似职位推荐

  • Transition Mgmt: Technology Platform & Production Support, AVP

    道富公司 · 杭州市
    AI 估算 · 30k-50k
  • 安全管理工程师

    中国平安 · 上海市
    AI 估算 · 15k-25k
  • SRE运维工程师(基础架构)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • SRE运维工程师(企业效能)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • 基础环境专员-苏州/上海

    富士胶片 · 上海市
    AI 估算 · 10k-18k

腾讯 的其他在招职位

  • AI ⽹络集合通信库运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 腾讯云全球CDN后台开发工程师(深圳)

    腾讯 · 深圳市
    AI 估算 · 25k-45k
  • 《使命召唤手游》-音频策划

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • AI数据中⼼⽹络运营⼯程师

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • PUBG Mobile-安全运营-新星引力计划

    腾讯 · 深圳市
    AI 估算 · 20k-35k

相似职位推荐

  • Transition Mgmt: Technology Platform & Production Support, AVP

    道富公司 · 杭州市
    AI 估算 · 30k-50k
  • 安全管理工程师

    中国平安 · 上海市
    AI 估算 · 15k-25k
  • SRE运维工程师(基础架构)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • SRE运维工程师(企业效能)

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • 基础环境专员-苏州/上海

    富士胶片 · 上海市
    AI 估算 · 10k-18k