Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Tencent logo
腾讯
AI Infra SRE工程师(深圳/北京)
立即应聘

AI Infra SRE工程师(深圳/北京)

发布于 大约 12 小时前

普通员工/个人贡献者

深圳市 / 北京市
高级经验
全职员工
仅现场办公
本科
GPU
SRE
GO
MLOps
LLM
AIOps
云原生
Ai Infra

AI 估算 · 33k–50k

AI Infra SRE需求火热,技术栈前沿,腾讯大厂待遇好,结合经验要求估算

职位详情

关于这个职位

作为AI Infra SRE工程师,你将负责腾讯超大规模大模型服务的基础设施稳定性与自动化运维

工作涉及GPU集群、网络存储、推理链路的全生命周期管理,并推动智能运维(AIOps)体系建设
适合对云原生、LLM运维和系统可靠性有热情的技术专家

最低要求

计算机、软件工程、网络工程等相关专业本科及以上学历,具备3年及以上大型互联网或AI Infra运维/SRE经验

熟悉Linux操作系统原理,具备扎实的网络、存储、系统调优与分布式系统基础
熟练掌握至少一种编程语言(Python/Go优先),具备自动化平台、运维工具以及AI Coding工具开发经验
熟悉Kubernetes、Docker、微服务架构及云原生技术体系,具备大规模容器平台运维经验
熟悉LLM、大模型训练/推理流程、AI Infra、LLMOps/MLOps相关技术栈,理解模型服务链路与推理架构
具备较强的性能分析、容量规划与故障排查能力,能够在复杂场景下快速定位并解决系统问题
具备资源治理与成本优化意识,能够围绕GPU利用率、推理吞吐、时延与成本进行系统化优化
具备优秀的跨团队协作与沟通能力,能够推动架构、平台、算法与业务团队高效协同
对AI Infra、云原生、大模型工程体系及前沿技术保持持续关注,具备快速学习与技术创新能力

工作职责

负责超大规模通用大模型服务的 SRE 体系建设,保障 AI 平台在高并发、高吞吐、复杂异构资源环境下的稳定性、可用性与服务质量

负责 AI Infra 监控、可观测性、告警治理与自动化运维平台建设,构建覆盖 GPU、网络、存储、推理链路与模型服务全生命周期的智能运维体系
负责线上故障快速定位、应急响应与稳定性治理,建立标准化应急预案、故障复盘与根因分析机制,持续提升系统韧性与业务连续性
参与大模型训练与推理平台的部署、调优与自动化能力建设,推动 LLMOps / MLOps 工程化体系落地,提升平台交付效率与稳定性
深入分析系统瓶颈与容量热点,通过数据驱动方式识别稳定性风险与性能短板,持续推动架构优化与平台演进
负责 GPU / CPU / 网络 / 存储等资源利用率治理,推进模型推理加速、弹性调度与成本优化,持续提升资源效率与 ROI
跟踪业界 AI 硬件与 Infra 技术演进(GPU、网络、存储、推理框架等),结合业务场景推动基础设施选型、架构升级与技术创新
探索 AI Native SRE、智能 OnCall、AIOps、Agentic 运维等前沿方向,推动运维体系向智能化、自愈化与自治化演进

AI 洞察

优缺点分析

优点

  • 腾讯作为互联网巨头,平台稳定,资源丰富,提供广阔的内部晋升和轮岗机会
  • 技术栈涵盖Kubernetes、GPU、LLM等前沿领域,个人技能成长空间巨大
  • 团队重视智能化运维(AIOps),有机会探索自动化、自愈化等创新方向
  • 技术更新迭代快,需要持续学习GPU、推理框架、云原生等新技术,保持知识领先
  • 跨团队协作频繁,需与算法、平台、业务等多方沟通,对综合能力要求高
  • 适合对AI基础设施有浓厚兴趣,喜欢解决复杂系统问题,乐于在高压下快速成长的技术型人才

缺点 / 挑战

  • 身处AI大模型浪潮核心,参与万亿参数级服务运维,技术挑战高,积累稀缺经验
  • 超大规模AI服务对稳定性要求极高,需要7x24小时应急响应能力,工作压力较大

角色解读

  • 技术深度上:可向AI Infra架构师、智能运维专家发展,成为AIOps领域权威
  • 管理路径上:可晋升为SRE团队技术负责人或经理,带领团队构建基础设施
  • 横向拓展:可转向AI平台研发、云原生架构师或算法工程化方向,拓宽职业边界
  • 负责腾讯超大规模大模型服务的SRE体系建设,保障AI平台在高并发、高吞吐场景下的稳定性与服务质量
  • 构建覆盖GPU、网络、存储、推理链路的智能运维体系,包括监控、告警、自动化平台和故障自愈能力
  • 参与大模型训练与推理平台的部署调优,推动LLMOps/MLOps工程化落地
  • 跟踪AI硬件与Infra技术演进,探索AIOps等前沿方向,提升资源利用率和成本效益
  • 扎实的Linux和分布式系统基础,熟悉网络、存储和系统调优
  • 精通至少一门编程语言(Python/Go),具备自动化平台开发经验
  • 熟练掌握Kubernetes、Docker、云原生技术体系,有大规模容器运维经验
  • 熟悉LLM、大模型训练推理流程、AI Infra和LLMOps/MLOps技术栈

申请策略

  • 深入了解腾讯AI基础设施产品(如TI-ONE、混元大模型),面试时展示对业务的热情与洞察
  • 提前准备一个完整的SRE项目案例,包含背景、挑战、解决方案和量化成果
  • 突出大型分布式系统或AI平台的SRE/运维经验,量化管理过的集群规模(如GPU节点数、服务QPS)
  • 强调自动化运维工具或平台的开发经历,展示Python/Go代码能力
  • 提及Kubernetes、Docker容器化实战经验,特别是大规模集群的运维案例
  • 如有LLM、模型推理部署相关经验,务必重点描述
  • 若缺乏AI Infra经验,可自学NVIDIA GPU运维、TensorRT-LLM推理引擎、Ray框架等
  • 补充AIOps相关知识,如异常检测、根因分析、智能告警算法

面试指南

  • 使用STAR模型:情境-任务-行动-结果,突出技术深度和系统性思考
  • 对于设计类问题:先明确需求和约束,再提出方案,分析优劣,最后给出建议
  • 对于优化类问题:从数据驱动出发(监控指标),定位瓶颈,提出具体优化手段,并验证效果
  • 请描述一个你处理过的复杂线上故障,你是如何定位根因并恢复的?
  • 如何设计一个大规模GPU集群的监控和告警体系?
  • 谈谈你对Kubernetes调度策略的理解,如何优化AI训练任务的资源利用率?
  • LLM推理服务中,影响时延和吞吐的关键因素有哪些?如何优化?
  • 你如何理解SRE中的'错误预算'?在实际中如何应用?

匹配度报告

71
综合匹配度

大厂核心AI基础设施SRE,前沿技术栈,高成长性,WLB一般。

适合人群
最适合追求技术前沿和职业成长、能接受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活50
使命价值70

薪资福利匹配

75中等

薪资未明确披露,但腾讯作为大厂提供有竞争力的薪酬和福利,整体补偿性较好,但具体数值需面议。

薪资信号未披露(AI估算:33K-50K/月)

成长发展匹配

90较高

该职位涉及AI Infra、LLM、云原生等前沿技术,且有明确的智能化运维方向,技能成长空间极大。

技术前沿前沿/新兴技术
技术栈SRE、Kubernetes、Python、Go、AI Infra、LLM、GPU、云原生、AIOps、MLOps
业务类型cost_center

工作生活匹配

50较低

仅现场办公,未提及弹性工作或远程可能,且SRE岗位通常需要响应突发故障,工作节奏偏快,WLB一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

70中等

AI大模型是高速增长赛道,但SRE岗位偏向基础设施运维,社会影响力中性,使命感一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 魔方在研轻动作风格化游戏预研项目-角色概念设计专家

    腾讯 · 深圳市
    AI 估算 · 30k-50k
  • 微信游戏-产品运营

    腾讯 · 深圳市
    AI 估算 · 15k-25k
  • 云及AI 技术公关经理

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • 腾讯营销-数据Agent产品经理(深圳/上海)

    腾讯 · 深圳市
    AI 估算 · 30k-55k
  • ARC Raiders运营经理

    腾讯 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 中间件研发工程师-【Serverless】

    快手 · 杭州市
    AI 估算 · 35k-55k
  • 测试

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 拔尖计划-算力专家

    中国移动 · 上海市
    AI 估算 · 40k-70k
  • 数据开发工程师(数据仓库工程师)

    小红书 · 上海市
    AI 估算 · 25k-40k
  • 音视频策略开发工程师/架构师

    小红书 · 北京市
    AI 估算 · 30k-50k

腾讯 的其他在招职位

  • 魔方在研轻动作风格化游戏预研项目-角色概念设计专家

    腾讯 · 深圳市
    AI 估算 · 30k-50k
  • 微信游戏-产品运营

    腾讯 · 深圳市
    AI 估算 · 15k-25k
  • 云及AI 技术公关经理

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • 腾讯营销-数据Agent产品经理(深圳/上海)

    腾讯 · 深圳市
    AI 估算 · 30k-55k
  • ARC Raiders运营经理

    腾讯 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 中间件研发工程师-【Serverless】

    快手 · 杭州市
    AI 估算 · 35k-55k
  • 测试

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 拔尖计划-算力专家

    中国移动 · 上海市
    AI 估算 · 40k-70k
  • 数据开发工程师(数据仓库工程师)

    小红书 · 上海市
    AI 估算 · 25k-40k
  • 音视频策略开发工程师/架构师

    小红书 · 北京市
    AI 估算 · 30k-50k