miHoYo logo
米哈游
可观测性SRE

可观测性SRE

发布于 大约 21 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
GPU
GO
RDMA
OpenTelemetry
eBPF
ClickHouse
Victoriametrics
Loki
Jaeger
Thanos

AI 估算 · 25k–45k

高级SRE岗位,米哈游薪资竞争力强,技术难度高,参考上海市场行情,预计月薪25k-45k,16薪

职位详情

关于这个职位

这是一个负责米哈游可观测性系统(日志、监控、Trace、告警)研发与运维的SRE岗位,主要面向超大规模GPU训练集群和公有云环境,要求掌握Prometheus、Loki、Grafana等主流可观测性工具,并具备Go/Python开发能力

适合有3年以上经验、对大规模分布式系统监控和性能优化有浓厚兴趣的技术专家

最低要求

本科及以上,3 年以上 SRE / 可观测性平台研发经验

精通 Prometheus / VictoriaMetrics / Thanos 至少一个,有大规模联邦或分片治理经验
熟悉 Loki / Elasticsearch / ClickHouse 至少一个,有 TB 级日志写入与查询调优经验
熟悉 Grafana 二次开发
前端基础(React / Vue)加分
熟悉 OpenTelemetry / Jaeger Trace 协议
Go / Python 至少一种,能独立完成中等规模平台研发

工作职责

公司、集群、公有云三层可观测性系统(日志、监控、Trace、告警)的研发、部署、运维

超大规模 GPU 训练集群的指标、日志、Trace 采集与查询性能优化(百万级 series、TB / 日 日志)
多租户用户侧 Dashboard 与查询界面的开发,搜索性能调优
训练任务级监控接入(step time、loss、GPU SM/Mem 利用率、通信带宽)
RDMA 监控指标接入(PFC pause、ECN mark、QP 状态、HCA counter)
与 NOC、运维协作沉淀告警标准、降噪、SOP

优先资格

万节点级 K8s 集群可观测性运维经验

GPU 训练场景指标接入(DCGM Exporter、GPU Exporter、Rdma Exporter)经验
大规模 Prometheus 性能优化(cardinality / WAL / remote write)实战
eBPF / 内核级 Trace 工具使用经验

AI 洞察

优缺点分析

  • 接触超大规模GPU集群和前沿可观测性技术栈,技术成长迅速
  • 米哈游资金充裕,薪资福利有竞争力,并能深度参与自研平台建设
  • 职位涉及从底层指标采集到上层UI开发的完整链路,综合能力提升快
  • 工作强度可能较大,需要应对大规模系统的稳定性和性能挑战
  • 技术面广且深,要求同时具备运维、开发和数据库调优能力,学习曲线陡峭
  • 团队规模可能较大,需要较强的跨团队协作与沟通能力
  • 适合技术基础扎实、对分布式系统和性能优化有强烈兴趣,愿意深耕可观测性领域的SRE/DevOps工程师

角色解读

  • 可成长为可观测性架构师,主导公司级监控体系设计与演进
  • 可转向SRE管理岗或基础设施专家,负责更大规模集群的稳定性
  • 可深耕eBPF等底层技术,成为内核性能优化专家
  • 负责构建和运维公司级别的可观测性平台,包括日志、监控、链路追踪和告警系统,确保大规模分布式系统的稳定运行
  • 对超大规模GPU训练集群进行性能指标采集与查询优化,处理百万级时间序列和TB级日志数据
  • 开发多租户Dashboard和查询界面,提升监控数据的可用性和用户体验
  • 与运维团队协作,制定告警标准和SOP,提升事件响应效率
  • 精通Prometheus生态(VictoriaMetrics/Thanos),有大规模联邦或分片治理经验
  • 熟悉日志存储系统如Loki/Elasticsearch/ClickHouse,具备TB级日志调优能力
  • 掌握Grafana二次开发,具备前端基础(React/Vue)更佳
  • 熟悉OpenTelemetry/Jaeger链路追踪协议,以及Go/Python开发能力

申请策略

  • 申请时了解米哈游的技术栈,关注其游戏业务对可观测性的独特需求
  • 在面试中展示对大规模系统可观测性挑战的思考,如高基数、高写入量场景的解决方案
  • 突出大规模Prometheus集群或日志系统的实战经验,用量化指标(如series数、日志量)体现成果
  • 强调GPU集群监控或RDMA监控的相关项目,展示对高性能计算场景的理解
  • 列出Grafana二次开发或Dashboard设计的经历,体现工程能力
  • 如有eBPF或内核调试经验,务必重点提及
  • 加深对VictoriaMetrics/Thanos分片和部署架构的理解,可阅读官方文档或发起小规模POC
  • 学习OpenTelemetry标准,尝试使用Jaeger进行链路采样和性能分析

面试指南

  • STAR法则:描述背景、任务、行动、结果,用具体数据量化优化效果
  • 对比能力:展示对不同方案的权衡分析,如成本、性能、可维护性
  • 系统思维:从全局角度考虑可观测性架构的扩展性和容错性
  • 请描述你设计或维护过的最大规模Prometheus集群,遇到了哪些性能瓶颈?如何优化?
  • 如何采集和存储TB级别的日志?对比Loki、Elasticsearch、ClickHouse的适用场景
  • 请解释OpenTelemetry中的Trace、Span、Context传播机制,以及如何实现分布式追踪
  • 如何监控GPU训练任务的关键指标(如SM利用率、通信带宽)?使用过哪些Exporter?
  • 面对高告警噪音,你会如何设计告警规则和降噪策略?

匹配度报告

65
综合匹配度

大厂SRE,前沿可观测性技术栈,薪资竞争力强,但工作强度可能较大。

适合人群
最适合追求技术深度和快速成长的求职者,愿意承担一定的WLB牺牲换取前沿技术栈和高回报。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值50

薪资福利匹配

80较高

薪资水平未在JD中披露,但米哈游作为头部游戏公司,薪酬竞争力强,福利好,补偿性动机满足度高。

薪资信号未披露 (25K-45K/月)

成长发展匹配

90较高

技术栈前沿(eBPF、GPU集群、百万级Series),涉及从底层到上层的全链路开发,成长空间极大。

技术前沿前沿/新兴技术
技术栈Prometheus、VictoriaMetrics、Thanos、Loki、Elasticsearch、ClickHouse、Grafana、OpenTelemetry、Jaeger、Go、Python、Kubernetes、GPU、RDMA、eBPF
业务类型cost_center

工作生活匹配

40较低

仅现场办公,工作地点上海,JD未提及WLB或弹性工作,结合SRE岗位的运维性质,WLB可能一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

50较低

游戏行业虽属成熟市场,但米哈游持续增长,可观测性岗位对业务稳定性有重要意义,但社会影响力一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs