米哈游的可观测性SRE薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

可观测性SRE的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的可观测性SRE有什么任职要求？

该职位要求本科学历及中级经验工作经验。

米哈游

可观测性SRE

立即应聘

可观测性SRE

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

信息技术与基础设施

GPU

RDMA

OpenTelemetry

eBPF

ClickHouse

Victoriametrics

Loki

Jaeger

AI 估算 · 25k–45k

高级SRE岗位，米哈游薪资竞争力强，技术难度高，参考上海市场行情，预计月薪25k-45k，16薪

职位详情

关于这个职位

这是一个负责米哈游可观测性系统（日志、监控、Trace、告警）研发与运维的SRE岗位，主要面向超大规模GPU训练集群和公有云环境，要求掌握Prometheus、Loki、Grafana等主流可观测性工具，并具备Go/Python开发能力

适合有3年以上经验、对大规模分布式系统监控和性能优化有浓厚兴趣的技术专家

最低要求

本科及以上，3 年以上 SRE / 可观测性平台研发经验

精通 Prometheus / VictoriaMetrics / Thanos 至少一个，有大规模联邦或分片治理经验

熟悉 Loki / Elasticsearch / ClickHouse 至少一个，有 TB 级日志写入与查询调优经验

熟悉 Grafana 二次开发

前端基础（React / Vue）加分

熟悉 OpenTelemetry / Jaeger Trace 协议

Go / Python 至少一种，能独立完成中等规模平台研发

工作职责

公司、集群、公有云三层可观测性系统（日志、监控、Trace、告警）的研发、部署、运维

超大规模 GPU 训练集群的指标、日志、Trace 采集与查询性能优化（百万级 series、TB / 日日志）

多租户用户侧 Dashboard 与查询界面的开发，搜索性能调优

训练任务级监控接入（step time、loss、GPU SM/Mem 利用率、通信带宽）

RDMA 监控指标接入（PFC pause、ECN mark、QP 状态、HCA counter）

与 NOC、运维协作沉淀告警标准、降噪、SOP

优先资格

万节点级 K8s 集群可观测性运维经验

GPU 训练场景指标接入（DCGM Exporter、GPU Exporter、Rdma Exporter）经验

大规模 Prometheus 性能优化（cardinality / WAL / remote write）实战

eBPF / 内核级 Trace 工具使用经验

AI 洞察

优缺点分析

优点

接触超大规模GPU集群和前沿可观测性技术栈，技术成长迅速
米哈游资金充裕，薪资福利有竞争力，并能深度参与自研平台建设
职位涉及从底层指标采集到上层UI开发的完整链路，综合能力提升快
技术面广且深，要求同时具备运维、开发和数据库调优能力，学习曲线陡峭
团队规模可能较大，需要较强的跨团队协作与沟通能力
适合技术基础扎实、对分布式系统和性能优化有强烈兴趣，愿意深耕可观测性领域的SRE/DevOps工程师

缺点 / 挑战

工作强度可能较大，需要应对大规模系统的稳定性和性能挑战

角色解读

可成长为可观测性架构师，主导公司级监控体系设计与演进
可转向SRE管理岗或基础设施专家，负责更大规模集群的稳定性
可深耕eBPF等底层技术，成为内核性能优化专家
负责构建和运维公司级别的可观测性平台，包括日志、监控、链路追踪和告警系统，确保大规模分布式系统的稳定运行
对超大规模GPU训练集群进行性能指标采集与查询优化，处理百万级时间序列和TB级日志数据
开发多租户Dashboard和查询界面，提升监控数据的可用性和用户体验
与运维团队协作，制定告警标准和SOP，提升事件响应效率
精通Prometheus生态（VictoriaMetrics/Thanos），有大规模联邦或分片治理经验
熟悉日志存储系统如Loki/Elasticsearch/ClickHouse，具备TB级日志调优能力
掌握Grafana二次开发，具备前端基础（React/Vue）更佳
熟悉OpenTelemetry/Jaeger链路追踪协议，以及Go/Python开发能力

申请策略

申请时了解米哈游的技术栈，关注其游戏业务对可观测性的独特需求
在面试中展示对大规模系统可观测性挑战的思考，如高基数、高写入量场景的解决方案
突出大规模Prometheus集群或日志系统的实战经验，用量化指标（如series数、日志量）体现成果
强调GPU集群监控或RDMA监控的相关项目，展示对高性能计算场景的理解
列出Grafana二次开发或Dashboard设计的经历，体现工程能力
如有eBPF或内核调试经验，务必重点提及
加深对VictoriaMetrics/Thanos分片和部署架构的理解，可阅读官方文档或发起小规模POC
学习OpenTelemetry标准，尝试使用Jaeger进行链路采样和性能分析

面试指南

STAR法则：描述背景、任务、行动、结果，用具体数据量化优化效果
对比能力：展示对不同方案的权衡分析，如成本、性能、可维护性
系统思维：从全局角度考虑可观测性架构的扩展性和容错性
请描述你设计或维护过的最大规模Prometheus集群，遇到了哪些性能瓶颈？如何优化？
如何采集和存储TB级别的日志？对比Loki、Elasticsearch、ClickHouse的适用场景
请解释OpenTelemetry中的Trace、Span、Context传播机制，以及如何实现分布式追踪
如何监控GPU训练任务的关键指标（如SM利用率、通信带宽）？使用过哪些Exporter？
面对高告警噪音，你会如何设计告警规则和降噪策略？

匹配度报告

综合匹配度

大厂SRE，前沿可观测性技术栈，薪资竞争力强，但工作强度可能较大。

适合人群

最适合追求技术深度和快速成长的求职者，愿意承担一定的WLB牺牲换取前沿技术栈和高回报。

最强匹配

成长发展匹配

最弱匹配

工作生活匹配

薪资福利80

成长发展90

工作生活40

使命价值50

薪资福利匹配

80较高

薪资水平未在JD中披露，但米哈游作为头部游戏公司，薪酬竞争力强，福利好，补偿性动机满足度高。

薪资信号未披露（AI估算：25K-45K/月）

成长发展匹配

90较高

技术栈前沿（eBPF、GPU集群、百万级Series），涉及从底层到上层的全链路开发，成长空间极大。

技术前沿前沿/新兴技术

技术栈Prometheus、VictoriaMetrics、Thanos、Loki、Elasticsearch、ClickHouse、Grafana、OpenTelemetry、Jaeger、Go、Python、Kubernetes、GPU、RDMA、eBPF

业务类型cost_center

工作生活匹配

40较低

仅现场办公，工作地点上海，JD未提及WLB或弹性工作，结合SRE岗位的运维性质，WLB可能一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值匹配

50较低

游戏行业虽属成熟市场，但米哈游持续增长，可观测性岗位对业务稳定性有重要意义，但社会影响力一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

米哈游

可观测性SRE

立即应聘

可观测性SRE

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

信息技术与基础设施

GPU

RDMA

OpenTelemetry

eBPF

ClickHouse

Victoriametrics

Loki

Jaeger

AI 估算 · 25k–45k

高级SRE岗位，米哈游薪资竞争力强，技术难度高，参考上海市场行情，预计月薪25k-45k，16薪