
米哈游
可观测性SRE
可观测性SRE
发布于 大约 21 小时前普通员工/个人贡献者
上海市
中级经验
全职员工
仅现场办公
本科
GPU
GO
RDMA
OpenTelemetry
eBPF
ClickHouse
Victoriametrics
Loki
Jaeger
Thanos
AI 估算 · 25k–45k
高级SRE岗位,米哈游薪资竞争力强,技术难度高,参考上海市场行情,预计月薪25k-45k,16薪
职位详情
关于这个职位
这是一个负责米哈游可观测性系统(日志、监控、Trace、告警)研发与运维的SRE岗位,主要面向超大规模GPU训练集群和公有云环境,要求掌握Prometheus、Loki、Grafana等主流可观测性工具,并具备Go/Python开发能力
适合有3年以上经验、对大规模分布式系统监控和性能优化有浓厚兴趣的技术专家
最低要求
本科及以上,3 年以上 SRE / 可观测性平台研发经验
精通 Prometheus / VictoriaMetrics / Thanos 至少一个,有大规模联邦或分片治理经验
熟悉 Loki / Elasticsearch / ClickHouse 至少一个,有 TB 级日志写入与查询调优经验
熟悉 Grafana 二次开发
前端基础(React / Vue)加分
熟悉 OpenTelemetry / Jaeger Trace 协议
Go / Python 至少一种,能独立完成中等规模平台研发
工作职责
公司、集群、公有云三层可观测性系统(日志、监控、Trace、告警)的研发、部署、运维
超大规模 GPU 训练集群的指标、日志、Trace 采集与查询性能优化(百万级 series、TB / 日 日志)
多租户用户侧 Dashboard 与查询界面的开发,搜索性能调优
训练任务级监控接入(step time、loss、GPU SM/Mem 利用率、通信带宽)
RDMA 监控指标接入(PFC pause、ECN mark、QP 状态、HCA counter)
与 NOC、运维协作沉淀告警标准、降噪、SOP
优先资格
万节点级 K8s 集群可观测性运维经验
GPU 训练场景指标接入(DCGM Exporter、GPU Exporter、Rdma Exporter)经验
大规模 Prometheus 性能优化(cardinality / WAL / remote write)实战
eBPF / 内核级 Trace 工具使用经验
AI 洞察
优缺点分析
- 接触超大规模GPU集群和前沿可观测性技术栈,技术成长迅速
- 米哈游资金充裕,薪资福利有竞争力,并能深度参与自研平台建设
- 职位涉及从底层指标采集到上层UI开发的完整链路,综合能力提升快
- 工作强度可能较大,需要应对大规模系统的稳定性和性能挑战
- 技术面广且深,要求同时具备运维、开发和数据库调优能力,学习曲线陡峭
- 团队规模可能较大,需要较强的跨团队协作与沟通能力
- 适合技术基础扎实、对分布式系统和性能优化有强烈兴趣,愿意深耕可观测性领域的SRE/DevOps工程师
角色解读
- 可成长为可观测性架构师,主导公司级监控体系设计与演进
- 可转向SRE管理岗或基础设施专家,负责更大规模集群的稳定性
- 可深耕eBPF等底层技术,成为内核性能优化专家
- 负责构建和运维公司级别的可观测性平台,包括日志、监控、链路追踪和告警系统,确保大规模分布式系统的稳定运行
- 对超大规模GPU训练集群进行性能指标采集与查询优化,处理百万级时间序列和TB级日志数据
- 开发多租户Dashboard和查询界面,提升监控数据的可用性和用户体验
- 与运维团队协作,制定告警标准和SOP,提升事件响应效率
- 精通Prometheus生态(VictoriaMetrics/Thanos),有大规模联邦或分片治理经验
- 熟悉日志存储系统如Loki/Elasticsearch/ClickHouse,具备TB级日志调优能力
- 掌握Grafana二次开发,具备前端基础(React/Vue)更佳
- 熟悉OpenTelemetry/Jaeger链路追踪协议,以及Go/Python开发能力
申请策略
- 申请时了解米哈游的技术栈,关注其游戏业务对可观测性的独特需求
- 在面试中展示对大规模系统可观测性挑战的思考,如高基数、高写入量场景的解决方案
- 突出大规模Prometheus集群或日志系统的实战经验,用量化指标(如series数、日志量)体现成果
- 强调GPU集群监控或RDMA监控的相关项目,展示对高性能计算场景的理解
- 列出Grafana二次开发或Dashboard设计的经历,体现工程能力
- 如有eBPF或内核调试经验,务必重点提及
- 加深对VictoriaMetrics/Thanos分片和部署架构的理解,可阅读官方文档或发起小规模POC
- 学习OpenTelemetry标准,尝试使用Jaeger进行链路采样和性能分析
面试指南
- STAR法则:描述背景、任务、行动、结果,用具体数据量化优化效果
- 对比能力:展示对不同方案的权衡分析,如成本、性能、可维护性
- 系统思维:从全局角度考虑可观测性架构的扩展性和容错性
- 请描述你设计或维护过的最大规模Prometheus集群,遇到了哪些性能瓶颈?如何优化?
- 如何采集和存储TB级别的日志?对比Loki、Elasticsearch、ClickHouse的适用场景
- 请解释OpenTelemetry中的Trace、Span、Context传播机制,以及如何实现分布式追踪
- 如何监控GPU训练任务的关键指标(如SM利用率、通信带宽)?使用过哪些Exporter?
- 面对高告警噪音,你会如何设计告警规则和降噪策略?
匹配度报告
65
综合匹配度
大厂SRE,前沿可观测性技术栈,薪资竞争力强,但工作强度可能较大。
适合人群
最适合追求技术深度和快速成长的求职者,愿意承担一定的WLB牺牲换取前沿技术栈和高回报。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值50
薪资福利匹配
80较高
薪资水平未在JD中披露,但米哈游作为头部游戏公司,薪酬竞争力强,福利好,补偿性动机满足度高。
薪资信号未披露 (25K-45K/月)
成长发展匹配
90较高
技术栈前沿(eBPF、GPU集群、百万级Series),涉及从底层到上层的全链路开发,成长空间极大。
技术前沿前沿/新兴技术
技术栈Prometheus、VictoriaMetrics、Thanos、Loki、Elasticsearch、ClickHouse、Grafana、OpenTelemetry、Jaeger、Go、Python、Kubernetes、GPU、RDMA、eBPF
业务类型cost_center
工作生活匹配
40较低
仅现场办公,工作地点上海,JD未提及WLB或弹性工作,结合SRE岗位的运维性质,WLB可能一般。
工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)
使命价值匹配
50较低
游戏行业虽属成熟市场,但米哈游持续增长,可观测性岗位对业务稳定性有重要意义,但社会影响力一般。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
米哈游 的其他在招职位
相似职位推荐
Watch Jobs