月之暗面的高级 SRE 工程师 Senior Site Reliability Engineer薪资是多少？

该职位薪资范围为 35k–55k（人民币/月）。

高级 SRE 工程师 Senior Site Reliability Engineer的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及高级经验工作经验。

🤖 AI 估测：¥35K-55K

发布时间：6 天前

这是一个高级SRE工程师职位，核心使命是推动公司可靠性工作从‘事后救火’转向‘事前设计’

你将负责构建可持续的应急响应体系、发布工程与变更风险管理、可观测性体系以及工程效率基建，通过建立标准化的流程和自动化工具，成为公司下一阶段增长的工程骨干

构建可持续的 On-call 与应急响应体系：重构现有报警体系，建立分级降噪机制（解决 P0 淹没问题），实现故障的分钟级发现与精准定位

建立标准化的 On-call 手册与应急流程（Runbook），引入 Chaos Engineering 主动暴露系统脆弱点

主导故障复盘（Postmortem），推动根因修复与改进措施落地，确保同类故障不重复发生

发布工程与变更风险管理：针对高频上线场景，设计并落地安全变更框架：灰度发布、自动回滚、变更可观测性，将“变更导致故障”的概率降至最低

建立变更窗口管理、自动化测试卡点与发布流水线优化，让研发能够“快且安全”地迭代

可观测性体系与 Telemetry 共建：与研发团队共建统一的 Telemetry 标准（Metrics/Logs/Traces），基于业务场景定义清晰的 SLO/SLI，建设符合业务特性的监控 Dashboard

治理现有指标债务，消除无效报警，构建从业务指标到基础设施指标的全链路可观测性

工程效率基建：用软件工程手段解决重复运维问题：开发内部平台或工具（如自动化诊断、容量巡检、配置管理），将高频人工操作转化为自助服务

维护基于 Kubernetes 的 PaaS 底座能力，持续优化资源利用率与成本效率

沉淀 SRE 最佳实践文档与工具库，推动可靠性文化在组织内的标准化

参与需求评审与架构设计，从可靠性、可维护性角度提出专业建议，帮助业务团队在早期规避技术债务

3-5 年以上 SRE、DevOps 或 Backend Engineering 经验，有生产环境大规模分布式系统运维背景

扎实的工程能力：精通 Go 或 Python，能独立开发自动化工具、Operator 或内部平台

熟悉 GitOps 实践

云原生深度实践者：深入理解 Kubernetes 生态（Operators、CRD、CNI/CRI），有生产级集群运维与排障经验

可观测性专家：熟练使用 Prometheus、Grafana、ELK/Loki、Jaeger/Tempo 等工具，具备从0到1构建监控体系的经验

系统功底：精通 Linux 内核、TCP/IP、HTTP、gRPC，具备扎实的网络与系统性能诊断能力

软技能：优秀的跨团队沟通能力，既能深入技术细节 Debug，也能推动流程改进在组织内落地

具备“代码即基础设施”的自动化思维

头部 AI厂商 Code Plan订阅者

有一个漂亮的终端

有从混乱到秩序的 SRE建设经验（如主导过报警治理、发布流程重构、On-call 体系搭建）

熟悉 eBPF、Service Mesh （Istio/Linkerd）等云原生前沿技术

具备多云（AWS/GCP/阿里云）或混合云架构经验

高级 SRE 工程师 Senior Site Reliability Engineer

🤖 AI 估测：¥35K-55K

发布时间：6 天前