Infrastructure Production Management & Reliability Engineering III - AVP / Director P3 - ETS

🤖 AI 估测:¥70K-120K

发布时间:大约 1 个月前

立即应聘

ℹ️关于这个职位

这是一个专注于基础设施应用生产管理与可靠性工程的高级技术岗位
你将负责确保摩根士丹利内部关键基础设施应用(如工作流调度与协调平台)的稳定运行,通过深入的系统故障排查、自动化脚本编写和可靠性工程实践,来提升监控质量、减少重复性运维工作,并从根本上预防生产事故的再次发生

工作职责

负责多个基础设施应用的生产可靠性:包括事件响应、问题分类,并持续跟进直至问题解决
推动稳定性工作:提高告警质量、监控覆盖率和运维工具,以减少噪音并加速恢复
领导或执行生产变更(升级、修复、重新配置),并制定严格的变更管理和回滚计划
执行深入的根因分析,并通过长期修复、自动化和改进的操作手册来防止事故和升级的再次发生
构建自助服务工作流和高质量的文档,以改善用户体验并缩短产品上线时间
与产品工程师和基础设施团队合作,识别系统性问题和交付跨团队解决方案
参与轮值on-call,包括周末覆盖(约每月一个周末),专注于处理文档不完善的高影响事件
偶尔需要非工作时间工作,用于计划变更和事件跟进(团队旨在通过自动化和流程最小化此类需求)

最低要求

至少7年在Linux/UNIX系统上进行应用生产支持/可靠性工程的经验
强大的命令行故障排查技能:包括日志分析、进程管理、网络诊断以及分布式系统依赖健康检查
能够使用bash/shell脚本以及另一种编程语言(首选Python
Go/Ruby/Perl/C等亦可)编写可用于生产环境的自动化脚本
具备撰写技术文档和事故/根因分析报告的强大书面沟通能力
对分布式架构(负载均衡器、应用服务器、数据库、消息队列)有实际理解
具备AI辅助开发和运维自动化的经验

👍优先资格

云原生部署/支持经验和/或容器技术(Docker/podman)
可观测性工具(Grafana, Splunk或类似工具)、日志转发/代理以及告警调优经验
Linux系统管理和性能故障排查经验
任何数据库经验(SQL/NoSQL)
工作流/调度平台(Autosys, Apache Airflow)或协调系统(Apache Zookeeper)的使用经验