
格步
Senior Site Reliability Engineer
Senior Site Reliability Engineer
发布于 大约 2 个月前普通员工/个人贡献者
北京市
高级经验
全职员工
仅现场办公
本科
系统与安全工程
云基础设施
SRE
GO
AI 估算 · 25k–40k
高级SRE岗位,北京互联网大厂级别,薪资有竞争力,但具体因个人资历浮动。
职位详情
关于这个职位
这是一个高级站点可靠性工程职位,加入格步出行团队,负责核心出行服务的高可用与稳定性
你将参与自动化运维、云基础设施管理、故障排查,并与多个工程团队协作优化系统架构
适合有4年以上运维开发经验、精通云原生技术栈的工程师
最低要求
计算机科学、软件工程、信息技术或相关技术领域学士学位
至少4年相关经验
扎实的算法、数据结构、复杂度分析和软件设计经验
熟悉以下语言之一:Go, Python, C, C++, Java, Perl, Ruby
有服务监控、日志和告警相关环境和工具的经验
Linux环境系统故障排查经验
熟练使用Linux命令和Shell脚本,能自动化日常任务
熟练使用自动化及配置管理工具(如Jenkins, Ansible/Chef/SaltStack/Puppet)
能够将模糊问题分解为目标和可执行的解决方案
有责任心,有主人翁意识,愿意学习新技术
英语口语和书写流利
工作职责
为手动任务和面临的挑战提供自动化解决方案
使用基础设施即代码方案管理云基础设施
参与事故深度诊断,并与多个优秀的工程团队合作解决
支持不同团队做出长期基础设施决策,提供基础设施优化建议
推动运营卓越实践,与工程团队共同提高可靠性、稳定性和可扩展性
领导初级工程师完成项目并帮助他们成长
指导其他工程师,定义我们的技术文化,帮助建设快速成长的团队
优先资格
有Golang经验
有云平台大规模基础设施经验(AWS, Azure, Google Cloud Platform),持有认证优先
有容器化技术(如Docker)和容器编排平台(如Kubernetes)经验,持有认证优先
有构建高吞吐量流服务的经验,了解流处理框架(如Flink)
有开源项目贡献经验,有性能分析和调试工具经验
AI 洞察
优缺点分析
优点
- 使用前沿技术栈(如Kubernetes、云原生),技能在市场上非常受欢迎
- 公司提供完善的福利(如保险、弹性假期、GrabFlex等),且已上市,稳定性好
- 技术栈要求全面(编程、运维、云、容器),学习曲线较陡
- 适合有3-5年运维或后端经验,热爱自动化、追求系统稳定性的工程师,愿意在快速发展的国际化团队中不断学习
缺点 / 挑战
- 格步是东南亚领先的超级应用,业务增长迅速,技术挑战大,能积累高并发系统的实战经验
- SRE岗位需要on-call处理生产事故,可能面临较高的工作压力和响应要求
- 跨国团队协作,需适应英语工作环境,沟通成本较高
角色解读
- 在SRE领域深入发展,成为基础设施架构师或云平台专家
- 转向管理路线,带领SRE团队,担任SRE经理或技术负责人
- 横向拓展至后端开发或数据工程,理解更广泛的系统生态
- 通过自动化工具(如Ansible、Jenkins)解决日常运维中的重复性手动任务
- 管理云基础设施(AWS/Azure/GCP),使用Infrastructure as Code(如Terraform)进行部署和配置
- 深度参与生产事故的诊断与修复,与多个工程团队协作解决复杂问题
- 推动运营卓越实践,包括监控、报警、容量规划,提升系统可靠性和可扩展性
- 扎实的编码能力,至少精通一种语言(Go、Python、Java等),能编写自动化脚本
- 熟悉Linux系统原理和故障排查,掌握Shell脚本
- 精通容器化技术(Docker)和编排平台(Kubernetes),最好有认证
- 经验丰富的云平台使用能力,熟悉AWS或其他云的常见服务
申请策略
- 在申请前了解格步的业务模式(特别是出行模块),在面试中展现对业务场景的理解
- 准备1-2个生产事故的复盘案例,展示你的分析思路和闭环改进能力
- 突出在上一家公司推动自动化或SRE实践的具体案例(如将部署时间缩短多少、事故率降低等)
- 详细列出掌握的编程语言和运维工具,并附上代码仓库或自动化脚本示例
- 强调云平台经验,尤其是大规模集群的管理经验,如有认证请注明
- 展示对容器化技术(Kubernetes)的深度理解,包括集群调优、故障排查等
- 如果尚未精通Go语言,建议快速学习并完成一个小项目(如编写一个简单的Kubernetes operator)
- 熟悉Grab可能使用的AWS服务(如EC2, EKS, RDS),并了解成本优化最佳实践
面试指南
- 使用STAR原则:Situation, Task, Action, Result,清晰描述背景、职责、具体行动和量化成果
- 对于故障排查,强调系统性方法:先定位影响范围,收集日志/指标,逐步缩小根因,临时止血,再根本修复
- 设计类问题,先明确需求(业务规模、可用性目标),然后从架构、冗余、可观测性、容量等角度展开
- 请描述一次你如何通过自动化解决了一个频繁出现的手动操作问题
- 当服务出现故障时,你的故障排查流程是怎样的?请举例说明
- 你如何设计一个高可用的Kubernetes集群?考虑哪些因素?
- 如何监控一个微服务架构的系统?你会关注哪些指标?
- 复习Kubernetes核心概念(Pod、Service、Ingress、Deployment、StatefulSet等)及常见故障场景
职位点评
78
综合评分
前沿技术栈、高薪、超级应用平台,但SRE岗位需应对生产压力,WLB一般。
更适合这类人
适合追求技术成长、愿意挑战高难度系统稳定性的工程师,对薪资和福利有较高期待,并能够接受一定的工作强度。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展90
工作生活65
使命价值70
薪资福利
85较高
该职位薪资水平较高(高级SRE),公司提供全面的保险、弹性福利和假期,福利完善。
薪资信号未披露(AI估算:25K-40K/月)
福利待遇Term Life Insurance、Medical Insurance、GrabFlex、Parental and Birthday leave、Love-all-Serve-all (LASA) volunteering leave、Grabber Assistance Programme、FlexWork arrangements
成长发展
90较高
职位涉及前沿云原生技术栈(Kubernetes、容器化、IaC),且有明确的指导、带领任务,成长空间大。
技术前沿前沿/新兴技术
技术栈Go、Python、Kubernetes、Docker、AWS、Ansible、Jenkins、Linux
成长机会Lead junior engineers to complete projects and help them grow、Mentor other engineers, define our technical culture
业务类型profit_center
工作生活
65中等
现场办公为主,但有FlexWork安排(差异化工时),公司文化关注福祉,但SRE岗位可能涉及on-call。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
工作生活平衡FlexWork arrangements such as differentiated hours、Grabber Assistance Programme
使命价值
70中等
格步致力于推动东南亚出行便捷化,有正向社会价值,但工程师日常工作与使命的直接关联较弱。
行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号driving Southeast Asia forward by economically empowering everyone
创新程度积极采用新技术
格步 的其他在招职位
相似职位推荐
Watch Jobs