云原生资源管理
配置、维护AWS服务(EC2, S3, EKS, Lambda, ECS等)和阿里云服务(ECS, OSS, ACK, Function Compute, ECI等)
编写和维护基础设施即代码脚本(Terraform, CloudFormation, ROS, Ansible等),以自动化资源生命周期
成本优化:应用预留实例、自动扩缩容和资源优化以减少云支出
平台组件构建
交付共享服务,如数据湖、元数据存储、作业调度器、日志与监控堆栈、身份访问管理
设计和实施用于代码、配置和基础设施交付的CI/CD流水线
运维与监控
构建可观测性(Prometheus/Grafana, CloudWatch, Log Service等)和告警系统
执行日常故障排除、性能调优和成本优化
跨团队协作
与工程、产品和业务团队紧密合作,将需求转化为平台解决方案
制作清晰的文档、操作手册和最佳实践指南,帮助用户快速采用平台