为Databricks、Snowflake、Spark、Trino、联邦查询引擎和非结构化数据计算引擎提供、运营和生命周期管理平台计算和存储(容量规划、升级、补丁和环境标准化)
设计和维护平台网络基础(VPC/VNet模式、路由、私有连接、DNS、防火墙),以实现生产者、消费者和托管服务之间的安全访问
与企业安全团队合作,实施和运营安全与身份管理能力(身份验证/授权集成、基于角色的访问控制、密钥管理模式和政策护栏)
构建和维护CI/CD流水线、基础设施即代码和自动化“黄金路径”,以实现可重复的配置、部署和发布管理
优化集群/工作负载性能、自动扩缩容和成本效率
建立FinOps实践(成本分摊/成本展示、标签标准和成本控制)
运营和加固目录与存储层(Unity Catalog、Polaris、基于Iceberg的存储),包括访问模式、可靠性和跨引擎互操作性
构建和运营可观测性服务(监控、告警、审计日志记录、仪表板),并为平台组件定义与SLO/SLA一致的操作覆盖范围
负责平台健康报告和运营就绪度:定义、跟踪和发布SLA/SLO指标(可用性、延迟、数据/计算新鲜度(如适用)),建立健康检查,并根据事件趋势推动持续改进
与架构治理部门合作,确保平台设计和实施满足安全和合规要求(控制对齐、证据生成和定期审查)
通过跨引擎标准化配置、连接性和操作实践,实现多引擎互操作性和联邦
与数据工程团队合作,进行数据管道和工作负载的入职、部署就绪度、可靠性改进和生产故障排除
定义平台护栏和操作手册(备份/恢复、灾难恢复模式、变更管理),并参与基础设施服务的待命/事件响应