参与 AI Infra 核心平台的研发与建设,协助支撑大模型训练与推理业务的稳定运行,参与 GPU、RDMA、高速网络等算力资源在云原生体系中的管理与调度能力开发
参与 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,协助建设标准化算力验收与持续评测体系,支持不同硬件规格在集群环境下的可用性验证
参与 Kubernetes 容器平台相关模块的研发与优化,协助推进平台在高可用、稳定性、安全性、性能、可扩展性等方向的能力建设,参与调度、资源隔离、设备插件、网络或存储等相关模块的开发与问题排查
参与大模型推理与训练业务的平台侧工程化落地,协助优化资源利用率、调度效率与平台稳定性,支持推理与训练场景下的资源管理与性能优化工作
参与多卡、多机 GPU 集群场景下的平台研发与稳定性建设,协助分析和处理生产环境中的性能抖动、资源碎片化、调度异常等问题
参与运维与运营平台后端研发,支持算力运营、性能监控、容量管理与成本治理等相关能力建设,参与监控、日志、Tracing 等可观测体系的开发与维护,推动常见问题定位与处理流程的自动化