职位简介:负责设计与构建私有云环境下,支撑大模型训练与推理的智能运维(AIOps)平台
主导构建统一的AI基础设施,整合传统AIOps能力与大型语言模型(LLM),打造企业级智能运维产品
平台架构设计: 主导设计支持大模型(LLM)服务与传统AIOps能力融合的技术架构,涵盖高性能计算、分布式训练、推理服务网格等
AI基础设施构建: 构建高可用、可扩展的AI Infra,支撑海量运维数据的处理、大模型的微调(Fine-tuning)及高效推理服务
LLMOps体系建设: 设计和实现涵盖模型开发、评估、部署、服务的自动化流水线,重点保障大模型在生产环境的稳定性与性能
私有云集成与优化: 主导平台与私有云底层(Kubernetes等)的深度集成,实现GPU等异构资源的精细调度与成本管控