编排部署: 参与构建高可用的大模型服务编排框架,支持多模型、多版本并行服务
设计并实现大模型服务的自动化部署、扩缩容和健康检查机制
开发模型版本管理和灰度发布系统,保障服务平滑升级,构建容器化部署方案,优化资源利用率和部署效率
优化推理服务启动消耗性能,实现推理服务的极致弹性能力
流量调度: 实现智能流量路由策略,支持按模型、用户、优先级等多维度调度
开发负载均衡算法,优化多GPU卡、多节点的推理请求分配
构建请求排队与调度系统,处理高并发场景下的资源争用
设计并实现分级降级策略,保障核心服务的高可用性
自动化与平台建设: 参与开发和维护自动化运维工具/平台,实现服务的自动化部署、扩缩容和故障自愈
协助进行系统容量规划,通过压力测试和混沌工程实验,主动发现系统的薄弱环节,并参与加固
编写和维护自动化脚本(如Python/Shell),简化日常运维操作