参与大模型推理系统的研发与建设,协助支撑大模型在线服务与离线推理业务的稳定运行,参与模型部署、推理链路优化及推理服务工程化能力建设
参与大模型推理性能优化相关工作,协助开展模型压缩、量化、算子优化、KV Cache 管理、批处理调度等能力开发与效果评测,支持不同模型规格和硬件环境下的推理性能验证
参与推理引擎及服务框架相关模块的研发与优化,协助推进系统在高可用、稳定性、性能、可扩展性等方向的能力建设,参与推理服务、任务调度、资源管理、缓存机制或接口链路等相关模块的开发与问题排查
参与大模型推理业务的工程化落地,协助优化首 Token 时延、吞吐、显存利用率与服务稳定性,支持多场景下的推理部署、性能调优与效果保障工作
参与多卡、多机推理场景下的系统研发与稳定性建设,协助分析和处理生产环境中的性能抖动、显存瓶颈、调度异常、延迟波动等问题
参与推理平台后端能力建设,支持模型服务管理、性能监控、容量评估与成本优化等相关能力建设,参与监控、日志、Tracing 等可观测体系的开发与维护,推动常见问题定位与处理流程的自动化
参与推理效果与性能联合优化工作,协助从模型结构、推理框架、服务架构等多个层面分析影响推理效率与结果质量的关键因素,推动优化方案落地