负责大模型推理引擎的研发与优化,提升吞吐、降低时延与推理成本
负责推理核心模块建设,包括 KV Cache 管理、Batching/Scheduling、Prefill/Decode Pipeline、PD 分离等
负责推理性能优化,面向 TTFT/TPOT/TPS/RPM 等指标进行系统级优化(算子、显存、通信、调度)
负责推理侧算子研发与优化,包括算子融合、Kernel 优化、图优化、推理编译优化,以及 INT8/FP8/FP4 等量化推理加速方案落地
负责推理稳定性与高可用建设,包括故障恢复、限流降级、容量评估、自动化诊断与 SLA 保障
推动推理平台化能力建设,包括模型发布流程、灰度、监控、日志、Tracing 与自动化运维工具链