算法-工程协同优化:与算法研究员协同工作,分析模型在训练与推理阶段的性能瓶颈,从系统-算法协同角度提出改进方案(例如:MoE架构设计、MoE路由剪枝、动态稀疏Attention等)
主导或参与量化方案(量化感知训练QAT/训练后量化PTQ)的设计与实施,保障低比特下的模型质量
主导或参与Diffusion模型步数蒸馏工作,将业界前沿的加速技术(如一致性模型、渐进式蒸馏)落地到生产环境
跟踪并评估业界最新优化技术(如SparseAttention、SelfForcing、高效MoE推理等),将其引入到团队,并深度参与模型设计与算法迭代
参与硬件选型评估,为算法设计提供底层硬件特性与性能约束输入
2. 推理引擎与系统开发:基于vLLM / Sglang / TensorRT-LLM等框架进行深度定制与优化,开发高性能推理引擎
设计与实现动态批处理、持续批处理、流水线/张量并行等高级推理服务与调度策略
通过计算图优化、算子融合、内存布局优化及定制算子开发,极致挖掘特定硬件(NVIDIA GPU/国产AI芯片)的算力潜能