负责大规模预训练模型(如GPT、BERT、LLM等)的推理系统设计、优化与落地,实现模型在多平台(GPU、CPU、NPU等)上的高效推理
针对模型推理场景,深入分析性能瓶颈,主导模型量化、剪枝、蒸馏、结构重参数化等前沿推理加速技术的研究与应用
参与大模型推理框架(如TensorRT、ONNX Runtime、OpenVINO、MindSpore等)的开发与优化,提升推理效率与系统稳定性
跟踪业界和学术界大模型推理相关前沿技术,推动创新方案在业务中的应用落地
与算法、系统、硬件等团队紧密协作,制定端到端的推理优化方案,支撑业务高并发、低延迟的需求
负责推理平台的技术难点攻关,解决模型部署、兼容性、资源调度等实际问题