协同设计与优化:
深入理解大模型算法(架构、训练/推理技术),评估其工程可行性、性能瓶颈与成本
主导设计下一代训练/推理框架或核心组件,确保原生支持高效算法实现(如高效Attention、通信优化)
系统性解决训练/推理工作负载的性能瓶颈(计算、通信、存储)
高性能系统实现:
设计并实现高性能核心(如定制Kernel)、优化通信与数据流水线
分布式架构:
设计构建大规模分布式训练系统(DeepSpeed/Megatron-LM/FSDP)
设计构建高并发、低延迟的大模型推理服务平台
前瞻探索与协作:
跟踪领域前沿,探索验证新技术(新硬件、非Transformer架构等)
高效沟通,跨团队(算法、工程、平台)协作推动方案落地