精通主流大模型训练框架(DeepSpeed、Megatron等)和训练流程,熟悉分布式训练的底层通信机制、内存管理和优化策略、并行调度逻辑,有训练调参和性能评测经验
熟悉主流大模型推理框架(vLLM、SGLang等),具备在推理上进行通信优化、并行计算、存储优化等调优能力
熟悉主流AI芯片(GPU H100、Ascent)架构特性和相关profiling工具,有CUDA编程、编译分析、运行时分析等经验
熟悉大规模训推的可观测建设、诊断分析、故障解决,有稳定性治理经验优先
有良好的沟通、解决问题能力,能主动探索业界前沿技术