熟悉主流的大模型推理框架及其加速技术,如vLLM、SGlang、TensorRT-LLM等,熟练分析单机及分布式情况下的性能热点和优化手段
熟悉业界主流开源模型结构,例如DeepSeek、Qwen、Wan、Flux等
熟悉主流的训练框架和分布式框架,包括Megatron-LM、DeepSpeed、verL、LLama-factory等,熟悉常见的分布式并行策略,了解显存、通信与计算相关性能瓶颈和优化手段
工程经验上具备大型项目架构设计能力,能独立解决性能调优、多节点调试等复杂问题
具备良好的沟通能力与团队协作精神,有强烈的技术热情者优先
上述训练、推理至少要求熟悉一个场景
两者都熟悉者优化