有以下一项或多项技术能力者优先: 1) 有GPU、NPU、ARM、或其他AI芯片等平台上AI落地实践经验
2)熟悉并行计算和分布式计算技术,有 MPI、OpenMP、CUDA 等编程经验,或有PTX、汇编优化方法
3) 熟悉模型训练框架如Deepspeed、Megatron,pytorch等
4) 熟悉TensorRT-LLM、vLLM、sglang等任一推理框架,有实际操作经验
5) 熟悉多层次的软件优化经验,如模型剪枝/量化/压缩、分布式优化(PD分离)、存储优化、kv-cache优化、动态Batching、IO优化、算子/指令集优化等