AI 工程范式:熟练使用 Claude Code、Cursor、Codex 等工具,具备成熟的 Agentic Engineering 实践技巧,能够基于 AI 工具进行复杂的系统级 Debug、代码重构及单测生成
语言与系统基础:精通 C++ 与 Python,熟悉 Rust 或 Golang 开发,具备扎实的计算机体系结构、数据结构与操作系统底层知识,有深度学习相关框架的理解认知
框架实战能力:深入理解并具备修改 PyTorch 等主流深度学习框架源码的能力,对前沿模型架构有敏锐嗅觉,熟悉 Transformer、ViT,并对 Mamba、Linear Attention 等新型架构的计算特性有了解
需在以下至少一个方向有实战经验:
(1)训练: 掌握 RLHF/DPO 全流程,精通 3D 并行(TP/PP/DP)、序列并行及 ZeRO 策略,熟悉大规模集群 GPU 调度容错机制
(2)推理: 深入理解 vLLM、SGLang 等推理框架底层逻辑,精通 KV Cache 管理、PagedAttention、Chunked Prefill 等技术
(3)压缩: 精通 SmoothQuant、AWQ、GPTQ 等量化算法,有大模型或多模态模型压缩落地的成功经验
底层性能优化:具备面向大模型性能优化的底层认知,覆盖芯片架构、通信机制与 Kernel 性能调优,并能在大规模集群场景下解决关键瓶颈:
(1)熟悉底层硬件架构(如 Nvidia GPU 或昇腾 NPU 的 Tensor Core、内存层级体系)与基础软件栈(CUDA / ROCm / CANN)
(2)掌握 NCCL / RDMA / IB / RoCE 等高性能网络通信机制,能解决千卡规模下的跨节点通信瓶颈
(3)具备高性能 CUDA Kernel 相关研发经验,能熟练使用 Nsight Systems/Compute 等工具进行 Profiling 与算子优化