AI院-推理Infra工程师(量化算法研究/推理框架优化/GPU优化)
🤖 AI 估测:¥35K-70K
发布时间:19 天前
ℹ️关于这个职位
这是一个专注于AI模型推理基础设施的工程师职位,包含量化算法研究、推理框架优化和GPU优化三个方向
你将通过前沿的模型量化、压缩与推理加速技术,显著降低大语言模型及多模态模型的存储与计算成本,并负责高性能算子开发与优化,支撑AI模型在GPU上的高效运行,推动LLM的大规模部署
✓工作职责
【方向一】量化算法研究员:
研发及改进 PTQ(训练后量化)、QAT(量化感知训练)、混合精度量化等核心算法,针对LLM/VLM(大语言模型/视觉语言模型)设计定制化量化方案,持续优化模型精度与推理效率的平衡
探索并实践低比特量化(如INT8/INT4/FP8/FP4)、权重稀疏化、知识蒸馏等协同压缩技术,提升压缩率同时控制精度损失
开发及优化量化工具链,完成对 GLM 系列模型的转换、量化校准及部署集成
跟踪学术界与工业界前沿量化技术,通过论文复现、实验对比推动技术迭代
【方向二】推理框架优化工程师:
高性能算子开发与优化:负责AI模型(尤其是大语言模型及多模态模型)在GPU上的核心算子(Kernel)的设计、开发与极致性能优化,支撑训练和推理场景的高效运行
性能分析与调优:深入分析GPU应用程序的性能瓶颈,通过优化内存访问模式、线程调度、执行效率等手段,显著提升计算密集型任务的吞吐量和降低延迟
技术集成与应用:研究并应用业界前沿的优化技术(如模型量化QAT/PTQ、算子融合、动态形状支持、FlashAttention等),并将其集成至推理/训练引擎
【方向三】GPU优化工程师:
高性能算子开发与优化:负责AI模型(尤其是大语言模型及多模态模型)在GPU上的核心算子(Kernel)的设计、开发与极致性能优化,支撑训练和推理场景的高效运行
性能分析与调优:深入分析GPU应用程序的性能瓶颈,通过优化内存访问模式、线程调度、执行效率、多流并行协同等手段,显著提升计算密集型任务的吞吐量和降低延迟
技术选型:对 GPU 领域相关的 DSL/编译器(例如 triton/cuteDSL/tilelang)等进行尝试和了解,确定团队内的 DSL/编译器的技术选型,为未来的迭代做好技术储备
⭐最低要求
【方向一】量化算法研究员:
计算机科学、电子工程、数学等相关专业硕士及以上学历,3 年以上模型量化或推理加速经验
或优秀本科生具备扎实项目履历
深入理解 Transformer 架构及 LLM 推理流程,精通 Python,熟悉常见的开源 LLM 推理框架(sglang/vllm/trtllm 等)
掌握量化原理(校准策略、量化粒度、误差分析)及主流算法(如GPTQ、AWQ)
具有 CUDA/Triton 编程经验,能自主实现高性能算子或优化内核计算加分
【方向二】推理框架优化工程师:
编程能力:具备3年及以上GPU编程与高性能计算优化经验,深入理解GPU架构、并行计算原理、计算机体系结构,具备高性能计算内核的开发与优化经验
精通C/C++,具备扎实的编程基础、良好的编程风格和丰富的调试经验
熟练掌握Python
熟悉Linux开发环境
性能优化经验:能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具,有实际的性能优化案例和成果,能独立定位和解决复杂的性能问题
算法基础:熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法,了解深度学习常见算子的计算方式
【方向三】GPU优化工程师:
编程能力:具备3年及以上GPU编程与高性能计算优化经验,深入理解GPU架构、并行计算原理、计算机体系结构,具备高性能计算内核的开发与优化经验
精通C/C++,具备扎实的编程基础、良好的编程风格和丰富的调试经验
熟练掌握Python
熟悉Linux开发环境
性能优化经验:能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具,有实际的性能优化案例和成果,能独立定位和解决复杂的性能问题
算法基础:熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法,了解深度学习常见算子的计算方式