快手的大模型训推优化实习岗薪资是多少？

该职位薪资范围为 12k–20k（人民币/月）。

大模型训推优化实习岗的工作地点在哪里？

该职位工作地点位于北京市、深圳市、杭州市。工作形式为仅现场办公。

该职位要求硕士学历及中级经验工作经验。

🤖 AI 估测：¥12K-20K

发布时间：21 天前

这是一个专注于大模型训练与推理优化的实习岗位

你将负责开发和优化文生图、文生视频等自研大模型的核心算子，利用CUDA、OpenAI Triton等工具进行高性能计算加速

同时，你需要优化模型量化、显存管理及分布式通信策略，以提升模型部署和训练效率，并协同算法团队完成模型轻量化落地

负责文生图、文生视频等自研大模型核心算子的自研开发与性能优化，基于CUDA、OpenAI Triton等工具实现高性能计算加速

针对AI Infra大模型推理与训练场景，优化混合精度量化策略，设计低比特计算、稀疏化压缩等方案，提升模型部署效率

深入GPU/Tensor Core硬件架构，优化显存管理、计算图调度及分布式通信，提升模型训练吞吐与资源利用率

搭建端到端模型推理流水线，探索多模态生成任务下的算子融合、动态编译等创新优化手段

协同算法团队完成模型轻量化落地，提供量化感知训练（QAT）、模型剪枝等技术支持

计算机科学、电子工程或相关专业硕士及以上学历，2年以上CUDA/GPU高性能计算开发经验

精通PyTorch/Sglang/vLLM等框架底层实现，熟悉大模型部署与推理优化原理

熟练掌握OpenAI Triton编程，具备算子内核开发经验（如矩阵乘、Attention、Conv等模块优化）

熟悉模型量化技术（INT8/FP8/INT4混合精度）优先

对GPU硬件架构（如Hopper/Ada）有深入理解，能结合硬件特性设计高性能算子

加分项：

在CVPR/NeurIPS等顶会发表过模型压缩、加速相关论文或开源项目贡献者

有文生视频、3D生成等长序列生成模型的并行化优化经验

熟悉分布式训练框架（DeepSpeed/Megatron）或AI芯片（如NPU）开发经验

具备多模态大模型（如Diffusion Model）端到端部署落地经验

大模型训推优化实习岗

🤖 AI 估测：¥12K-20K

发布时间：21 天前