Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小红书/大模型 Infra 全栈研发工程师/专家
Xiaohongshu logo
X
小红书 (Xiaohongshu)

职位信息

北京市 / 上海市 / 浙江省-杭州市
专家级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

PyTorchCUDA模型压缩分布式训练异构计算大模型高性能推理Ai Infra
💡

核心评价

技术顶尖、成长空间巨大的大厂AI Infra专家岗,适合追求技术深度的极客。

大模型 Infra 全栈研发工程师/专家

🤖 AI 估测:¥45K-90K

发布时间:3 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型基础设施研发的高级技术岗位
你将负责构建和优化从模型训练、推理服务到性能加速的端到端AI工程系统,涉及分布式训练引擎、高性能推理框架、模型压缩算法以及异构计算优化
该职位要求深入理解AI框架底层,并能解决大规模集群下的工程难题,是AI Infra领域的核心研发角色

✓工作职责

端到端训练引擎建设: 参与开源大模型RL训练引擎Relax研发,突破 RLHF/DPO/GRPO/RLVR 等对齐技术的工程瓶颈,基于 Megatron/veRL 等框架优化分布式并行与动态协同,解决千卡规模下的显存与通信痛点
推理框架与MaaS系统建设: 研发面向 LLM/MLLM/DiT 的高性能推理服务框架,主导 KV Router、PD 分离及请求动态调度能力建设,基于 vLLM、SGLang 等建设万亿级 Token 并行推理与服务高可用架构
大模型加速算法落地: 探索并落地大语言模型及多模态模型的低比特量化(W8A8/W4A8等)、投机采样、CoT压缩、蒸馏、剪枝等算法,支持各业务大幅降低推理成本
异构计算与底层优化: 主导基于国产异构计算芯片(昇腾 NPU 等)及主流 GPU 的软硬协同优化,负责 AI 框架适配、模型移植、关键算子开发与性能优化,实现高吞吐与低延迟的推理系统
探索 Agentic AI Infra 研发范式: 将 AI 工具深度融入 Infra 开发链路,熟练运用 AI 编程工具进行架构探索、复杂 Debug 与重构,大幅提升 AI Infra 全栈工程的迭代效率

⭐最低要求

AI 工程范式:熟练使用 Claude Code、Cursor、Codex 等工具,具备成熟的 Agentic Engineering 实践技巧,能够基于 AI 工具进行复杂的系统级 Debug、代码重构及单测生成
语言与系统基础:精通 C++ 与 Python,熟悉 Rust 或 Golang 开发,具备扎实的计算机体系结构、数据结构与操作系统底层知识,有深度学习相关框架的理解认知
框架实战能力:深入理解并具备修改 PyTorch 等主流深度学习框架源码的能力,对前沿模型架构有敏锐嗅觉,熟悉 Transformer、ViT,并对 Mamba、Linear Attention 等新型架构的计算特性有了解
需在以下至少一个方向有实战经验:
(1)训练: 掌握 RLHF/DPO 全流程,精通 3D 并行(TP/PP/DP)、序列并行及 ZeRO 策略,熟悉大规模集群 GPU 调度容错机制
(2)推理: 深入理解 vLLM、SGLang 等推理框架底层逻辑,精通 KV Cache 管理、PagedAttention、Chunked Prefill 等技术
(3)压缩: 精通 SmoothQuant、AWQ、GPTQ 等量化算法,有大模型或多模态模型压缩落地的成功经验
底层性能优化:具备面向大模型性能优化的底层认知,覆盖芯片架构、通信机制与 Kernel 性能调优,并能在大规模集群场景下解决关键瓶颈:
(1)熟悉底层硬件架构(如 Nvidia GPU 或昇腾 NPU 的 Tensor Core、内存层级体系)与基础软件栈(CUDA / ROCm / CANN)
(2)掌握 NCCL / RDMA / IB / RoCE 等高性能网络通信机制,能解决千卡规模下的跨节点通信瓶颈
(3)具备高性能 CUDA Kernel 相关研发经验,能熟练使用 Nsight Systems/Compute 等工具进行 Profiling 与算子优化

👍优先资格

参与过主流开源大模型框架(如Megatron、veRL 、vLLM、SGLang、DeepSpeed等)的代码贡献与架构设计
在大规模集群建设中,成功解决过跨机房通信、动态容错训练、或国产化异构芯片大规模业务替代等生产级难题
具备较高的代码品味和工程洁癖,熟练配置和使用高效终端开发环境(如 Vim/Neovim、Ghostty、iTerm2 等)
在大模型系统级顶会(如 SOSP, OSDI, MLSys 等)发表过高水平学术论文
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • AI产品运营实习生

    小红书

    上海市 · 仅现场办公

  • 点点AI运营实习生 · AI图像创作

    小红书

    上海市 · 仅现场办公

  • AI Agent算法工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】OLAP研发工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】Ray研发工程师

    小红书

    北京市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公