Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/月之暗面/高性能计算工程师
Moonshot AI logo
M
月之暗面 (Moonshot AI)

职位信息

上海市
中级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

深度学习高性能计算GPU优化CUDA并行算法分布式训练
💡

核心评价

技术前沿的AI底层优化岗,成长空间巨大,薪资预期良好,但WLB信息不明。

高性能计算工程师

🤖 AI 估测:¥35K-60K

发布时间:5 天前

立即应聘

ℹ️关于这个职位

该职位主要负责大规模深度学习训练与推理框架的底层性能优化工作
你将深入GPU体系结构,进行CUDA内核的定制开发与前沿技术探索,并与算法团队紧密合作,实现模型结构与底层实现的协同优化,是连接算法创新与硬件效能的关键技术角色

✓工作职责

负责大规模深度学习训练/推理框架中 CUDA 内核的性能优化与定制开发
开展与 GPU 体系结构相关的前沿探索性工作,包括新指令集、算子融合、异构计算和硬件趋势研究
与算法研究员合作,推动模型结构与底层实现的协同优化

⭐最低要求

计算机、电子工程或相关专业本科及以上学历,或3年以上相关工作经验
精通 CUDA 编程模型,熟悉 Tensor Core、WGMMA、Shared Memory 等底层细节
具备优秀的代码实现能力(C++/CUDA/Triton/CUTLASS),良好的工程化与调试能力
具备良好的沟通与协作能力,能够与算法研究员、硬件工程师及跨团队成员高效配合

👍优先资格

熟悉并行算法设计与优化,有大规模矩阵乘 (GEMM)、注意力 (FlashAttention/MLA)、MoE、稀疏算子优化经验者优先
熟悉分布式训练/推理框架(Megatron、vLLM、SGLang、TensorRT-LLM 等)者优先
参与过开源社区(NCCL、CUTLASS、Triton、TileLang、Megatron-LM、vLLM 等)贡献者优先
有 HPC 或超大规模 AI 模型训练经验者优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

月之暗面 的其他在招职位

  • 资深系统开发工程师

    月之暗面

    北京市 · 仅现场办公

  • Infra 系统工程师 - 训练平台

    月之暗面

    北京市 · 仅现场办公

  • 资深后端工程师-商业化

    月之暗面

    北京市 · 仅现场办公

  • Agent Engineer / Agent 工程师

    月之暗面

    北京市 · 仅现场办公

  • API解决方案架构师

    月之暗面

    上海市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公