Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/腾讯/混元大模型Infra稳定性研发工程师(深圳/北京/上海/杭州)
Tencent logo
T
腾讯 (Tencent)

职位信息

广东省-深圳市 / 北京市 / 上海市 / 浙江省-杭州市
中级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

GPUPyTorchRDMA故障排查稳定性大模型Infra集合通信
💡

核心评价

腾讯大厂核心岗,专注前沿AI Infra稳定性,技术成长性极佳,薪资竞争力强,工作地点固定。

混元大模型Infra稳定性研发工程师(深圳/北京/上海/杭州)

🤖 AI 估测:¥35K-60K

发布时间:大约 1 个月前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型基础设施稳定性的研发工程师岗位
你将负责混元大模型相关链路的稳定性治理、故障排查与平台化能力建设,确保大规模AI训练任务的高效、稳定运行
工作涉及与框架、算力、网络等多个模块的联动,是保障前沿AI技术落地的关键角色

✓工作职责

负责混元infra相关链路稳定性治理、规范建设
联动框架、算力、网络各模块完善关键metric采集
系统性构建故障节点、慢节点检测平台化能力
联合混元一站式建设统一的任务自动续训能力
响应并解决日常混元大模型任务的故障问题

⭐最低要求

熟悉Megatron/PyTorch等框架的基本的训练流程
掌握GPU/NPU等工作原理、常见操作命令
熟悉RDMA网络相关硬件特性、熟悉all2all、allGather等集合通信原理
了解docker容器、存储挂载等基础知识
良好沟通、团队协作能力

👍优先资格

有大规模任务系统故障排查、分析解决经验者优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 区域营销经理-西安

    腾讯

    西安市 · 仅现场办公

  • 《逆战:未来》-资深3D场景设计师

    腾讯

    广州市 · 仅现场办公

  • SLG-手游研发项目经理

    腾讯

    上海市 · 仅现场办公

  • 微信小店-产品策划-商品价格

    腾讯

    广州市 · 仅现场办公

  • S2—WXG财务管理

    腾讯

    深圳市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公