Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/腾讯/元宝-大模型训练工程师
Tencent logo
T
腾讯 (Tencent)

职位信息

北京市
中级经验
全职员工
仅现场办公
硕士
普通员工/个人贡献者

标签

PyTorchGPU集群分布式训练大模型DeepSpeedMegatronLlm Infra
💡

核心评价

腾讯前沿AI大模型Infra岗,技术成长性极佳,薪资竞争力强,但WLB情况未知。

元宝-大模型训练工程师

🤖 AI 估测:¥35K-60K

发布时间:大约 1 个月前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型基础设施(LLM Infra)的工程师岗位,你将负责设计和优化大语言模型(LLM)的训练框架,确保其高性能、稳定和可扩展
核心工作包括与算法、平台团队协作,搭建分布式训练系统,并对训练效率、成本及稳定性进行持续优化,以推动前沿AI技术的落地

✓工作职责

负责设计和优化LLM训练框架,支撑LLM高性能训练
与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展,推动AI大模型技术的落地与创新:
负责设计和优化LLM训练框架,支撑LLM高性能训练
与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展
系统设计与优化:设计并搭建分布式训练框架,跟平台协作,支持千亿级参数大模型的训练
性能调优与成本优化:针对大模型训练任务,优化框架(如PyTorch/VERL等)的分布式策略,提升训练效率
稳定性与可靠性保障:设计高可用架构,解决训练中断、数据丢失等风险,确保长周期训练任务的稳定性
协作与落地:与算法团队紧密合作,理解模型需求,提供基础设施层面的技术建议
推动开源工具的定制化开发,适配业务场景

⭐最低要求

计算机科学、分布式系统或相关专业硕士及以上学历,2年以上大模型Infra领域经验
精通PyTorch,熟悉其底层原理与分布式扩展机制
至少熟练使用一种开源训练框架(VERL, ROLL, ms-swift等),可根据业务需求,熟练开发Megatron, Deepspeed 训练引擎 和 VLLM,sglang推理引擎
熟悉GPU集群架构,了解NVIDIA GPU(如A100/H100)的硬件特性与优化方法
掌握分布式系统原理,熟悉Kubernetes、Slurm、Ray等资源调度框架
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 区域营销经理-西安

    腾讯

    西安市 · 仅现场办公

  • 《逆战:未来》-资深3D场景设计师

    腾讯

    广州市 · 仅现场办公

  • SLG-手游研发项目经理

    腾讯

    上海市 · 仅现场办公

  • 微信小店-产品策划-商品价格

    腾讯

    广州市 · 仅现场办公

  • S2—WXG财务管理

    腾讯

    深圳市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公