Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/腾讯/大模型推理引擎研发工程师
Tencent logo
T
腾讯 (Tencent)

职位信息

上海市
高级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

分布式系统GPU优化CUDA性能调优模型量化大模型推理
💡

核心评价

腾讯大厂核心AI基建岗,技术前沿成长快,薪资竞争力强,但WLB信息不明。

大模型推理引擎研发工程师

🤖 AI 估测:¥35K-70K

发布时间:大约 1 个月前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型推理引擎研发的高级技术岗位
你将负责研发和优化大模型推理引擎,对接客户业务以分析并解决性能瓶颈,同时协助内部集群部署,确保技术性能在行业内保持领先
此外,还需要推广公有云服务,引导客户上云以创造技术优势

✓工作职责

研发及优化大模型推理引擎
推广公有云客户,创造技术优势引导客户上云
对接客户业务,分析性能瓶颈,定位、解决问题
协助业务内部集群部署,持续迭代性能,保持业内领先优势

⭐最低要求

熟悉主流大模型推理框架,如vllm,lightllm,tensorrt-llm,lmdeploy,faster transformer等
熟悉CUDA,triton(https://openai.com/research/triton)、cutlass至少一种以上,精通者优先
熟悉大模型结构,了解大模型性能瓶颈,熟练分析单机及分布式情况下不同性能热点和优化手段
熟悉大模型量化算法,int8/fp8/混合精度量化,了解模型蒸馏、稀疏化、剪裁技术
熟悉推理服务框架,具备服务部署经验者优先,了解k8s,容器化服务,Triton Inference Server (https://github.com/triton-inference-server/server)实现原理者优先
熟悉分布式模型部署及并行策略,如模型并行、流水线并行等,了解NVLINK、GPU通信者优先
熟练掌握Python及C++
了解GPU体系结构者优先

👍优先资格

精通CUDA,triton,cutlass
具备服务部署经验
了解k8s,容器化服务,Triton Inference Server实现原理
了解NVLINK、GPU通信
了解GPU体系结构
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

腾讯 的其他在招职位

  • 区域营销经理-西安

    腾讯

    西安市 · 仅现场办公

  • 《逆战:未来》-资深3D场景设计师

    腾讯

    广州市 · 仅现场办公

  • SLG-手游研发项目经理

    腾讯

    上海市 · 仅现场办公

  • 微信小店-产品策划-商品价格

    腾讯

    广州市 · 仅现场办公

  • S2—WXG财务管理

    腾讯

    深圳市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公