腾讯的微信 -WeLM 算子开发工程师（深圳、上海）薪资是多少？

该职位薪资范围为 35k–70k（人民币/月）。

微信 -WeLM 算子开发工程师（深圳、上海）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求本科学历及高级经验工作经验。

🤖 AI 估测：¥35K-70K

发布时间：大约 1 个月前

这是一个专注于大模型底层高性能算子开发的工程师岗位

你将负责针对NVIDIA最新GPU架构（如Hopper/Blackwell）进行核心算子的CUDA编程、深度优化与性能分析，并参与构建腾讯WeLM模型的高性能训练算子库

工作涉及前沿的GPU编程技术、性能剖析工具以及与大模型训练框架的深度集成

针对 Hopper / Blackwell 架构进行 Kernel 开发与优化

基于 CUDA / PTX / Triton 设计和实现大模型训练中的核心算子 Kernel：

结合 Hopper / Blackwell 特性，在线程组织、访存路径、寄存器/共享内存使用、Tensor Core 调度等层面做深度优化

构建高性能训练算子库

针对 WeLM 模型结构进行算子设计与融合，降低 Kernel 调度和访存开销

参与 WeLM 内部高性能算子库的建设，与 PyTorch 及 cuBLAS、cuDNN、CUTLASS 等库进行集成或替换

Kernel 性能分析与瓶颈优化

使用 Nsight Compute / Nsight Systems / nvprof 等工具做 Kernel 级性能剖析

分析 SM 利用率、Tensor Core 利用率、访存带宽、指令吞吐、分支发散等指标，持续迭代 Kernel 实现

为上层训练框架提供关于 batch 设计、sequence length、并行策略等与性能相关的技术建议

前沿技术跟踪与工程落地

跟踪 GPU 新架构、新指令、新库（如最新 CUTLASS、NCCL 等）

学习业界优秀实现（Megatron-LM、DeepSpeed、Deepseek 等）的 Kernel/算子方案，并在 WeLM 体系内做工程化落地

计算机、电子工程、数学、物理等相关专业，本科及以上学历（硕士/博士优先）

扎实的C/C++ 编程能力，良好的代码风格和工程习惯

熟练使用CUDA 进行 GPU 编程，有亲自写过或优化过 Kernel 的实战经验：

理解 warp/block/grid、共享内存、寄存器分配、协同访存等基本概念

能根据 profiler 结果定位性能瓶颈，并有针对性地改进 Kernel

对GPU 架构与并行计算有较深入理解，熟悉以下至少一项：

CUDA 核心库（cuBLAS / cuDNN 等）或 CUTLASS

Triton 等高性能算子开发框架

Nsight Compute / Nsight Systems / nvprof 等性能分析工具

对数值计算 / 深度学习基础算子有一定理解，如矩阵乘法、归一化、激活函数、Embedding 等

硕士/博士学历优先

微信 -WeLM 算子开发工程师（深圳、上海）

🤖 AI 估测：¥35K-70K

发布时间：大约 1 个月前