大模型推理研发专家-基础设施
🤖 AI 估测:¥45K-80K
发布时间:大约 1 个月前
ℹ️关于这个职位
该职位是字节跳动在杭州招聘的大模型推理研发专家,专注于基础设施方向
你将负责构建和优化高性能的大语言模型(LLM)推理服务引擎与平台,进行全链路性能分析与瓶颈定位,并探索引入编译优化、模型量化等前瞻性技术架构
核心目标是最大化推理系统的吞吐、降低时延,实现成本与性能的最佳平衡
✓工作职责
负责构建性能领先的LLM推理服务引擎与平台,大模型推理性能优化,参与Servingkit的研发等开发工作
负责LLM推理服务的全链路性能分析、瓶颈定位与优化,能够深入理解大模型推理服务,通过极致的系统优化,在满足SLO/SLA要求的前提下,最大化推理系统的吞吐、降低时延,并实现成本与性能的最佳平衡
负责大模型推理前瞻性技术架构的调研和引入,技术方案不限于编译优化、模型量化等
⭐最低要求
熟练掌握Linux环境下的C/C++与Python语言,有大规模机器学习系统相关经验
熟悉至少一种大模型训练/推理框架,包括但不限于:推理(vLLM、TensorRT-LLM、SGLang等)、机器学习框架(Tensorflow/PyTorch等)
具备定位和解决复杂系统性能瓶颈的丰富经验,善于运用各类性能分析工具(Perf、eBPF、Nsight等)
优秀的跨团队沟通与协作能力,独立负责并推进大型技术项目
👍优先资格
在主流大模型推理框架(SGlang、vLLM、TensorRT-LLM 等)有深入使用或二次开发经验者优先
理解GPU硬件架构,理解GPU软件栈(CUDA,cuDNN),具备GPU性能分析的经验
对InfiniBand/RDMA网络编程与性能调优有实践经验