微信 -WeLM 大模型推理优化工程师(深圳、上海)
🤖 AI 估测:¥35K-60K
发布时间:大约 1 个月前
ℹ️关于这个职位
这是一个专注于大语言模型(LLM)推理性能优化的技术岗位
你将负责通过模型压缩、框架优化和架构设计,提升模型推理服务的效率、稳定性和可扩展性,支持其在多种硬件平台上的高性能部署
✓工作职责
模型推理服务优化: 负责大语言模型(LLM)推理性能的优化,包括延迟降低、吞吐量提升和资源效率优化 开发和应用模型压缩技术(包括但不限于量化、稀疏化等) 优化推理框架,支持多种硬件平台(GPU、专用AI芯片) 设计并实现高效、稳定、可扩展的推理服务架构
性能分析与调优: 建立性能基准测试框架,持续监控和评估推理性能 分析性能瓶颈,提出并实施优化方案 * 针对不同应用场景(实时对话、批量处理等)定制优化策略
技术创新与落地: 跟踪最新研究成果,将前沿优化技术应用到生产环境 与算法团队合作,参与模型架构的推理友好设计 * 编写高质量的技术文档和最佳实践指南
⭐最低要求
计算机、软件工程、人工智能等相关专业本科及以上学历
扎实的 C++/Python 基础
熟悉 PyTorch 或 JAX 等深度学习框架,了解模型训练与推理流程
有 CUDA 编程或 GPU 性能调优经验,能使用 Nsight 等工具做 profiling
了解常见 LLM 架构(如 Transformer、Attention、KV Cache)及推理优化思路
具备良好的沟通与文档能力,能独立负责模块设计与实现