快手的大模型推理工程师（LLM Inference）薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

大模型推理工程师（LLM Inference）的工作地点在哪里？

该职位工作地点位于北京市、上海市、深圳市、杭州市。工作形式为仅现场办公。

快手的大模型推理工程师（LLM Inference）有什么任职要求？

该职位要求本科学历及中级经验工作经验。

大模型推理工程师（LLM Inference）

🤖 AI 估测：¥35K-60K

发布时间：22 天前

立即应聘

ℹ️关于这个职位

该职位是快手公司的大模型推理工程师，专注于LLM推理引擎的研发与优化

你将负责提升推理系统的吞吐量、降低延迟与成本，并参与KV Cache管理、算子优化、量化加速等前沿技术落地，为公司核心大模型场景提供稳定高效的推理服务

✓工作职责

负责大模型推理引擎的研发与优化，提升吞吐、降低时延与推理成本

负责推理核心模块建设，包括 KV Cache 管理、Batching/Scheduling、Prefill/Decode Pipeline、PD 分离等

负责推理性能优化，面向 TTFT/TPOT/TPS/RPM 等指标进行系统级优化（算子、显存、通信、调度）

负责推理侧算子研发与优化，包括算子融合、Kernel 优化、图优化、推理编译优化，以及 INT8/FP8/FP4 等量化推理加速方案落地

负责推理稳定性与高可用建设，包括故障恢复、限流降级、容量评估、自动化诊断与 SLA 保障

推动推理平台化能力建设，包括模型发布流程、灰度、监控、日志、Tracing 与自动化运维工具链

⭐最低要求

本科及以上学历，计算机/软件相关专业

熟练掌握 C++/Python，具备高性能系统研发能力

熟悉 Transformer 推理原理，理解 Attention、KV Cache、采样策略等机制

熟悉主流推理框架或推理引擎（TensorRT/Sglang/vLLM 等）

熟悉 GPU/NPU 性能调优与 profiling，能定位性能瓶颈并推动优化落地

熟悉推理侧算力优化技术，包括算子融合、图优化、Triton/CUDA Kernel、推理量化与推理编译加速等

熟悉 Linux、网络与容器化（Docker/K8s），具备线上系统运维与稳定性经验优先

👍优先资格

加分项：

有大规模在线推理落地经验，熟悉高并发、长上下文、多租户调度等场景

熟悉 KV Cache 压缩/复用、请求迁移恢复、跨实例调度等关键能力

有通信优化经验（NCCL/HCCL/RDMA）

有推理量化落地经验（如GPTQ/AWQ 等）或推理加速相关经验

有国产卡适配经验（昇腾/寒武纪/沐曦等）

核心评价

大模型推理工程师（LLM Inference）

ℹ️关于这个职位

✓工作职责

⭐最低要求

👍优先资格

快手的其他在招职位

相似职位推荐

大模型推理工程师（LLM Inference）

ℹ️关于这个职位

✓工作职责

⭐最低要求

👍优先资格

快手 的其他在招职位

相似职位推荐

快手的其他在招职位