字节跳动的推理性能优化专家-计算薪资是多少？

该职位薪资范围为 50k–90k（人民币/月）。

推理性能优化专家-计算的工作地点在哪里？

该职位工作地点位于西安市。工作形式为仅现场办公。

该职位要求学历未注明学历及专家级经验工作经验。

🤖 AI 估测：¥50K-90K

发布时间：大约 1 个月前

这是一个专注于AI模型推理性能优化的专家级技术岗位

你将负责LLM与多模态模型的推理优化，包括量化、稀疏化等前沿技术，并深入优化分布式通信与核心计算算子，以提升大规模AI集群的端到端推理效率

该职位要求深厚的AI系统底层优化经验，是连接算法模型与硬件算力的关键角色

模型优化：主导LLM与多模态模型推理优化，落地INT4/INT8/FP8混合精度量化、稀疏化、Sparse Attention等稀疏注意力机制优化技术，精准平衡推理性能、模型精度与资源开销

构建标准化模型性能基准体系与全流程自动化调优和测试管线，支撑模型规模化高效部署

通信优化：聚焦AI框架跨节点/集群通信性能攻坚，深度优化RDMA/TCP协议栈传输机制、低延迟序列化方案与通信拓扑设计

适配国产高速网卡、智能交换机等硬件，通过流量调度、通信分组策略优化，突破分布式场景下的通信瓶颈，保障大规模集群通信稳定性与效率

计算优化：深耕Transformer核心算子、卷积、矩阵乘加（GEMM）等AI核心算子优化，基于Triton/MLIR编译框架实现算子融合、向量化执行与编译优化

适配GPU CUDA/ROCm及国产AI芯片（昇腾/寒武纪）专用指令集，最大化硬件算力利用率与算子计算效率

全链路协同优化：迭代框架层核心特性，落地投机采样（Speculative Decoding）算法优化，优化专家路由策略与负载均衡机制，设计计算-通信精细化调度与重叠（Overlap）等方案，提升MOE架构模型推理吞吐量，识别模型部署全链路关键瓶颈，实现集群级端到端推理效率跃迁

具备5年以上AI领域性能优化实战经验，主导或核心参与过工业级分布式推理框架的架构设计与核心模块开发，拥有可验证的量化成果

深度掌握C++/Python/Go任一语言的底层机制与高性能编程实践，深入理解TensorFlow/PyTorch等AI框架的内核架构、算子执行流程与分布式通信逻辑，扎实具备神经网络优化、数值计算、并行计算等核心数学基础

至少深耕模型层（混合精度量化、稀疏化、注意力机制优化等，具备端到端推理优化落地经验）、通信层（RDMA/TCP协议栈优化、分布式通信拓扑设计与流量调度）、计算层（AI核心算子开发、TVM/Triton等编译框架应用与硬件指令集适配）任一核心方向，具备体系化实战能力

深入了解主流AI加速硬件（NVIDIA/AMD GPU、昇腾/寒武纪等国产AI芯片）的架构特性与指令集优化逻辑，熟练运用PyTorch Profiler、NVIDIA Nsight、芯片厂商专属Profiling工具及系统级诊断工具，具备AI全链路性能瓶颈定位与调优实战能力

推理性能优化专家-计算

🤖 AI 估测：¥50K-90K

发布时间：大约 1 个月前