
字节跳动
AI异构计算优化专家-火山方舟
AI异构计算优化专家-火山方舟
发布于 大约 2 个月前普通员工/个人贡献者
北京市
专家级经验
全职员工
仅现场办公
学历未注明
软件工程
GPU
PyTorch
TensorFlow
高性能计算
CUDA
模型优化
MLIR
异构计算
AI 估算 · 30k–60k
该职位为AI系统优化专家,技术难度高,字节跳动薪资竞争力强,参考市场高端人才薪酬水平。
职位详情
关于这个职位
该职位负责评估和优化异构计算芯片,用于AI推理和训练任务
你需要开发高性能算子,应用编译技术,并调研前沿软硬件结合方向
适合对底层计算和AI系统优化有深入理解的技术专家
最低要求
熟练掌握Linux环境下的C/C++、Python语言
具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯
能够熟练使用至少一种主流的机器学习框架(TensorFlow/PyTorch等),熟悉框架内部实现
熟悉至少一种经典深度学习模型及其应用场景,如GPT、SD、DiT、W&D等
熟悉至少一种并行计算架构,熟悉其编程模型,并知晓其优、劣所在
有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档
工作职责
评估:负责评估符合业务要求的异构计算芯片,建立/完善评估体系、负载模型,预估业务收益
推理与训练优化:
)负责异构计算芯片落地实际推理业务,适配异构计算芯片特性,降低推理时延,提高推理吞吐
)负责异构计算芯片落地实际训练业务,根据芯片计算、通信特性,优化显存占用,提高训练吞吐
算子开发:负责开发异构计算芯片的高性能算子,根据芯片特性,优化算力、带宽利用率
编译技术应用:负责通过编译技术实现异构计算芯片在不同业务场景中落地,负责实现更加高效的异构硬件编程范式
前沿技术调研:负责调研、验证前沿软硬件结合方向,比如稀疏计算(Sparse Computation)、存内计算(In-Memory Computing)、数据流计算(DataFlow)等
优先资格
了解昇腾、寒武纪等推理/训练/通信相关优化,有高性能算子、大规模训练、通算融合领域经验者优先
了解SIMD/SIMT外其他并行计算模型及算法,了解其并行编程模型及其优、缺点者优先
了解模型剪枝、量化、LLM投机采样等优化方法原理,具备相关模型优化经验者优先
了解常见AI编译器方案及其优、缺点(如XLA、TVM、MLIR),有实际开发经验者优先
了解GPU硬件架构,了解GPU软件栈(CUDA、cuBLAS、CUTLASS),具备GPU性能分析的能力者优先
了解AI Compiler技术栈(MLIR等),熟悉Torch2.0+编译栈、Triton优先者优先
AI 洞察
优缺点分析
优点
- 位于AI底层基础设施的核心赛道,技术壁垒高,积累能力强,不易被替代
- 薪资待遇优厚,尤其是对于稀缺的异构计算专家,市场议价能力强
- 技术难度极高,需要同时掌握硬件架构、编译、深度学习等多个领域,学习曲线陡峭
- 行业竞争激烈,需要持续跟进最新芯片和软件栈的演进,保持技术领先
- 适合对底层系统优化充满热情、具备扎实计算机基础且愿意深入硬件软件交叉领域的工程师
缺点 / 挑战
- 字节跳动提供海量业务场景和数据,技术挑战大,成长空间广阔
- 工作强度较大,可能面临紧急优化任务和线上性能瓶颈的排查压力
角色解读
- 技术深度:从异构计算优化专家成长为系统架构师或首席科学家,主导AI基础设施
- 技术广度:可横向扩展至芯片设计、编译器开发、大模型训练框架等方向
- 管理路线:带领团队负责芯片评估、系统优化等核心项目,晋升为技术主管或总监
- 评估和选型异构计算芯片(如GPU、ASIC等),建立评测体系和负载模型,预测芯片在业务场景中的收益
- 针对推理和训练任务,优化芯片利用率,降低延迟、提高吞吐,适配不同芯片的架构特性
- 开发高性能算子,利用芯片特性优化算力和带宽效率
- 应用编译技术实现高效硬件编程
- 调研前沿软硬件结合方向,如稀疏计算、存内计算等,探索下一代AI计算方案
- 扎实的C/C++和Python编程能力,熟悉算法和数据结构
- 精通至少一种深度学习框架(如PyTorch、TensorFlow),了解框架内部机制
- 熟悉至少一种并行计算架构(如GPU的SIMT),了解其优缺点
- 了解AI编译器(如XLA、TVM、MLIR)和模型优化技术(剪枝、量化等)
申请策略
- 提前了解火山方舟的业务方向,思考自己的技能如何解决实际问题
- 准备一个能体现“评估芯片”能力的案例,比如对比不同芯片的性能并给出选型建议
- 突出异构计算相关项目经验,如GPU算子优化、模型部署加速、编译器开发等
- 量化成果:说明优化后延迟降低百分比、吞吐提升倍数等具体数据
- 展示对深度学习框架的深入理解,如修改过框架内部代码或实现过自定义算子
- 列出掌握的并行计算架构和编译器技术栈,体现技术广度
- 系统学习CUDA编程和GPU架构,手写几个高性能算子(如FlashAttention)
- 研究MLIR或TVM的源码,尝试用它们实现一个小型算子
面试指南
- STAR法则(情境-任务-行动-结果)回答开放性问题
- 对于架构比较题,先列出评估维度(性能、功耗、易用性、生态),再一一对比
- 技术原理题:先讲核心概念,再结合自己的实际经验,最后总结优缺点
- 请详细解释你优化过一个算子的过程,从分析瓶颈到最终实现
- AI编译器(如XLA)的原理是什么?它如何优化计算图?
- 如何评估一款新的AI芯片是否适合推理或训练任务?你会设计哪些benchmark?
- 模型量化会带来什么挑战?你如何权衡精度和速度?
- 描述一下GPU的硬件架构(如SM、warp、shared memory),你如何利用这些特性优化性能?
匹配度报告
59
综合匹配度
顶尖大厂核心AI基础架构岗位,技术前沿且成长空间大,但工作强度高、WLB一般。
适合人群
最适合追求技术成长、热衷于底层系统优化的求职者,可以接受较高工作强度。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利40
成长发展95
工作生活30
使命价值70
薪资福利匹配
40较低
JD未透露薪资和福利细节,但字节跳动作为大厂通常薪资较高,且该岗位属于高价值技术岗,预期收入不低。
薪资信号未披露(AI估算:30K-60K/月)
成长发展匹配
95较高
该岗位处于AI基础设施前沿,涉及大量尖端技术,能深度锻炼异构计算、编译器等核心能力,成长空间极大。
技术前沿前沿/新兴技术
技术栈C++、Python、PyTorch、TensorFlow、GPU、CUDA、MLIR、异构计算、模型优化、编译器
业务类型profit_center
工作生活匹配
30较低
JD未提及远程或弹性工作,字节跳动整体工作强度较大,且该岗位可能涉及紧急线上问题处理,WLB一般。
工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)
使命价值匹配
70中等
该岗位服务于公司核心AI业务,技术影响力大,但对社会直接贡献不明显,属于商业导向的利润中心。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
字节跳动 的其他在招职位
相似职位推荐
Watch Jobs