ByteDance logo
字节跳动
AI for Science性能优化工程师-Seed

AI for Science性能优化工程师-Seed

发布于 1 天前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
硕士
软件工程
GPU
PyTorch
性能优化
CUDA
分布式训练
DeepSpeed
AI4S
FSDP
Torch.Compile

AI 估算 · 35k–65k

大厂高级AI工程岗,技术门槛高,市场竞争力强,薪资处于行业领先水平。

职位详情

关于这个职位

该职位负责AI for Science领域模型的训练与推理性能优化,通过PyTorch、CUDA等技术提升计算效率和GPU利用率

工作涉及性能瓶颈分析、编译优化、算子融合等,需要与算法和平台团队紧密合作
适合有3年以上AI系统优化经验、对底层硬件和性能优化有热情的工程师

最低要求

硕士学位及以上,计算机、软件工程、数学、物理等相关专业,3年以上AI系统性能优化工作经验

熟练掌握Python和C++,具备扎实的软件工程能力和良好的编码习惯
熟悉PyTorch训练与推理流程,具备模型性能优化的实际项目经验
熟悉CUDA编程、GPU体系结构及性能分析工具(Nsight Systems、Nsight Compute、PyTorch Profiler等),能够独立完成性能瓶颈定位与优化
具备Triton、Torch.Compile、分布式训练(FSDP、DeepSpeed等)相关经验,有训练加速、推理加速或GPU Kernel优化项目经验者优先

工作职责

负责AI4S模型(如MLFF、Cofolding等)的训练与推理性能优化,提升模型吞吐、资源利用率和整体计算效率

基于PyTorch、CUDA、Triton等技术栈,分析和解决模型训练、推理过程中的性能瓶颈
利用Torch.Compile、编译优化及算子融合等技术,持续提升模型执行效率和GPU利用率
建立性能分析与Benchmark体系,使用Profiling工具定位系统热点并推动优化方案落地
与算法、平台及科学计算团队紧密协作,共同推动AI4S模型和基础设施的性能演进

优先资格

具备CUDA Kernel开发或编译优化相关经验

熟悉TorchInductor、TensorRT、XLA、TVM等技术
具有大模型、科学计算或AI4S相关工作负载的性能优化经验

AI 洞察

优缺点分析

优点

  • 字节跳动平台资源丰富,接触大规模训练场景和顶尖技术团队
  • 技能通用性强,AI性能优化人才需求旺盛,职业竞争力强
  • 需要深入理解GPU硬件和底层系统,学习曲线陡峭

缺点 / 挑战

  • 处于AI与科学计算交叉前沿,技术挑战大,积累底层性能优化经验
  • 性能优化工作往往需要反复实验,调试周期长,压力较大
  • 大厂工作节奏快,可能需要应对高强度的需求和交付压力
  • 适合对底层技术充满热情、有扎实编程基础和GPU优化经验、希望挑战AI性能极致优化的工程师

角色解读

  • 深耕AI系统性能优化,成为GPU性能优化专家或系统架构师
  • 向AI基础设施方向扩展,负责大规模训练集群的效率优化
  • 可能转向AI4S领域算法研究,结合性能理解推动模型设计改进
  • 负责AI for Science模型的训练和推理性能优化,使用PyTorch、CUDA等技术提升吞吐和资源利用率
  • 分析性能瓶颈,利用Profiling工具定位热点,并通过算子融合、编译优化等手段进行优化
  • 建立性能基准测试体系,持续监控并推动性能改进
  • 与算法、平台和科学计算团队协作,确保优化方案落地并推动基础设施演进
  • 掌握Python和C++,具备扎实的编码能力
  • 熟悉PyTorch训练/推理流程,有实际性能优化项目经验
  • 精通CUDA编程、GPU体系结构和性能分析工具
  • 了解分布式训练框架(FSDP、DeepSpeed)和编译技术(Torch.Compile、Triton)

申请策略

  • 关注字节跳动在AI for Science领域的布局,面试时展现对该方向的热情和对性能优化的独到见解
  • 准备好描述一个完整的性能优化案例,从定位问题、分析瓶颈到最终方案和效果
  • 突出性能优化项目经验,量化提升效果(如吞吐提升X倍、显存节省Y%)
  • 展示CUDA Kernel开发或编译优化相关成果,如自研算子或优化框架
  • 强调分布式训练和PyTorch性能分析的实际经验
  • 如有AI4S或科学计算背景,务必提及
  • 深入学习CUDA编程和GPU架构(如计算能力、内存带宽)
  • 熟悉Torch.Compile和Triton等编译优化工具,动手实践算子融合

面试指南

  • 从问题定位、工具使用、假设验证、优化实施、效果评估五个步骤回答
  • 结合实际项目经验,先阐述背景和挑战,再描述技术选型和优化过程,最后总结量化效果
  • 遇到不确定的问题,可以展示分析思路和尝试方向,体现解决问题的系统性
  • 如何诊断模型训练中的GPU利用率低问题?请描述你的分析流程和工具链
  • 请解释Torch.Compile的工作原理,以及它在性能优化中的优势和局限性
  • 你如何优化一个PyTorch模型以减少显存占用?能否举例说明
  • 在分布式训练中,如何平衡计算和通信开销?你用过哪些策略?
  • 请谈谈你对AI for Science的理解,以及性能优化在其中的角色

职位点评

75
综合评分

大厂高级AI系统优化岗,前沿技术栈,薪资优厚,但工作强度大,WLB一般。

更适合这类人
最适合追求技术深度和前沿方向、愿意投入高强度工作换取职业成长的开发者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利80
成长发展95
工作生活40
使命价值85

薪资福利

80较高

字节跳动薪资水平行业领先,高级岗位有竞争力,但JD未明确薪资和福利,补偿性满足较好但非最高。

薪资信号未披露(AI估算:35K-65K/月)

成长发展

95较高

职位涉及前沿AI4S和GPU优化技术,接触底层系统和编译优化,成长空间极大,是技术追求者的理想选择。

技术前沿前沿/新兴技术
技术栈PyTorch、CUDA、Triton、Torch.Compile、GPU、分布式训练、FSDP、DeepSpeed
业务类型profit_center

工作生活

40较低

仅现场办公且位于北京核心地段,通勤压力较大,JD未提及WLB,大厂高强度工作文化可能影响生活平衡。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

85较高

AI for Science致力于用AI解决科学问题,社会意义较强,行业处于快速增长期,技术创新积极。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs