26届校招-训练Infra工程师

🤖 AI 估测:¥20K-35K

发布时间:19 天前

立即应聘

ℹ️关于这个职位

这是一个面向2026届毕业生的校招岗位,主要参与大规模AI模型训练基础设施的研发与优化工作
你将协助团队进行分布式训练框架的设计与维护,并应用前沿技术来提升训练效率和资源利用率,支持大语言模型、多模态模型等复杂AI模型的高效训练

工作职责

参与训练框架研发与优化:协助团队进行大规模分布式训练框架的设计、实现与维护,支持复杂AI模型(如大语言模型、多模态模型)的高效训练
性能调优与效率提升:在导师指导下,优化训练过程中的内存管理、计算资源调度和分布式通信效率,提升训练速度和资源利用率
集成与适配先进技术:学习并应用业界前沿的训练加速技术(offload、动态分布式并行/流水线排布),确保框架的先进性和竞争力
支持算法研发与交付:与算法工程师紧密配合,提高训练效率,降低研发成本,提升交付能力

最低要求

基础技能:
熟练掌握 Python 和 C++ 编程语言,具备扎实的数据结构、算法和操作系统基础
熟悉至少一种主流深度学习框架(如 PyTorch、TensorFlow),了解其基本实现原理和机制
了解GPU编程(如 CUDA)或并行计算,有相关的课程项目或实验经验
专业知识:
对 Transformer 架构及主流大模型(如GPT、Llama等)的训练特性有基本理解
了解分布式训练的基本原理(如数据并行、模型并行、流水并行)和常见挑战

👍优先资格

加分之项(满足以下任一即可):
有分布式训练框架(如 DeepSpeed、Megatron-LM、PyTorch Lightning、FSDP等)的使用或初步研究经验
了解大模型训练相关的优化技术,如混合精度训练、梯度 checkpoint、LoRA微调、量化感知训练等
在相关领域的顶会或开源项目中有贡献或论文者优先