大模型平台研发工程师 - 调度方向

🤖 AI 估测:¥45K-80K

发布时间:19 天前

立即应聘

ℹ️关于这个职位

该职位是哔哩哔哩的大模型平台研发工程师,专注于调度方向
你将负责设计和开发服务于大模型训练、评估和推理的资源调度系统,并优化大规模分布式异构计算集群的编排调度,以提升GPU资源利用率
这是一个需要与算法、数据团队紧密协作,支持平台高效处理大模型任务的技术核心岗位

工作职责

工作职责:
大模型训练&推理资源调度系统的设计与开发,服务于各算法方向的大模型训练、模型评估和模型推理场景
优化大规模分布式异构计算集群编排调度,实现潮汐调度、混部调度能力,提升GPU资源利用率
与算法和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理

最低要求

计算机科学、软件工程、人工智能或相关专业本科及以上学历,5年以上分布式系统、资源调度或大规模计算相关经验
精通Python/Go/Java/C++至少一种主流编程语言,具有良好的代码风格和开发习惯
熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验
熟悉常见的机器学习和深度学习框架,如TensorFlow、PyTorch、XGBoost等
具备优秀的沟通能力和团队协作精神,能够有效地与跨职能团队合作,推动项目顺利进行

👍优先资格

加分项:
参与或主导过机器学习训练框架的设计与开发,熟悉分布式训练、模型并行等技术,有优化训练效率的实战经验,包括但不限于Horovod/MXNet/Megatron/DeepSpeed等
熟悉Ray分布式框架,有大模型场景近离线推理场景落地实践经验
熟悉Kubeflow/Argo/Volcano 等开源云原生项目,有二次开发经验
在知名开源项目中有活跃贡献,或者拥有自主开发的开源项目
在机器学习、分布式系统、深度学习等领域有前沿技术研究成果,或在顶级会议/期刊上有相关论文发表