分布式计算研发实习生(J97751)

🤖 AI 估测:¥8K-15K

发布时间:22 天前

立即应聘

ℹ️关于这个职位

这是一个面向计算机相关专业本科及以上学历学生的分布式计算研发实习岗位
你将负责百度大规模AI计算集群基础设施的研发工作,涉及Kubernetes云原生组件、GPU资源调度与优化、AI Agent智能体体系构建等前沿技术,旨在提升AI基础设施的效能与稳定性

工作职责

负责大规模AI计算集群基础设施和产品的设计与研发工作
构建异构多芯计算集群,优化GPU资源调度、虚拟化混布等核心能力,有效提升多芯供应能力和集群资源效率
基于标准Kubernetes技术,负责云原生AI组件研发工作,包括训练推理服务编排、GPU资源调度和混布、AI存储、高性能网络等
基于AI计算集群基础设施,设计和研发异构计算平台和解决方案,支持大模型开发、训练、推理等多场景能力
基于AI Agent技术,构建面向GPU管理(训推框架适配、GPU故障预测、训推任务异常定位及修复)的智能体体系,通过AI提升AI Infra效能
持续优化分布式系统架构,提升服务和产品的稳定性,优化服务性能和可扩展性

最低要求

计算机及相关专业本科及以上学历
熟悉Kubernetes工作原理,熟悉调度器、资源扩展机制、容器运行时、容器网络等技术,有Kubernetes开发维护经验
具备良好的沟通能力和团队协作精神,严谨的工作态度,注重工程质量,有独立解决各种系统问题的能力
善于学习新的知识,动手能力强,有强烈的责任心,喜欢钻研技术

👍优先资格

对Kubeflow、Volcano、Pytorch、sglang/vllm、GPU芯片架构有一定了解者优先
对Vercel AI SDK、Claude Agent SDK、Pydantic、LangGraph等AI Agent开发框架有一定理解者优先