Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Baidu logo
百度
平台研发工程师实习生(大模型训推任务故障诊断方向)(J97862)
立即应聘

平台研发工程师实习生(大模型训推任务故障诊断方向)(J97862)

发布于 大约 21 小时前

实习/见习

北京市
无经验要求
实习生
仅现场办公
本科
GPU
PyTorch
监控系统
TensorFlow
故障诊断
大模型训练

AI 估算 · 4k–6k

百度大厂实习,技术岗位,北京地区实习生薪资约200-300元/天,按月估算

职位详情

关于这个职位

这是一个百度的平台研发实习生岗位,专注于大模型训练与推理任务的故障诊断

你将参与GPU集群的监控和异常诊断工具开发,帮助定位和解决训练任务中的hang、OOM等问题
适合对AI基础设施和系统稳定性感兴趣的同学

最低要求

计算机或相关专业,本科及以上在读,具备扎实的数据结构与操作系统基础,理解进程调度、内存管理与网络通信等基本原理

具备良好的编程能力与工程规范意识,熟悉Python(优先)/ Go / Java 中至少一门语言
熟悉Linux环境,能够使用常见命令进行问题排查,包括top / ps / lsof / nvidia-smi / netstat / dmesg 等
了解基本的性能分析工具(如perf)
了解至少一种主流AI框架(如PyTorch或TensorFlow)的基本运行机制,理解训练任务执行流程及多机多卡训练基本原理
具备系统化的问题定位能力,能够结合日志、指标与系统状态进行结构化分析,对复杂系统故障排查与性能优化有兴趣

工作职责

参与大模型训练与推理任务的运行监控与故障定位体系建设,支撑GPU集群稳定运行

设计与开发异常诊断工具,支持对训练/推理任务hang、GPU利用率异常、OOM、通信卡死等问题进行自动化排查与根因定位
沉淀典型故障模式与排查流程,形成标准化诊断SOP,推动问题闭环解决与系统性优化
建设GPU任务运行指标体系与可观测能力,提升异常检测与问题响应效率
协助分析GPU利用率、显存利用率、通信耗时等关键指标,推动资源利用率优化与调度效率提升

优先资格

有处理GPU任务hang / OOM / 利用率异常等问题经验者优先

AI 洞察

优缺点分析

  • 接触前沿的大模型训练技术,积累宝贵的GPU集群运维经验
  • 百度大厂平台,技术氛围浓厚,有导师带教
  • 工作内容技术性强,能显著提升系统故障排查和自动化能力
  • 涉及复杂的大模型训练系统,问题排查可能较为困难,需要较强的耐心和钻研精神
  • 作为实习生需快速上手多种工具和框架,学习曲线较陡
  • 工作强度可能较大,尤其在训练任务故障时需要及时响应
  • 适合对AI基础设施和系统可靠性有浓厚兴趣,喜欢钻研技术难题,具备较强动手能力的计算机专业学生

角色解读

  • 向AI基础设施或系统可靠性工程方向深入,成为大模型训练平台专家
  • 积累GPU集群优化经验,可转向高性能计算或云原生基础设施领域
  • 未来可发展为技术团队核心,负责更大规模的训练系统设计与优化
  • 参与大模型训练和推理任务的运行监控,确保GPU集群稳定运行
  • 设计和开发自动化诊断工具,定位训练任务中的hang、OOM、通信故障等问题
  • 总结故障模式,形成标准化的排查流程,推动问题闭环解决
  • 建设任务运行的指标体系,提升异常检测和响应效率
  • 扎实的编程基础,熟悉Python或Go/Java,能在Linux环境下进行问题排查
  • 了解系统原理,包括进程调度、内存管理、网络通信等
  • 熟悉至少一种AI框架(PyTorch/TensorFlow),理解多机多卡训练原理
  • 具备结构化分析能力,能结合日志和系统状态定位复杂故障

申请策略

  • 了解百度的深度学习平台(如飞桨PaddlePaddle)和实习项目背景
  • 面试时准备好一个自己解决复杂问题的事例,突出分析过程
  • 突出Linux系统使用和编程项目经验,尤其是Python相关
  • 如有AI框架使用或分布式训练经历,重点描述
  • 强调任何系统监控、故障诊断或性能优化相关项目
  • 展示对GPU计算和集群管理的了解,比如使用过nvidia-smi
  • 提前熟悉PyTorch分布式训练原理和常见故障模式
  • 学习常用Linux性能分析工具(perf、strace等)

面试指南

  • 采用系统化方法:先收集日志和指标(如GPU显存、利用率),缩小范围,再深入检查网络、代码或配置
  • 举例说明:使用具体项目经历,按问题描述→分析过程→解决方案→结果的框架回答
  • 如何诊断一个GPU训练任务hang的问题?
  • 描述你过去排查过一个系统性能瓶颈的经历
  • 解释PyTorch DDP(分布式数据并行)的工作原理
  • 当你发现GPU利用率低时,你会如何分析和优化?
  • 什么是OOM?如何定位OOM的根因?
  • 复习PyTorch/TensorFlow分布式训练的基本概念和常用命令

匹配度报告

64
综合匹配度

顶级大厂实习,前沿技术栈,技能成长机会极佳,但WLB和薪资一般

适合人群
最看重技术成长和能力提升的求职者,适合希望在AI基础设施领域快速积累经验的学生。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利50
成长发展95
工作生活40
使命价值70

薪资福利匹配

50较低

实习薪资在行业中属于正常水平,但相比正式员工较低,且福利未明确提及。

薪资信号未披露 (4K-6K/月)

成长发展匹配

95较高

该岗位涉及前沿的大模型训练技术,能快速积累系统诊断和AI基础设施经验,成长价值极高。

技术前沿前沿/新兴技术
技术栈大模型、GPU、分布式训练、故障诊断、PyTorch
业务类型cost_center

工作生活匹配

40较低

实习生通常需要现场办公,且工作可能涉及紧急故障响应,work-life balance一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型是当前AI热点,工作具有技术探索意义,但直接社会影响力不明显。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

百度 的其他在招职位

  • 并行文件存储(J97786)

    百度 · 北京市
    AI 估算 · 20k-40k
  • 开发测试工程师(客户端方向)(J71478)

    百度 · 北京市
    AI 估算 · 20k-35k
  • 推广搜算法实习生-商业策略方向(J97973)

    百度 · 北京市
    AI 估算 · 4k-8k
  • 基础策略组_推广搜NLP策略算法实习生(J97974)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 商务拓展实习生(J97885)

    百度 · 香港特别行政区
    AI 估算 · 8k-12k

相似职位推荐

  • 后端开发工程师——兰州

    中国平安 · 兰州市
    AI 估算 · 10k-18k
  • 高级后台开发工程师-财务

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 实施中级工程师

    中国平安 · 武汉市
    AI 估算 · 10k-18k
  • app开发工程师

    中国平安 · 西宁市
    AI 估算 · 8k-15k
  • Staff Software Engineer

    默克药厂 · Bangalore, Karnataka, India
    AI 估算 · 25k-45k

百度 的其他在招职位

  • 并行文件存储(J97786)

    百度 · 北京市
    AI 估算 · 20k-40k
  • 开发测试工程师(客户端方向)(J71478)

    百度 · 北京市
    AI 估算 · 20k-35k
  • 推广搜算法实习生-商业策略方向(J97973)

    百度 · 北京市
    AI 估算 · 4k-8k
  • 基础策略组_推广搜NLP策略算法实习生(J97974)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 商务拓展实习生(J97885)

    百度 · 香港特别行政区
    AI 估算 · 8k-12k

相似职位推荐

  • 后端开发工程师——兰州

    中国平安 · 兰州市
    AI 估算 · 10k-18k
  • 高级后台开发工程师-财务

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 实施中级工程师

    中国平安 · 武汉市
    AI 估算 · 10k-18k
  • app开发工程师

    中国平安 · 西宁市
    AI 估算 · 8k-15k
  • Staff Software Engineer

    默克药厂 · Bangalore, Karnataka, India
    AI 估算 · 25k-45k