Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
大模型平台研发负责人
立即应聘

大模型平台研发负责人

发布于 大约 16 小时前

中层管理(经理/总监)

上海市
高级经验
全职员工
仅现场办公
本科
PyTorch
GO
MLOps
分布式训练
大模型
GPU调度
推理服务

AI 估算 · 50k–90k

大厂中层管理岗位,AI平台方向技术壁垒高,上海薪资水平较高,综合经验要求估算。

职位详情

关于这个职位

该职位负责哔哩哔哩大模型训练与推理平台的整体架构设计与管理,打造高性能AI基础设施

你需要主导GPU集群调度优化、全链路训练推理流水线建设,并带领团队与算法、业务部门协作,推动大模型技术落地
适合有深厚AI平台和分布式系统经验、同时具备团队管理能力的资深技术专家

最低要求

学历与经验背景:计算机、人工智能、数学等相关专业本科及以上学历

年以上后端/基础架构研发经验,3年以上AI平台、云计算或大规模分布式系统相关经验
核心技术栈:精通Go/Python/C++中至少一门编程语言
深入理解Linux操作系统、网络协议及容器化技术(Docker/Kubernetes),具备大规模K8s集群的运维与二次开发能力
GPU与调度系统经验:精通GPU虚拟化、资源隔离与调度技术
熟悉主流调度框架(如Volcano、YuniKorn等)或具备自研GPU调度系统经验者优先
对提升GPU集群利用率有成熟的方法论和实战经验
大模型训练/推理经验:熟悉主流深度学习框架(PyTorch/TensorFlow等)
深入理解大模型分布式训练原理(如数据并行、模型并行、流水线并行等)
有视频生成模型(如Sora、Stable Video Diffusion等)训练平台搭建或优化经验者优先
架构设计与工程能力:具备优秀的系统架构设计能力,能够处理高并发、高吞吐的复杂工程挑战
熟悉MLOps理念,有完整的模型训练、评估、部署流水线建设经验
综合素质:具备极强的技术前瞻性与业务洞察力,优秀的团队领导力、沟通协调能力及抗压能力,能够带领团队在快速变化的技术环境中持续突破

工作职责

平台架构规划与建设:负责公司大模型训练与推理平台的整体架构设计、技术选型与演进规划,打造高性能、高可用的AI基础设施平台

GPU资源调度与编排:主导大规模GPU集群的编排调度系统搭建,优化训练任务与推理服务的资源分配策略,最大化提升GPU利用率与集群整体效能
训练与推理全链路优化:搭建并优化大规模分布式训练流水线
同时构建高效、低延迟的推理服务模块,保障模型从训练到上线的全生命周期管理
团队管理与人才培养:负责研发与技术团队管理,包括人员招聘、梯队建设、绩效评估及日常技术指导,营造高效、创新的团队技术氛围
跨部门协同与业务赋能:与算法、业务团队紧密配合,深入理解业务需求,提供稳定可靠的底层平台支撑,推动大模型技术在业务场景中的快速落地

优先资格

有千卡/万卡级别GPU集群的实际调度与管理经验

在顶级技术会议(如OSDI, SOSP, NeurIPS等)发表过相关论文,或有知名开源项目(如Kubernetes, PyTorch生态等)的核心贡献
具备从0到1搭建视频生成大模型平台的完整成功案例

AI 洞察

优缺点分析

优点

  • 站在AI浪潮前沿,接触最先进的大模型技术和千卡/万卡GPU集群,技术积累含金量高
  • 哔哩哔哩作为视频内容平台,视频生成模型与业务强相关,有真实落地场景,成就感强
  • 团队管理职责锻炼领导力,跨部门协作提升综合能力,职业发展路径清晰
  • 大厂待遇优厚,薪资和福利有竞争力
  • AI技术迭代极快,需要持续学习前沿知识,保持技术前瞻性
  • 大规模GPU调度和分布式系统优化复杂度高,对架构设计能力要求极高
  • 适合有深厚AI基础设施和分布式系统经验,同时具备团队管理能力和业务推动力的资深技术专家

缺点 / 挑战

  • 团队管理和跨部门协同压力大,需要平衡技术理想与业务需求,抗压能力要求高

角色解读

  • 技术方向:深入AI基础设施领域,成为GPU调度、分布式训练的技术专家
  • 管理方向:从团队负责人向技术总监或AI平台负责人晋升,管理更大规模的团队和资源
  • 业务方向:通过与算法、业务深度结合,转型为AI产品与技术融合的领军人物
  • 负责大模型训练与推理平台的架构设计和技术选型,确保平台高性能、高可用
  • 主导大规模GPU集群的编排调度,优化资源分配策略,提升GPU利用率
  • 搭建分布式训练流水线和推理服务,实现模型从训练到上线的全生命周期管理
  • 管理研发团队,包括招聘、培养和绩效评估,并与算法、业务团队紧密协作推动业务落地
  • 精通Go/Python/C++,深入理解Linux、容器化技术(Docker/Kubernetes),具备大规模K8s运维和二次开发能力
  • 精通GPU虚拟化、资源隔离与调度技术,熟悉Volcano、YuniKorn等调度框架
  • 熟悉PyTorch/TensorFlow等深度学习框架,深入理解大模型分布式训练原理(数据并行、模型并行等)
  • 具备优秀的系统架构设计能力,熟悉MLOps理念,能处理高并发高吞吐挑战

申请策略

  • 在简历中清晰表达技术愿景与业务洞察,展现你能将技术能力转化为业务价值的能力
  • 了解哔哩哔哩的业务方向(如视频理解、内容生成),在面试中结合具体场景讨论平台设计思路
  • 突出你主导过的AI平台或大规模分布式系统项目,尤其是GPU调度、K8s二次开发经验
  • 量化成果,例如GPU利用率提升百分比、训练效率提升、集群规模等数据
  • 展示团队管理经验,包括团队规模、人员培养、项目交付等
  • 如果有顶级会议论文或知名开源项目贡献,务必重点列出
  • 补充视频生成模型(如Sora、Stable Video Diffusion)的训练平台搭建经验
  • 深入研究Kubernetes调度器扩展和GPU虚拟化技术,如NVIDIA MIG、CUDA MPS等

面试指南

  • STAR法则:描述情境、任务、行动、结果,重点量化成果
  • 技术决策框架:明确问题、列出候选方案、分析优缺点、结合业务做出选择
  • 团队管理框架:分享你的管理风格(如服务型领导)、如何激励团队、如何处理冲突
  • 请描述你设计过的一个大规模GPU集群调度系统,包括架构、难点和优化效果
  • 大模型分布式训练中你如何选择数据并行、模型并行、流水线并行等策略?
  • 如何提升GPU集群的利用率?请分享你的方法论和实战案例
  • 你是如何进行团队管理和技术决策的?请举例说明如何处理技术路线分歧
  • 如果算法团队要求快速上线一个视频生成模型,你如何规划平台支持?

匹配度报告

71
综合匹配度

大厂AI平台负责人,前沿技术栈,高薪资高成长,但工作强度可能较大。

适合人群
适合最看重技术成长和职业发展,对生活平衡要求不高的技术管理者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利匹配

85较高

该职位为哔哩哔哩大厂中层管理岗,薪资范围较高,且有股权激励可能,福利完善,补偿性动机满足度高。

薪资信号未披露(AI估算:50K-90K/月)

成长发展匹配

90较高

职位涉及大模型、GPU调度、K8s等前沿技术,有团队管理机会,成长路径清晰,发展性动机满足度很高。

技术前沿前沿/新兴技术
技术栈大模型、GPU调度、Kubernetes、分布式训练、PyTorch、MLOps
业务类型ambiguous

工作生活匹配

40较低

上海现场办公,大厂技术团队可能存在高强度工作,且JD未提及弹性工作或远程,生活化动机满足度有限。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI基础设施是当前热点行业,哔哩哔哩视频平台有真实应用场景,技术推动业务创新有一定的社会价值,但无明确使命感表述。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 资深风控算法工程师

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 高级合规运营

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • updream产品营销

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • 资深开发工程师(反作弊/风控/审核)

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 商业化-品牌数据分析

    哔哩哔哩 · 上海市
    AI 估算 · 20k-40k

相似职位推荐

  • 智能模型数据平台工程师-AI Data

    字节跳动 · 上海市
    AI 估算 · 30k-45k
  • Sr. Assoc, Production Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 网络运营管理实习生

    中国移动 · 西藏自治区-其它
    AI 估算 · 2k-4k
  • 机器学习系统SRE工程师-Seed

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • AI计算基础设施工程师-基础技术

    字节跳动 · 北京市
    AI 估算 · 30k-60k

哔哩哔哩 的其他在招职位

  • 资深风控算法工程师

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 高级合规运营

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • updream产品营销

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • 资深开发工程师(反作弊/风控/审核)

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 商业化-品牌数据分析

    哔哩哔哩 · 上海市
    AI 估算 · 20k-40k

相似职位推荐

  • 智能模型数据平台工程师-AI Data

    字节跳动 · 上海市
    AI 估算 · 30k-45k
  • Sr. Assoc, Production Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 网络运营管理实习生

    中国移动 · 西藏自治区-其它
    AI 估算 · 2k-4k
  • 机器学习系统SRE工程师-Seed

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • AI计算基础设施工程师-基础技术

    字节跳动 · 北京市
    AI 估算 · 30k-60k