哔哩哔哩的资深大数据架构工程师-离线计算方向薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

资深大数据架构工程师-离线计算方向的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

哔哩哔哩的资深大数据架构工程师-离线计算方向有什么任职要求？

该职位要求本科学历及高级经验工作经验。

哔哩哔哩

资深大数据架构工程师-离线计算方向

立即应聘

资深大数据架构工程师-离线计算方向

发布于 2 天前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

本科

信息技术与基础设施

RAG

LLM

MapReduce

AI编程

Gluten

Velox

Paimon

AI 估算 · 30k–60k

资深大数据架构师在上海属于高薪岗位，B站上市大厂，结合行业水平与技术难度，月薪30K-60K较为合理。

职位详情

关于这个职位

本职位负责B站离线计算方向的Spark引擎深度优化与向量化执行引擎集成，同时主导AI赋能基础设施研发，将AI能力嵌入开发、发布、运维全流程

你将面对PB级数据、千节点集群的真实挑战，推动大数据基础设施的技术演进

最低要求

●985 / 211 及以上院校全日制本科及以上学历，计算机相关专业

●5 年以上大数据相关工作经验

●至少深度参与过 1 个大型大数据基础设施项目（EB 级存储 / PB 级日处理 / 千节点以上集群任一）

●Java / Scala / Go / Rust / C++ 中至少两门掌握扎实

●深度参与过 Spark 生产环境(>= PB / 日)的运维和优化，对 Spark 内核源码有源码级理解

●对至少一个领域有体系化认知:Catalyst 优化器 / Tungsten / Shuffle / Spark on K8s

工作职责

一、离线计算方向(Spark / 向量化执行引擎)

跟踪 Spark / MapReduce / 向量化执行引擎(Gluten / Velox / Photon / DuckDB)的社区前沿，结合 bilibili 业务做选型和落地

主导 Spark 引擎在 PB 级日处理、千节点集群下的稳定性、性能优化，包括但不限于:

（1）Catalyst 优化器改造

（2）Shuffle 优化(Remote Shuffle Service / Celeborn / Magnet)

（3）AQE / Dynamic Allocation / Spec Execution 深度调优

推动 Spark 与向量化引擎(Gluten + Velox)的深度集成，降低 CPU 成本、提升查询性能

解决批处理任务的资源效率、SQL 兼容性、调度延迟等真实工程问题

与湖仓团队配合，做好 Spark on Iceberg / Paimon 的查询和写入优化

二、AI 赋能基础设施研发

熟练使用 Claude Code、Cursor、Copilot 等 AI 编程工具，将 AI 深度嵌入日常工作流

主导 AI 流程自动化建设，为团队赋能:

（1）开发阶段：基于 AI 的代码生成、Code Review、单测生成、性能 profiling 自动化

（2）发布阶段：AI 辅助的变更影响分析、灰度策略推荐、回滚决策

（3）运维阶段：AI 驱动的告警归并、根因分析、故障自愈

（4）答疑阶段：基于内部知识库的 RAG 答疑机器人、SQL 助手、调优建议生成

沉淀 AI 工具链最佳实践，推广到全组并向外辐射

优先资格

● 对开源生态高度熟悉

● 具备从 0 到 1 设计大型分布式系统的能力，能独立 owner 某个技术方向

● 良好的工程品味:代码质量、测试覆盖、可观测性、稳定性

● 熟练使用 AI 编程工具完成日常开发，对 LLM 能力边界有清晰认知

● 良好的中英文技术阅读和书面表达能力(社区 issue / PR / 设计文档)

● Apache 顶级项目 Committer / PMC，或活跃的 Contributor(有合入主线的非 trivial PR)

●主导过将 AI 能力工程化落地到基础设施场景的真实案例(不只是用 ChatGPT 写代码，而是构建了系统)

● 在 GitHub 有持续的开源项目贡献或个人作品

●有向量化执行引擎(Velox / Gluten / Photon / DuckDB)的开发或深度调优经验

● 主导过 Spark 大版本升级(2.x → 3.x、3.x → 4.x)的项目

● 主导过 Remote Shuffle Service(Celeborn / Uniffle)在生产环境的落地

● Apache Spark / Gluten / Celeborn Committer 优先

AI 洞察

优缺点分析

优点

B站作为头部视频平台，数据场景丰富，技术团队氛围好，有开源贡献机会
AI赋能基础设施是前沿方向，结合大模型与大数据，职业发展空间广阔
要求综合能力极强，既要深入Spark内核，又要具备AI工程化落地能力

缺点 / 挑战

深度参与PB级大数据平台的核心优化，技术挑战大，积累宝贵的大规模系统经验
工作强度可能较高，需要同时跟进Spark社区前沿和AI技术快速迭代
千节点集群的稳定性优化压力大，故障排查需要深厚的实战经验
适合5年以上大数据经验、对Spark源码有深入理解、同时拥抱AI技术、希望在超大规模场景下挑战技术极限的资深工程师

角色解读

成为Spark/Gluten等开源项目的Committer或PMC，在社区建立影响力
向技术专家或架构师方向发展，负责更大规模的基础设施架构设计
横向拓展至AI基础设施领域，成为AI+大数据交叉方向的领军人物
主导Spark引擎在PB级数据、千节点集群下的深度优化，包括Catalyst优化器改造、Shuffle优化、AQE调优等
推动Spark与向量化引擎（Gluten+Velox）的集成，降低CPU成本，提升查询性能
建设AI赋能基础设施，开发AI代码生成、Code Review、根因分析等工具，将AI嵌入开发运维全流程
与湖仓团队协作，优化Spark on Iceberg/Paimon的查询和写入性能
精通Java/Scala/Go/Rust/C++中至少两门，对Spark内核源码有源码级理解
深入理解Catalyst优化器、Tungsten、Shuffle、Spark on K8s等核心机制
具备大型分布式系统设计能力，熟悉大数据生态（Hadoop、Hive、Iceberg等）
熟练使用AI编程工具（Claude Code、Cursor、Copilot），了解LLM能力边界，能构建AI工程化系统

申请策略

提前了解B站大数据平台的现状（如使用的发行版、集群规模），在面试中展示针对性方案
关注Spark社区最新动态（如Spark 4.x），体现技术前瞻性
突出参与过的大型大数据基础设施项目，尤其是PB级日处理或千节点集群的经验
详细描述Spark性能优化的具体案例，如Catalyst改造、Shuffle优化、AQE调优等，附上性能提升数据
展示开源贡献，如Spark/Gluten的Committer或Contributor，列出合入的PR
如果有AI工程化落地经验，务必描述系统设计和效果，简单使用AI工具不算亮点
深入阅读Spark源码（Catalyst、Tungsten、Shuffle模块），准备源码级面试
学习Gluten+Velox架构，了解向量化执行原理，最好有实际部署经验

面试指南

对于技术深度问题，采用STAR方法：背景(Situation)、任务(Task)、行动(Action)、结果(Result)，重点突出你的技术决策和量化收益
对于系统设计问题，先明确目标，再对比不同方案，最后给出选型理由，体现架构权衡能力
请描述Spark的Catalyst优化器工作流程，以及你如何对其进行改造以提升性能？
你在千节点Spark集群中遇到过哪些稳定性问题？如何解决的？
Gluten+Velox如何实现向量化执行？与普通Spark相比性能优势在哪里？可能有哪些坑？
你如何将AI能力嵌入基础设施？请举例说明一个你主导的AI工程化项目
请谈谈你对Remote Shuffle Service（如Celeborn）的理解，以及它的适用场景
复习Spark内核源码，特别是Catalyst、Tungsten、Shuffle模块，准备一个你深入研究的源码片段

职位点评

综合评分

B站资深大数据架构岗，前沿技术栈+AI赋能，薪资竞争力强，但工作强度较大。

更适合这类人

该职位最适合追求技术成长、渴望挑战前沿技术、愿意投入高强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活40

使命价值60

薪资福利

80较高

B站属于上市大厂，薪资具有竞争力，且该岗位层级较高，预计薪酬待遇在行业前列，福利完善（五险一金、股票期权等），但JD未明确薪资范围，需面议。

薪资信号面议 (30K-60K/月)

成长发展

95较高

该岗位深度涉及Spark前沿优化、向量化引擎集成以及AI赋能基础设施，技术栈非常前沿，且要求开源贡献，成长空间极大。JD中明确提及开源生态、社区贡献等，信号强劲。

技术前沿前沿/新兴技术

技术栈Spark、Gluten、Velox、LLM、AI编程、向量化执行

成长机会开源生态、社区前沿、Committer、PMC、Contributor

业务类型ambiguous

工作生活

40较低

地点上海，要求现场办公，未提及弹性工作或远程，作为一线互联网公司，工作强度可能较大。无明确WLB信号。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

数据基础设施和AI赋能具有较高技术价值，能推动公司降本增效，但岗位更偏技术实现，社会影响力一般。

行业发展稳定成熟行业

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

哔哩哔哩

资深大数据架构工程师-离线计算方向

立即应聘

资深大数据架构工程师-离线计算方向

发布于 2 天前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

本科

信息技术与基础设施

RAG

LLM

MapReduce

AI编程

Gluten

Velox

Paimon

AI 估算 · 30k–60k

资深大数据架构师在上海属于高薪岗位，B站上市大厂，结合行业水平与技术难度，月薪30K-60K较为合理。

职位详情

关于这个职位

本职位负责B站离线计算方向的Spark引擎深度优化与向量化执行引擎集成，同时主导AI赋能基础设施研发，将AI能力嵌入开发、发布、运维全流程

你将面对PB级数据、千节点集群的真实挑战，推动大数据基础设施的技术演进

最低要求

●985 / 211 及以上院校全日制本科及以上学历，计算机相关专业

●5 年以上大数据相关工作经验

●至少深度参与过 1 个大型大数据基础设施项目（EB 级存储 / PB 级日处理 / 千节点以上集群任一）

●Java / Scala / Go / Rust / C++ 中至少两门掌握扎实

●深度参与过 Spark 生产环境(>= PB / 日)的运维和优化，对 Spark 内核源码有源码级理解

●对至少一个领域有体系化认知:Catalyst 优化器 / Tungsten / Shuffle / Spark on K8s

工作职责

一、离线计算方向(Spark / 向量化执行引擎)

跟踪 Spark / MapReduce / 向量化执行引擎(Gluten / Velox / Photon / DuckDB)的社区前沿，结合 bilibili 业务做选型和落地

主导 Spark 引擎在 PB 级日处理、千节点集群下的稳定性、性能优化，包括但不限于:

（1）Catalyst 优化器改造

（2）Shuffle 优化(Remote Shuffle Service / Celeborn / Magnet)

（3）AQE / Dynamic Allocation / Spec Execution 深度调优

推动 Spark 与向量化引擎(Gluten + Velox)的深度集成，降低 CPU 成本、提升查询性能

解决批处理任务的资源效率、SQL 兼容性、调度延迟等真实工程问题

与湖仓团队配合，做好 Spark on Iceberg / Paimon 的查询和写入优化

二、AI 赋能基础设施研发

熟练使用 Claude Code、Cursor、Copilot 等 AI 编程工具，将 AI 深度嵌入日常工作流

主导 AI 流程自动化建设，为团队赋能:

（1）开发阶段：基于 AI 的代码生成、Code Review、单测生成、性能 profiling 自动化

（2）发布阶段：AI 辅助的变更影响分析、灰度策略推荐、回滚决策

（3）运维阶段：AI 驱动的告警归并、根因分析、故障自愈

（4）答疑阶段：基于内部知识库的 RAG 答疑机器人、SQL 助手、调优建议生成

沉淀 AI 工具链最佳实践，推广到全组并向外辐射

优先资格

● 对开源生态高度熟悉

● 具备从 0 到 1 设计大型分布式系统的能力，能独立 owner 某个技术方向

● 良好的工程品味:代码质量、测试覆盖、可观测性、稳定性

● 熟练使用 AI 编程工具完成日常开发，对 LLM 能力边界有清晰认知

● 良好的中英文技术阅读和书面表达能力(社区 issue / PR / 设计文档)

● Apache 顶级项目 Committer / PMC，或活跃的 Contributor(有合入主线的非 trivial PR)

●主导过将 AI 能力工程化落地到基础设施场景的真实案例(不只是用 ChatGPT 写代码，而是构建了系统)

● 在 GitHub 有持续的开源项目贡献或个人作品

●有向量化执行引擎(Velox / Gluten / Photon / DuckDB)的开发或深度调优经验

● 主导过 Spark 大版本升级(2.x → 3.x、3.x → 4.x)的项目

● 主导过 Remote Shuffle Service(Celeborn / Uniffle)在生产环境的落地

● Apache Spark / Gluten / Celeborn Committer 优先

AI 洞察

优缺点分析

优点

B站作为头部视频平台，数据场景丰富，技术团队氛围好，有开源贡献机会
AI赋能基础设施是前沿方向，结合大模型与大数据，职业发展空间广阔
要求综合能力极强，既要深入Spark内核，又要具备AI工程化落地能力

缺点 / 挑战

深度参与PB级大数据平台的核心优化，技术挑战大，积累宝贵的大规模系统经验
工作强度可能较高，需要同时跟进Spark社区前沿和AI技术快速迭代
千节点集群的稳定性优化压力大，故障排查需要深厚的实战经验
适合5年以上大数据经验、对Spark源码有深入理解、同时拥抱AI技术、希望在超大规模场景下挑战技术极限的资深工程师

角色解读

成为Spark/Gluten等开源项目的Committer或PMC，在社区建立影响力
向技术专家或架构师方向发展，负责更大规模的基础设施架构设计
横向拓展至AI基础设施领域，成为AI+大数据交叉方向的领军人物
主导Spark引擎在PB级数据、千节点集群下的深度优化，包括Catalyst优化器改造、Shuffle优化、AQE调优等
推动Spark与向量化引擎（Gluten+Velox）的集成，降低CPU成本，提升查询性能
建设AI赋能基础设施，开发AI代码生成、Code Review、根因分析等工具，将AI嵌入开发运维全流程
与湖仓团队协作，优化Spark on Iceberg/Paimon的查询和写入性能
精通Java/Scala/Go/Rust/C++中至少两门，对Spark内核源码有源码级理解
深入理解Catalyst优化器、Tungsten、Shuffle、Spark on K8s等核心机制
具备大型分布式系统设计能力，熟悉大数据生态（Hadoop、Hive、Iceberg等）
熟练使用AI编程工具（Claude Code、Cursor、Copilot），了解LLM能力边界，能构建AI工程化系统

申请策略

提前了解B站大数据平台的现状（如使用的发行版、集群规模），在面试中展示针对性方案
关注Spark社区最新动态（如Spark 4.x），体现技术前瞻性
突出参与过的大型大数据基础设施项目，尤其是PB级日处理或千节点集群的经验
详细描述Spark性能优化的具体案例，如Catalyst改造、Shuffle优化、AQE调优等，附上性能提升数据
展示开源贡献，如Spark/Gluten的Committer或Contributor，列出合入的PR
如果有AI工程化落地经验，务必描述系统设计和效果，简单使用AI工具不算亮点
深入阅读Spark源码（Catalyst、Tungsten、Shuffle模块），准备源码级面试
学习Gluten+Velox架构，了解向量化执行原理，最好有实际部署经验

面试指南

对于技术深度问题，采用STAR方法：背景(Situation)、任务(Task)、行动(Action)、结果(Result)，重点突出你的技术决策和量化收益
对于系统设计问题，先明确目标，再对比不同方案，最后给出选型理由，体现架构权衡能力
请描述Spark的Catalyst优化器工作流程，以及你如何对其进行改造以提升性能？
你在千节点Spark集群中遇到过哪些稳定性问题？如何解决的？
Gluten+Velox如何实现向量化执行？与普通Spark相比性能优势在哪里？可能有哪些坑？
你如何将AI能力嵌入基础设施？请举例说明一个你主导的AI工程化项目
请谈谈你对Remote Shuffle Service（如Celeborn）的理解，以及它的适用场景
复习Spark内核源码，特别是Catalyst、Tungsten、Shuffle模块，准备一个你深入研究的源码片段

职位点评

综合评分

B站资深大数据架构岗，前沿技术栈+AI赋能，薪资竞争力强，但工作强度较大。

更适合这类人

该职位最适合追求技术成长、渴望挑战前沿技术、愿意投入高强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活40

使命价值60

薪资福利

80较高

薪资信号面议 (30K-60K/月)

成长发展

95较高

技术前沿前沿/新兴技术

技术栈Spark、Gluten、Velox、LLM、AI编程、向量化执行

成长机会开源生态、社区前沿、Committer、PMC、Contributor

业务类型ambiguous

工作生活

40较低

地点上海，要求现场办公，未提及弹性工作或远程，作为一线互联网公司，工作强度可能较大。无明确WLB信号。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

数据基础设施和AI赋能具有较高技术价值，能推动公司降本增效，但岗位更偏技术实现，社会影响力一般。

行业发展稳定成熟行业

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

资深大数据架构工程师-离线计算方向

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

资深大数据架构工程师-离线计算方向

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

哔哩哔哩 的其他在招职位

后端技术Leader

高级Unity开发工程师（小程序）

资深大数据架构工程师-平台工程方向

直播公会运营

资深大数据架构工程师-存储与中间件方向

相似职位推荐

AI软件解决方案专家(FDE)（深圳/北京/上海）

AGENTIC AI Testing Lead, Global Delivery Simplification, VP

AGENTIC AI Testing Consultant, Global Delivery Simplification, AVP

应用架构高级工程师

AI运维工程师

哔哩哔哩 的其他在招职位

后端技术Leader

高级Unity开发工程师（小程序）

资深大数据架构工程师-平台工程方向

直播公会运营

资深大数据架构工程师-存储与中间件方向

相似职位推荐

AI软件解决方案专家(FDE)（深圳/北京/上海）

AGENTIC AI Testing Lead, Global Delivery Simplification, VP

AGENTIC AI Testing Consultant, Global Delivery Simplification, AVP

应用架构高级工程师

AI运维工程师

哔哩哔哩的其他在招职位

哔哩哔哩的其他在招职位