
哔哩哔哩
资深大数据架构工程师-平台工程方向
资深大数据架构工程师-平台工程方向
发布于 大约 18 小时前普通员工/个人贡献者
上海市
高级经验
全职员工
仅现场办公
本科
信息技术与基础设施
CI/CD
平台工程
AIOps
大数据架构
ClickHouse
AI 估算 · 50k–80k
上海资深大数据架构师,技术栈前沿,需求稀缺,薪资竞争力强。
职位详情
关于这个职位
作为B站大数据平台工程方向的核心成员,你将主导万级节点集群的管理平台建设,涵盖组件发布、运维诊断与资源治理
同时推动AI与平台的深度融合,利用AI编程工具和智能运维体系提升交付效率
适合大数据基础设施领域深耕耘、追求技术前沿的资深工程师
最低要求
/211及以上院校全日制本科及以上学历,计算机相关专业
年以上大数据相关工作经验
至少深度参与过1个大型大数据基础设施项目(EB级存储/PB级日处理/千节点以上集群任一)
Java/Scala/Go/Rust/C++中至少两门掌握扎实
深度参与过大型数据平台/集群管理/运维体系(任一)的研发,服务过>=千节点/>=万级任务量
熟练掌握K8s(部署、Operator、调度、网络、存储)和CI/CD(GitLab CI/Jenkins/Argo CD等)
工作职责
一、平台工程方向(集群管理/组件发布/运维诊断/资源治理)
主导大数据集群管理平台建设,支撑全公司万级节点、十数套核心组件的生命周期管理,包括但不限于:
(1)集群部署/扩缩容/滚动升级
(2)多集群、多机房统一管控
(3)配置中心、灰度发布、版本管理
主导大数据组件的发布与持续交付体系,包括但不限于:
(1)大数据组件(Hadoop/Spark/Flink/Kafka/ClickHouse等)的CI/CD流水线建设
(2)自动化测试、变更影响分析、灰度策略、自动回滚
(3)内部分支管理与社区版本同步策略
主导大数据运维诊断体系建设,包括但不限于:
(1)全栈可观测性(Metrics/Logs/Tracing/Profiling)
(2)智能告警、根因分析、故障自愈
(3)慢任务/慢查询诊断、性能profiling自动化
主导大数据集群资源治理体系建设,包括但不限于:
(1)多租户隔离、配额管理、弹性资源池
(2)资源利用率分析、成本核算、容量规划
(3)K8s/YARN混部、潮汐调度、超卖与回收
推动AI×平台融合:智能资源调优、AI Agent运维助手、对话式集群管理
二、AI赋能基础设施研发
熟练使用Claude Code、Cursor、Copilot等AI编程工具
主导AI流程自动化建设,为团队赋能:
(1)开发阶段:基于AI的代码生成、Code Review、单测生成、性能profiling自动化
(2)发布阶段:AI辅助的变更影响分析、灰度策略推荐、回滚决策
(3)运维阶段:AI驱动的告警归并、根因分析、故障自愈
(4)答疑阶段:基于内部知识库的RAG答疑机器人、SQL助手、调优建议生成
沉淀AI工具链实践
优先资格
对分布式系统、配置管理、可观测性有体系化认知
主导过大数据组件在K8s上的容器化改造与落地(Spark on K8s/Flink K8s Operator等)
主导过大规模集群部署与升级体系(Ansible/SaltStack/自研Operator)
主导过AIOps/智能运维体系(智能告警、根因分析、容量预测)的建设
主导过AI×数据平台融合的实际案例(智能调优/AI Agent运维/对话式管控)
Apache DolphinScheduler/Ambari/Kyuubi/Airflow Contributor优先
对开源生态高度熟悉,能快速判断"该自研、该用开源、该改开源"的边界
具备从0到1设计大型分布式系统的能力,能独立owner某个技术方向
良好的工程品味:代码质量、测试覆盖、可观测性、稳定性
熟练使用AI编程工具完成日常开发,对LLM能力边界有清晰认知
良好的中英文技术阅读和书面表达能力(社区issue/PR/设计文档)
AI 洞察
优缺点分析
优点
- 前沿技术栈:深度参与K8s、AIops、AI编程等最新技术实践
- 公司平台大:已上市互联网公司,资源充足,技术影响力广
- 技术深度要求高:需要同时掌握大数据、K8s、AI等多个领域
- 责任重大:主导万级节点集群,稳定性与效率直接关联业务
- 行业竞争激烈:大数据架构师岗位技术要求高,技术迭代快
- 适合5年以上大数据基础设施经验、热爱技术深耕、具备架构思维和AI实践热情的资深工程师
缺点 / 挑战
- 核心业务场景:服务B站亿万用户,数据规模巨大,技术挑战大
角色解读
- 技术纵深:成为大数据基础设施领域的顶级专家,主导更大规模的平台建设
- 技术管理:带领平台工程团队,负责多个技术方向的管理与决策
- AI融合:深入探索AI运维与大数据平台结合的前沿方向,成为AI基础设施专家
- 主导大数据集群管理平台的架构与开发,支持万级节点的生命周期管理
- 建设大数据组件的CI/CD流水线,实现自动化发布与灰度策略
- 构建智能运维诊断体系,包括可观测性、告警归因与故障自愈
- 推动AI与平台融合,利用AI编程工具和自动化流程提升研发运维效率
- 扎实的Java/Scala/Go等编程能力,掌握至少两门语言
- 深入了解大数据生态组件(Hadoop/Spark/Flink等)和Kubernetes
- 体系化的分布式系统设计与可观测性认知
- 熟练使用AI编程工具(Claude Code、Cursor等)并具备LLM应用经验
申请策略
- 在简历和面试中强调从0到1的系统设计能力,以及面对大规模集群的优化经验
- 突出在大数据集群管理、组件发布或运维诊断方面的主导项目,量化规模(节点数、任务量)
- 展示K8s和大数据生态的深度实践经验,特别是容器化改造和CI/CD落地
- 强调AI编程工具的使用和AI运维案例,体现技术前瞻性
- 如有开源贡献(如DolphinScheduler、Ambari等),务必突出
- 补充K8s Operator开发和AI运维相关实践,可参与开源项目
- 熟悉LLM的应用,如RAG、Agent开发,加深AI与平台结合的认知
面试指南
- STAR法则:明确项目的背景、任务、行动和结果,量化规模
- 技术决策讲依据:对比不同方案(自研vs开源),说明选择理由
- 体现系统思维:从可观测性、稳定性、效率等角度全面分析
- 请描述你主导过的大数据集群管理平台架构,包括设计思路和关键挑战
- 如何实现大数据组件在K8s上的容器化?遇到过哪些问题?
- 讲讲你如何建设CI/CD流水线?如何确保变更安全?
- 你如何看待AI在运维中的应用?请举例说明
- 针对万级节点集群,如何设计资源治理体系(如混部、超卖)?
职位点评
70
综合评分
B站大数据架构岗,前沿技术栈,高发展潜力,但现场办公且可能加班。
更适合这类人
该职位最适合追求技术深度和前沿发展、愿意接受挑战的求职者,不太适合看重工作生活平衡的人群。
表现最好
成长发展
相对薄弱
工作生活
薪资福利80
成长发展90
工作生活40
使命价值70
薪资福利
80较高
B站上市大厂,薪资竞争力强,福利完善(如五险一金、期权、补充医疗等),但JD未明确具体薪资,薪酬信号为面议或未披露,综合评分较高。
薪资信号未披露(AI估算:50K-80K/月)
成长发展
90较高
职位涉及大数据、K8s、AI等前沿技术,有AI赋能和平台创新机会,成长空间大。JD明确要求主导多项技术体系,技术挑战性强。
技术前沿前沿/新兴技术
技术栈Hadoop、Spark、Flink、Kafka、ClickHouse、Kubernetes、AIOps、LLM
成长机会主导、推动创新、沉淀AI工具链实践
业务类型profit_center
工作生活
40较低
上海现场办公,未提及弹性工作或远程,互联网公司可能有一定加班强度,WLB信号较弱。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值
70中等
B站作为内容社区平台,数据驱动业务发展,岗位对社会价值有间接贡献,但直接意义感一般。行业高速增长,技术有较大创新空间。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
哔哩哔哩 的其他在招职位
相似职位推荐
Watch Jobs