AI与大数据存储研发工程师-基础设施

🤖 AI 估测:¥60K-100K

发布时间:大约 17 小时前

立即应聘

ℹ️关于这个职位

该职位负责字节跳动AI与大数据存储基础设施的研发,重点参与大模型训练/推理场景下的存储方案设计、优化与运维,解决IO阻塞、高并发读写等核心痛点
你将与顶尖团队合作,主导EB级数据规模的存储架构升级,支撑推荐、广告、搜索等核心业务

工作职责

参与AI存储相关产品的整体架构设计,主导大模型训练/推理端到端存储方案的需求拆解、方案设计、研发交付与持续运维
针对推荐、广告、搜索场景下的大模型训练需求,定制优化存储策略,保障模型训练效率与稳定性
参与大数据场景下存储技术演进,对接消息队列、数据湖、数仓、ClickHouse等核心组件,完成存储层适配优化与架构升级
挖掘存储产品性能瓶颈、可靠性缺陷,设计高可用、易扩展、低成本的优化方案,解决大模型训练中的IO阻塞、数据调度、高并发读写等核心痛点
保障存储集群高质量迭代、高效率发布,支撑EB级数据规模平稳运行

最低要求

精通分布式存储系统核心原理与关键技术(一致性协议、数据冗余、缓存调度、GC优化等),具备独立拆解复杂需求、输出落地级存储解决方案的能力
熟练掌握Java/C/C++/Go任意一门开发语言,精通网络编程、多线程/多进程高并发编程,具备存储组件研发、问题排查与性能调优实战经验,可主导产品落地
熟悉AI大模型训练/推理存储特性,了解3FS、Tectonic、Colossus等业界主流AI存储架构,掌握大模型Checkpoint读写、海量小文件/大文件混合存储、低延迟IO优化等关键技术
熟悉大数据技术体系,精通Yarn、Spark、Flink、Kafka、HBase、ClickHouse、数据湖/数仓中至少两种组件的底层架构、工作原理与业务应用

👍优先资格

参与过PB/EB级AI分布式存储集群研发、运维、故障排查与性能调优,有大模型训练存储优化实战经验者优先
参与过HDFS、Ceph、Alluxio及AI存储相关开源项目开发,具备开源贡献经验者优先
深入理解推荐、广告、搜索业务场景,有AI训练数据治理、存储链路优化落地经验者优先