本科及以上学历,计算机科学、软件工程、大数据等相关专业,5 年以上大规模数据处理经验
精通大数据技术栈,包括但不限于:
计算框架:Hadoop、Spark、Flink、Ray 等,具备流批一体化数据处理经验
存储系统:HBase、ClickHouse、Cassandra、Elasticsearch、Iceberg、Delta Lake 等,能够根据业务需求选择最优存储方案
分布式消息队列:Kafka、Pulsar 等,优化大规模数据流传输
ETL 及数据管道:精通 Airflow、KubeFlow 等数据编排工具,能够高效构建数据流转任务
熟练掌握至少一种编程语言(Python、Java、Scala),具备良好的代码优化及系统调优能力
深入理解大数据架构设计,具备超大规模数据管道的架构设计与落地经验
具备高并发、高吞吐的数据处理经验,熟悉分布式系统一致性、任务调度、计算优化等技术
熟悉 大规模网页数据处理,具备 海量非结构化数据的解析、索引优化 经验
具备高性能计算和存储优化能力,熟悉数据分片、索引优化、分布式查询加速等技术