職位描述
Description
- 设计、开发和维护大数据平台,支持海量数据的采集、存储、处理和分析;
- 根据业务需求,选择合适的大数据技术栈,如Hadoop、Spark、Flink、Kafka等;
- 开发ETL工具和流程,支持数据的抽取、转换和加载;
- 负责企业级数据仓库的架构设计和实施,构建符合业务特点的ODS、DWD、DWS、ADS分层模型;
- 基于Hive、Spark、Flink等框架开发高效稳定的ETL流程,支撑离线和实时需求;
- 建立完善的数据血缘和元数据管理体系;
- 负责数据质量监控体系的建设;
- 优化现有数仓架构,提升数据处理效率和资源利用率。
Requirements
- 计算机科学、软件工程或相关专业本科及以上学历;
- 5年以上大数据开发经验,3年以上数仓建设经验;
- 精通Hadoop、Spark、Flink、Kafka等大数据技术;
- 精通Java,熟练使用Python、Shell脚本;
- 精通SQL优化,熟练掌握HiveQL、FlinkSQL;
- 熟练使用 Flink SQL 或 DataStream API 开发实时计算任务;
- 熟练使用DolphinScheduler等开源调度工具;
- 熟练使用Doris或Clickhouse,并能调优;
- 主导过完整的企业级数据仓库项目优先;
- 强烈的责任心,能独立解决复杂技术问题;
- 良好的沟通能力和团队协作精神;
- 对新技术有强烈的学习兴趣和探索精神。
加分项
- 有数据湖开发经验,如Iceberg、Paimon。
- 熟悉机器学习平台或AI相关技术。
- 有开源项目贡献经验。
数据分析数据挖掘大数据PythonSQLJava数仓开发