该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。
- 大数据基础
- Hadoop
- HDFS
- MR
- Yarn
- Spark
- spark 的原理
- spark 常用算子。
- spark 参数调优。
- Flink
流计算 - Hive/Hbase/Flume
大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。
- Hadoop
- 大数据开发
大数据通用开发流程, 以常用的 lamdba 为例。 - 大数据管理
大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康。- 平台管理,比如小文件管理,元数据管理,安全管理。
- 数据管理,比如数据质量,数据血缘,数据指标
- 平台自身建设,比如 Job,IDE,BI 报表系统等
- 大数据应用
大数据平台除了产出报表,还可以有下面这些应用
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。