参考网址:https://www.cnblogs.com/qingyunzong/p/8886338.html
Spark是基于内存的计算框架
1.为什么要学习Spark?
可以解决迭代计算,融入hadoop生态圈,弥补mr计算框架的不足
2.特点
(1)speed 速度快
基于内存计算,使用有向无环图(DAG)程序调度,查询优化器,物理执行器。速度比mr快100倍
(2)ease of use 容易使用
(3)generality 通用
Spark提供了统一的解决方案:批处理,交互式查询(Spark sql),实时流处理(Spark Streaming),机器学习(Spark MLIb)和图计算(GraphX)
(4)runs everywhere 兼容性好
自带standalone资源管理和任务调度器,同时可以兼容hadoop的yarn和apache的mesos
可以兼容hadoop生态圈,如hdfs,hive,hbase
3.Spark的组成
Spark Core:Spark核心,类似于MR,对数据进行离线处理,批处理
Spark Streaming :流式处理框架
Spark MLib:机器学习
GraphX:图计算
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。