周末查询了一些大数据相关的资料,今天简单以Hadoop的视角来总结一下我对大数据发展里程的总结:
2004:Google 发表大数据论文, “三驾马车”横空出世
2006:Nutch 搜索引擎 分离出 Hadoop
Doug Cutting 将大数据相关的功能从 Nutch 中分离出来
2007:陆续应用于 雅虎、百度、阿里 等企业
Hadoop 应用于互联网大厂的大数据存储与计算
-
Cloudera 成立,运营 Hadoop 的商业公司
-
Pig(Yahoo 开发) 脚本语言 转换为 MapReduce 任务
-
Hive (Facebook 开发) 用 SQL 转换为 MapReduce 任务
-
Cassandra (Facebook 开发) 分布式 NoSQL 数据库
2011:Hadoop 生态逐步形成
2012:Yarn 资源调度系统
Spark 开始崭露头角:源于 伯克利 AMP 实验室。
新概念引入:
-
批处理计算、大数据离线计算
-
代表:MapReduce、Spark
-
大数据流计算、大数据实时计算
-
代表:Storm、Flink、Spark Streaming
-
大数据分析与大数据仓库
-
代表:Hive、Spark SQL
-
大数据挖掘与机器学习
-
代表:Mahout、MLlib、TensorFlow
本次总结粒度比较粗,面相对窄。后续我们继续
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。