微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

MongoDB Hadoop Connector

程序名称:MongoDB Hadoop Connector

授权协议: Apache

操作系统: 跨平台

开发语言: Scala

MongoDB Hadoop Connector 介绍

Hadoop擅长分析和处理大型数据集,而MongoDB擅长存储应用程序的大型数据集,这两者结合到一起,就诞生了Mongo-
Hadoop——MongoDB主要负责存储和查询,Hadoop主要负责批处理。

Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件,并将此作为Hadoop
Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割,然后交给Hadoop并行处理,这样非常大的数
据集就可以快速被处理。

Mongo-
Hadoop支持PigHive,这两个开源项目允许编写非常简单的脚本来执行非常复杂的MapReduce工作流。

Mongo-Hadoop还支持Hadoop streaming,这样你可以使用Java以及其他任何编程语言来编写map/reduce函数。目前Mongo-
Hadoop支持Ruby、Node.js和Python中的streaming。

Mongo-Hadoop的工作流程如下:

  • Mongo-Hadoop首先检查MongoDB Collection,并计算数据分割
  • 每个分割部分被分配到Hadoop集群中的一个节点
  • 同时,Hadoop节点从MongoDB(或BSON)获取数据,并进行本地处理
  • Hadoop合并结果,并输出到MongoDB或BSON

介绍内容来自 iteye

MongoDB Hadoop Connector 官网

https://github.com/mongodb/mongo-hadoop

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐