我们正在开始一个基于大数据的分析项目,我们正在考虑采用scala(类型安全堆栈)。我想知道各种scala API /项目,可用于做hadoop,map reduce程序。
解决方法
肯定看看
Scalding.作为用户和偶尔的贡献者,我发现它是一个非常有用的工具。 Scalding API也意在与标准Scala集合API非常兼容。正如您可以在普通集合中调用flatMap,map或groupBy一样,您可以在“烫发”Pipes上执行相同操作,您可以将其设想为分布式的元组列表。还有一个类型版本的API,提供更强的类型安全保证。我没有使用Scoobi,但API似乎和他们有什么相似。
此外,还有一些其他好处:
> Scalding在Twitter的生产中大量使用,并在Twitter规模的数据集上进行了测试。
>它在Twitter内部和外部都有几个积极的贡献者致力于使其伟大。
>它可以与您现有的级联作业互操作。
>除了Typed API之外,它还有一个Fields API,可能对R和数据框架框架的用户更为熟悉。
>它提供了一个强大的Matrix Library。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。