技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

阿里云E-MapReduce探秘，快速构建可扩展的高性能大数据平台(技术部分)

时间：2022-09-04分类：Spark作者：编程之家原文地址

本文来自夏立的分享，花名雷飙，阿里巴巴计算平台EMR高级产品专家。 2014年开始接触大数据，历经阿里内部的大数据发展，目前在阿里云上负责开源的大数据平台EMR产品，构建云上的开源生态。

产品介绍

阿里云EMR的整体架构如下：管理运维能力

集群管理，作业管理和调度
操作Web化、SDK&API

完全兼容开源系统，并在之基础上强化

Hadoop, Spark性能优化
监控能力能整合强化

伴随社区发展的生态

组件跟随开源社区保持版本升级
开源与阿里云平台的联结者，充分发挥云的生态能力
云产品对接（OSS，SLS，MaxCompute等）
云能力对接，弹性等等（本地盘实例严格打散，弹性伸缩能力，支持竞价实例）

全球部署（全球15个region部署）

基于企业级开源大数据生态上多样化场景方案的快速复制

提供完整的企业级的一体化平台

打包计算平台能力
开箱即用的体验

常见的组合使用方式：

640?wx_fmt=jpeg

大数据平台应用到的组件包括：通用Hadoop

开源大数据离线、实时、Ad-hoc查询场景
基于开源Hadoop生态，采用YARN管理集群资源，提供Hive、Spark离线大规模分布式数据存储和计算， SparkStreaming、Flink、Storm流式数据计算，Presto、Impala交互式查询，Oozie、Pig等Hadoop生态圈的组件，支持OSS存储，支持Kerberos的数据认证与加密。

Kafka

开源高吞吐量，可扩展性的消息系统
E-MapReduce Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。

DataScience

大数据+AI场景
Data Science针对大数据+AI场景，提供了Hive、Spark离线大数据ETL，TensorFlow模型训练，用户可以选择cpu+GPU的异构计算框架，利用英伟达GPU对部分深度学习算法就行高性能计算。

Druid

实时交互式分析服务场景
Druid提供了大数据查询毫秒级延迟，支持多种数据摄入方式。可与E-MapReduce Hadoop、E-MapReduce Spark、阿里云OSS、阿里云RDS等服务搭配组合使用，构建灵活稳健的实时查询解决方案。

Zookeeper

分布式锁
适用于大规模的Hadoop集群、HBase集群、Kafka集群独立的分布式一致性锁服务。

产品功能点

可视化集群管理控制台

640?wx_fmt=jpeg

自带的调度系统

640?wx_fmt=jpeg

项目级别的权限管理
支持DAG
更好的弹性资源结合
方便的多种作业管理
完善的报警和监控

机器学习支持深度学习、AI以成为目前炙手可热的词汇，EMR EMR Cluster Learning将深度学习和开源大数据技术深度结合，提供一体化的大数据+深度学习服务。利用一个集群，构建企业数据湖，同时进行机器学习和深度学习：

支持ECS GPU机型，通过Hadoop YARN调度集群GPU资源 Spark ML
TensorFlow Horvod • 支持TensorFlow ，Horvod等计算框架
可采用PS、MPI等数据通信模式
支持Docker，Standalone运行模式

640?wx_fmt=jpeg

欢迎点赞+收藏+转发朋友圈素质三连

640?wx_fmt=jpeg

文章不错？点个【在看】吧！ ????

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：SparkRDD转DataSet/DataFrame的一个下一篇：Spark将Dataframe数据写入Hive分区

相关推荐

1_Spark Streaming 概述

1.SparkStreaming是什么？SparkStreaming是SparkCore的扩展API用来支持高吞吐、高容错的处理流式数据数据源可以是:Kafka、TCPsockets、Flume、Twitter等流式数据源处理数据:可以用SparkCore的算子map、reduce、join、window

作者：编程之家时间：2022-11-24

Spark通讯录相似度计算怎么实现

本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这...

作者：编程之家时间：2022-11-11

如何进行Spark数据分析

本篇文章给大家分享的是有关如何进行Spark数据分析，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说...

作者：编程之家时间：2022-11-11

Spark Shuffle和Hadoop Shuffle有哪些区别

本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“S...

作者：编程之家时间：2022-11-12

TSDB的数据怎么利用Hadoop/spark集群做数据分析

这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数据分析”，在日常操作中，相信很多人在TSDB的数据怎么利用Hadoop/spark集群做数据分析问题上存在疑惑...

作者：编程之家时间：2022-11-12

Hadoop与Spark性能原理是什么

本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这

作者：编程之家时间：2022-11-12

Hadoop和Spark有什么不同

小编给大家分享一下Hadoop和Spark有什么不同，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们

作者：编程之家时间：2022-11-12

Hadoop和Spark的Shuffle过程有什么不同

这篇文章主要讲解了“Hadoop和Spark的Shuffle过程有什么不同”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习...

作者：编程之家时间：2022-11-12

基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的

本篇文章给大家分享的是有关基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获...

作者：编程之家时间：2022-11-12

Spark中foreachRDD、foreachPartition和foreach的区别是什么

这篇文章主要介绍“Spark中foreachRDD、foreachPartition和foreach的区别是什么”，在日常操作中，相信很多人在Spark中foreachRDD、foreachPartition和foreach的...

作者：编程之家时间：2022-11-12

小编推荐

苹果市值2025年有望达4万亿美元