微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

为多用户集成 jupyterhub 使用 pyspark 在顶层 YARN 上运行

如何解决为多用户集成 jupyterhub 使用 pyspark 在顶层 YARN 上运行

我需要使用在顶部 YARN 上运行的 pyspark 为多用户集成 jupyterhub。

enter image description here

你可以看到。我有一个集群,有 1 个主站,2 个从站。我在所有节点上安装了 hadoop,在主节点上安装了 spark、pyspark、jupyterhub。我将 jupyterhub 用于笔记本的多用户工作,每个用户都可以使用 pyspark,在单元格中创建一些交互式代码并通过纱线在集群上运行它。

我用过:

  • 火花 3.0.1
  • Hadoop 3.2.0
  • jupyterhub 1.3.0

我找到了一些解决方案:

1.导出 sys env 变量以通过 pyspark 单元运行代码

但这仅适用于一位用户

export PYSPARK_DRIVER_PYTHON=jupyter 

export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

2.使用 findspark 模块

我想知道这个解决方案可以在纱线上运行吗?对于多用户

3.使用 toree/jupyter 内核

toree 0.3.0 移除了对 pyspark 的支持,当我使用旧版本时,出现问题 -> 错误

4.将 livy 与 sparkmagic 结合使用

livy 0.7.0 仅支持 spark 3.x,当我用于 spark 3.x 时出现问题 -> 错误

5.纱线生成

似乎这个解决方案是由某人提供的,我找到了官方解决方

如何在 jupyuterhub 上使用 pyspark,在 yarn 上运行?同一个 zeppelin 笔记本

非常感谢

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。