如何解决为多用户集成 jupyterhub 使用 pyspark 在顶层 YARN 上运行
我需要使用在顶部 YARN 上运行的 pyspark 为多用户集成 jupyterhub。
你可以看到。我有一个集群,有 1 个主站,2 个从站。我在所有节点上安装了 hadoop,在主节点上安装了 spark、pyspark、jupyterhub。我将 jupyterhub 用于笔记本的多用户工作,每个用户都可以使用 pyspark,在单元格中创建一些交互式代码并通过纱线在集群上运行它。
我用过:
- 火花 3.0.1
- Hadoop 3.2.0
- jupyterhub 1.3.0
我找到了一些解决方案:
1.导出 sys env 变量以通过 pyspark 单元运行代码
但这仅适用于一位用户
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
2.使用 findspark 模块
3.使用 toree/jupyter 内核
toree 0.3.0 移除了对 pyspark 的支持,当我使用旧版本时,出现问题 -> 错误
4.将 livy 与 sparkmagic 结合使用
livy 0.7.0 仅支持 spark 3.x,当我用于 spark 3.x 时出现问题 -> 错误
5.纱线生成器
如何在 jupyuterhub 上使用 pyspark,在 yarn 上运行?同一个 zeppelin 笔记本
非常感谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。