如何解决在数据块集群上安装 R 空间包所需的 c 库
R 中的空间包通常依赖于 C 库来进行数值计算。如果 R 引擎无法使用默认权限安装这些库,则在安装依赖于这些库的 R 包时会出现问题。似乎数据块集群给 R 带来了这样的障碍。我想有两种方法可以解决这个问题,1)创建一个带有相关脚本的 docker 容器来安装包,或者 2)通过 init 脚本安装它们。我认为后一种方法会更容易,但我遇到了一些问题。集群无法启动,因为我的 init 脚本无法执行。见下文 - 我也试过 sudo
set -euxo pipefail
apt install libgeos-dev
apt install libudunits2-dev
apt install libgdal-dev
相关的,这些应该只安装在驱动程序节点上吗?我看不出他们需要在工作节点上的原因。上面的代码将它安装在我认为的工人和驱动程序上。仅安装在驱动程序上,我想应该是:
if [[ $DB_IS_DRIVER = "TRUE" ]]; then
apt install libgeos-dev
apt install libudunits2-dev
apt install libgdal-dev
解决方法
我遇到了类似的情况,需要安装一些库,这些库是某些 R 包在 unix 环境中工作所需的。在 Databricks 上执行了一些类似于下面的命令以在 DBFS 中创建 initscript,希望它对您的问题有所帮助。
此外,它们应该安装在所有节点上,而不仅仅是驱动程序节点,如果您希望使用分布式计算,R 包也可以在工作节点上工作。
dbutils.fs.mkdirs("dbfs:/databricks/initscripts/")
dbutils.fs.put("/databricks/initscripts/installpackagehelpers.sh","""
#!/bin/bash
echo "Installing libgmp"
sudo apt-get -q -y --fix-missing install libgmp-dev
echo "Installed libgmp"
echo "Installing libmpfr"
sudo apt-get -q -y --fix-missing install libmpfr-dev
echo "Installed libmpfr"
""",True)
最后,在创建集群时提供了来自 DBFS 的 initscript 位置。 /databricks/initscripts/installpackagehelpers.sh
如上例
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。