如何解决在 spark 中的图像数据集上应用 PCA
关注这个话题How is Spark reading my image using the image format?
使用df = spark.read.format("image").load(....)
,根据上面的主题,图像被编码为与OpenCV兼容的二进制格式
我的目标是应用 PCA 来使用 OpenCV 对图像进行预处理,但我明白首先,二进制格式应该是一个 numpy 数组格式,每个像素都有矩阵。
我的目的是应用 blue,green,red = cv2.split(img)
但在 spark 数据框中。
我尝试在 OpenCV 中使用 withColumn PySpark 方法,但没有奏效。我也无法弄清楚如何从二进制转换为 OpenCV 能够理解的正确 np 数组
我对图片没有太多经验,如果问题不清楚,我很抱歉。
重点是如何使用 df = spark.read.format("image").load(....)
在 Spark DF 中加载的图像中应用 R、G、B 拆分以使它们适合 PCA
感谢您对之前提出的不太好的问题的任何帮助和抱歉
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。