微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 spark 中的图像数据集上应用 PCA

如何解决在 spark 中的图像数据集上应用 PCA

关注这个话题How is Spark reading my image using the image format?

我有一个文件夹,里面有几张图片 JPG。

使用df = spark.read.format("image").load(....),根据上面的主题,图像被编码为与OpenCV兼容的二进制格式

我的目标是应用 PCA 来使用 OpenCV 对图像进行预处理,但我明白首先,二进制格式应该是一个 numpy 数组格式,每个像素都有矩阵。

我的目的是应用 blue,green,red = cv2.split(img) 但在 spark 数据框中。

我尝试在 OpenCV 中使用 withColumn PySpark 方法,但没有奏效。我也无法弄清楚如何从二进制转换为 OpenCV 能够理解的正确 np 数组

我对图片没有太多经验,如果问题不清楚,我很抱歉。

重点是如何使用 df = spark.read.format("image").load(....) 在 Spark DF 中加载的图像中应用 R、G、B 拆分以使它们适合 PCA

感谢您对之前提出的不太好的问题的任何帮助和抱歉

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。