微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

当在管道内给出时,Spark / pyspark的RFormula是否可以替代VectorAssembler和Indexers?

如何解决当在管道内给出时,Spark / pyspark的RFormula是否可以替代VectorAssembler和Indexers?

我是Spark / pyspark的新手,可能对RFormula对象功能有误解。它的源代码很难被察觉。

根据示例,单独使用RFormula肯定会在调用.fit().transform()方法时进行线性估计。 但是,当它在Pipeline()内部不适合使用时,它似乎只是显示因变量的一种简洁方法,并且应在应用“ ML”方法之前对数据进行哪些预转换(无需进行线性模型估算)。

问题是-由于RFormula属于pyspark的ml.feature模块-是否有可能将其用作管道的第一阶段,以取代笨拙的VectorAssembler()和StringIndexer()? (最后对于为定性数据(例如鸢尾花的花朵)创建ID /索引至关重要。

当我尝试将两个模型与Fischer的Iris Iris.csv数据集一起使用时, 第一个RFormula("Series ~ . -Id")DecisionTreeClassifier()的管道, 第二个是VectorAssembler(<input-Cols>,"features")StringIndexer("Species","indexedLabel")DecisionTreeClassifier("indexedLabel","features")的管道, 在.RowPredictions列中获得的结果高度依赖于所做的确切操作, 完全相同。
发生这种情况是因为RFormula实际上没有在此处将列映射到决策树估计器,而不计算任何内容吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。