Pyspark 在 MinMaxScaler

如何解决Pyspark 在 MinMaxScaler

我使用的学生数据集来自: https://archive.ics.uci.edu/ml/machine-learning-databases/00320/

如果我在管道中缩放功能,它会丢失我以后需要的大部分元数据。这是没有缩放以生成元数据的基本设置。缩放选项已注释以方便复制。

我正在选择我希望用于模型的数字和分类列。这是我的数据设置和管道,没有缩放以查看元数据。

# load data
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('student-performance').getOrCreate()
df_raw = spark.read.options(delimiter=';',header=True,inferSchema=True).csv('student-mat.csv')

# specify columns and filter
cols_cate = ['school','sex','Pstatus','Mjob','Fjob','famsup','activities','higher','internet','romantic']
cols_num = ['age','Medu','Fedu','studytime','failures','famrel','goout','Dalc','Walc','health','absences','G1','G2']
col_label = ['G3']
keep = cols_cate + cols_num + col_label
df_keep = df_raw.select(keep)

# setup pipeline
from pyspark.ml.feature import OneHotEncoder,StringIndexer,VectorAssembler,MinMaxScaler
cols_assembly = []
stages = []
for col in cols_cate:
    string_index = StringIndexer(inputCol=col,outputCol=col+'-indexed')
    encoder = OneHotEncoder(inputCol=string_index.getOutputCol(),outputCol=col+'-encoded')
    cols_assembly.append(encoder.getOutputCol())
    stages += [string_index,encoder]
# assemble vectors
assembler_input = cols_assembly + cols_num
assembler = VectorAssembler(inputCols=assembler_input,outputCol='features')
stages += [assembler]
# MinMaxScalar option - will need to change 'features' -> 'scaled-features' later
#scaler = MinMaxScaler(inputCol='features',outputCol='scaled-features')
#stages += [scaler]

# apply pipeline
from pyspark.ml import Pipeline
pipeline = Pipeline(stages=stages)
pipelineModel = pipeline.fit(df_keep)
df_pipe = pipelineModel.transform(df_keep)
cols_selected = ['features'] + cols_cate + cols_num + ['G3']
df_pipe = df_pipe.select(cols_selected)

制作训练数据、拟合模型并进行预测。

from pyspark.ml.regression import LinearRegression
train,test = df_pipe.randomSplit([0.7,0.3],seed=14)
lr = LinearRegression(featuresCol='features',labelCol='G3',maxIter=10,regParam=0.3,elasticNetParam=0.8)
lrModel = lr.fit(train)
lr_preds = lrModel.transform(test)

检查“功能”列的元数据我这里有很多信息。

lr_preds.schema['features'].metadata

输出:

{'ml_attr': {'attrs': {'numeric': [{'idx': 16,'name': 'age'},{'idx': 17,'name': 'Medu'},{'idx': 18,'name': 'Fedu'},{'idx': 19,'name': 'studytime'},{'idx': 20,'name': 'failures'},{'idx': 21,'name': 'famrel'},{'idx': 22,'name': 'goout'},{'idx': 23,'name': 'Dalc'},{'idx': 24,'name': 'Walc'},{'idx': 25,'name': 'health'},{'idx': 26,'name': 'absences'},{'idx': 27,'name': 'G1'},{'idx': 28,'name': 'G2'}],'binary': [{'idx': 0,'name': 'school-encoded_GP'},{'idx': 1,'name': 'sex-encoded_F'},{'idx': 2,'name': 'Pstatus-encoded_T'},{'idx': 3,'name': 'Mjob-encoded_other'},{'idx': 4,'name': 'Mjob-encoded_services'},{'idx': 5,'name': 'Mjob-encoded_at_home'},{'idx': 6,'name': 'Mjob-encoded_teacher'},{'idx': 7,'name': 'Fjob-encoded_other'},{'idx': 8,'name': 'Fjob-encoded_services'},{'idx': 9,'name': 'Fjob-encoded_teacher'},{'idx': 10,'name': 'Fjob-encoded_at_home'},{'idx': 11,'name': 'famsup-encoded_yes'},{'idx': 12,'name': 'activities-encoded_yes'},{'idx': 13,'name': 'higher-encoded_yes'},{'idx': 14,'name': 'internet-encoded_yes'},{'idx': 15,'name': 'romantic-encoded_no'}]},'num_attrs': 29}}

如果我在管道中的 VectorAssembler(上面已注释掉)之后添加缩放、重新训练并再次进行预测,它会丢失所有这些元数据。

lr_preds.schema['scaled-features'].metadata

输出:

{'ml_attr': {'num_attrs': 29}}

有什么办法可以恢复这个元数据?提前致谢!

解决方法

mck 建议使用 lr_preds 中的“功能”来获取元数据,它没有改变。谢谢。

列特征应该保留在 dataframelr_preds 中,也许您可​​以从该列中获取它?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)> insert overwrite table dwd_trade_cart_add_inc > select data.id, > data.user_id, > data.course_id, > date_format(
错误1 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive> show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.res