微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在解决回归问题的同时,使用python中的虚拟变量对数据集进行标准化

如何解决在解决回归问题的同时,使用python中的虚拟变量对数据集进行标准化

在GIS问题中,假设我想对具有从a到e的6个属性作为自变量的数据集进行回归分析,例如:

a,b,c,d,e,f

5,6,7,8,1,0

e和f是伪变量,只能为0或1。现在,我想标准化此数据集以进行回归准备,但我必须避免标准化e和f。正常的标准化代码如下:

##difine a standardization function

def standarize_data(data,stats):
    return (data - stats['mean'])/ stats['std']

## Complete standardization

data_standardizd = standarize_data(dataset,dataset_statistic)

这是问题所在,如果我直接执行此部分,则哑变量也将被标准化,我该如何避免采用正确的格式?

我尝试这样的代码

data_standardizd = standarize_data(dataset[a,b,c,d],dataset_statistic)

返回错误

KeyError: ('a','b','c','d')

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。