微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何对具有多个级别的列进行编码?

如何解决如何对具有多个级别的列进行编码?

我正在处理的数据集与汽车有关,我正在尝试建立一个预测模型。

有些列是颜色、门、齿轮类型,它们有 3-4 种类型的分类值,我尝试使用以下方法将其转换为数值:

a = pd.get_dummies(data[['Fuel type','Gear Box type','Drive wheels','Doors','Wheel','Color']]) 
data = pd.concat([data,a],axis = 1)

这导致列数增加到 51。我还有 2 列“Manufacturer”和“Model”,其中有很多我无法使用上述技术解决的值。我应该如何处理这些数据我应该使用什么方法将这些值转换为数值

解决方法

我不确定我为什么要为其中一些变量设置数字类别,但请查看以下帖子以了解如何将颜色或齿轮类型等内容编码为数字类别

您可以创建一个规则,使白色 = 1、蓝色 = 2、绿色 = 3 等

case_when function from R to Python

当将颜色视为连续数值时,我无法认可您获得的任何统计结果,但这将解决我相信的编程问题

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。