微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从数据框列创建数组对象以获取knn算法

如何解决从数据框列创建数组对象以获取knn算法

所以我正在看Tim机器学习教程系列中的技​​术,我看到他手动创建了这样的数组对象:

buying = le.fit_transform(list(df["buying"]))
maint = le.fit_transform(list(df["maint"]))
door = le.fit_transform(list(df["door"]))
persons = le.fit_transform(list(df["persons"]))
lug_boot = le.fit_transform(list(df["lug_boot"]))
safety = le.fit_transform(list(df["safety"]))
cls = le.fit_transform(list(df["class"]))

X = list(zip(buying,maint,door,persons,lug_boot,safety))  # features
y = list(cls)  # labels
X_train,X_test,y_train,y_test = sklearn.model_selection.train_test_split(X,y,test_size = 0.1)

如果我可以通过for循环创建一个函数自动执行此操作,我会感到很懒惰和好奇 并且我尝试制作字典,但是后来我无法正确检索值,等等,而最终我得到了错误的X输出,因为它返回了np.arrays列表?而不是元组列表。

我的代码

feature_values = []
def labelColumns (data):
    for col in range(len(df.columns)):
        feature_values.append(le.fit_transform(list(df[f'{df.columns[col]}'])))
        print(feature_values[col])
labelColumns(df)
#features_dict = dict(zip(list(df.columns),feature_values))
#cls = features_dict.pop('class')
X = list(zip(feature_values[:len(feature_values) - 1]))
y = feature_values[-1]

现在我最终还是不对字典做任何事情,但现在将其留在代码中。 因此,我知道应用train_test_split的X长度是完全错误的,但是我似乎无法弄清楚如何正确执行此操作,并且在很长一段时间内都被卡住了,我现在不想在不弄清楚它的情况下就放手最快的方法。因为那时我无法想象在未来的算法中使用超过8种算法

X_train,test_size = 0.1)

返回:

ValueError: Found input variables with inconsistent numbers of samples: [6,1728]

如果您很友好,请解释一下我在做错什么,以及在我现在脑海中浮现出来时应该如何处理

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。