如何解决标准化或标准化分类值
我对数据科学还很陌生(我使用的是 Python),我发现在进一步研究之前先对数据进行标准化或规范化对我们来说更好。我的问题是:
- 如果存在分类值(二进制并使用一种热编码,0 或 1),例如男性或女性,我们是否需要对此类数据进行标准化或归一化?
- 如果分类数据是非二进制数据,例如,您的健康状况(1= 差,2= 非常健康,3= 健康,4= 健康,5= 非常健康)会怎样。我们还需要对这类数据进行标准化或规范化吗?
解决方法
如果您有 2 个以上的分类值,最好将它们转换为一种热编码。分类值不应具有数学关系。如果您无法解释分类数据之间的数学顺序(例如适合 > 健康?),您应该创建一个热向量并将其表示为特征:
Old Version New version
1th 2th 3th 4th 5th 6th
poor 1 0 0 0 0 0 1
quite 2 0 0 0 0 1 0
healthy 3 0 0 0 1 0 0
healthy 4 0 0 1 0 0 0
fit 5 0 1 0 0 0 0
very fit 6 1 0 0 0 0 0
基本上,您有 6 个新功能,每个功能都代表您的一个类别。
注意:不需要对二进制数据应用归一化或标准化,因为它已经在 [0,1] 中
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。