1,缺失值:
2,孤立点:
3,垃圾:
来自网络的数据可能包含非打印字符或者类似的垃圾。这样的数据不仅没有用,还严重搅乱了尝试执行数据的底层应用程序。
4,规格化和规范化:
5,重复的积累:
数据集通常包含需要确认并删除的重复记录(“”)
6,合并数据集:
我们常常需要合并来自不同来源的数据集。确保数据的真正兼容的,特别是地理上分散的数据库实例
7,数据录入错误:
推荐几个数据集知识库:
1,统计计算库(statlib)的数据和描述库:http://lib.stat.cmu.edu/DASL
2,《统计教育》学报的数据存档:http://www.amstat.org/publications/jse
3,UCI机器学习知识库(主要用于分类):http://archive.ics.uci.edu/ml/
4,时间序列数据知识库:http://robjhyndman.com/TSDL/
5,数据集知识库的频繁项目集:http://fimi.cs.helsinki.fi/data/
6,UCINET IV 数据集:http://vlado.fmf.uni-lj.si/pub/networks/data/Ucinet/UciData.htm
7,A Handbook of Small Data Sets,David J.Hand,Fergus Daly,K.McConway,D.Lunn and E.Ostrowski,Chapman&Hall/CRC,1993(一本涵盖了500多个来自各行各业的数据集,本书同时还给出了各个数据集的描述)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。