数据预处理需要注意的几个问题《数据之魅》

1，缺失值：

如果个别属性或者整个数据点丢失，我们必须决定如何处理它们。全部记录作废，还是只是为问题中丢失的信息做标记，还是以某种方式回填数据？

2，孤立点：

一般来说，应该非常小心地删除孤立点，因为删除的孤立点，可能正是你一直在寻找的结果，绝对不可以随意把某个数据点删除

3，垃圾：

来自网络的数据可能包含非打印字符或者类似的垃圾。这样的数据不仅没有用，还严重搅乱了尝试执行数据的底层应用程序。

4，规格化和规范化：

有些值可能不是以最适应后续分析的格式出现的。为此，经常使用转换的例子包括：强制转换大小写；删除字符串中的空格，或者用破折号替换空格；用Unix纪元秒、等类似的数值替换时间戳；用字符串标签替换数字代码，或者数字代码替换字符串标签，等等。

5，重复的积累：

数据集通常包含需要确认并删除的重复记录（“”）

6，合并数据集：

我们常常需要合并来自不同来源的数据集。确保数据的真正兼容的，特别是地理上分散的数据库实例

7，数据录入错误：

数据输入的错误：0.01而不是0.0001，或者把值输入错误的列中，诸如此类。由于现在大多数的数据都由电脑产生，传统的偶尔打字排版错误似乎已成为过去时，但要担心工业上的表现：整个数据集系统的损坏。

8，重复的积累：

数据集通常包含需要确认并删除的重复记录（“”）

9，特殊“数值”：

对于数据集中默认值的项，计算机可能会使用特殊的数值来编码，除非这些特殊值被过滤掉，否则它们显然会破坏统计分析。

10，复杂的业务规则和重载数据库字段：

拙劣的架构设计足以彻底破坏数据分析。数据库字段重载是一个致命的问题：字段根据数据库中的其他字段的值改变它们的含义。

推荐几个数据集知识库：

1，统计计算库（statlib）的数据和描述库：http://lib.stat.cmu.edu/DASL

2，《统计教育》学报的数据存档：http://www.amstat.org/publications/jse

3，UCI机器学习知识库（主要用于分类）：http://archive.ics.uci.edu/ml/

4，时间序列数据知识库：http://robjhyndman.com/TSDL/

5，数据集知识库的频繁项目集：http://fimi.cs.helsinki.fi/data/

6，UCINET IV 数据集：http://vlado.fmf.uni-lj.si/pub/networks/data/Ucinet/UciData.htm

7，A Handbook of Small Data Sets，David J.Hand，Fergus Daly，K.McConway，D.Lunn and E.Ostrowski，Chapman&Hall/CRC，1993(一本涵盖了500多个来自各行各业的数据集，本书同时还给出了各个数据集的描述)

数据预处理需要注意的几个问题 《数据之魅》