机器学习中常见概念的区别与联系

欠拟合与过拟合

1.欠拟合：生成的拟合函数过于简单（例如 $h(\theta)=\theta_0+\theta_1x_1$ ）

2.过拟合：生产的拟合函数过于精确（例如 $h(\theta)=\theta_0+\theta_1x_1+...+\theta_6x_6$ ）

上图中，左图就是欠拟合的情况，曲线不能够很好的反映出数据的变化趋势；而右图是过拟合的情况，因为曲线经过了每一个样本点，虽然在训练集上误差小了，但是曲线的波动很大，往往在测试集上会有很大的误差。而中间图则是比较好的曲线。

当训练数据量很少时，容易发生过拟合，因为曲线会拟合这些少量数据点，而这些数据点往往不能代表数据的总体趋势，导致曲线波动大以及发生严重偏离。

欠拟合时，模型在训练集和测试集上都有很大误差（高偏差）；过拟合时，模型在训练集上可能误差很小，但是在测试集上误差很大（高方差）。如果模型在训练集上误差很大，且在测试集上的误差要更大的多，那么该模型同时有着高偏差和高方差。

防止欠拟合方法：不要选用过于简单的模型

防止过拟合方法：不要选用过于复杂的模型；数据集扩增（可以是寻找更多的训练集，也可以是对原训练集做处理，比如对原图片翻转缩放裁剪等）；正则化；Early stopping(在测试集上的误差率降到最低就停止训练，而不是不断降低在训练集上的误差)

L1正则化和L2正则化

L1正则化：在误差函数的基础上增加L1正则项：

C = C 0 + λ n \sum w | w |

$C=C_0+\frac{\lambda}{n}\sum_w|w|$
L2正则化：在误差函数的基础上增加L2正则项：

C = C 0 + λ 2 n \sum w w 2

$C=C_0+\frac{\lambda}{2n}\sum_w w^2$
L1正则化和L2正则化都能够防止过拟合。简单的来说，权值w越小，模型的复杂度越低（当w全为0时模型最简单），对数据的拟合刚刚好（也就是奥卡姆剃刀法则）。如果从更加数学的解释来看，我们看下图：

可以看出，过拟合的时候，曲线要顾及每一个点，最终形成的拟合函数波动很大。这就意味着函数在某些小区间里的导数值（绝对值）非常大。而由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

L1正则化对应着Lasso回归模型，L2正则化对应着岭回归模型。Lasso（L1正则化）得到的w往往比较稀疏，会出现很多0，因此能够剔除无用特征（降维）。

分类和回归

分类：输入新样本特征，输出类别（离散）。常见模型有：Logistic回归，softmax回归，因子分解机，支持向量机，决策树，随机森林，BP神经网络，等等

回归：输入新样本特征，输出预测值（连续）。常见模型有：线性回归，岭回归，Lasso回归，CART树回归，等等

参数学习算法和非参数学习算法

参数学习算法：模型有固定的参数列表 $\theta_0,\theta_1...$ （比如线性回归）

非参数学习算法：模型中参数的数目会随着训练集的增加而线性增长，或者参数的值会随着测试集的变化而变化（比如局部加权回归LWR就属于非参数学习算法）

偏差和方差

偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据。高偏差对应的是欠拟合。高偏差时，模型在训练集和测试机上都有很大误差。

方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散。高方差对应的是过拟合。高方差时，模型在训练集上的误差很小，但是在测试集上的误差很大。

如果模型在训练集上误差很大，且在测试集上的误差要更大的多，那么该模型同时有着高偏差和高方差。

监督学习和无监督学习

监督学习：训练集中的每个样本既有特征向量x，也有标签y。根据样本的y来对模型进行“监督”，调整模型的参数。监督学习对应的是分类和回归算法。

无监督学习：训练集中的每个样本只有特征向量x，没有标签y。根据样本之间的相似程度和聚集分布来对样本进行聚类。无监督学习对应的是聚类算法。

分类和聚类

分类：事先定义好了类别，类别数不变。当训练好分类器后，输入一个样本，输出所属的分类。分类模型是有监督。

聚类：事先没有定义类别标签，需要我们根据某种规则（比如距离近的属于一类）将数据样本分为多个类，也就是找出所谓的隐含类别标签。聚类模型是无监督的。

判别模型和生成模型

判别模型：从样本中学习，然后得到一个估计函数h(x)，用来判别新的x的函数值。

生成模型：根据要分的类别的特征建立多个模型，得到多个估计函数 $y_i$ 。然后将新的x代入各个类别对应的模型，看x属于哪个模型的概率 $P(y_i|x)$ 高，就认为x属于该类。

归一化与标准化

归一化方法：

把数变为（0，1）之间的小数

主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。

把有量纲表达式变为无量纲表达式

归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。

标准化方法：

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的，为了能够将指标参与评价计算，需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间。

归一化，一般的方法是 (x-min(x))/(max(x)-min(x)) 。标准化，一般方法是(x-mean(x))/std(x) 。其中mean(x)代表样本均值，std(x)代表样本标准差。这两种方法都是属于线性转换，都是按比例缩放的。

归一化和标准化的好处：

归一化的依据非常简单，不同变量往往量纲不同，归一化可以消除量纲对最终结果的影响，使不同变量具有可比性。比如两个人体重差10KG，身高差0.02M，在衡量两个人的差别时体重的差距会把身高的差距完全掩盖，归一化之后就不会有这样的问题。
标准化的原理比较复杂，它表示的是原始值与均值之间差多少个标准差，是一个相对值，所以也有去除量纲的功效。同时，它还带来两个附加的好处：均值为0，标准差为1。

协方差和相关系数

协方差：表示两个变量在变化过程中的变化趋势相似程度，或者说是相关程度。

C o v (X, Y) = E [(X - μ x) (Y - μ y)]

$Cov(X,Y)=E[(X-\mu_x)(Y-\mu_y)]$
当X增大Y也增大时，说明两变量是同向变化的，这时协方差就是正的；当X增大Y却减小时，说明两个变量是反向变化的，这时x协方差就是负的。协方差越大，说明同向程度越高；协方差越小，说明反向程度越高。

相关系数：也表示两个变量在变化过程中的变化相似程度。但是进行了归一化，剔除了变化幅度数值大小的的影响，仅单纯反映了每单位变化时的相似程度。

ρ = C o v ( X , Y ) σ X σ Y

$\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$
翻译一下：相关系数就是协方差分别除以X的标准差和Y的标准差。

当相关系数为1时，两个变量正向相似度最大，即X变大一倍，Y也变大一倍；当相关系数为0时，两个变量的变化过程完全没有相似度；当相关系数为-1时，两个变量的负向相似度最大，即X变大一倍，Y缩小一倍。