常见正则化思想

声明：

转自《Deep Learning》

在此，我们提供了一些通用正则化策略的列表。该列表显然是不详尽的，但是给出了一些学习算法是如何返现对应潜在因素的特征的具体示例。

PS: 按照本书的观点，无监督学习由于能提高泛化能力，所以无监督学习也是一种正则化方法。

平滑：假设对于单位d和销量 $\varepsilon$ 有 $f(x + \varepsilon d) \approx f(x)$ 。这个假设允许学习器从训练样本泛化到输入空间中附近的点。许多机器学习算法都利用了这个想法，但它不能克服维数灾难难题。
线性：很多学习算法假定一些变量之间的关系是线性的。这使得算法能够预测原理观测数据的点，但有时可能会导致一些极端的预测。大多数简单的学习算法不会做平滑假设，而会做线性假设。这些假设实际上是不同的，具有很大权重的线性函数在高维空间中可能不是非常平滑的。
多个解释因子：许多标识学习算法收一下假设的启发，数据是由多个潜在解释因子生成的，并且给定每一个因子的状态，大多数任务都能轻易解决。学习p(x) 的结构要求学习出一些对建模 $p(y |x)$ 同样有用的特征，因为它们都涉及到相同的潜在解释因子。
因果因子：该模型认为学成表示所描述的变差因素是观察数据x的成因，而非反过来。
深度，或者解释因子的层次组织：高级抽象概念能够通过将简单概念层次化来定义。从另一个角度来看，深度架构表达了我们认为任务应该由多个程序步骤完成的观念，其中每一个步骤回溯到先前步骤处理之后的输出。
任务间共享因素：当多个对应到不同变量yi 的任务共享相同的输入x 时，或者当每个任务关联到全局输入x 的子集或者函数 $f^{(i)}(x)$ 时，我们会假设每个变量yi 关联到来自相关因素h 公共池的不同子集。因为这些子集有重叠，所以通过共享的中间表示 $P(h| x)$ 来学习所有的 $P(y_i |x)$ 能够使任务间共享统计强度。
流行：概率质量集中，并且集中区域是局部连通的，且占据很小的体积。在连续情况下，这些区域可以用比数据所在原始空间低很多维的低维流形来近似。很多机器学习算法只在这些流形上有效。一些机器学习算法，特别是自编码器，会试图显式地学习流形的结构。
自然聚类：很多机器学习算法假设输入空间中每个连通流形可以被分配一个单独的类。数据分布在许多个不连通的流形上，但相同流形上数据的类别是相同的。这个假设激励了各种学习算法，包括正切传播、双反向传播、流形正切分类器和对抗训练。
时间和空间相干性：慢特征分析和相关的算法假设，最重要的解释因子随时间变化很缓慢，或者至少假设预测真实的潜在解释因子比预测诸如像素值这类原始观察会更容易些。
稀疏性：假设大部分特征和大部分输入不相关，如在表示猫的图像时，没有必要使用象鼻的特征。因此，我们可以强加一个先验，任何可以解释为‘‘存在’’或‘‘不存在’’ 的特征在大多数时间都是不存在的。
简化因子依赖：在良好的高级表示中，因子会通过简单的依赖相互关联。最简单的可能是边缘独立，即 $P (h) = \prod_{i} P (h_{i})$ 。但是线性依赖或浅层自编码器所能表示的依赖关系也是合理的假设。这可以从许多物理定律中看出来，并且假设在学成表示的顶层插入线性预测器或分解的先验。

原文地址：https://www.jb51.cc/regex/357476.html

相关推荐