这篇文章给大家分享的是有关大数据中正则化是什么意思的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
前言
通过设计不同层数、大小的网络模型,可以为优化算法提供初始的函数假设空间(或者所示网络容量)。但是随着网络参数的优化更新,模型的实际容量是可以随之变化的。
以多项式函数模型为例:
y = r 0 + r 1 x + r 2 x 2 + r 3 x 3 … + r n x n + e r r o r y=r_0+r_1x+r_2x^2+r_3x^3…+r_nx^n+error y=r0+r1x+r2x2+r3x3…+rnxn+error
上述模型容量可以通过n来简单衡量。在训练的过程中,如果模型参数 r i = 0 r_i=0 ri=0,表征的函数模型也就降维了,那么网络的实际容量也就相应的减小了。因此,通过限制网络的稀疏性,可以来约束网络的实际容量。
正则化
正则化正是通过在损失函数上添加额外的参数稀疏性惩罚项(正则项),来限制网络的稀疏性,以此约束网络的实际容量,从而防止模型出现过拟合。
因此,对模型的参数添加稀疏性惩罚项后,我们的目标损失函数就变为:
式子中的第一项为原始的损失函数,第二项是对网络参数的稀疏性约束函数,也就是正则项。
下面我们重点来研究一下正则项。一般地,参数的稀疏性约束通过约束参数 θ \theta θ的L范数实现,即:
新的优化目标除了要最小化原来的损失函数之外,还需要约束网络参数的稀疏性,优化算法会在降低损失函数的同时,尽可能地迫使网络参数 θ \theta θ变得稀疏,他们之间的权重关系通过超参数????来平衡,较大的????意味着网络的稀疏性更重要;较小的????则意味着网络的训练误差更重要。通过选择合适的????超参数可以获得较好的训练性能,同时保证网络的稀疏性,从而获得不错的泛化能力。
常用的正则化方式有 L0,L1,L2 正则化。即0范数、1范数、2范数。
L0 正则化
L0 正则化是指采用 L0 范数作为稀疏性惩罚项 Ω ( θ ) \Omega(\theta) Ω(θ)的正则化方式,即
其中,L0范数定义为: θ i \theta_i θi中非零元素的个数。通过约束 Ω ( θ ) \Omega(\theta) Ω(θ)的大小,可以迫使网络中的连接权值大部分为0。但是由于L0范数并不可导,不能利用梯度下降法进行优化,所以在神经网络中的使用并不多。
L1 正则化
采用 L1 范数作为稀疏性惩罚项 Ω ( θ ) \Omega(\theta) Ω(θ)的正则化方式叫做 L1 正则化,即
其中,L1范数定义为: θ i \theta_i θi中所有元素的绝对值之和。L1 正则化也叫 Lasso
Regularization,它是连续可导的,在神经网络中使用广泛。
L2正则化
采用 L2 范数作为稀疏性惩罚项 Ω ( θ ) \Omega(\theta) Ω(θ)的正则化方式叫做 L2 正则化,即
其中L2范数定义为: θ i \theta_i θi中所有元素的平方和。L2 正则化也叫Ridge Regularization,它和 L1 正则化一样,也是连续可导的,在神经网络中使用广泛。
正则化效果
下面实验,在维持网络结构等其他超参数不变的条件下,在损失函数上添加L2正则化项,并通过改变超参数 λ \lambda λ来获得不同程度的正则化效果。
实验效果如下:
可以看到,随着正则化系数????的增加,网络对参数稀疏性的惩罚变大,从而迫使优化算法搜索而得到网络容量更小的模型。在???? = 0.00001时,正则化的作用比较微弱,网络出现了过拟合现象;但是???? = 0.1时,网络已经能够优化到合适的容量,并没有出现明显过拟合和欠拟合的现象。
需要注意的是,实际训练时,一般先尝试较小的正则化系数????,观测网络是否出现过拟合现象。然后尝试逐渐增大????参数来增加网络参数稀疏性,提高泛化能力。但是,过大的????
参数有可能导致网络不收敛,需要根据实际任务调节。
感谢各位的阅读!关于“大数据中正则化是什么意思”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。