数据规范化
1 数据规范化
(1) 最小-最大规范化对原始数据进行线性变换。
zi=xi-xmin/xmax-xmin
其中:zi为指标的标准分数,xi为某镇某指标的指标值,xmax为全部镇中某指标的最大值,xmin为全部镇中某指标的最小
(2) z-score规范化也称零-均值规范化。属性A的值是基于A的平均值与标准差规范化。
公式为:(x-mean(x))/std(x)
(3) 小数定标规范化
通过移动属性值的小数点位置进行规范化,通俗的说就是将属性值除以10的j次幂。
2 归一化(normalization)
把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
一般方法是最小-最大规范的方法:
3 标准化(Standardization)
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,标准化后的数据可正可负,但是一般绝对值不会太大。一般是z-score规范化方法:(x-mean(x))/std(x)
4 正则化(Regularization)
在求解最优化问题中,调节拟合程度的,参数一般称为正则项,越大表明欠拟合,越小表明过拟合,推荐中主要用在矩阵分
李航博士在《统计学习方法》中提到,统计学习的三要素是模型、策略和算法,在机器学习领域,这个“模型”就是我们要求解的概率分布或决策函数。
假设我们现在要求一个逻辑回归问题,首先我们要做的是假设一个函数,可以覆盖所有的可能:
这里可以不用关心这个函数是什么意思,就知道代表误差就行了。对于该模型
为了解决过拟合问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的”正则化“(又称为”惩罚“,penalty)。正则化的一般形式是在整个平均损失函数后增加一个正则项(L2范数正则化,也有其他形式的正则化,他们的作用也不同):
A=1N(∑iNL(yi,f(xi))+∑inλw2i)
后面的
∑in λ w2i就是正则化项,其中
从下面的图中,可以很明显的看出正则化函数的作用:
原文地址:https://www.jb51.cc/regex/358424.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。