微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

我什么时候应该在 python 中使用日志缩放和标准缩放?

如何解决我什么时候应该在 python 中使用日志缩放和标准缩放?

我最近在学习数据分析和数据科学。

当我预处理货币数据(金额)时,我通常使用“日志”来降低规模并标准化。但是,python 中有一些缩放器,例如 'StandardScaler'、'normalizer'、'MinScaler' 等。我想知道我什么时候应该使用 log 方法和 StandardScaler/normalizer 来缩放数据。

我已经考虑过这个问题并且理解如下。

  1. log scale 降低了数据的大小并使数据标准化,但不能形成完美的正态分布。主要用于货币数据。

  2. StandardScaler 使数据完美的正态分布

  3. 我有不同的度量特征(如距离、美元、重量等)时,我必须使用归一化器。用它来一次性预处理特征。

我理解对了吗?

解决方法

  1. 是的,你是对的
  2. 不,它不一定使数据呈正态分布,但它使所有数据单元自由且位于相同的位置和尺度内,即均值 0 和方差 1。因此,许多基于距离度量的算法不会受到高方差的影响与国家收入模型中的利率等低方差变量相反。
  3. 如果你的意思是缩放,那么通过规范化器是

但是,对于基于树的算法或任何不使用距离度量的算法,不需要缩放

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。