如何解决从javascript中删除异常值并使数据一致的准确方法是什么?
假设我们有以下数据集。 2.33、2.19、4.7、2.69、2.8、2.12、3.01、2.5、1.98、2.34
如何通过使用JavaScript或可以在JavaScript中实现的任何其他数学方法消除异常值,从而从上述示例中选择一致的数据?
我采用以下计算方式: 平均值, 标准偏差 最小值(平均-标准开发), 最大值(avg + std dev)。并考虑了数据介于最小值和最大值之间的范围。
我们还有什么更好的方法可以用来获得准确性?
解决方法
我认为您的方法不够用,您需要先确定一个数字是非常高还是非常低,然后再确定其离群值。
为此,我们需要找到Q1
和Q1
来计算IQR其中Q3 – Q1
。
Q3 && Q1
是四分位数了解更多:https://www.statisticshowto.com/what-are-quartiles/
IQR
是(四分位间距)了解更多信息:https://www.statisticshowto.com/probability-and-statistics/interquartile-range/
所有这些我们可以检查极低和极高的异常值:
极高的值是大于 Q3 + ( 1.5* IQR )
的任何值
极低的值是小于 Q1 - ( 1.5* IQR )
所以在代码中
// sort array ascending
const dataSet= [2,2.5,2.25,4,1,-3,10,20];
const asc = arr => arr.sort((a,b) => a - b);
const quartile = (arr,q) => {
const sorted = asc(arr);
const pos = (sorted.length - 1) * q;
const base = Math.floor(pos);
const rest = pos - base;
if (sorted[base + 1] !== undefined) {
return sorted[base] + rest * (sorted[base + 1] - sorted[base]);
} else {
return sorted[base];
}
};
const Q1 = quartile(dataSet,.25);
const Q3 = quartile(dataSet,.75);
const IQR = Q3 - Q1;
let noneOutliers=[]
dataSet.forEach(number => {
if(number > (Q3 + (1.5 * IQR)) || number < (Q1 - (1.5 * IQR))) {
console.log('number is outlier');
}
else {
noneOutliers.push(number);
}
});
我使用的四分位数功能来自此答案How to get median and quartiles/percentiles of an array in JavaScript (or PHP)?
的方法,
任何一组数据都可以用它的五位数总结来描述。这五个数字为您提供查找模式和异常值所需的信息,由(按升序排列)组成。数据集的最小值或最小值 第一个四分位数 Q1,代表所有数据列表的四分之一 数据集的中位数,代表整个数据列表的中点 第三个四分位数 Q3,代表四分之三的方式遍历所有数据列表 数据集的最大值或最大值。
IQR = Q3 - Q1。 interquartile range 显示数据如何围绕中位数分布。它比范围更不容易受到异常值的影响,因此可能更有帮助。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。