如何解决在统计环境中处理链接数据的正确方法
我有一个实验设置中的几个数据点。实验进行了数百次。对于每个实验,在定义的时间点(t_1
-t_5
)上测量了5个数据点。
在this sketch中显示了这些测量的平均值和标准偏差。
我主要通过执行以下操作来获得这些结果:
import numpy as np
datas = [data0,data1,data2,data3,data4]
datasMean=[]
datasstd=[]
for data in datas:
datasMean.append(data.mean())
datasstd.append(data.std())
通过一些统计分析,我想了解一下我的假设,即在t_4
时的实际测量值低于其他时间-与该实验中的其他数据点有关。
有没有办法证明这一假设是正确的?我担心自己的实验结果可能会如图in this sketch所示,主要由40%的绿色数据点和40%的蓝色数据点(或一些其他更复杂的分布,甚至更加模糊)组成。
如何验证我的假设,即在大量实验运行中,t_4
的数据点相对于其他数据点而言,总是与其他数据点相比某些实验?
numpy
或scipy.stats
(或其他软件包)中的哪些功能适合解决此问题?
解决方法
这是否捕获了数据的一部分?:
Experiment t1 t2 t3 t4 t5
experiment1 a b c d e
experiment2 a b c d e
experiment3 a b c d e
experiment4 a b c d e
experiment5 a b c d e
其中a,b,c,d和e是在定义的时间t1-t5记录的数据点。并且您想验证您的假设,即对于某个实验,d始终小于a,b,c和e?
这是有效的解决方案: 调整数据部分的外观。
Experiment t1 t2 t3 t4 t5
experiment1 2 10 4 8 1
experiment2 3 3 2 5 2
experiment3 9 2 7 6 3
experiment4 4 1 6 4 5
experiment5 6 20 3 5 7
import pandas as pd
import numpy as np
#change column dtype to numeric
df[['t1','t2','t3','t4','t5']] = df[['t1','t5']].apply(pd.to_numeric)
# new column holding minimum value occurring in every row
df['min_value'] = df.idxmin(axis=1)
结果:
Experiment t1 t2 t3 t4 t5 min_value
experiment1 2 10 4 8 1 t1
experiment2 3 3 2 5 2 t3
experiment3 9 2 7 6 3 t2
experiment4 4 1 6 4 5 t2
experiment5 6 20 3 5 7 t3
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。