在统计环境中处理链接数据的正确方法

如何解决在统计环境中处理链接数据的正确方法

我有一个实验设置中的几个数据点。实验进行了数百次。对于每个实验，在定义的时间点（t_1-t_5）上测量了5个数据点。

在this sketch中显示了这些测量的平均值和标准偏差。

我主要通过执行以下操作来获得这些结果：

import numpy as np
datas = [data0,data1,data2,data3,data4]
datasMean=[]
datasstd=[]
for data in datas:
    datasMean.append(data.mean())
    datasstd.append(data.std())

通过一些统计分析，我想了解一下我的假设，即在t_4时的实际测量值低于其他时间-与该实验中的其他数据点有关。

有没有办法证明这一假设是正确的？我担心自己的实验结果可能会如图in this sketch所示，主要由40％的绿色数据点和40％的蓝色数据点（或一些其他更复杂的分布，甚至更加模糊）组成。

如何验证我的假设，即在大量实验运行中，t_4的数据点相对于其他数据点而言，总是与其他数据点相比某些实验？

numpy或scipy.stats（或其他软件包）中的哪些功能适合解决此问题？

解决方法

这是否捕获了数据的一部分？：

Experiment   t1 t2 t3 t4 t5                
experiment1  a  b  c  d  e
experiment2  a  b  c  d  e
experiment3  a  b  c  d  e
experiment4  a  b  c  d  e
experiment5  a  b  c  d  e

其中a，b，c，d和e是在定义的时间t1-t5记录的数据点。并且您想验证您的假设，即对于某个实验，d始终小于a，b，c和e？

这是有效的解决方案：调整数据部分的外观。


Experiment  t1  t2 t3 t4 t5               
experiment1  2  10  4  8  1
experiment2  3   3  2  5  2
experiment3  9   2  7  6  3
experiment4  4   1  6  4  5
experiment5  6  20  3  5  7

import pandas as pd
import numpy as np

#change column dtype to numeric
df[['t1','t2','t3','t4','t5']] = df[['t1','t5']].apply(pd.to_numeric)

# new column holding minimum value occurring in every row
df['min_value'] = df.idxmin(axis=1)

结果：

Experiment  t1  t2  t3  t4  t5  min_value                   
experiment1 2   10  4   8   1   t1
experiment2 3   3   2   5   2   t3
experiment3 9   2   7   6   3   t2
experiment4 4   1   6   4   5   t2
experiment5 6   20  3   5   7   t3