迭代熊猫数据框，检查值并创建其中的一些

如何解决迭代熊猫数据框，检查值并创建其中的一些

您可以使用pivot重塑-NaN按列输入缺失值time，然后unstack按reset_index和sort_values：

import pandas as pd

df = pd.DataFrame({'date': {0: 20100201, 1: 20100201, 2: 20100201, 3: 20100201, 4: 20100202, 5: 20100202, 6: 20100202, 7: 20100202, 8: 20100203, 9: 20100203, 10: 20100204}, 
                   'time': {0: 0, 1: 6, 2: 12, 3: 18, 4: 0, 5: 6, 6: 12, 7: 18, 8: 0, 9: 18, 10: 6},
                   'value': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 11, 10: 12}})

print (df)
        date  time  value
0   20100201     0      1
1   20100201     6      2
2   20100201    12      3
3   20100201    18      4
4   20100202     0      5
5   20100202     6      6
6   20100202    12      7
7   20100202    18      8
8   20100203     0      9
9   20100203    18     11
10  20100204     6     12



print (df.pivot(index='date', columns='time', values='value')
         .unstack()
         .reset_index(name='value')
         .sort_values('date'))

    time      date  value
0      0  20100201    1.0
4      6  20100201    2.0
8     12  20100201    3.0
12    18  20100201    4.0
1      0  20100202    5.0
5      6  20100202    6.0
9     12  20100202    7.0
13    18  20100202    8.0
2      0  20100203    9.0
6      6  20100203    NaN
10    12  20100203    NaN
14    18  20100203   11.0
3      0  20100204    NaN
7      6  20100204   12.0
11    12  20100204    NaN
15    18  20100204    NaN

reset_index如果您需要index这样的服务，也许您可以再次：

print (df.pivot(index='date', columns='time', values='value')
         .unstack()
         .reset_index(name='value')
         .sort_values('date')
         .reset_index(drop=True))

    time      date  value
0      0  20100201    1.0
1      6  20100201    2.0
2     12  20100201    3.0
3     18  20100201    4.0
4      0  20100202    5.0
5      6  20100202    6.0
6     12  20100202    7.0
7     18  20100202    8.0
8      0  20100203    9.0
9      6  20100203    NaN
10    12  20100203    NaN
11    18  20100203   11.0
12     0  20100204    NaN
13     6  20100204   12.0
14    12  20100204    NaN
15    18  20100204    NaN

解决方法

好的，我有一个（大）数据框，如下所示：

         date       time      value
0     20100201         0         1
1     20100201         6         2
2     20100201        12         3
3     20100201        18         4
4     20100202         0         5
5     20100202         6         6
6     20100202        12         7
7     20100202        18         8
8     20100203         0         9
9     20100203        18        11
10    20100204         6        12
...
8845  20160101        18      8846

如您所见，数据框具有一列date，一列time，每天有四个小时（00、06、12、18）和一列value。

问题在于数据框中缺少日期，在上面的示例中，第8行和第9行之间应该有两个额外的行，分别对应于小时6和12当天20100203，并且在第9行和第10行之间应该有一个额外的行，对应于小时和日期。0一天中的一个小时20100204。

我需要什么？
我想date对数据框的列进行迭代，检查每天是否存在并且没有人丢失，并且每天是否有四个小时（00、06、12、18）。如果缺少某些迭代过程中，应该在加入
正好那个地方，与丢失date和time并NaN作为一种价值。为了不再复制所有数据框，让我输入最终版本中应该出现的相关方面：

...
7     20100202        18         8
8     20100203         0         9
9     20100203         6       NaN
10    20100203        12       NaN   
11    20100203        18        11
12    20100204         0       NaN
13    20100204         6        12
...

如果您有兴趣，请在此处提出此问题的更简单版本，以python中的模块化算法来迭代熊猫数据框，并由用户@Alexander和@piRSquared友好地回答。这里要求的版本比较困难，涉及（我想）使用datetime和timedelta并迭代更多列。

抱歉，很长的帖子，非常感谢。