微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何创建组 |通过考虑相同的连续分组在 Pandas DataFrame 中列来划分子组预定义循环顺序?

如何解决如何创建组 |通过考虑相同的连续分组在 Pandas DataFrame 中列来划分子组预定义循环顺序?

任务 1: 我正在寻找一种解决方案,通过考虑其中一列(我的 Panda 的 DataFrame,..将其视为列表的值)中相同的连续分组来创建组:

from itertools import groupby

test_list = ['AA','AA','BB','CC','DD','EE','CC']
data = pd.DataFrame(test_list)
data['batches'] = ['1','1','2','3','4','5','6','7','8'] # this is the goal to reach
print(data)

result = [list(y) for x,y in groupby(test_list)]
print(result)

[['AA','AA'],['BB'],['CC'],['DD','DD'],['AA'],['EE'],['CC']]

所以,我有一个包含两列的 DataFrame:第一列是必须按顺序保存的元素列表 + 分组:相同的连续分组。应分配结果的批处理列。

我找不到解决方案或变通方法。如您所见,我使用 itertools groupby 函数通过对相同的缺点进行分组来创建一个列表。项目,但这不是我想看到的最终结果。 我知道 itertools groupby 允许我使用带有“key=' 参数的 lambda 函数来获得我的解决方

我正在考虑将上述内容合并并将其循环到字典中,键是通过使用 enumerate 迭代列表获得的批号,值是列表元素

{1:['AA',2:['BB'],3:['CC'],4: ['DD','DD']...}

之后,我会将字典(或任何其他解决方案/解决方法)转换为数据系列并将其添加到我的批处理列中:

在本练习中,我只想将“字典”的键(唯一批次的数量)返回到批次列。

| list     | batches |
| -------- | ------- |
| AA       | 1       |
| AA       | 1       |
| BB       | 2       |
| CC       | 3       |
| DD       | 4       |
| DD       | 4       |
| DD       | 4       |
| AA       | 5       |
| BB       | 6       |
| EE       | 7       |
| CC       | 8       |

已编辑:

任务 2:为类似任务添加查询

在这种情况下,我的初始列表有一个(预定义的)循环顺序要遵循,例如 AA -- AB -- AC 属于一个主要组,DA -- DB -- 属于到另一个组。

问题是如何计算列子组,以便我可以在我的主组下有子组列表......也就是说,捕获主组内的重复组。

列表 主力
AA 1 1
AB 1 1
交流 1 1
AA 2 1
AB 2 1
交流 2 1
DA 1 2
数据库 1 2

我找到了一个解决方案,其逻辑基于@Shubham 的评论。我使用 .cumcount() 函数解决方案如下:df['sub'] = df.groupby(['main gr','list'].cumcount()+1 .cumcount()+1 如果我们希望子订单计数/索引从 1 开始而不是 0。

(我不是在寻找最佳解决方案,而是在寻找解决方案。不过,我想将此代码用于包含数百万个条目的大型数据集)。

我将非常感谢任何评论支持反馈。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?