技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

python – 使用Pandas数据帧不相交组进行随机抽样

时间：2022-09-06分类：pandas作者：编程之家原文地址AI导航网

我需要通过属性“ids”将数据框随机分成两个不相交的集合.例如,请考虑以下数据框：

df=
Out[470]: 
          0     1     2     3       ids
0      17.0  18.0  16.0  15.0      13.0
1      18.0  16.0  15.0  15.0      13.0
2      16.0  15.0  15.0  16.0      13.0
131    12.0   8.0  21.0  19.0      14.0
132     8.0  21.0  19.0  20.0      14.0
133    21.0  19.0  20.0   9.0      14.0
248     NaN   NaN  12.0  11.0      17.0
249     NaN  12.0  11.0  10.0      17.0
250    12.0  11.0  10.0   NaN      17.0
287     3.0   3.0   1.0   8.0      20.0
288     3.0   1.0   8.0   3.0      20.0
289     1.0   8.0   3.0   3.0      20.0
413    21.0   7.0  16.0  18.0      25.0
414     7.0  16.0  18.0  19.0      25.0
415    16.0  18.0  19.0  18.0      25.0
665    10.0   8.0   8.0   7.0      27.0
666     8.0   8.0   7.0   9.0      27.0
667     8.0   7.0   9.0   8.0      27.0
790     NaN   NaN  15.0   NaN      33.0
791     NaN  15.0   NaN  10.0      33.0
792    15.0   NaN  10.0   NaN      33.0
812     NaN  16.0   NaN  17.0      34.0
813    16.0   NaN  17.0   NaN      34.0
814     NaN  17.0   NaN  13.0      34.0
944     3.0   4.0   3.0  18.0      35.0
945     4.0   3.0  18.0  18.0      35.0
946     3.0  18.0  18.0  11.0      35.0
1059    9.0  10.0   3.0   4.0      56.0
1060   10.0   3.0   4.0   3.0      56.0
1061    3.0   4.0   3.0   3.0      56.0
    ...   ...   ...   ...       ...
10125   NaN   9.0   5.0   5.0  101317.0
10126   9.0   5.0   5.0   5.0  101317.0
10127   5.0   5.0   5.0   7.0  101317.0

我需要得到两个(用一些分数大小随机分隔)数据帧,没有相交的id值.

我知道如何以’非潘达式’方式解决它：

>获取ID的唯一值
>将唯一值随机分成两个不相交的组
>使用.isin()根据两组中的id值选择行

我想知道是否有一个简单而巧妙的方法来做一些pandas内置函数,如.sample()？

使用sklearn.model_selection.GroupShuffleSplit执行拆分：

from sklearn.model_selection import GroupShuffleSplit

# Initialize the GroupShuffleSplit.
gss = GroupShuffleSplit(n_splits=1, test_size=0.5)

# Get the indexers for the split.
idx1, idx2 = next(gss.split(df, groups=df.ids))

# Get the split DataFrames.
df1, df2 = df.iloc[idx1], df.iloc[idx2]

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：python – Pandas DataFrame计算下一篇：python – pandas dataframe fil

相关推荐

一文讲述Pandas库的数据读取、数据获取、数据拼接、数据写出！

转载：一文讲述Pandas库的数据读取、数据获取、数据拼接、数据写出！(qq.com)1.pandas介绍Pandas是一个强大的数据分析库，它的Series和DataFrame数据结构，使得处理起二维表格数据变得非常简单。基于后面需要对Excel表格数据进行处理，有时候使用Pandas库处理表格数据，会更容易、更简单，

作者：编程之家时间：2022-11-23

1.Pandas是什么

Pandas是一个开源的第三方Python库，从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名（NumPy、Matplotlib、Pandas）。Pandas已经成为Python数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。图1：PandasLogoPa

作者：编程之家时间：2022-11-23

Python 筛选 Excel 数据练习

整体流程登录天池在线编程环境导入pandas和xrld操作EXCEL文件登录天池在线编程环境网址：tianchi.aliyun.com登陆后选择天池实验室-天池notebook天池实验室新手入门教程：https:/ianchi.aliyun.comotebook-ai/detail?&postId=198826注意：编辑完后将代码保存回

作者：编程之家时间：2022-11-23

Python - numpy 和 pandas

一、numpy小结二、pandas2.1为什么要学习pandans

作者：编程之家时间：2022-11-23

Pandas：时序数据下

1、时间偏移DateOffset对象DateOffset类似于时间差Timedelta，但它使用日历中时间日期的规则，而不是直接进行时间性质的算术计算，让时间更符合实际生活。比如，有些地区使用夏令时时，每日偏移时间有可能是23或24小时，甚至25个小时。移动偏移应用偏移偏移参数上

作者：编程之家时间：2022-11-23

1、pandas内置样式空值高亮highlight_null最大最小值高亮背景渐变background_gradient根据数值的大小背景颜色呈现梯度渐变，越深表示越大，越浅表示越小，类似于Excel的中的色阶样式。条形图bar2、pandas格式显示我们在最终输出数据查看时，需要对数据进行相应

作者：编程之家时间：2022-11-23

ML第15周学习小结

本周收获总结一下本周学习内容：1、《深入浅出Pandas》的第14章：Pandas时序数据14.4时间偏移~14.6时间操作

作者：编程之家时间：2022-11-23

ML第16周小结

本周收获总结一下本周学习内容：1、《深入浅出Pandas》的第15章：Pandas样式15.1内置样式~15.3样式高级操作

作者：编程之家时间：2022-11-23

pandas快速入门

安装pip3installpandaspandas快速入门1pandas擅长处理哪些数据在处理表格数据时，例如存储在电子表格或数据库中的数据，pandas是适合您的工具。pandas将帮助您探索、清理和处理数据。在pandas中，数据表称为DataFrame。要加载pandas包并开始使用它，请导入该包。社区一致使用的p

作者：编程之家时间：2022-11-23

数据分析之Pandas

一、Pandas介绍1、介绍pandas是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而

作者：编程之家时间：2022-09-06

小编推荐

苹果市值2025年有望达4万亿美元