【pandas小技巧】--随机挑选子集

转一下 · 发表于 2023-7-26 10:58:34

在 pandas 中，如果遇到数据量特别大的情况，随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据，从而更好地进行数据分析和决策。
随机挑选子集的用途主要有：

评估数据质量：随机挑选 DataFrame 的子集可以帮助我们检查数据集的质量，以便进一步探索和挖掘数据。例如，我们可以通过随机选择一些行或列来评估数据的分布、离群值、缺失值等情况。
加深理解数据：随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据。例如，我们可以通过随机选择一些列来了解数据的分布、趋势、相关性等情况。
发现潜在模式：随机挑选 DataFrame 的子集可以帮助我们发现潜在的模式或规律。例如，我们可以通过随机选择一些行或列来探索数据之间的相关性或趋势，从而发现潜在的模式或规律。
探索新的数据分析方法：随机挑选 DataFrame 的子集可以帮助我们探索新的数据分析方法。例如，我们可以通过随机选择一些列来探索新的数据分析方法，如时间序列分析、空间分析等。
提高程序性能：随机挑选 DataFrame 的子集可以帮助我们优化程序性能。例如，我们可以通过随机选择一些列来减少计算量，从而提高程序性能。

本篇介绍一种pandas挑选子集的方式，以及子集在机器学习中常用的一个场景。
1. 随机挑选

这次示例中准备的数据来自链家网，我采集了一些南京市建邺区的房产交易数据，共有11290条。

import pandas as pd
fp = "nanjing-jianye.csv"
df = pd.read_csv(fp)
df

复制代码

1.1. 按百分比挑选

按百分比随机挑选样本的核心参数是 frac 和 random_state。

frac：样本数量占总量的百分比
random_state：随机状态，这个值相同，取出的样本是一样的

df1 = df.sample(frac=0.1, random_state=1111)
df1.sort_index()

复制代码

上面的示例中 frac=0.1，相当于获取总量10%的样本，总量11290条，所以样本数量1129条。
示例中的random_state=1111，只要改变这个数值，取出的样本就是会变化。

df1 = df.sample(frac=0.1, random_state=2222)
df1.sort_index()

复制代码

1.2. 按个数挑选

按个数随机挑选样本的核心参数是 n 和 random_state。

n：样本数量
random_state：随机状态，这个值相同，取出的样本是一样的

df2 = df.sample(n=100, random_state=1111)
df2.sort_index()

复制代码

上面的示例中n=100，随机取100个样本，其中random_state的作用和按百分比挑选一样。
2. 机器学习中使用场景

随机挑选子集的用途开头已经介绍了很多，还有个重要的应用场景是在机器学习时，可以将数据划分为训练集和测试集。
针对这个需求，利用上面介绍的sample函数封装一个平均划分的子集接口。
用于机器学习时分隔训练集和测试集。

import pandas as pd
import random
def split_dataset(df: pd.DataFrame, n = 10):
"""
df: 带划分的数据集
n: 划分子集的个数，默认10个
"""
total = len(df)
subset_count = total // n
dataset = []
df_left = df.copy()
for i in range(n):
df_subset = df_left.sample(n=subset_count, random_state=random.randint(1000,9999))
dataset.append(df_subset.copy())
df_left = df_left.drop(index=df_subset.index)
return dataset

复制代码

比如上面示例的房产成交数据（共11290条），通过此方法可以平均划分成n个数据集。

ds = split_dataset(df, n=10)
ds

复制代码

ds列表中就是平均划分的10个子集。
应用机器学习的算法时，可以循环任意选择7个作为训练集，剩余3个作为测试集。
3. 附录

本篇中使用的数据下载地址：nanjing-jianye.csv

来源:https://www.cnblogs.com/wang_yb/p/17581817.html
免责声明：由于采集信息均来自互联网，如果侵犯了您的权益，请联系我们【E-Mail:cb@itdo.tech】我们会及时删除侵权内容，谢谢合作！

【pandas小技巧】--随机挑选子集

本帖子中包含更多资源