翼度科技»论坛 编程开发 python 查看内容

【pandas小技巧】--目录(完结)

10

主题

10

帖子

30

积分

新手上路

Rank: 1

积分
30
pandas小技巧系列是介绍的是使用pandas分析数据时,最常用的一些操作技巧。
具体包括:

  • 创建测试数据
    学习pandas的过程中,为了尝试pandas提供的各类功能强大的函数,常常需要花费很多时间去创造测试数据。
    本篇介绍如何快速的创建测试数据。

  • 读取多个文件
    日常分析数据时,只有单一数据文件的情况其实很少见,更多的情况是,
    我们从同一个数据来源定期或不定期的采集了很多数据文件;或者从不同的数据源采集多种不同格式的数据文件。
    本篇介绍读取多个文件的技巧。

  • 随机挑选子集
    在 pandas 中,如果遇到数据量特别大的情况,随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据,从而更好地进行数据分析和决策。

  • 按类型选择列
    这次介绍的是按照列的数据类型来选择列,按类型选择列可以帮助你快速选择正确的数据类型,提高数据分析的效率。

  • 修改列的名称
    重命名 pandas 数据中列的名称是一种常见的数据预处理任务。
    通常是因为原始数据中的列名称可能不够清晰或准确。例如,列名可能包含空格、大写字母、特殊字符或拼写错误。
    本篇介绍修改列名称的技巧。

  • 反转行列顺序
    反转pandas DataFrame的行列顺序是一种非常实用的操作。
    本篇介绍几种pandas中常用的反转行列顺序的方法。

  • 拆分列
    拆分列是pandas中常用的一种数据操作,它可以将一个包含多个值的列按照指定的规则拆分成多个新列,方便进行后续的分析和处理。
    本篇简要介绍下pandas拆分列的常用方法。

  • 缺失值的列
    在实际应用中,数据集中经常会存在缺失值,也就是某些数据项的值并未填充或者填充不完整。
    缺失值的存在可能会对后续的数据分析和建模产生影响,因此需要进行处理。

  • 字符串转数字
    字符串转数字的用途和场景很多,本篇介绍一些常用的字符串转数值的方法。

  • 列值的映射
    映射列值是指将一个列中的某些特定值映射为另外一些值,常用于数据清洗和转换。

  • 日期相关处理
    日期处理相关内容之前pandas基础系列中有一篇专门介绍过,本篇补充两个常用的技巧。

  • 数据转置
    所谓数据转置,就是是将原始数据表格沿着对角线翻折,使原来的行变成新的列,原来的列变成新的行,从而更方便地进行数据分析和处理。
    本篇介绍几个数据转置常用的场景,感受下转置前后数据展示的区别。

  • 统计值作为新列
    这次介绍的小技巧不是统计,而是把统计结果作为新列和原来的数据放在一起。

  • category类型补充
    category类型在pandas基础系列中有一篇介绍数据类型的文章中已经介绍过。
    category类型并不是python中的类型,是pandas特有的类型。
    本篇将补充介绍深入使用category类型时,经常会遇到的两个问题。

  • DataFrame显示参数
    我们在jupyter notebook中使用pandas显示DataFrame的数据时,
    由于屏幕大小,或者数据量大小的原因,常常会觉得显示出来的表格不是特别符合预期。
    这时,就需要调整pandas显示DataFrame的方式。
    pandas为我们提供了很多调整显示方式的参数,具体参见文末附录中的链接。
    本篇介绍几个我经常用到的参数来抛砖引玉。

  • DataFrame显示样式
    本篇介绍DataFrame的显示样式的调整,显示样式主要是对表格本身的调整,
    比如颜色,通过颜色可以突出显示重要的值,观察数据时可以更加高效的获取主要信息。

  • 花哨的DataFrame
    最近github上发现了一个库(plottable),可以用简单的方式就设置出花哨的 DataFrame 样式。

来源:https://www.cnblogs.com/wang_yb/p/17663324.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

举报 回复 使用道具