08 2023 档案

摘要:Matplotlib 库是一个用于数据可视化和绘图的 Python 库。它提供了大量的函数和类,可以帮助用户轻松地创建各种类型的图表,包括直方图、箱形图、散点图、饼图、条形图和密度图等。 使用 Matplotlib 的过程中,遇到的难点并不在于绘制各类的图形,因为每种图形都有其对应的API。难点在于 阅读全文
posted @ 2023-08-30 10:49 wang_yb 阅读(1325) 评论(0) 推荐(4)
摘要:pandas小技巧系列是介绍的是使用pandas分析数据时,最常用的一些操作技巧。 具体包括: 创建测试数据 学习pandas的过程中,为了尝试pandas提供的各类功能强大的函数,常常需要花费很多时间去创造测试数据。 本篇介绍如何快速的创建测试数据。 读取多个文件 日常分析数据时,只有单一数据文件 阅读全文
posted @ 2023-08-28 21:09 wang_yb 阅读(276) 评论(0) 推荐(0)
摘要:最近github上发现了一个库(plottable),可以用简单的方式就设置出花哨的 DataFrame 样式。 github上的地址:https://github.com/znstrider/plottable 1. 安装 通过 pip 安装: pip install plottable 2. 行 阅读全文
posted @ 2023-08-27 16:51 wang_yb 阅读(1022) 评论(0) 推荐(1)
摘要:上一篇介绍了DataFrame的显示参数,主要是对DataFrame中值进行调整。 本篇介绍DataFrame的显示样式的调整,显示样式主要是对表格本身的调整,比如颜色,通过颜色可以突出显示重要的值,观察数据时可以更加高效的获取主要信息。 下面介绍一些针对单个数据和批量数据的样式调整方式,让Data 阅读全文
posted @ 2023-08-25 09:27 wang_yb 阅读(1600) 评论(0) 推荐(0)
摘要:我们在jupyter notebook中使用pandas显示DataFrame的数据时,由于屏幕大小,或者数据量大小的原因,常常会觉得显示出来的表格不是特别符合预期。 这时,就需要调整pandas显示DataFrame的方式。pandas为我们提供了很多调整显示方式的参数,具体参见文末附录中的链接。 阅读全文
posted @ 2023-08-23 10:27 wang_yb 阅读(1448) 评论(1) 推荐(0)
摘要:category类型在pandas基础系列中有一篇介绍数据类型的文章中已经介绍过。category类型并不是python中的类型,是pandas特有的类型。 category类型的优势那篇文章已经介绍过,当时只是介绍了如何将某个列的数据转换成category类型,以及转换之后给程序性能上带来的好处。 阅读全文
posted @ 2023-08-21 09:25 wang_yb 阅读(962) 评论(2) 推荐(0)
摘要:这次介绍的小技巧不是统计,而是把统计结果作为新列和原来的数据放在一起。pandas的各种统计功能之前已经介绍了不少,但是每次都是统计结果归统计结果,原始数据归原始数据,没有把它们合并在一个数据集中来观察。 下面通过两个场景示例来演示如果把统计值作为新列的数据。 1. 成绩统计的场景 成绩统计及其类似 阅读全文
posted @ 2023-08-18 10:17 wang_yb 阅读(940) 评论(0) 推荐(0)
摘要:所谓数据转置,就是是将原始数据表格沿着对角线翻折,使原来的行变成新的列,原来的列变成新的行,从而更方便地进行数据分析和处理。 pandas中DataFrame的转置非常简单,每个DataFrame对象都有一个T属性,通过这个属性就能得到转置之后的DataFrame。下面介绍几个数据转置常用的场景,感 阅读全文
posted @ 2023-08-16 09:22 wang_yb 阅读(1398) 评论(0) 推荐(0)
摘要:日期处理相关内容之前pandas基础系列中有一篇专门介绍过,本篇补充两个常用的技巧。 1. 多列合并为日期 当收集来的数据中,年月日等信息分散在多个列时,往往需要先合并成日期类型,然后才能做分析处理。合并多列转换为日期类型,可以直接用 to_datetime函数来处理: import pandas 阅读全文
posted @ 2023-08-14 10:46 wang_yb 阅读(989) 评论(5) 推荐(0)
摘要:映射列值是指将一个列中的某些特定值映射为另外一些值,常用于数据清洗和转换。 使用映射列值的场景有很多,以下是几种常见的场景: 将字符串类型的列中的某些值映射为数字。例如,将“男”和“女”分别映射为 0 和 1,以便进行机器学习算法的训练和预测。 将缩写替换为全称。例如,将“USA”和“UK”分别替换 阅读全文
posted @ 2023-08-10 12:22 wang_yb 阅读(1121) 评论(0) 推荐(0)
摘要:字符串转数字的用途和场景很多,其中主要包括以下几个方面: 数据清洗:在进行数据处理时,经常会遇到一些数据类型不匹配的问题,比如某些列中的字符串类型被误认为是数字类型,此时需要将这些字符串类型转换为数字类型,才能进行后续的数值计算或统计分析。 数据整理:有时候输入的原始数据可能存在格式问题,例如有些数 阅读全文
posted @ 2023-08-09 08:59 wang_yb 阅读(2725) 评论(2) 推荐(2)
摘要:在实际应用中,数据集中经常会存在缺失值,也就是某些数据项的值并未填充或者填充不完整。缺失值的存在可能会对后续的数据分析和建模产生影响,因此需要进行处理。 pandas提供了多种方法来处理缺失值,例如删除缺失值、填充缺失值等。删除缺失值可能会导致数据量减少,填充缺失值则能够尽量保留原始数据集的完整性, 阅读全文
posted @ 2023-08-07 09:37 wang_yb 阅读(984) 评论(4) 推荐(0)
摘要:拆分列是pandas中常用的一种数据操作,它可以将一个包含多个值的列按照指定的规则拆分成多个新列,方便进行后续的分析和处理。拆分列的使用场景比较广泛,以下是一些常见的应用场景: 处理日期数据:在日期数据中,经常会将年、月、日等信息合并成一列,通过拆分列可以将其拆分成多个新列,方便进行时间序列分析。 阅读全文
posted @ 2023-08-03 09:55 wang_yb 阅读(2261) 评论(0) 推荐(1)
摘要:反转pandas DataFrame的行列顺序是一种非常实用的操作。在实际应用中,当我们需要对数据进行排列或者排序时,通常会使用到Pandas的行列反转功能。这个过程可以帮助我们更好地理解数据集,发现其中的规律和趋势。同时,行列反转还可以帮助我们将数据可视化,使得图表更加易于理解。 除了常规的数据分 阅读全文
posted @ 2023-08-02 16:06 wang_yb 阅读(2173) 评论(0) 推荐(1)