07 2023 档案
摘要:重命名 pandas 数据中列的名称是一种常见的数据预处理任务。这通常是因为原始数据中的列名称可能不够清晰或准确。例如,列名可能包含空格、大写字母、特殊字符或拼写错误。 使用 pandas 的 rename函数可以帮助我们更改列名,从而使数据更加清晰和易于理解。此外,重命名列名还可以确保您的代码在维
阅读全文
摘要:本篇介绍的是pandas选择列数据的一个小技巧。之前已经介绍了很多选择列数据的方式,比如loc,iloc函数,按列名称选择,按条件选择等等。 这次介绍的是按照列的数据类型来选择列,按类型选择列可以帮助你快速选择正确的数据类型,提高数据分析的效率。 1. 类型种类 pandas列的数据类型主要有4大种
阅读全文
摘要:在 pandas 中,如果遇到数据量特别大的情况,随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据,从而更好地进行数据分析和决策。 随机挑选子集的用途主要有: 评估数据质量:随机挑选 DataFrame 的子集可以帮助我们检查数据集的质量,以便进一步探索和挖掘数据。例如,我们可以通过
阅读全文
摘要:日常分析数据时,只有单一数据文件的情况其实很少见,更多的情况是,我们从同一个数据来源定期或不定期的采集了很多数据文件;或者从不同的数据源采集多种不同格式的数据文件。 在这样的情况下,分析数据之前,需要将不同的数据集合并起来。合并数据一般有两个维度,一是同构的数据集合并后行数增加;一是异构的数据集合并
阅读全文
摘要:学习pandas的过程中,为了尝试pandas提供的各类功能强大的函数,常常需要花费很多时间去创造测试数据。 在pandas中,快速创建测试数据可以更快的评估 pandas 函数。通过生成一组测试数据,可以评估例如 read_csv、read_excel、groupby等函数,以确保这些函数在处理不
阅读全文
摘要:概述 NumPy是一个开源的科学计算库,它提供了高效的数值计算和数组操作功能,主要包括: 多维数组的创建、操作和索引。 数组的切片、拼接和转置。 数组的乘法、除法、求导、积分、对数等基本运算。 数组的逐元素操作、求平均值、中位数、众数等统计量。 数组作为列表、元组等数据类型进行传递和返回。 与其他数
阅读全文
摘要:目前为止,介绍的numpy数组基本都是关于数值的,其实,numpy本身就是一个用于数值计算的基础库。 不过,除了数值计算之外,numpy也能够支持结构化数组。 1. 关联不同类型数据 numpy的数组为了提高计算性能,要求数组的数据类型要一致。但是现实情况下,我们经常遇到不是纯数值的数组,比如: n
阅读全文
摘要:numpy 数组通常是用于数值计算的多维数组,而排序功能可以快速、准确地对数据进行排序,从而得到更加清晰、易于分析的结果。 在数据分析和处理过程中,常常需要对数据进行排序,以便更好地理解和发现其中的规律和趋势。 排序会应用在很多场景中,比如: 数据分类:将数据按照一定的特征进行分类,可以通过 num
阅读全文
摘要:数组索引是指在numpy数组中引用特定元素的方法。numpy的数组索引又称为fancy indexing,比其他编程语言的索引强大很多。 1. 选取数据 numpy的索引除了像其他语言一样选择一个元素,还可以间隔着选取多个元素,也可以用任意的顺序选取元素。 比如一维数组: arr = np.rand
阅读全文