hechengQAQ

导航

 

参考链接:http://c.biancheng.net/pandas/dataframe.html

原理:

基于Numpy,底层由cpython、c编写,对数据进行整合、操作、处理、分析、可视化;Pandas 的主要数据结构是 Series 和 DataFrame,一维、二维数据结构,使得数据操作更加简单和高效。

操作及作用:

andas 的主要数据结构是 Series 和 DataFrame。

Series 是一种类似于数组的数据结构,由一组值和一组与之相关的标签组成。标签可以是数字或字符串。Series 的标签被称为索引。

DataFrame 是一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型,而且可以拥有行索引和列索引。DataFrame 可以看作是由多个 Series 组成的字典。

Pandas 的核心是对数据的索引和操作。它支持多种常见的数据格式,包括 CSV、Excel、SQL 数据库等,同时还支持数据清洗、合并、切片、分组、聚合、重塑、透视等操作。

基本使用:

传入要操作的数据,创建Series对象,然后访问数据。Series常用方法及作用:

axes 以列表的形式返回所有行索引标签。
dtype 返回对象的数据类型。
empty 返回一个Bool判断 Series 对象是否为空。
ndim 返回输入数据的维数,Series为一维数据结构,返回1。
size 返回输入数据的元素数量(长度),这里为Series对象长度。
values 以 ndarray 的形式返回 Series 对象中的数据。
index 返回一个RangeIndex对象,用来描述索引的取值范围。

head()&tail()

如果想要查看 Series 的某一部分数据,可以使用 head() 或者 tail() 方法。其中 head() 返回前 n 行数据,默认显示前 5 行数据。tail() 返回的是后 n 行数据,默认为后 5 行

isnull()&nonull()

 isnull() 和 nonull() 用于检测 Series 中的缺失值。所谓缺失值,顾名思义就是值不存在、丢失、缺少。
  • isnull():如果为值不存在或者缺失,则返回 True。
  • notnull():如果值不存在或者缺失,则返回 False。
Series values方法:
import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(6))
print(s)
print("输出series中数据")
print(s.values)

#输出结果:
0   -0.502100
1    0.696194
2   -0.982063
3    0.416430
4   -1.384514
5    0.444303
dtype: float64
输出series中数据
[-0.50210028  0.69619407 -0.98206327  0.41642976 -1.38451433  0.44430257]

Series index方法:

#显示索引
import pandas as pd
s=pd.Series([1,2,5,8],index=['a','b','c','d'])  # 自己添加为显示索引
print(s.index)
#隐式索引
s1=pd.Series([1,2,5,8])
print(s1.index)

# 结果输入:
隐式索引:
Index(['a', 'b', 'c', 'd'], dtype='object')
显示索引:
RangeIndex(start=0, stop=4, step=1)

 

posted on 2023-06-20 16:20  hechengQAQ  阅读(84)  评论(0编辑  收藏  举报