Pandas
%matplotlib inline
import pandas as pd
s = pd.Series({'a': 10, 'b': 20, 'c': 30})
df = pd.DataFrame({'one': pd.Series([1, 2, 3]),
'two': pd.Series([4, 5, 6])})
列表构成字典:
df = pd.DataFrame({'one': [1, 2, 3],
'two': [4, 5, 6]})
带字典的列表:
df = pd.DataFrame([{'one': 1, 'two': 4},
{'one': 2, 'two': 5},
{'one': 3, 'two': 6}])
df = pd.read_csv("xx.csv")
df.head() # 默认显示前 5 条
df.tail(7) # 指定显示后 7 条
df.describe() # 统计
df.values # 将 DataFrame 转换为 NumPy 数组
df.index # 查看索引
df.columns # 查看列名
df.shape # 查看形状
df.iloc[:3] # 基于索引数字选择
df.iloc[[1, 3, 5]]
df.iloc[:, 1:4] # 选择列
df.loc[:, 'Total Population':'Total Males']
df.loc[[0, 2], 'Median Age':]
df.drop(labels=['Median Age', 'Total Males'], axis=1) # 去掉数据集中指定的列或行
df.drop_duplicates() # 剔除数据集中的重复值
df.insert(value=pd.Timestamp('2017-10-1'), loc=0, column='Time') # 插入
df.nan
df.isna() # 确定数据集中的缺失值
df.notna()
df.dropna() # 删除缺少值,即数据集中空缺的数据列或行
df.fillna(0) # 填充缺失值
df.fillna(method='pad')
df_interpolate = df.interpolate() # 插值填充
df_interpolate.plot() # 绘制线形图