python工具——Pandas
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能
安装
pip install Pandas
Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据)
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成,即index和values两部分,可以通过索引的方式选取Series中的单个或一组值。
import numpy as np, pandas as pd arr1 = np.arange(10) s1 = pd.Series(arr1) print(s1)
DataFrame是一个表格型的数据类型,每列值类型可以不同
import pandas as pd data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2014, 2015, 2016, 2017, 2018, 2019], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} df= pd.DataFrame(data) print(df)
可视化——结合matplotlib API实现的
import pandas as pd import matplotlib.pyplot as plt data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2014, 2015, 2016, 2017, 2018, 2019], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} df= pd.DataFrame(data) plt.figure(); df['pop'].diff().hist() plt.show()
密度图
import pandas as pd import numpy as np import matplotlib.pyplot as plt ser = pd.Series(np.random.randn(1000)) ser.plot.kde() plt.show()
创建散点图矩阵
import pandas as pd import numpy as np import matplotlib.pyplot as plt from pandas.plotting import scatter_matrix df = pd.DataFrame(np.random.randn(1000, 4), columns=['a', 'b', 'c', 'd']) scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal='kde') plt.show()