python工具——Pandas

Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能

安装

pip install Pandas

Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据)

Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成,即index和values两部分,可以通过索引的方式选取Series中的单个或一组值。
import numpy as np, pandas as pd
arr1 = np.arange(10)
s1 = pd.Series(arr1)
print(s1)

DataFrame是一个表格型的数据类型,每列值类型可以不同

import pandas as pd
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2014, 2015, 2016, 2017, 2018, 2019],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df= pd.DataFrame(data)
print(df)

Pandas基本操作

可视化——结合matplotlib API实现的

import pandas as pd
import matplotlib.pyplot as plt
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2014, 2015, 2016, 2017, 2018, 2019],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df= pd.DataFrame(data)
plt.figure();
df['pop'].diff().hist()
plt.show()

密度图

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ser = pd.Series(np.random.randn(1000))
ser.plot.kde()
plt.show()

创建散点图矩阵

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix
df = pd.DataFrame(np.random.randn(1000, 4), columns=['a', 'b', 'c', 'd'])
scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal='kde')
plt.show()

 

 

 

 

 

 

 

posted @ 2020-06-08 13:50  慕尘  阅读(428)  评论(0编辑  收藏  举报