NLP学习笔记09---python的pandas库和matplotlib库使用

1.Pandas介绍

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一
2.Series类型

(1)series类型说明

series就是一种类似于一维数组的对象，他是由一组数据以及一组与其相关的数组标签组成(索引)。仅由一组数据即可产生最简单的series

(2)入门小案例

import pandas as pd
from pandas import Series,DataFrame
obj=Series([1,2,3,4,5])
print(obj)
print(obj.values)
print(obj.index)

效果图：

(3)自定义索引

import pandas as pd
from pandas import Series,DataFrame
obj=Series(['a','b','c','d','e'],index=[1,2,3,4,5])
print(obj)

效果图：

(4)把Series当做字典使用

import pandas as pd
from pandas import Series,DataFrame
data={'a':10000,'b':20000,'c':30000}
obj=Series(data)
print(obj)
keys=['a','c']
obj1=Series(data,index=keys)
print(obj1)

效果图：

3.DataFlame类型

DataFlame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同类型的值(布尔、字符串、数值都可以)

DataFlame本身有行索引也有列索引。

DataFlame可以理解为有Series组成的字典

import pandas as pd
from pandas import Series,DataFrame
data={
    '70年代':['丽丽','张华','小明'],
    '80年代':['爱国','卫国','美丽'],
    '90年代':['linda','mary','jack'],
}
frame_data=DataFrame(data)
print(frame_data)
print(frame_data['80年代'])

效果图：

扩展案例：

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
dates= pd.date_range('20190301',periods=6)
#print(dates)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df)

效果图：

注意：

np.random.randn(d0,d1,d2……dn)
1)当函数括号内没有参数时，则返回一个浮点数；
2）当函数括号内有一个参数时，则返回秩为1的数组，不能表示向量和矩阵；
3）当函数括号内有两个及以上参数时，则返回对应维度的数组，能表示向量或矩阵；
4）np.random.standard_normal（）函数与np.random.randn()类似，但是np.random.standard_normal（）的输入参数为元组（tuple）.
5)np.random.randn()的输入通常为整数，但是如果为浮点数，则会自动直接截断转换为整数。

np.random.randn()可以返回一个或一组服从标准正态分布的随机样本值。

4.pandas的层次化索引

层次化索引是pandas的一项比较重要的功能，它能够让你在一个轴上拥有多个索引级别。另一种说法是它能以低维度的形式处理高维度的数据。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
data=Series(np.random.randn(10),index=[['a','a','a','b','b','b','c','c','d','d'],[1,2,3,4,5,6,7,8,1,2]])
print(data)

效果图：

5.pandas文本格式数据处理

常用方法总结：

read_csv:从文件、url、文件型对象加载带分隔符的数据，默认分隔符为逗号。

read_table:从文件、url、文件型对象加载带分隔符的数据，默认分隔符为'\t'。

read_fwf:读取固定宽列的格式化数据

(1)read_csv方法使用

<1>读取带表头的csv数据

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
print(pd.read_csv('data1.csv'))

效果图：

<2>读取不带表头的csv数据

没有头部，csv里的数据都是目标数据，则pandas会自动生成一个头部

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
print(pd.read_csv('data1.csv',header=None))

效果图：

(2)read_table方法使用

需要指定分割符为，

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
print(pd.read_table('data1.csv',sep=','))

效果图：

(3)pandas读取excel文件并绘图

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
excel=pd.read_excel('test.xlsx')
pl=excel.plot(kind='scatter',x='age',y='price').get_figure()  #读取excel表age和price列绘制散点图
pl.savefig('1.png')

效果图：

6.matplotlib库

matplotlib绘图重要的技巧：查看https://matplotlib.org/ 官方文档

(1)绘图的入门案例

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
plt.plot(np.arange(10))
plt.show()  #显示所绘制的图片

效果图：

(2)绘制子图

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from numpy.random import randn
import matplotlib.pyplot as plt
fig=plt.figure()
ax1=fig.add_subplot(2,2,1)
ax2=fig.add_subplot(2,2,2)
ax3=fig.add_subplot(2,2,3)
ax4=fig.add_subplot(2,2,4)
plt.plot(randn(50).cumsum(),'k--')  # 灰色
ax1.hist(randn(100),bins=20,color='k',alpha=0.3)
ax2.scatter(np.arange(30),np.arange(30)+3*randn(30))
plt.show()

效果图：

(3)绘图小案例

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from numpy.random import randn
import matplotlib.pyplot as plt
x=[1,2,3,4,5]
y=[2,4,6,8,10]
plt.plot(x,y,linestyle='--',color='#CECECE')  # 指定x为横轴，y为纵轴，线的样式、颜色
plt.show()