机器学习代码基础(4)-- Pandas速成
1.4 Pandas速成
Pandas是面向数据分析场景设计的Python开源软件工具包,从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。通过带有标签的列和索引,Pandas使我们可以以一种便于理解的方式来处理数据。它可以让我们毫不费力地从诸如csv类型的文件中导入数据。
Series:一维数组
DataFrame:二维数组
1.4.1Series
Series与numpy中的一维数组类似,但是再建立Series时可以设定index,也可以像访问numpy数组或字典一样访问Series对象。
import numpy as np import pandas as pd myarray = np.array([1,2,3]) index = ['a','b','c'] myseries = pd.Series(myarray,index=index) print(myseries) print(myseries[0]) print(myseries['c'])
1.4.2DataFrame
DataFrame是一个可以指定行和列标签的二维数组,可以通过指定列名来访问特定列的数据。
import numpy as np import pandas as pd myarray = np.array([[1,2,3],[2,3,4],[3,4,5]]) rowindex = ['row1','row2','row3'] colname = ['col','col2','col3'] mydataframe = pd.DataFrame(myarray,index=rowindex,columns=colname) print(mydataframe) print(mydataframe['col3'])
1.4.3读取csv文件
使用Pandas导入数据比Numpy要容易
import pandas as pd names = ['a','b','c','d','e'] df = pd.read_csv('iris.csv',names = names,header = None) df.head(5) df.tail(5) df.values