python pandas模块,nba数据处理(1)
pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具。
DataFrame是pandas的一个对象,它是一个面向列的二维表结构,且含有行标和列标。
在指定的录目下打开ipython notebook
1,pandas 打开并读取csv文件
import pandas as pd df=pd.read_csv('d:/fff.csv')
2.pandas打开excel文件
import pandas as pd df=pd.read_excel('d:/aaa.xlsx')
3,pandas 保存数据到csv文件
df.to_csv('d:/aaa.csv', encoding='utf-8',index='False')
若没有该文件,则自动生成
在当前录目下保存nba数据为csv
头部信息的处理
import pandas as pd
dataset=pd.read_csv('nba.csv',parse_dates=["Date"],skiprows=[1,]) 寻找表头
dataset.columns=["","Date","Score Type","Visitor Team","VisitorPts","Home Team","HomePts","OT?","Notes"]替换表头
pandas读取处理:
-
skiprows:跳过⼀定的⾏数
-
nrows:仅读取⼀定的⾏数
-
skipfooter:尾部有固定的⾏数永不读取
-
skip_blank_lines:空⾏跳过