*导入CSV文件.
pd.read_csv(filepath_or_buffer,sep=',header,encoding=None)
常用参数说明.
# filepath_or_buffer:字符串、文件路径,也可以是URL链接
# sep:字符串、分隔符.
# header:指定作为列名的行,默认值为0,即取第一行的值为列名。数据为除列名以外的数据,若数据不包含列表,则设置header=None
# encoding:字符串,默认值为None.文件的编码格式
#导入txt文件 import pandas as pd pd.set_option('display.unicode.east_asian_width',True) # 规整格式 df=pd.read_csv('rating.txt', sep='\t', encoding= 'gbk',header=None) #没有标题栏加header=None print (df.head()) #head() 默认输出5条数据
#导入CSV文件 文件中分割符号为, import pandas as pd df=pd. read_csv('评论数据. csv', sep=',', encoding=' gbk') print (df.head())
导入txt文件
pd.read_csv(filepath_or_buffer,sep='t',header,encoding=None) .
导入HTML网页
pd.read_html(io,match='.+',flavor,header,encoding)
参数说明
io:字符串、文件路径,了可以是URL链接,网址不接受https
match:正则表达式 .
flavor:解释器默认为'Ixml'
header:指定列标题所在的行
encoding:文件的编码格式
#导入HTM import pandas as pd url=' http://www. espn. com/nba/salaries' df=pd. DataFrame () # 创建一个空的DataFrame对象 # DataFrame添加数据 df=df. append (pd.read_html(url)) print (df)
#保存成CSV文件 df.to_csv(' nbasalary. csv', index=False) #index=False 是指不输出隐式索引0,1,2.....
#网页含有table标签的才能读取