17-18.导入csv

*导入CSV文件.
pd.read_csv(filepath_or_buffer,sep=',header,encoding=None)

常用参数说明.
# filepath_or_buffer:字符串、文件路径,也可以是URL链接
# sep:字符串、分隔符.
# header:指定作为列名的行,默认值为0,即取第一行的值为列名。数据为除列名以外的数据,若数据不包含列表,则设置header=None

# encoding:字符串,默认值为None.文件的编码格式

#导入txt文件 
import pandas as pd 
pd.set_option('display.unicode.east_asian_width',True) # 规整格式
df=pd.read_csv('rating.txt', sep='\t', encoding= 'gbk',header=None)  #没有标题栏加header=None
print (df.head())    #head() 默认输出5条数据

#导入CSV文件   文件中分割符号为，
import pandas as pd 
df=pd. read_csv('评论数据. csv', sep=',', encoding=' gbk') 
print (df.head())

导入txt文件

pd.read_csv(filepath_or_buffer,sep='t',header,encoding=None) .
导入HTML网页

pd.read_html(io,match='.+',flavor,header,encoding)

参数说明

io:字符串、文件路径,了可以是URL链接,网址不接受https

match:正则表达式 .
flavor:解释器默认为'Ixml'

header:指定列标题所在的行

encoding:文件的编码格式

#导入HTM 
import pandas as pd 
url=' http://www. espn. com/nba/salaries' 

df=pd. DataFrame () # 创建一个空的DataFrame对象

# DataFrame添加数据 
df=df. append (pd.read_html(url)) 
print (df)

#保存成CSV文件 
df.to_csv(' nbasalary. csv', index=False)  #index=False 是指不输出隐式索引0，1，2.....

#网页含有table标签的才能读取

posted on 2022-11-18 22:59 蓝绝阅读(95) 评论(0) 收藏举报

刷新页面返回顶部

蓝绝

公告