蓝绝

博客园 首页 新随笔 联系 订阅 管理

*导入CSV文件.
pd.read_csv(filepath_or_buffer,sep=',header,encoding=None)

常用参数说明.
#  filepath_or_buffer:字符串、文件路径,也可以是URL链接
#  sep:字符串、分隔符.
#  header:指定作为列名的行,默认值为0,即取第一行的值为列名。数据为除列名以外的数据,若数据不包含列表,则设置header=None

#  encoding:字符串,默认值为None.文件的编码格式

#导入txt文件 
import pandas as pd 
pd.set_option('display.unicode.east_asian_width',True) # 规整格式
df=pd.read_csv('rating.txt', sep='\t', encoding= 'gbk',header=None)  #没有标题栏加header=None
print (df.head())    #head() 默认输出5条数据
#导入CSV文件   文件中分割符号为,
import pandas as pd 
df=pd. read_csv('评论数据. csv', sep=',', encoding=' gbk') 
print (df.head())

导入txt文件

          pd.read_csv(filepath_or_buffer,sep='t',header,encoding=None) .
导入HTML网页

       pd.read_html(io,match='.+',flavor,header,encoding)

      参数说明

         io:字符串、文件路径,了可以是URL链接,网址不接受https

         match:正则表达式 .
         flavor:解释器默认为'Ixml'

          header:指定列标题所在的行

          encoding:文件的编码格式

#导入HTM 
import pandas as pd 
url=' http://www. espn. com/nba/salaries' 

df=pd. DataFrame () # 创建一个空的DataFrame对象

# DataFrame添加数据 
df=df. append (pd.read_html(url)) 
print (df)
#保存成CSV文件 
df.to_csv(' nbasalary. csv', index=False)  #index=False 是指不输出隐式索引0,1,2.....

#网页含有table标签的才能读取

posted on 2022-11-18 22:59  蓝绝  阅读(54)  评论(0编辑  收藏  举报