蓝绝

博客园 首页 新随笔 联系 订阅 管理
  232 随笔 :: 1 文章 :: 0 评论 :: 25908 阅读

*导入CSV文件.
pd.read_csv(filepath_or_buffer,sep=',header,encoding=None)

常用参数说明.
#  filepath_or_buffer:字符串、文件路径,也可以是URL链接
#  sep:字符串、分隔符.
#  header:指定作为列名的行,默认值为0,即取第一行的值为列名。数据为除列名以外的数据,若数据不包含列表,则设置header=None

#  encoding:字符串,默认值为None.文件的编码格式

1
2
3
4
5
#导入txt文件
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True) # 规整格式
df=pd.read_csv('rating.txt', sep='\t', encoding= 'gbk',header=None#没有标题栏加header=None
print (df.head())    #head() 默认输出5条数据
1
2
3
4
#导入CSV文件   文件中分割符号为,
import pandas as pd
df=pd. read_csv('评论数据. csv', sep=',', encoding=' gbk')
print (df.head())

导入txt文件

          pd.read_csv(filepath_or_buffer,sep='t',header,encoding=None) .
导入HTML网页

       pd.read_html(io,match='.+',flavor,header,encoding)

      参数说明

         io:字符串、文件路径,了可以是URL链接,网址不接受https

         match:正则表达式 .
         flavor:解释器默认为'Ixml'

          header:指定列标题所在的行

          encoding:文件的编码格式

1
2
3
4
5
6
7
8
9
#导入HTM
import pandas as pd
url=' http://www. espn. com/nba/salaries'
 
df=pd. DataFrame () # 创建一个空的DataFrame对象
 
# DataFrame添加数据
df=df. append (pd.read_html(url))
print (df)
1
2
#保存成CSV文件
df.to_csv(' nbasalary. csv', index=False#index=False 是指不输出隐式索引0,1,2.....

#网页含有table标签的才能读取

posted on   蓝绝  阅读(63)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· Vue3状态管理终极指南:Pinia保姆级教程
点击右上角即可分享
微信分享提示