读取文件
一、读取文本文件数据
大家都知道,Python中的pandas模块是专门用来做数据分析的强大工具,同样此模块也可以用来读取外部数据。
1、读取txt文件
#加载第三方库
importpandasaspd
#读取数据
info_data=pd.read_csv('E:/Pycharm_Project/info_data.txt',sep='\t',encoding='gbk')
print(info_data.head())
2、读取csv文件
csv文件是非常常用的一种数据存储格式,而且其存储量要比Excel表格大很多,下面我们就来看看如何利用Python读取csv格式的数据文件:
#读取数据
info_data=pd.read_csv('E:/Pycharm_Project/info_data.csv',sep=',',encoding='gbk')
print(info_data.head())
基于以上txt文件和csv文件都是通过pandas模块中的read_csv函数进行读取,该函数有20多个参数,其中sep:指定分隔符,encoding:指定文件编码等,其中最重要的一点,对于文本文件含有中文的,其文件编码通常为gbk,谨记!
二、读取Excel文件
在日常工作中,很多数据都是存放在Excel表格中的,如果我们需要利用Python对其进行分析或处理的话,第一步就是如何读取Excel数据。下面我们就来看看如何读取Excel数据:
#读取数据
info_data=pd.read_excel('E:/Pycharm_Project/info_data.xlsx',sep='\t',encoding='utf-8')
print(info_data.head())
三、读取数据库数据
企业中更多的数据还是存储在MySQL、Oracle等数据库中,为了能够使Python连接到数据库中,这里向大家介绍一个模块,那就是pymysql模块,这里需要特别注意的是这个模块是需要安装的,该安装教程在我的上一篇文章中有具体介绍,此处已安装好。具体操作看下面例子:
#加载第三方库
importpandasaspd
importpymysql
#通过connect函数连接本地数据库
conn=pymysql.connect(host='192.168.0.1',# IP地址
user='root',#默认用户名
passwd='***',# 数据库登录密码
db='mango',#数据库名称
port='3306',#默认端口号
charset='utf8'#数据库统一编码
)
#读取数据
sql='select*from table'
info_data=pd.read_sql(sql,conn)
print(info_data)
我们使用select语句可以获取数据,这个语句随着你的查询需求的不同是可以改变的;并将数据读取到pandas里面,方便后期的统计分析。
posted on 2019-11-16 23:45 上山打老虎下山采蘑菇 阅读(283) 评论(0) 编辑 收藏 举报