数据的读取与存储

CSV文件的读取

pandas库提供了将表格型数据读取为DataFrame数据结构的函数

文本解析函数:

read_csv                      从文件中加载带分隔符的数据,默认分隔符为逗号

read_table                   从文件中加载带分隔符的数据,默认分隔符为制表符

写入csv文件

 

使用read_csv读取csv文件

 

使用read_table读取csv文件

 

指定列作为索引

一级列索引

默认情况下。读取的DataFrame的行索引是从0开始计数。但是可以自由指定列为行索引。例如:通过index_col参数指定id列为行索引。

 

多级列索引

数据源:

 

层次化处理:

 

标题行设置

如果默认情况下没有标题行,则会指定第一行为标题行,这是不符合实际情况的:

 

直接读取无标题数据

 

通过header参数分配默认的标题行

 

通过names参数指定列名

 

自定义读取

跳过指定的行 skiprows()

 

 

通过nrows参数,可以选择只读取部分参数

 

可通过usecols参数进行部分列的选取

 

使用info()函数查看详细信息

 

使用chunksize参数,可逐步读取文件,通过迭代可以给指定列进行计数

 

read_csv的参数列表

path           文件的路径

sep            字段隔开的字符序列,也可以使用正则表达式

header       指定列索引。默认为0(第1行)

index_col        用于行索引的列名或列编号

names       指定列索引的列名

skiprows      需要忽略的行数(从文件开始处算)

nrows        需要读取的行数(从文件开始处算)

chunksize            文件块的大小

usecols                指定读取的列

TXT文件的读取

通过read_table函数中的sep参数进行行分隔符的指定

 

 

使用正则表达式处理分隔符的问题

 

 

 

文本数据的存储

将数据以默认逗号分隔的CSV文件存储

通过sep参数指定存储的分隔符

 

 

存储数据的时候不保存index或者hader索引

 

JSON数据的读取和存储

Excel数据的读取和存储

读取

 

 

存储

 

 

数据库的存储和读取

连接数据库

 

读取数据库

 

存储数据库

通过to_sql函数实现DataFrame数据存储为MySQL数据,首先查看to_sql的参数:

df.to_sql(name,con,flavor=None,schema=None,if_exists="fail",index="True",

index_label=None,chunksize=None,dtype=None)

其中:

name参数为存储的表名

con参数为连接的数据库

if_exists参数用于判断是否有重复表名。

      其中fail表示如果有重复表名就不保存,

      replace表示替换重复表名,

   append表示在该表中继续插入数据。

 

import pandas as pd

from sqlalchemy import create_engine

engine=create_engine('mysql+pymysql://用户名:密码@IP地址:3306/mypython?charset=utf8', echo=False)

df.to_sql('out', engine, if_exists = 'append', index=False)

Web数据的读取

实际上是爬虫

 

posted @ 2019-10-28 15:59  tunan96  阅读(366)  评论(0编辑  收藏  举报