pandas使用技巧【1】如何读入表单数据

简介: 本文主要介绍如何利用pandas读入表单数据。

读入数据

  • pandas.read_csv()
    从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为'',"
  • pandas.read_table()
    从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为"\t"
参数:
  1. 分隔符参数:sep=
    read_csv和read_table的区别在于separator分隔符。csv是逗号分隔值(Comma-Separated Values),仅能正确读入以 "," 分割的数据。
pd.read_table("ex1.csv",  sep=",")
  1. 是否读取文本数据的header:header=
    headers = None表示使用默认分配的列名,一般用在读取没有header的数据文件。
pd.read_table("ex1.csv",  header=None)
  1. 为文本的数据加上列名: names=
    names = user_cols ,自定义列名为user_cols。
pd.read_table("ex1.csv",  names = user_cols)
  1. 明确索引值: index_col=
    index_col = user_col,明确表示要将user_col放入索引位置。
pd.read_table("ex1.csv",  names = names,  index_col = user_col)

也可以将多个列都放入索引位置,做成层次化索引。

pd.read_table("ex1.csv",  names = names,  index_col = ["col1",  "col2"])
  1. 跳过指定行: skiprows=
    skiprows = row_list_to_skipped,可以用与跳过非有效数据如注释等情形下。
pd.read_table("ex1.csv",  skiprows = [row1,  row2,..., rown])
  1. 缺失值处理:na_values=
    na_values= ["null"],用null字符替换缺失值。
pd.read_table("ex1.csv",  na_values= ["null"])
  1. 尝试将数据解析为日期:parse_dates=
    parse_dates = True,尝试解析所有可能为日期类型的列。
pd.read_table("ex1.csv",  parse_dates = True)

parse_dates = [1, 2],尝试解析给定列为日期类型的列。

pd.read_table("ex1.csv",  parse_dates = [1, 2])
  1. 指定需要读取的行数:nrows=
    nrows = 100, 指定读取前100行数据。
pd.read_table("ex1.csv",  nrows = 100)

写出数据

  • pandas.read_csv()
    从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为'',"
  • pandas.read_table()
    从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为"\t"

参数和读入数据类似。


附上函数原型:

附上小哥哥的视频链接Data analysis in Python with pandas

所有文章列表

posted @ 2017-11-10 10:10  夜雨寒山  阅读(874)  评论(0编辑  收藏  举报