pandas 基本操作

1. 一维数据结构Series

a. 概念：Series 是pandas 的一维数据结构，有重要的两个属性 index 和values

b. 初始化: 可以通过 python 的 List 、dict 、np.array 初始化

如果使用np.array或者python 的list 创建 Series 会得到其index 是默认的 0，1，2 这样的数字

>>> s = pd.Series([1,2,3])

>>> s.index

RangeIndex(start=0, stop=3, step=1)

如果使用 python 的dict 来创建的 Series 其 index 对应的是 dict 的key

s2 = pd.Series({'1':1,'a':2,3:3})

>>> s2.index

Index([3, u'1', u'a'], dtype='object')

c. 元素访问类似 dict 访问

s[0] // 访问第一个元素

s[‘a’]// 访问列名为a的元素

s.a // 访问列名为a的元素

s[s>4]// 返回大于4的元素

d. 转换dict 、np.array

s.values 或者 s. as_matrix()

s.to_dict()

2. 二维数据dataframe

a．常用的读入方法

1) 内存读入：pd.read_clipboard()

2) 文件读入：pd.read_csv(path)

b. 列操作

(1)查看包含的所有的列的列名df.columns

(2)过滤掉多个列，返回一个新的dataframe

df_new = pd.DataFrame(df,columns=['id','section_id','start_road_id'])

(3)过滤一个列

df.id 或 df[‘id’]

(4)增加一个列并赋初值

df['new_ids']=1 或 df['new_ids']=np.arange(0,len(df)) (5) 增加一列，并赋初值，只给部分行填充数据

df['new_id2']=pd.Series([200,300],index=[2,3]) # 只给第2，3行填充了数据，其余的数据为NAN

posted @ 2017-11-18 17:31 oftenlin 阅读(496) 评论(0) 收藏举报

刷新页面返回顶部

oftenlin