df = pd.DataFrame({'key':['b','b','a','c','a','b'],
                    'data1':range(6)
                  })
df

	key	data1
0	  b	  0
1	  b	  1
2	  a	  2
3	  c	  3
4	  a	  4
5	  b	  5

# 给列加上前缀，get_dummies的prefix参数可以实现该功能
dummies = pd.get_dummies(df['key'],prefix='qianzui')
dummies

 qianzui_a	qianzui_b	qianzui_c
0	0	       1	     0
1	0	       1	     0
2	1	       0	     0
3	0	       0	     1
4	1	       0	     0
5	0	       1	     0

# Series对象是没有join方法的，必须是dataframe
df[['data1']].join(dummies)

   data1	qianzui_a	qianzui_b	qianzui_c
0	0	      0	           1	       0
1	1	      0	           1	       0
2	2	      1	           0	       0
3	3	      0	           0	       1
4	4	      1	           0	       0
5	5	      0	           1	       0

posted on 2018-12-04 15:55 进击中的青年阅读(233) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

随机重排序

计算指标/哑变量

将分类变量转换为哑变量矩阵或指标矩阵，如果DataFrame的某一列中含有K个不同的值，

则可以派生出一个K列矩阵或DataFrame(其值全为1和0)