Pandas_one-hot encoding与dummy encoding

Pandas_特征编码

one-hot encoding

基本思想是将离散型特征的每一种取值都看成一种状态,保证每一个取值只会使得一种状态处于激活状态。

编码函数pd.get_dummies()

dummy encoding

哑变量编码的基本思想是任意的将一个状态位去除,其他的状态位都不激活时,自然就表示被去除的状态位。

注意:

  • Series 里的整数会被one-hot编码,但是DataFrame里则不会。
  • pandas.DataFrame.values用于将pandas的DataFrame转换成numpy数组。
  • pandas.DataFrame.columns用于输出pandas的DataFrame的列标签(返回值类型为pandas.core.indexes.base.Index)
  • DataFrame转Tensor需要先转numpy,torch.tensor(df.values)。通过values属性得到NumPy格式的数据,并转成Tensor。
posted @ 2020-02-26 12:44  Cobby_baby  阅读(340)  评论(0编辑  收藏  举报