Pandas_one-hot encoding与dummy encoding
Pandas_特征编码
one-hot encoding
基本思想是将离散型特征的每一种取值都看成一种状态,保证每一个取值只会使得一种状态处于激活状态。
编码函数pd.get_dummies()
dummy encoding
哑变量编码的基本思想是任意的将一个状态位去除,其他的状态位都不激活时,自然就表示被去除的状态位。
注意:
- Series 里的整数会被one-hot编码,但是DataFrame里则不会。
- pandas.DataFrame.values用于将pandas的DataFrame转换成numpy数组。
- pandas.DataFrame.columns用于输出pandas的DataFrame的列标签(返回值类型为pandas.core.indexes.base.Index)
- DataFrame转Tensor需要先转numpy,torch.tensor(df.values)。通过values属性得到NumPy格式的数据,并转成Tensor。
为天地立心,为生民立命,为往圣继绝学,为万世开太平