sklearn.preprocessing OneHotEncoder——仅仅是数值型字段才可以,如果是字符类型字段则不能直接搞定
>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
>>> enc.n_values_
array([2, 3, 4])
>>> enc.feature_indices_
array([0, 2, 5, 9])
>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1., 0., 0., 1., 0., 0., 1., 0., 0.]])
注意:仅仅是数值型字段才可以,如果是字符类型字段则不能直接搞定
需要使用pandas get_dummies搞定
例如:
Using the get_dummies
will create a new column for every unique string in a certain column:使用get_dummies进行one-hot编码
- pd.get_dummies(df)
还可以:
import pandas as pd import numpy as np from sklearn_pandas import DataFrameMapper from sklearn.preprocessing import OneHotEncoder data = pd.DataFrame({'text':['aaa', 'bbb'], 'number_1':[1, 1], 'number_2':[2, 2]}) # number_1 number_2 text # 0 1 2 aaa # 1 1 2 bbb # SomeEncoder here must be any encoder which will help you to get # numerical representation from text column mapper = DataFrameMapper([ ('text', SomeEncoder), (['number_1', 'number_2'], OneHotEncoder()) ]) mapper.fit_transform(data)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
2016-11-08 spark 资源参数调优
2016-11-08 spark 任务运行原理