会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
柒久酒
博客园
首页
新随笔
联系
订阅
管理
随笔 - 67
文章 - 0
评论 - 0
阅读 -
61296
06 2021 档案
onehot后导致维数激增的解决方法
摘要:独热编码应用于有许多类的列时,会导致并行性和多重共线性问题。 解决方式有: ①限制n个最常见的类别(可覆盖约95%的数量) ②频率编码:用其计数或者频率代替某个类别(最常用)。缺点:若计数相同,则模型做相同处理导致信息丢失 ③目标编码:用该类别的平均目标值作为一维数值向量 ④嵌入:对于文本数据类型或
阅读全文
posted @
2021-06-22 14:03
柒久酒
阅读(727)
评论(0)
推荐(0)
编辑
公告
/*****小猫咪看板娘*****/
昵称:
柒久酒
园龄:
5年6个月
粉丝:
0
关注:
3
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔分类
linux基础与拓展(1)
Oracle sql(20)
python基础自学(41)
机器学习(3)
自然语言处理(2)
随笔档案
2024年7月(1)
2023年12月(1)
2021年7月(1)
2021年6月(1)
2021年4月(8)
2020年11月(1)
2020年10月(2)
2020年9月(2)
2020年8月(27)
2020年7月(23)
阅读排行榜
1. 等距、等频、最优分箱分段(8518)
2. python isna()和 isnull()(6638)
3. python drop()(4312)
4. python value_counts()(3363)
5. SQL ORACLE case when函数用法(2777)
推荐排行榜
1. python drop()(1)
2. python ~ isin() loc (1)
点击右上角即可分享