随笔分类 -  机器学习

自学机器学习相关知识
摘要:独热编码应用于有许多类的列时,会导致并行性和多重共线性问题。 解决方式有: ①限制n个最常见的类别(可覆盖约95%的数量) ②频率编码:用其计数或者频率代替某个类别(最常用)。缺点:若计数相同,则模型做相同处理导致信息丢失 ③目标编码:用该类别的平均目标值作为一维数值向量 ④嵌入:对于文本数据类型或 阅读全文
posted @ 2021-06-22 14:03 柒久酒 阅读(727) 评论(0) 推荐(0) 编辑
摘要:熵: “形容一个系统的混乱程度”。系统的不确定性越高,熵就越大。 假设集合中的变量X={X1,X2,...Xn} 其对应在集合中的概率为P={p1,p2,...pn} 则熵表示为: 举例: 举一个的例子:对游戏活跃用户进行分层,分为高活跃、中活跃、低活跃,游戏A按照这个方式划分,用户比例分别为20% 阅读全文
posted @ 2020-08-25 13:59 柒久酒 阅读(217) 评论(0) 推荐(0) 编辑
摘要:无监督分箱法: 等距划分、等频划分 等距分箱 从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界,每个等份里面的实例数量可能不等。 等频分箱 区间的边界值要 阅读全文
posted @ 2020-08-18 15:07 柒久酒 阅读(8518) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示