摘要: 训练集和验证集的auc分数对比 可视化出的所有特征的重要性,可以给前面数据预处理做一定参考 阅读全文
posted @ 2019-06-29 13:07 编程小虾米 阅读(6032) 评论(4) 推荐(0) 编辑
摘要: 用了这么久的pandas,但每次使用的时候需要靠网络才能勉强度日(*╹▽╹*)。 集中整理一下,经常用到但又容易搞混的功能。。。 1,、iloc与loc的用法与区别 loc: 一般通过行标签或者列标签进行索引进行切片 iloc:一般通过行索引或者列索引进行切片 2、随机打乱DataFrame数据的排 阅读全文
posted @ 2019-06-29 00:38 编程小虾米 阅读(1039) 评论(0) 推荐(0) 编辑
摘要: 一、numpy 1、numpy中reshape的用法 经常会遇到np.reshape(a,-1) 或者np.reshape(-1,a) 这样的情况(a=1,2,3,4,5),-1是一个比较神奇的功能,意思是我只要确定需要分成a行后者a列,剩下的数据你随便分,反正结果都一样。 例: arr =np.a 阅读全文
posted @ 2019-06-28 00:19 编程小虾米 阅读(4371) 评论(0) 推荐(0) 编辑
摘要: 比如:有个10000样本的数据集,其中某个特征是包含有很多地名的类别特征,有的地名出现了很多次,但也有很多地名只出现了一次,现在想把这些只出现了一次的地名归为一类,然后这个类别特征经过one_hot编码之后维度会大大减少,后续处理也相对容易! 废话不多说,直接上代码。。。 阅读全文
posted @ 2019-06-28 00:14 编程小虾米 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出现在一块的物品的集合。 关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。 相关术语 关联分析(关联规则学习): 阅读全文
posted @ 2019-06-19 20:33 编程小虾米 阅读(4129) 评论(0) 推荐(0) 编辑
摘要: 一、KNN简述 KNN是比较经典的算法,也是是数据挖掘分类技术中最简单的方法之一。 KNN的核心思想很简单:离谁近就是谁。具体解释为如果一个实例在特征空间中的K个最相似(即特征空间中最近邻)的实例中的大多数属于某一个类别,则该实例也属于这个类别。 换个说法可能更好理解,比如一个一定范围的平面随机分布 阅读全文
posted @ 2019-06-12 16:01 编程小虾米 阅读(16530) 评论(2) 推荐(0) 编辑
摘要: 1、混淆矩阵 2、决策树可视化 3、训练模型时,需要遍历数据集并不断读取小批量数据样本,这里定义一个函数,每次返回batch_size个随机样本的特征和标签 阅读全文
posted @ 2019-06-04 12:29 编程小虾米 阅读(562) 评论(0) 推荐(0) 编辑