编程小虾米

2019年6月29日

摘要：训练集和验证集的auc分数对比可视化出的所有特征的重要性，可以给前面数据预处理做一定参考阅读全文

posted @ 2019-06-29 13:07 编程小虾米阅读(6336) 评论(4) 推荐(0)

摘要：用了这么久的pandas，但每次使用的时候需要靠网络才能勉强度日(*╹▽╹*)。集中整理一下，经常用到但又容易搞混的功能。。。 1,、iloc与loc的用法与区别 loc：一般通过行标签或者列标签进行索引进行切片 iloc：一般通过行索引或者列索引进行切片 2、随机打乱DataFrame数据的排阅读全文

posted @ 2019-06-29 00:38 编程小虾米阅读(1057) 评论(0) 推荐(0)

2019年6月28日

numpy和pandas 各种比较常见的用法总结

摘要：一、numpy 1、numpy中reshape的用法经常会遇到np.reshape(a,-1) 或者np.reshape(-1,a) 这样的情况（a=1,2,3,4,5），-1是一个比较神奇的功能，意思是我只要确定需要分成a行后者a列，剩下的数据你随便分，反正结果都一样。例： arr =np.a 阅读全文

posted @ 2019-06-28 00:19 编程小虾米阅读(4411) 评论(0) 推荐(0)

【数据预处理】如何将某一类别特征的极少数类别归为一类

摘要：比如：有个10000样本的数据集，其中某个特征是包含有很多地名的类别特征，有的地名出现了很多次，但也有很多地名只出现了一次，现在想把这些只出现了一次的地名归为一类，然后这个类别特征经过one_hot编码之后维度会大大减少，后续处理也相对容易！废话不多说，直接上代码。。。阅读全文

posted @ 2019-06-28 00:14 编程小虾米阅读(601) 评论(0) 推荐(0)

2019年6月19日

十大经典算法之Apriori 算法

摘要：关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式: 频繁项集（frequent item sets）: 经常出现在一块的物品的集合。关联规则（associational rules）: 暗示两种物品之间可能存在很强的关系。相关术语关联分析（关联规则学习): 阅读全文

posted @ 2019-06-19 20:33 编程小虾米阅读(4164) 评论(0) 推荐(0)

2019年6月12日

KNN算法原理以及代码实现

摘要：一、KNN简述 KNN是比较经典的算法，也是是数据挖掘分类技术中最简单的方法之一。 KNN的核心思想很简单：离谁近就是谁。具体解释为如果一个实例在特征空间中的K个最相似（即特征空间中最近邻）的实例中的大多数属于某一个类别，则该实例也属于这个类别。换个说法可能更好理解，比如一个一定范围的平面随机分布阅读全文

posted @ 2019-06-12 16:01 编程小虾米阅读(16696) 评论(2) 推荐(0)

2019年6月4日

常用函数框架

摘要： 1、混淆矩阵 2、决策树可视化 3、训练模型时，需要遍历数据集并不断读取小批量数据样本，这里定义一个函数，每次返回batch_size个随机样本的特征和标签阅读全文

posted @ 2019-06-04 12:29 编程小虾米阅读(604) 评论(0) 推荐(0)

公告