会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
编程小虾米
博客园
首页
新随笔
联系
管理
订阅
2019年6月29日
lightgbm 的简单实践案例
摘要: 训练集和验证集的auc分数对比 可视化出的所有特征的重要性,可以给前面数据预处理做一定参考
阅读全文
posted @ 2019-06-29 13:07 编程小虾米
阅读(6032)
评论(4)
推荐(0)
编辑
pandas常用操作,你想要都在这里。。。
摘要: 用了这么久的pandas,但每次使用的时候需要靠网络才能勉强度日(*╹▽╹*)。 集中整理一下,经常用到但又容易搞混的功能。。。 1,、iloc与loc的用法与区别 loc: 一般通过行标签或者列标签进行索引进行切片 iloc:一般通过行索引或者列索引进行切片 2、随机打乱DataFrame数据的排
阅读全文
posted @ 2019-06-29 00:38 编程小虾米
阅读(1039)
评论(0)
推荐(0)
编辑
2019年6月28日
numpy和pandas 各种比较常见的用法总结
摘要: 一、numpy 1、numpy中reshape的用法 经常会遇到np.reshape(a,-1) 或者np.reshape(-1,a) 这样的情况(a=1,2,3,4,5),-1是一个比较神奇的功能,意思是我只要确定需要分成a行后者a列,剩下的数据你随便分,反正结果都一样。 例: arr =np.a
阅读全文
posted @ 2019-06-28 00:19 编程小虾米
阅读(4371)
评论(0)
推荐(0)
编辑
【数据预处理】如何将某一类别特征的极少数类别归为一类
摘要: 比如:有个10000样本的数据集,其中某个特征是包含有很多地名的类别特征,有的地名出现了很多次,但也有很多地名只出现了一次,现在想把这些只出现了一次的地名归为一类,然后这个类别特征经过one_hot编码之后维度会大大减少,后续处理也相对容易! 废话不多说,直接上代码。。。
阅读全文
posted @ 2019-06-28 00:14 编程小虾米
阅读(575)
评论(0)
推荐(0)
编辑
2019年6月19日
十大经典算法之Apriori 算法
摘要: 关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出现在一块的物品的集合。 关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。 相关术语 关联分析(关联规则学习):
阅读全文
posted @ 2019-06-19 20:33 编程小虾米
阅读(4129)
评论(0)
推荐(0)
编辑
2019年6月12日
KNN算法原理以及代码实现
摘要: 一、KNN简述 KNN是比较经典的算法,也是是数据挖掘分类技术中最简单的方法之一。 KNN的核心思想很简单:离谁近就是谁。具体解释为如果一个实例在特征空间中的K个最相似(即特征空间中最近邻)的实例中的大多数属于某一个类别,则该实例也属于这个类别。 换个说法可能更好理解,比如一个一定范围的平面随机分布
阅读全文
posted @ 2019-06-12 16:01 编程小虾米
阅读(16530)
评论(2)
推荐(0)
编辑
2019年6月4日
常用函数框架
摘要: 1、混淆矩阵 2、决策树可视化 3、训练模型时,需要遍历数据集并不断读取小批量数据样本,这里定义一个函数,每次返回batch_size个随机样本的特征和标签
阅读全文
posted @ 2019-06-04 12:29 编程小虾米
阅读(562)
评论(0)
推荐(0)
编辑
公告