Fork me on GitHub

12 2019 档案

摘要:kaggle自行车租赁预测 1.数据 为自行车租赁系统提供的数据,提供数据为2年内华盛顿按小时记录的自行车租赁数据。数据来源: "Kaggle自行车租赁预测比赛数据 " 2.数据预处理 通过pandas导入数据 瞅一眼看看数据格式,这里打印前5行: 查看一下数据有没有缺省值 把月,日和小时单独拎出来 阅读全文
posted @ 2019-12-29 22:47 是阿凯啊 阅读(499) 评论(0) 推荐(0) 编辑
摘要:DBSCAN聚类算法 基于密度的空间聚类算法,该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。 DBSCAN算法需要规定两个参数 epsilon:在一个点周围邻近区域半径 minPts:邻近区域内至少包含点个数 根据以上两个参数结合e 阅读全文
posted @ 2019-12-29 14:58 是阿凯啊 阅读(1178) 评论(0) 推荐(0) 编辑
摘要:1 K Means 1.1算法原理 K是原始数据被聚集为K类,Means就是均值点,K Means均点。K Means的核心就是将一堆数据聚集为K个簇,每个簇中都有一个中心点称为均值点。簇中所有点到该簇的均值点的距离都较其他均值点更近。如下图: 1.2文字叙述 确定K值(就是把数据聚为几个类,K值是 阅读全文
posted @ 2019-12-29 14:52 是阿凯啊 阅读(1408) 评论(0) 推荐(0) 编辑
摘要:SimHash原理 1.SimHash背景 SimHash算法来自于 GoogleMoses Charikar发表的一篇论文“detecting near duplicates for web crawling” ,其主要思想是降维, 将高维的特征向量映射成低维的特征向量,通过两个向量的Hammin 阅读全文
posted @ 2019-12-14 13:41 是阿凯啊 阅读(3296) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示