会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
费弗里
数据科学玩家
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
21
22
23
24
25
26
下一页
2018年3月19日
(数据科学学习手札15)DBSCAN密度聚类法原理简介&Python与R的实现
摘要: DBSCAN算法是一种很典型的密度聚类法,它与K-means等只能对凸样本集进行聚类的算法不同,它也可以处理非凸集。 关于DBSCAN算法的原理,笔者觉得下面这篇写的甚是清楚练达,推荐大家阅读: https://www.cnblogs.com/pinard/p/6208966.html DBSCAN
阅读全文
posted @ 2018-03-19 16:31 费弗里
阅读(2367)
评论(0)
推荐(1)
2018年3月18日
(数据科学学习手札14)Mean-Shift聚类法简单介绍及Python实现
摘要: 不管之前介绍的K-means还是K-medoids聚类,都得事先确定聚类簇的个数,而且肘部法则也并不是万能的,总会遇到难以抉择的情况,而本篇将要介绍的Mean-Shift聚类法就可以自动确定k的个数,下面简要介绍一下其算法流程: 1.随机确定样本空间内一个半径确定的高维球及其球心; 2.求该高维球内
阅读全文
posted @ 2018-03-18 18:47 费弗里
阅读(8824)
评论(0)
推荐(1)
(数据科学学习手札13)K-medoids聚类算法原理简介&Python与R的实现
摘要: 前几篇我们较为详细地介绍了K-means聚类法的实现方法和具体实战,这种方法虽然快速高效,是大规模数据聚类分析中首选的方法,但是它也有一些短板,比如在数据集中有脏数据时,由于其对每一个类的准则函数为平方误差,当样本数据中出现了不合理的极端值,会导致最终聚类结果产生一定的误差,而本篇将要介绍的K-me
阅读全文
posted @ 2018-03-18 15:17 费弗里
阅读(24502)
评论(14)
推荐(6)
2018年3月17日
(数据科学学习手札12)K-means聚类实战(基于R)
摘要: 上一篇我们详细介绍了普通的K-means聚类法在Python和R中各自的实现方法,本篇便以实际工作中遇到的数据集为例进行实战说明。 数据说明: 本次实战样本数据集来自浪潮集团提供的美团的商家信息,因涉及知识产权问题恕难以提供数据地址; 我选择的三个维度的数值型数据分别为“商家评分”,“商家评论数”,
阅读全文
posted @ 2018-03-17 22:45 费弗里
阅读(1463)
评论(0)
推荐(0)
(数据科学学习手札11)K-means聚类法的原理简介&Python与R实现
摘要: kmeans法(K均值法)是麦奎因提出的,这种算法的基本思想是将每一个样本分配给最靠近中心(均值)的类中,具体的算法至少包括以下三个步骤: 1.将所有的样品分成k个初始类; 2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类重新计算中心坐标; 3.重复步骤2,直到所有的样品都
阅读全文
posted @ 2018-03-17 20:09 费弗里
阅读(2351)
评论(0)
推荐(1)
2018年3月16日
(数据科学学习手札10)系统聚类实战(基于R)
摘要: 上一篇我们较为系统地介绍了Python与R在系统聚类上的方法和不同,明白人都能看出来用R进行系统聚类比Python要方便不少,但是光介绍方法是没用的,要经过实战来强化学习的过程,本文就基于R对2016年我国各主要城市第一、二、三产业GDP的量为三个不同特征,对这些城市进行系统聚类+分析; 数据来源:
阅读全文
posted @ 2018-03-16 20:39 费弗里
阅读(632)
评论(0)
推荐(1)
(数据科学学习手札09)系统聚类算法Python与R的比较
摘要: 上一篇笔者以自己编写代码的方式实现了重心法下的系统聚类(又称层次聚类)算法,通过与Scipy和R中各自自带的系统聚类方法进行比较,显然这些权威的快捷方法更为高效,那么本篇就系统地介绍一下Python与R各自的系统聚类算法; Python cluster是Scipy中专门用来做聚类的包,其中包括clu
阅读全文
posted @ 2018-03-16 20:08 费弗里
阅读(1483)
评论(0)
推荐(2)
2018年3月15日
(数据科学学习手札08)系统聚类法的Python源码实现(与Python,R自带方法进行比较)
摘要: 聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括了哪些样本,而Python和R中都有直接用来聚类分析的函数,但是要想掌握一种方法就得深刻地理解它的思想,因此自己从最底层开始编写代码来实现这
阅读全文
posted @ 2018-03-15 23:24 费弗里
阅读(3801)
评论(0)
推荐(1)
2018年3月14日
实用的Python(1)os与shutil模块的常用方法总结
摘要: Python作为一种解释型的高级语言,脚本语言,又被称作“胶水语言”,就是因为其灵活的语法和其依靠浩如烟海的第三方包实现的丰富多彩的功能,而os和shutil就是这样一种功能强大的模块,可以非常快捷地帮助使用者解决日常计算机文件相关操作的一些问题,下面就对os和shutil包中一些常见的命令进行说明
阅读全文
posted @ 2018-03-14 23:02 费弗里
阅读(582)
评论(0)
推荐(1)
(数据科学学习手札07)R在数据框操作上方法的总结(初级篇)
摘要: 上篇我们了解了Python中pandas内封装的关于数据框的常用操作方法,而作为专为数据科学而生的一门语言,R在数据框的操作上则更为丰富精彩,本篇就R处理数据框的常用方法进行总结: 1.数据框的生成 利用data.frame()函数来创建数据框,其常用参数如下: ...:数据框的构成向量的变量名,顺
阅读全文
posted @ 2018-03-14 21:43 费弗里
阅读(1108)
评论(0)
推荐(0)
上一页
1
···
21
22
23
24
25
26
下一页
公告