机器学习小石头

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2017年12月10日

摘要: 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。 许可的编辑操作包括:将一个字符替换成另一个字符,插入一个字符,删除一个字符。 俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。 安装使用:conda install p 阅读全文
posted @ 2017-12-10 11:02 机器学习小石头 阅读(16912) 评论(1) 推荐(0) 编辑

2017年8月18日

摘要: 前面,我们已经解释并实现了部分的sklean算法,下表展示了sklean所能使用的聚类算法 发现,还有几种未写出来,例如AP(亲和传播)聚类、FeatureAgglomeration聚类,以及我们的MInIBathK-means未单独写出来,代码和前面几篇类似。在这些算法中 我们实验统一使用iris 阅读全文
posted @ 2017-08-18 20:59 机器学习小石头 阅读(1195) 评论(0) 推荐(0) 编辑

摘要: 聚类根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量 , 然后选择合适 的特征向量聚类不同的数据点。 谱聚类可以在任意形状的样本空间聚类,且收敛于全局最优解,因此在处理高维数据方面存在着明显优势。总的来说,该算法存在一些不足之处。算法在聚类之前需要设置具体应 阅读全文
posted @ 2017-08-18 17:33 机器学习小石头 阅读(380) 评论(0) 推荐(0) 编辑

摘要: 层次聚类算法使用数据的联結规则,对数据集合进行层次似的聚类。层次聚类可以分为两大类,自顶向下的分裂聚类和自顶而上的合并聚类。分裂聚类是将所有的对象看成一个聚类,然后将其不断分解直至满足终止条件。后者与前者相反,它先将每个对象各自作为一个原子聚类,然后对这些原子聚类逐层进行聚类,直至满足终止条件。代表 阅读全文
posted @ 2017-08-18 16:44 机器学习小石头 阅读(5978) 评论(0) 推荐(0) 编辑

摘要: 将密度足够大的相邻区域连接,能有效处理异常数据,主要用于对空间数据的聚类。只要靠近区域的密度超过某个阀值,就继续聚类。将密度足够大的相邻区域连接起来。在一个给定范围的区域内必须至少包含某个数目的点。该类方法将每个簇看作是数据空间中被低密度区域分割开的高密度对象区域,也就是将簇看作是密度相连的点最大集 阅读全文
posted @ 2017-08-18 16:02 机器学习小石头 阅读(3303) 评论(0) 推荐(0) 编辑

摘要: 聚类划分方法 给定n个数据点的数据集合,构建数据集合的出K个划分,每个划分代表一个类别,2<k<sqrt(n)。算法思想,划分法需要预先指定聚类数目和聚类中心,计算每个点与其他点的距离,对于每个数据点都有n-1个距离值,对这些距离值进行排序,找出最接近的数据点,算出这些距离的和值。并进行下次迭代,这 阅读全文
posted @ 2017-08-18 15:21 机器学习小石头 阅读(4395) 评论(0) 推荐(0) 编辑

2017年8月13日

摘要: 安装theano ,首先安装anconda,上个帖子有介绍,这里不再重复 1.在anconda prompt中conda install mingw libpython 2.conda install theono 3.修改环境变量, D:\ProgramFiles\Anaconda3; D:\Pr 阅读全文
posted @ 2017-08-13 13:05 机器学习小石头 阅读(138) 评论(0) 推荐(0) 编辑

摘要: 第一次写博客,主要记录下安装深度学习框架(tensorflow),装好了很简单(一句话),开始我以为很麻烦,没有N卡,不知道如何入手。好了,言归正传。 我一般喜欢喜欢eclipse的pydev(个人感觉很好用),然后python主要是anconda(清华镜像),加载tensorflow 1.下载an 阅读全文
posted @ 2017-08-13 09:44 机器学习小石头 阅读(516) 评论(0) 推荐(0) 编辑