随笔 - 368, 文章 - 0, 评论 - 56, 阅读 - 94万
  博客园  :: 首页  :: 联系 :: 管理

08 2017 档案

摘要:局部线性嵌入 (Locally linear embedding)是一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。 如下图,使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据 阅读全文

posted @ 2017-08-27 18:10 天戈朱 阅读(2839) 评论(0) 推荐(0) 编辑

摘要:PCA的降维原则是最小化投影损失,或者是最大化保留投影后数据的方差。LDA降维需要知道降维前数据分别属于哪一类,而且还要知道数据完整的高维信息。拉普拉斯特征映射 (Laplacian Eigenmaps,LE)看问题的角度和LLE十分相似。它们都用图的角度去构建数据之间的关系。图中的每个顶点代表一个 阅读全文

posted @ 2017-08-27 18:10 天戈朱 阅读(1656) 评论(0) 推荐(0) 编辑

摘要:PCA (Principal Component Analysis) 主成份分析 也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩,数据预处理等。PCA可以把可能具有相关性的高维 阅读全文

posted @ 2017-08-21 23:46 天戈朱 阅读(1283) 评论(0) 推荐(0) 编辑

摘要:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达, y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。使用降 阅读全文

posted @ 2017-08-21 23:45 天戈朱 阅读(1313) 评论(0) 推荐(0) 编辑

摘要:测试验证环境 数据: 7w+ 条,数据结构如下图: 机器配置: R version: R包性能对比 全局函数及参数设置 ## 全局设置 remove(list=ls()) space_path <- c("E:\\RScore\\kmeans\\") setwd(space_path) Sys.se 阅读全文

posted @ 2017-08-18 23:04 天戈朱 阅读(755) 评论(0) 推荐(0) 编辑

摘要:1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展,模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点,出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析,就是模糊聚类分析。FCM(Fuzzy C-Means)算法是一种以隶属度来 阅读全文

posted @ 2017-08-18 23:03 天戈朱 阅读(2522) 评论(0) 推荐(0) 编辑

摘要:模型聚类 mclust::Mclust RWeka::Cobweb mclust::Mclust EM算法也称为期望最大化算法,在是使用该算法聚类时,将数据集看作一个有隐形变量的概率模型,并实现模型最优化,即获取与数据本身性质最契合的聚类方式为目的,通过‘反复估计’模型参数找出最优解,同时给出相应的 阅读全文

posted @ 2017-08-17 23:38 天戈朱 阅读(3429) 评论(0) 推荐(1) 编辑

摘要:网格聚类算法 optpart::clique optpart::clique CLIQUE(Clustering In QUEst)是一种简单的基于网格的聚类方法,用于发现子空间中基于密度的簇。CLIQUE把每个维划分成不重叠的区间,从而把数据对象的整个嵌入空间划分成单元。它使用一个密度阈值识别稠密 阅读全文

posted @ 2017-08-17 23:37 天戈朱 阅读(1378) 评论(1) 推荐(1) 编辑

摘要:密度聚类 fpc::dbscan fpc::dbscan DBSCAN核心思想:如果一个点,在距它Eps的范围内有不少于MinPts个点,则该点就是核心点。核心和它Eps范围内的邻居形成一个簇。在一个簇内如果出现多个点都是核心点,则以这些核心点为中心的簇要合并。其中要注意参数eps的设置,如果eps 阅读全文

posted @ 2017-08-12 03:04 天戈朱 阅读(887) 评论(0) 推荐(0) 编辑

摘要:层次聚类 stats::hclust stats::dist R使用dist()函数来计算距离,Usage: dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) x: 是样本矩阵或者数据框 method: 表示计算哪种距 阅读全文

posted @ 2017-08-11 01:12 天戈朱 阅读(3392) 评论(0) 推荐(0) 编辑

摘要:K-medodis与K-means比较相似,但是K-medoids和K-means是有区别的,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值,在 K-medoids算法中,我们将从当前cluster 中选取这样一个点——它到其他所有(当前cl 阅读全文

posted @ 2017-08-09 23:24 天戈朱 阅读(2141) 评论(0) 推荐(0) 编辑

摘要:数据分析应用是真正能够直接解决企业问题的,是显露在外可以直接观察的部分,但是在这之下有很大部分支撑数据分析应用的就是数据管理技术。数据分析应用需要一整套的处理和加工过程,数据就是原材料,需要把数据有序地存储和管理起来。然后是数据的整理、清洗、集成,这个过程主要由数据工程师(DataEngineer) 阅读全文

posted @ 2017-08-09 23:24 天戈朱 阅读(482) 评论(0) 推荐(0) 编辑

摘要:##检查数据的维度 dim(iris) ##显示数据集的内部结构 str(iris) ##显示数据集的属性 attributes(iris) ##显示数据集中每个变量的分布情况 summary(iris) ##显示iris数据集列Species中各个值出现频次 table(iris$Species) 阅读全文

posted @ 2017-08-08 06:03 天戈朱 阅读(484) 评论(0) 推荐(0) 编辑

摘要:基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans()、fpc::kmeansruns() K-中心点聚类(K-Medoids) cluster::pam() 、fpc::pamk() 层次聚类 stats::hclust()、BIRCH、CURE 密度聚类 fp 阅读全文

posted @ 2017-08-08 06:03 天戈朱 阅读(1302) 评论(0) 推荐(0) 编辑

摘要:聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等。 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或 阅读全文

posted @ 2017-08-08 06:00 天戈朱 阅读(1711) 评论(0) 推荐(0) 编辑

摘要:发展形势 当前全球信息化发展面临的环境、条件和内涵正发生深刻变化。从国际看,世界经济在深度调整中曲折复苏、增长乏力,全球贸易持续低迷,劳动人口数量增长放缓,资源环境约束日益趋紧,局部地区地缘博弈更加激烈,全球性问题和挑战不断增加,人类社会对信息化发展的迫切需求达到前所未有的程度。同时,全球信息化进入 阅读全文

posted @ 2017-08-03 08:44 天戈朱 阅读(2282) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示