随笔 - 368, 文章 - 0, 评论 - 56, 阅读 - 94万
  博客园  :: 首页  :: 联系 :: 管理

随笔分类 -  AI

摘要:转载至(https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650717606&idx=4&sn=b94b58d4fe75c1a1e42274720a269a99&scene=21#wechat_redirect),理解三者之间关系的最简便方 阅读全文

posted @ 2017-11-10 08:25 天戈朱 阅读(695) 评论(0) 推荐(0) 编辑

摘要:数据科学是一个范围很广的学科。机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据(被用作训练集)来调整模型或算法的参数。这包含了许多的技术,比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数据科学技术就不适合——无监督聚类,该技术是在没有 阅读全文

posted @ 2017-11-10 08:25 天戈朱 阅读(734) 评论(0) 推荐(0) 编辑

摘要:判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即Fisher判别、Bayes判别和距离判别。 Fisher判别思想是投影降维,使多维问题简化为一维问题来处理。 阅读全文

posted @ 2017-10-28 08:51 天戈朱 阅读(1372) 评论(0) 推荐(0) 编辑

摘要:局部线性嵌入 (Locally linear embedding)是一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。 如下图,使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据 阅读全文

posted @ 2017-08-27 18:10 天戈朱 阅读(2839) 评论(0) 推荐(0) 编辑

摘要:PCA的降维原则是最小化投影损失,或者是最大化保留投影后数据的方差。LDA降维需要知道降维前数据分别属于哪一类,而且还要知道数据完整的高维信息。拉普拉斯特征映射 (Laplacian Eigenmaps,LE)看问题的角度和LLE十分相似。它们都用图的角度去构建数据之间的关系。图中的每个顶点代表一个 阅读全文

posted @ 2017-08-27 18:10 天戈朱 阅读(1660) 评论(0) 推荐(0) 编辑

摘要:PCA (Principal Component Analysis) 主成份分析 也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩,数据预处理等。PCA可以把可能具有相关性的高维 阅读全文

posted @ 2017-08-21 23:46 天戈朱 阅读(1287) 评论(0) 推荐(0) 编辑

摘要:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达, y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。使用降 阅读全文

posted @ 2017-08-21 23:45 天戈朱 阅读(1316) 评论(0) 推荐(0) 编辑

摘要:测试验证环境 数据: 7w+ 条,数据结构如下图: 机器配置: R version: R包性能对比 全局函数及参数设置 ## 全局设置 remove(list=ls()) space_path <- c("E:\\RScore\\kmeans\\") setwd(space_path) Sys.se 阅读全文

posted @ 2017-08-18 23:04 天戈朱 阅读(756) 评论(0) 推荐(0) 编辑

摘要:1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展,模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点,出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析,就是模糊聚类分析。FCM(Fuzzy C-Means)算法是一种以隶属度来 阅读全文

posted @ 2017-08-18 23:03 天戈朱 阅读(2526) 评论(0) 推荐(0) 编辑

摘要:模型聚类 mclust::Mclust RWeka::Cobweb mclust::Mclust EM算法也称为期望最大化算法,在是使用该算法聚类时,将数据集看作一个有隐形变量的概率模型,并实现模型最优化,即获取与数据本身性质最契合的聚类方式为目的,通过‘反复估计’模型参数找出最优解,同时给出相应的 阅读全文

posted @ 2017-08-17 23:38 天戈朱 阅读(3430) 评论(0) 推荐(1) 编辑

摘要:网格聚类算法 optpart::clique optpart::clique CLIQUE(Clustering In QUEst)是一种简单的基于网格的聚类方法,用于发现子空间中基于密度的簇。CLIQUE把每个维划分成不重叠的区间,从而把数据对象的整个嵌入空间划分成单元。它使用一个密度阈值识别稠密 阅读全文

posted @ 2017-08-17 23:37 天戈朱 阅读(1382) 评论(1) 推荐(1) 编辑

摘要:密度聚类 fpc::dbscan fpc::dbscan DBSCAN核心思想:如果一个点,在距它Eps的范围内有不少于MinPts个点,则该点就是核心点。核心和它Eps范围内的邻居形成一个簇。在一个簇内如果出现多个点都是核心点,则以这些核心点为中心的簇要合并。其中要注意参数eps的设置,如果eps 阅读全文

posted @ 2017-08-12 03:04 天戈朱 阅读(888) 评论(0) 推荐(0) 编辑

摘要:层次聚类 stats::hclust stats::dist R使用dist()函数来计算距离,Usage: dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) x: 是样本矩阵或者数据框 method: 表示计算哪种距 阅读全文

posted @ 2017-08-11 01:12 天戈朱 阅读(3398) 评论(0) 推荐(0) 编辑

摘要:K-medodis与K-means比较相似,但是K-medoids和K-means是有区别的,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值,在 K-medoids算法中,我们将从当前cluster 中选取这样一个点——它到其他所有(当前cl 阅读全文

posted @ 2017-08-09 23:24 天戈朱 阅读(2141) 评论(0) 推荐(0) 编辑

摘要:基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans()、fpc::kmeansruns() K-中心点聚类(K-Medoids) cluster::pam() 、fpc::pamk() 层次聚类 stats::hclust()、BIRCH、CURE 密度聚类 fp 阅读全文

posted @ 2017-08-08 06:03 天戈朱 阅读(1303) 评论(0) 推荐(0) 编辑

摘要:聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等。 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或 阅读全文

posted @ 2017-08-08 06:00 天戈朱 阅读(1712) 评论(0) 推荐(0) 编辑

摘要:ML3.1 介绍e1071包实施朴素贝叶斯分类的函数,本例使用klaR包中的NaiveBayes函数,因为该函数较之前者增加了两个功能,一个是可以输入先验概率,另一个是在正态分布基础上增加了核平滑密度函数。为了避免过度拟合,在训练时还要将数据分割进行多重检验,所以我们还使用了caret包的一些函数进 阅读全文

posted @ 2017-04-19 08:53 天戈朱 阅读(450) 评论(0) 推荐(0) 编辑

摘要:决策树模型中最为流行的是C4.5算法, 该类算法70年代末,J Ross Quinlan提出ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值 阅读全文

posted @ 2017-04-17 21:26 天戈朱 阅读(523) 评论(0) 推荐(0) 编辑

摘要:随机森林模型是一种数据挖掘模型,常用于进行分类预测。随机森林模型包含多个树形分类器,预测结果由多个分类器投票得出。 决策树相当于一个大师,通过自己在数据集中学到的知识对于新的数据进行分类。俗话说得好,一个诸葛亮,玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠,希望最终的分类效果能够超过单个大师的一 阅读全文

posted @ 2017-04-17 00:40 天戈朱 阅读(8739) 评论(0) 推荐(0) 编辑

摘要:K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K- 阅读全文

posted @ 2017-04-17 00:40 天戈朱 阅读(1063) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示