AI - 随笔分类(第2页) - 天戈朱

人工智能、机器学习、深度学习，三者之间的同心圆关系

摘要：转载至（https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650717606&idx=4&sn=b94b58d4fe75c1a1e42274720a269a99&scene=21#wechat_redirect），理解三者之间关系的最简便方阅读全文

posted @ 2017-11-10 08:25 天戈朱阅读(695) 评论(0) 推荐(0) 编辑

数据科学VS机器学习

摘要：数据科学是一个范围很广的学科。机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据（被用作训练集）来调整模型或算法的参数。这包含了许多的技术，比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数据科学技术就不适合——无监督聚类，该技术是在没有阅读全文

posted @ 2017-11-10 08:25 天戈朱阅读(734) 评论(0) 推荐(0) 编辑

ML: 降维算法-LDA

摘要：判别分析（discriminant analysis）是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则，并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类，即Fisher判别、Bayes判别和距离判别。 Fisher判别思想是投影降维，使多维问题简化为一维问题来处理。阅读全文

posted @ 2017-10-28 08:51 天戈朱阅读(1372) 评论(0) 推荐(0) 编辑

ML: 降维算法-LLE

摘要：局部线性嵌入（Locally linear embedding）是一种非线性降维算法，它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。如下图，使用LLE将三维数据（b）映射到二维（c）之后，映射后的数据阅读全文

posted @ 2017-08-27 18:10 天戈朱阅读(2839) 评论(0) 推荐(0) 编辑

ML: 降维算法-LE

摘要：PCA的降维原则是最小化投影损失，或者是最大化保留投影后数据的方差。LDA降维需要知道降维前数据分别属于哪一类，而且还要知道数据完整的高维信息。拉普拉斯特征映射 (Laplacian Eigenmaps，LE)看问题的角度和LLE十分相似。它们都用图的角度去构建数据之间的关系。图中的每个顶点代表一个阅读全文

posted @ 2017-08-27 18:10 天戈朱阅读(1660) 评论(0) 推荐(0) 编辑

ML: 降维算法-PCA

摘要：PCA (Principal Component Analysis) 主成份分析也称为卡尔胡宁-勒夫变换（Karhunen-Loeve Transform），是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩，数据预处理等。PCA可以把可能具有相关性的高维阅读全文

posted @ 2017-08-21 23:46 天戈朱阅读(1287) 评论(0) 推荐(0) 编辑

ML: 降维算法-概述

摘要：机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达， y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。使用降阅读全文

posted @ 2017-08-21 23:45 天戈朱阅读(1316) 评论(0) 推荐(0) 编辑

ML: 聚类算法R包-对比

摘要：测试验证环境数据: 7w+ 条，数据结构如下图：机器配置： R version: R包性能对比全局函数及参数设置 ## 全局设置 remove(list=ls()) space_path <- c("E:\\RScore\\kmeans\\") setwd(space_path) Sys.se 阅读全文

posted @ 2017-08-18 23:04 天戈朱阅读(756) 评论(0) 推荐(0) 编辑

ML: 聚类算法R包-模糊聚类

摘要：1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展，模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点，出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析，就是模糊聚类分析。FCM（Fuzzy C-Means）算法是一种以隶属度来阅读全文

posted @ 2017-08-18 23:03 天戈朱阅读(2526) 评论(0) 推荐(0) 编辑

ML: 聚类算法R包 - 模型聚类

摘要：模型聚类 mclust::Mclust RWeka::Cobweb mclust::Mclust EM算法也称为期望最大化算法，在是使用该算法聚类时，将数据集看作一个有隐形变量的概率模型，并实现模型最优化，即获取与数据本身性质最契合的聚类方式为目的，通过‘反复估计’模型参数找出最优解，同时给出相应的阅读全文

posted @ 2017-08-17 23:38 天戈朱阅读(3430) 评论(0) 推荐(1) 编辑

ML: 聚类算法R包-网格聚类

摘要：网格聚类算法 optpart::clique optpart::clique CLIQUE（Clustering In QUEst)是一种简单的基于网格的聚类方法，用于发现子空间中基于密度的簇。CLIQUE把每个维划分成不重叠的区间，从而把数据对象的整个嵌入空间划分成单元。它使用一个密度阈值识别稠密阅读全文

posted @ 2017-08-17 23:37 天戈朱阅读(1382) 评论(1) 推荐(1) 编辑

ML: 聚类算法R包 - 密度聚类

摘要：密度聚类 fpc::dbscan fpc::dbscan DBSCAN核心思想：如果一个点，在距它Eps的范围内有不少于MinPts个点，则该点就是核心点。核心和它Eps范围内的邻居形成一个簇。在一个簇内如果出现多个点都是核心点，则以这些核心点为中心的簇要合并。其中要注意参数eps的设置，如果eps 阅读全文

posted @ 2017-08-12 03:04 天戈朱阅读(888) 评论(0) 推荐(0) 编辑

ML: 聚类算法R包-层次聚类

摘要：层次聚类 stats::hclust stats::dist R使用dist()函数来计算距离，Usage: dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) x: 是样本矩阵或者数据框 method: 表示计算哪种距阅读全文

posted @ 2017-08-11 01:12 天戈朱阅读(3398) 评论(0) 推荐(0) 编辑

ML: 聚类算法R包-K中心点聚类

摘要：K-medodis与K-means比较相似，但是K-medoids和K-means是有区别的，不一样的地方在于中心点的选取，在K-means中，我们将中心点取为当前cluster中所有数据点的平均值，在 K-medoids算法中，我们将从当前cluster 中选取这样一个点——它到其他所有（当前cl 阅读全文

posted @ 2017-08-09 23:24 天戈朱阅读(2141) 评论(0) 推荐(0) 编辑

ML: 聚类算法-K均值聚类

摘要：基于划分方法聚类算法R包： K-均值聚类（K-means） stats::kmeans()、fpc::kmeansruns() K-中心点聚类（K-Medoids） cluster::pam() 、fpc::pamk() 层次聚类 stats::hclust()、BIRCH、CURE 密度聚类 fp 阅读全文

posted @ 2017-08-08 06:03 天戈朱阅读(1303) 评论(0) 推荐(0) 编辑

ML: 聚类算法-概论

摘要：聚类分析是一种重要的人类行为，早在孩提时代，一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用，如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等。聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或阅读全文

posted @ 2017-08-08 06:00 天戈朱阅读(1712) 评论(0) 推荐(0) 编辑

ML(3.2): NavieBayes R_kalR

摘要：ML3.1 介绍e1071包实施朴素贝叶斯分类的函数，本例使用klaR包中的NaiveBayes函数，因为该函数较之前者增加了两个功能，一个是可以输入先验概率，另一个是在正态分布基础上增加了核平滑密度函数。为了避免过度拟合，在训练时还要将数据分割进行多重检验，所以我们还使用了caret包的一些函数进阅读全文

posted @ 2017-04-19 08:53 天戈朱阅读(450) 评论(0) 推荐(0) 编辑

ML(4.1): R C4.5

摘要：决策树模型中最为流行的是C4.5算法, 该类算法70年代末，J Ross Quinlan提出ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1993年，Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法，C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值阅读全文

posted @ 2017-04-17 21:26 天戈朱阅读(523) 评论(0) 推荐(0) 编辑

ML(4.3): R Random Forest

摘要：随机森林模型是一种数据挖掘模型，常用于进行分类预测。随机森林模型包含多个树形分类器，预测结果由多个分类器投票得出。决策树相当于一个大师，通过自己在数据集中学到的知识对于新的数据进行分类。俗话说得好，一个诸葛亮，玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠，希望最终的分类效果能够超过单个大师的一阅读全文

posted @ 2017-04-17 00:40 天戈朱阅读(8739) 评论(0) 推荐(0) 编辑

ML(5):KNN算法

摘要：K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K- 阅读全文

posted @ 2017-04-17 00:40 天戈朱阅读(1063) 评论(0) 推荐(0) 编辑

天戈朱

公告

最新随笔

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

随笔分类 - AI